
Meta“AI 超車” 大動作,計算機視覺或迎 “GPT 時刻”

計算機視覺為人工智能領域中佔比最大的分支領域,也是人工智能商業化落地進程最快的賽道。英偉達 AI 科學家表示:我們已經來到了計算機視覺領域的 “GPT-3 時刻”。
近段時間,搜索、辦公、金融、遊戲、電商……AI+ 似乎正在席捲千行百業。
而值得一提的是,除以上這些行業外,又有一行業出現新進展,這一次是 CV(計算機視覺)領域正迎來 “GPT 時刻”。
“CV” 是指計算機視覺(Computer Vision),它是一門研究如何使機器 “看” 的科學,目的是讓計算機從數字圖像或視頻中獲得高層次的理解,實現對目標的識別、跟蹤、測量、分割、生成等功能。
打個比方的話,如果説人理解這個世界是通過雙眼與大腦的組合運作,那麼 CV 可以當作就是給人類大腦的計算機裝上了兩隻眼睛。
4 月 6 日,Meta 宣佈推出 Segment Anything 工具,可準確識別圖像中的對象,該模型名為 Segment Anything Model(SAM),SAM 能從照片或視頻中對任意對象實現一鍵分割,通過提示詞一鍵摳圖。
Meta 在博客中興奮地表示:可以預計,在未來,在任何需要在圖像中查找和分割對象的應用中,都有 SAM 的用武之地。SAM 可以成為更大的 AI 系統的一部分,對世界進行更通用的多模態理解,
比如,理解網頁的視覺和文本內容。
比如在 AR/VR 領域,SAM 可以根據用户的視線選擇對象,然後把對象「提升」為 3D。
對於內容創作者,SAM 可以提取圖像區域進行拼貼,或者視頻編輯。SAM 還可以在視頻中定位、跟蹤動物或物體,有助於自然科學和天文學研究。
騰訊 AI 算法專家表示,NLP(自然語言處理)領域的 prompt 範式,已經開始延展到(計算機視覺)CV 領域了;而這一次,可能徹底改變 CV 傳統的預測思路。英偉達 AI 科學家也表示:我們已經來到了計算機視覺領域的 “GPT-3 時刻”。
AI商業化落地進程最快的賽道
據《人工智能行業研究框架》報告,從技術的應用分類來看,計算機視覺可以分為人臉識別、OCR、物體和場景識別、動態視頻識別和姿態識別。
報告指出,人類從外界接受到的各種信息中有超過 80% 是通過視覺獲得的,計算機視覺為人工智能領域中佔比最大的分支領域,也是人工智能商業化落地進程最快的賽道,2020 年我國計算機視覺產品的市場規模佔整個人工智能行業的 57%。2021 年,中國計算機視覺核心產品的市場規模已接近千億元大關。此外,與計算機視覺相關的計算機通信設備銷售、工程建設、傳統業務效益轉化等帶動相關產業規模超過 3000 億元。
國海證券也指出,計算機視覺是計算機模擬甚至超越人類視覺,是人工智能技術層中應用最為廣泛、市場佔比最高的核心技術。
應用方面,計算機視覺技術在泛安防、金融、互聯網、醫療、工業、政務等領域得到廣泛應用。
具體來看,出於政策和財政支持等原因,計算機視覺產品技術在泛安防(包括公安、交通、社區、文教衞等多個領域)仍是計算機視覺乃至整個國內人工智能產業實際落地的重要基石,2021 年國內泛安防領域計算機視覺核心產品佔計算機視覺總核心產品規模的 70.7%。
此外,醫療領域現階段市場規模仍較小,部分場景已經成熟,隨着以計算機視覺為核心的 AI 醫學影像輔助診斷產品及新型智能醫療器械在各級醫院及醫療機構的鋪開,潛力較大。
總體來看,國海證券認為計算機視覺商業化尚處黎明之前。
相關產業鏈
資料顯示,計算機視覺行業的產業鏈上游為視覺傳感器、芯片、算法框架、IaaS 平台,中游為計算機視覺解決方案廠商,向產業鏈上下游延展,持續拓寬下游應用領域邊界下游包括製造業、金融服務、公共服務業等在內的各個行業。
從產業鏈格局來看,中信證券稱計算機視覺領域已形成三大陣營:1)以商湯、曠視、依圖、雲從四小龍為首的初創企業,憑藉先進的算法逐步向各領域拓展;2)以海康、大華、宇視為代表的傳統安防巨頭,保持原有優勢的同時積極引入或自研相關算法,提高競爭力;3)以 BAT、華為等互聯網、ICT 領域的巨頭,通過技術輸出和資本擴大布局。
國海證券也表示,學術領域,計算機視覺已從過去的理論研究逐步轉向應用,仍為以谷歌、微軟、Meta 等為首的海外主導,國內商湯、百度集團、騰訊控股、阿里巴巴也頗有建樹。
商業領域,目前計算機視覺已實現技術單點突破,跨越工業紅線,從 0 到 1 逐步開啓商業化;但目前仍為全面商業化黎明前,主要受限於算力、數據、時間等生產要素,而生產要素之間的加速作用將形成飛輪效應,快速實現從 1 到 N。
