CV迎GPT-3時刻！萬物皆可一鍵摳圖，Meta新模型要掀起CV革命？

智東西 2023-04-07

最後更新: 2024-04-25 10:32

來源：智東西

智東西4月6日消息，根據Meta官方博客，Meta在本周三推出了一個AI模型Segment Anything Model（SAM，分割一切模型），能夠根據文本指令等方式實現圖像分割，而且萬物皆可識別和一鍵摳圖。

Meta在博客中稱，SAM的靈活性在圖像分割領域內屬首創，SAM以交互式方式標注一個掩碼（mask）僅需約14秒。英偉達AI研究科學家Jim Fan稱，該模型的發布是計算機視覺領域的“GPT-3時刻”，因為該模型能對從未訓練過的圖片進行精準分割。在推出SAM的同時，Meta還發布了一個圖像注釋數據集Segment Anything 1-Billion mask（SA-1B），該數據集包含超11億個掩碼，據稱是同類數據集中最大的。

目前，Meta內部已經在使用SAM技術來進行標記照片、審核內容以及向Facebook和Instagram用戶推薦內容等，同時更多在VR/AR、智慧農業等領域的顛覆性應用暢想也在官網展示了出來。

Meta研發團隊在官網上發布了關於Segment Anything的論文細節。

論文鏈接：https://ai.facebook.com/research/publications/segment-anything/

一、鼠標停留、手動框選、自動分割，三種方式實現圖像切割

SAM可以識別圖像和視頻中的任何物體，即使是在此前的訓練過程中從未遇到過的。Meta官網中提供了SAM的免費演示，並為用戶提供了三種分割圖像部分的方法：

一是“懸停和點擊（Hover&Click）”，當用戶把鼠標放在想要分割出的部分上並點擊時，SAM會自動提取出該部分。

二是“方框（Boxing）”，用戶將自己想要的部分框定出來，SAM會識別其中的物體並將其與背景進行分割。

三是“全選（Everything）”，在這種模式下SAM會自動識別圖像內的所有物體。

雖然還沒有發布產品，但Meta已展示了SAM的部分功能，目前官網介紹的功能包括：用交互點式和手動框定來選擇物體；

SAM自動分割圖像中的所有內容；

自動給不明確的提示生成多個valid mask（有效掩碼），讓用戶能精準選中圖像；

此外，SAM還可與其它系統靈活集成，從其它系統中獲取輸入提示，比如，從AR/VR頭顯中獲取用戶的視線範圍來選擇對象，甚至還能將看到的物體轉換成為3D對象。

SAM還能啟用文本框輸入來檢測界定對象，當用戶在文本框中輸入“cat（貓）”這個單詞時，SAM會框定住圖像中所有的貓，並在框中精確選取貓的整個圖像輪廓。

SAM的有效輸出掩碼（valid mask）還可以用作其他AI系統的輸入，如當用戶選中一張椅子的圖片後，SAM可以精確選中，並在視頻中跟蹤物體遮罩，自動啟用圖像編輯應用程序，把靜態物體轉化為3D或是碎片拼貼等狀態。

二、領域內首創：由1000萬張圖片訓練，可提取11億+掩碼

在自然語言處理和計算機視覺領域，基礎模型是其發展的重要基礎，基礎模型可以使用“prompting（促進）”技術對新數據集和任務執行零樣本和少樣本學習。Meta從中汲取了靈感，並對SAM模型進行訓練。

在Meta發布一篇論文中，研發團隊人員詳細介紹了SAM的相關細節。

常見的圖像分割方式包括兩種，一是交互式分割，二是自動分割。前者需要工程師通過迭代完善一個遮罩來指導模型，後者是模型在經過數百或數千個注釋對象的訓練後自行完成，但同樣需要訓練者手動標注分割對象。

這兩種方法都無法實現全自動的圖像分割，而SAM將二者的功能進行融合。在模型的提示界面上，用戶只需要為模型提供正確的提示，比如點擊、框選或是文本指令，模型就可以完成全自動的圖像分割任務。這就意味著，用戶不再需要收集自己的細分數據來微調模型。

在引擎蓋下，輕量級編碼器將任何提示實時轉換為嵌入向量（embedding vector），然後將信息源組合在一個預測分割掩碼的輕量級解碼器中。在計算圖像嵌入後，SAM 50毫秒內就能根據網絡瀏覽器中的任何提示生成一個切割好的圖像。

論文中稱，SAM能根據輸入提示為圖像中所有對象生成高質量的對象掩碼（mask），用於訓練SAM的SA-1B圖像數據集目前包含超過11億個掩碼，這些掩碼是從1100萬張已經獲得許可、並且保護隱私的高分辨率圖像中收集的，這些圖像的分辨率達到了1500×2250 pixels，平均每張圖像約有100個掩碼。

Meta在論文中指出，有了SAM模型，收集新分割掩碼的速度遠超以往，交互式標注一個掩碼現在只需要約14秒。其數據集數量也是現在任何一個數據集的400倍。這種高自動化、高靈活性的圖像分割技術為領域內首創。

三、CV領域的“GPT-3時刻”，或變革VR/AR

Meta官方稱，通過在業內共享這項研究和數據集，公司希望進一步加速對分割圖像視頻的研究。這款可提示分割模型可以作為更大系統中的組件來執行分割任務。Meta預計，SAM或將成為AR/VR、內容創作等領域的強大組件之一，有望創造出更為通用的AI系統。

英偉達AI研究科學家Jim Fan稱“今天是計算機視覺領域的‘GPT-3 時刻’之一”，SAM已經了解了“對象”的概念，甚至對於不熟悉乃至未知的場景和那些模棱兩可的情況，它都能進行切割。Jim稱難以想象它的模型和數據居然都是開源的。

他指出了SAM的秘訣：

1、一個非常簡單但可擴展的架構，采用文本、關鍵點、邊框等多種提示模式；

2、與模型設計密切相關的人工操作渠道；

3、一個數據飛輪，允許模型自主學習那些未標記的圖像。

紮克伯格稱，將這種生成式AI作為“創意輔助工具”納入到Meta的應用程序中是今年工作目標的重中之重。

目前，SAM模型和數據集僅在非商用許可下提供下載，用戶在將自己的圖片上傳到原型上時，必須承諾不將其用作研究。

未來，SAM可用於通過AR眼鏡識別日常物品，向用戶發出提醒和指示。

SAM也將對其他領域產生影響，比如指導農民進行糧食生產或協助生物學家進行研究等。

結語：圖像分割再進化，Meta掀起CV革命？

圖像分割技術並非是新鮮事，但SAM能識別出訓練數據集中不存在的物體，或許將會引發新一輪AI視覺應用潮。未來，Meta通過分享他們的研究和數據集，將會使這類組合系統設計在多個領域得到廣泛應用。SAM將會是內容創作、圖像生成等更為普遍的AI領域的一個強大組件，讓圖像識別和視覺內容的語義理解之間更好耦合，釋放出更強大的AI潛力。

來源：Meta官方、路透社

編輯/hoten

財經新聞常見問題 FAQ

甚麼因素會影響錢財的價值？

由於產品和服務的價格不斷上升，故幣值會隨時間而降低，這便是通貨膨脹。幣值會受以下因素侵蝕通脹：簡單來說，產品和服務的價格上升，就會造成通脹。當物價上升，受薪人士便會要求加薪，隨著通脹加劇，貨幣的購買力便不斷減弱。利率波動：當利率下降，存款的利息回報便會減少。如果存款利率低於通脹，儲蓄便會失去原有的價值。但某類投資如股票和債券等卻可能因息口下降而升值。

為何銀色債券以債務工具於中央結算系統(CMU) 作清算及儲存 ?

根據銀色債券發行通函，若客戶經配售銀行申請銀色債劵，所分配的銀色債券會以債務工具於中央結算系統(CMU)作清算。

甚麼是債券？

債券是由政府、公司或其他機構發行的一種借貸票據。當您購入債券，即等同向發行者提供貸款，發行者則承諾於債券到期日以指定價格贖回債券，而在到期日前則須支付指定的利息。債券的種類繁多，不同的發行者以不同的條款發行債券。例如：定息債券、浮息債券、零息債券及存款證等。一般來說，債券及存款證的回報比較穩定。目前，銀行可代客買賣多種債券和存款證，除備有多種主要貨幣選擇外，客戶亦可選擇不同債券發行機構，包括政府，如中國政府、美國政府及香港特區政府等，或本地著名的半官方機構，超國機構及世界知名的公司。此外，債券年期由一年至三十年不等，而票面收益亦各異，選擇眾多，能符合投資者的不同需要。投資金額低至港幣1萬元。

甚麼是證券？

證券是一般可在股票市場交易之投資工具的統稱。任何人士均可透過經紀或銀行從事證券投資，並可從每日的報章或互聯網觀察投資行情。證券投資的回報潛力一般高於儲蓄戶口。在經濟蓬勃的地區，只要假以時日，股市一般都會出現增長，有時更會在短時間內急升。但是，股市波動在所難免，所以購買證券不應視為一種短線的謀利方法。購買證券需要支付有關的交易費用，例如經紀佣金。如果要享有交收的便利，您可考慮採用銀行證券買賣服務。除了自行投資證券外，您亦可委託專業投資管理人員或公司代勞。

何謂「首次公開招股」(IPO)？

「首次公開招股」(IPO)是指一間公司首次向公眾投資者發行新股，債券或銀行發行的存款證。此類股票，債券或存款證有可能在證券交易所上市買賣。

為何我經銀行IPO申請獲分配的通脹掛鈎債券以債務工具於中央結算系統(CMU) 作清算及儲存？

根據通脹掛鈎債券發行通函，若客戶經配售銀行申請該債劵，所分配的債券會以債務工具中央結算系統(CMU)作清算，及在銀行的債券買賣服務透過場外交易買賣。

如何啓動我的中國A股交易服務？

如您已持有銀行綜合投資戶口及人民幣儲蓄戶口，即可買賣合資格的中國A股，毋須登記。如您未持有任何銀行綜合投資戶口，亦可透過銀行銀行網上理財（只適用於現有銀行銀行客戶）或親臨任何一間銀行分行開立綜合投資戶口，過程方便快捷。此服務只適用於非美國個人客戶並持有符合美國稅務局要求的身分證明文件，例如香港永久居民身份証或護照。

參加銀行的「股票月供投資計劃」有什麼好處？

您可以：以符合預算的金額購入股票透過「成本平均法」減低投資風險享受中長線投資所帶來的較高回報潛力迎合個人的儲蓄投資需要

甚麼是單位信託基金？我怎受惠於基金投資？

單位信託基金亦稱互惠基金為投資者提供多元化投資機會，方法是由基金經理把眾投資者的資金，匯聚成一筆龐大基金，用以在廣泛地區及市場作不同的投資。所以，即使個人的投資額不大，投資者亦可參予全球各地市場的證券、債券、貨幣及商品投資。這種多元化投資稱為投資組合。單位信託基金提供多項有利因素：分散風險：由於分散投資，故基金的風險通常低於投資單一股票。但不同的基金，其風險和回報的水平，當然亦會有差異。專業管理：基金經理的日常工作主要是研究和管理投資。個人投資者一般很難像基金經理對全球市場有透徹的認識，但如果購買單位信託基金，便可享有基金經理提供的專業知識。投資全球市場：透過單位信託基金，您的資金可運用於個人投資者未必能夠涉足的海外市場，從而擴闊投資範疇。經濟效益：由於大量投資者的資金以單一基金處理，故能平均攤銷經營成本和佣金，減低個人投資者支付的費用。流動性：您可在任何交易日（但基金所掛屬國家的公眾假期除外）買賣單位信託基金，增加資金流動性。有些單位信託基金產品與各證券交易所上市的指數期權掛屬，亦有時與貨幣期權掛屬。這種基金的風險略高於多元化的基金組合。

什麼是結構投資產品？它是如何運作的？

結構投資產品是涉及衍生工具的投資產品，其回報﹑到期金額及/或其結算方法是參照1) 任何一項或多於一項的參考資產的價格、價值或水平的變動; 及/或 2) 任何事件的發生或不發生而釐定。

有哪些資產屬於要約範圍內？

要約僅針對透過歐洲清算銀行有限公司(Euroclear Bank SA/NV) 直接持有的證券（即債券，存款證和股票），Euroclear Bank SA / NV是本行參與的唯一歐洲經濟區中央證券存管處（例如帶有ISIN 前置代號XS，US，AU，CA）。該要約與透過Euroclear的其他託管人或附屬託管人持有的證券無關。

當「高息投資存款」的存款日為提交指示之後第2個營業日，如何計算綜合理財戶口有抵押信貸的信貸比例？

若已於交易日(Trade Date) 開立「高息投資存款」並處於存款日(Deposit Date)之前的時間: 如以外幣作為存款貨幣，該筆已保留於戶口作為扣除交易所需的款項將會從戶口可用結餘 (account available balance) 中扣除並不會納入有抵押信貸的計算。因此有抵押信貸的信貸額將會下降，基於外幣存款在「高息投資存款」交易日之前被計算為有抵押信貸的信貸額。如以港元作為存款貨幣，該筆已保留於戶口作為扣除交易所需的款項將亦會從戶口可用結餘 (account available balance) 中扣除並不會納入有抵押信貸的計算。但基於港元存款在「高息投資存款」交易日之前已不納入為有抵押信貸的信貸額，因此有抵押信貸的信貸額不會受影響。在「高息投資存款」存款日(Deposit Date)當日(即交易日之後第2個營業日)，以任何貨幣作為存款貨幣的交易金額將會納入計算為有抵押信貸的信貸額，直至到期日為止。

如何經銀行投資外匯？

您可以經銀行透過多種方法投資外匯。您可使用24小時外幣兌換服務讓您隨時隨地透過網上理財或流動理財設立兌換指示。若您對個別外幣有特定的目標兌換價，您可透過外匯限價買賣服務預設指示。若您想以定期儲蓄的形式累積外幣或人民幣，您可透過外幣／人民幣轉存服務預設兌換指示，我們會根據您的預設指令自動替您執行指示。

要約僅針對透過歐洲清算銀行有限公司(Euroclear Bank SA/NV) 直接持有的證券（即債券，存款證和股票），Euroclear Bank SA / NV是本行參與的唯一歐洲經濟區中央證券存管處（例如帶有ISIN 前置代號XS，US，AU，CA）。該要約與透過Euroclear的其他託管人或附屬託管人持有的證券無關。

您首先需要了解個人的理財需要或投資目標、財政狀況及風險取向。您的目標可包括應付以下各項需要：保障家人子女教育退休策劃管理及累積財富遺產規劃您亦須考慮您的目標，投資年期，可承擔的投資金額及個人的投資偏好。

你們會於何時強制出售我的股票（斬倉？

如(i) 您的股票孖展比率連續3個月維持於105%至少於120%；或(ii) 股票孖展比率一旦觸及120%或以上；或(iii)我們不時訂定之時間，我們將強制出售您的股票（斬倉），不會另行通知。