來源:華爾街見聞
作者:葛佳明
商湯科技發佈“日日新”大模型體系,含自然語言生成、照片生成服務、感知模型預標註、模型研發,並宣佈推出1800億參數中文語言大模型應用平臺“商量”,可實現多輪對話、邏輯推理、語言糾錯、內容創作、情感分析等。
GPT的誕生引燃了沉寂許久的人工智能新浪潮,“顛覆性變革”正在發生,是否擁有超大模型與高算力開始漸漸成爲衡量一家人工智能企業能力的主要標準。
4月10日,人工智能軟件公司商湯科技董事長兼CEO徐立,在技術交流日上宣佈,將推出大模型體系“商湯日日新大模型”,包括自然語言生成、文生圖、感知模型標註以及模型研發功能。
“日日新”取自《禮記·大學》:“湯之盤銘曰:苟日新,日日新,又日新。”

商湯還宣佈推出商湯自研中文語言大模型應用平臺“商量 SenseChat”。
徐立介紹稱,商量是一個1800億參數的中文大語言模型,可實現多輪對話、邏輯推理、語言糾錯、內容創作、情感分析等,並在現場演示了其作廣告語、續寫兒童故事、編程等功能,下圖爲商湯大模型實時演示:


徐立表示,內部實測代碼編寫效率提升62%,HumanEval測試集一次通過率40.2%。下一代軟件開發範式是AI for AI,代碼=80%AI生成+20%人工。

此外,商湯還介紹了超10億參數自研文生圖生成模型“秒畫”,支持二次元等多種生成風格。單卡A100支持,2秒生成1張512K分辨率的圖片。用戶可基於單卡A100自訓練。基於平臺發佈的模型,可設置to B服務API(應用程序編程接口),結合商湯大算力對外提供服務。

同時,徐立指出,人工智能的能力由大模型參數量乘以訓練數據量決定。商湯人工智能計算中心,算力可支持20個千億參數超大模型同時訓練。
徐立此前曾表示,商湯將通用人工智能(AGI)作爲核心發展戰略,以期在未來幾年內實現重大突破:
人工智能是一個前景廣闊的賽道,商湯將一如既往地堅定投入在邁向通用人工智能的前沿研發與商業化進程中。
商湯SenseCore龐大的算力輸出能力
徐立在交流日介紹稱,人工智能的能力由大模型參數量乘以訓練數據量決定。商湯人工智能計算中心算力達5000+p,當前可支持20個千億參數超大模型同時訓練。
根據商湯3月28日公佈的財報顯示,服務於大模型訓練的商湯SenseCore AI大裝置,目前已支持8家客戶進行大模型訓練,總共提供了7000多張GPU卡。

SenseCore已支持了超過10個大模型訓練項目,包括語言大模型、文生圖模型、視覺大模型、多模態模型等自研模型和客戶自定義模型。
從算力能力上看,年內,商湯SenseCore AI大裝置在持續進行擴建,共計完成了2.7萬塊GPU的部署並實現了5.0 exaFLOPS的算力輸出能力。
目前該裝置可最多支持20個千億參數量大模型(以千卡並行)同時訓練,最高可支持萬億參數超大模型的訓練。
商湯科技聯合創始人兼首席科學家王曉剛教授在此前接受媒體採訪時表示,商湯多年人才和技術積累使其具有與OpenAI相比非常類似的優勢:
商湯有非常多的研發人員能深入到一線,用模型去解決實際問題,有很好的積累。‘好的原材料’就是要深入到各個行業裏積累非常多的know-how。美國公司OpenAI能夠把ChatGPT做出來,背後也有多年積累,從小模型到大模型的研發,中間積累了非常多的know-how。
王曉剛教授指出,深度學習一下子顛覆了所有傳統,現在的關鍵是“擁抱全新研究範式”和“轉變觀念”:
顛覆會不斷出現,且以非常快的速度出現。現在重新有了一個機會。這對於整個行業發展非常好。
十年前,商湯還沒有誕生,我們創始團隊在當時做的決定就是-All in deep learning。我們之前在傳統視覺技術裏也有較長積累,但是,當新技術來了,我們就果斷地去擁抱新技術。今天也一樣。
編輯/hoten