香港股票財經網新聞

Stock-hk.com

來源:機器之心

我們還沒有看到能與 ChatGPT 相匹敵的 AI 大模型,但在算力基礎上,領先的可能並不是微軟和 OpenAI。

本周二,谷歌公布了其訓練語言大模型的超級計算機的細節,基於 TPU 的超算系統已經可以比英偉達的同類更加快速、節能。

谷歌張量處理器(tensor processing unit,TPU)是該公司為機器學習定製的專用芯片(ASIC),第一代發布於 2016 年,成為了 AlphaGo 背後的算力。與 GPU 相比,TPU采用低精度計算,在幾乎不影響深度學習處理效果的前提下大幅降低了功耗、加快運算速度。同時,TPU 使用了脈動陣列等設計來優化矩陣乘法與卷積運算。

當前,谷歌 90% 以上的人工智能訓練工作都在使用這些芯片,TPU 支撐了包括搜索的谷歌主要業務。作為圖靈獎得主、計算機架構巨擘,大衛・帕特森(David Patterson)在 2016 年從 UC Berkeley 退休後,以傑出工程師的身份加入了谷歌大腦團隊,為幾代 TPU 的研發做出了卓越貢獻。


如今 TPU 已經發展到了第四代,谷歌本周二由 Norman Jouppi、大衛・帕特森等人發表的論文《 TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings 》詳細介紹了自研的光通信器件是如何將 4000 多塊芯片並聯成為超級計算機,以提升整體效率的。

TPU v4 的性能比 TPU v3 高 2.1 倍,性能功耗比提高 2.7 倍。基於 TPU v4 的超級計算機擁有 4096 塊芯片,整體速度提高了約 10 倍。對於類似大小的系統,谷歌能做到比 Graphcore IPU Bow 快 4.3-4.5 倍,比 Nvidia A100 快 1.2-1.7 倍,功耗低 1.3-1.9 倍。

除了芯片本身的算力,芯片間互聯已成為構建 AI 超算的公司之間競爭的關鍵點,最近一段時間,谷歌的 Bard、OpenAI 的 ChatGPT 這樣的大語言模型(LLM)規模正在爆炸式增長,算力已經成為明顯的瓶頸。

由於大模型動輒千億的參數量,它們必須由數千塊芯片共同分擔,並持續數周或更長時間進行訓練。谷歌的 PaLM 模型 —— 其迄今為止最大的公開披露的語言模型 —— 在訓練時被拆分到了兩個擁有 4000 塊 TPU 芯片的超級計算機上,用時 50 天。

谷歌表示,通過光電路交換機(OCS),其超級計算機可以輕鬆地動態重新配置芯片之間的連接,有助於避免出現問題並實時調整以提高性能。

下圖展示了 TPU v4 4×3 方式 6 個「面」的鏈接。每個面有 16 條鏈路,每個塊總共有 96 條光鏈路連接到 OCS 上。要提供 3D 環面的環繞鏈接,相對側的鏈接必須連接到相同的 OCS。因此,每個 4×3 塊 TPU 連接到 6 × 16 ÷ 2 = 48 個 OCS 上。Palomar OCS 為 136×136(128 個端口加上 8 個用於鏈路測試和修復的備用端口),因此 48 個 OCS 連接來自 64 個 4×3 塊(每個 64 個芯片)的 48 對電纜,總共並聯 4096 個 TPU v4 芯片。

根據這樣的排布,TPU v4(中間的 ASIC 加上 4 個 HBM 堆棧)和帶有 4 個液冷封裝的印刷電路板 (PCB)。該板的前面板有 4 個頂部 PCIe 連接器和 16 個底部 OSFP 連接器,用於托盤間 ICI 鏈接。

隨後,八個 64 芯片機架構成一台 4096 芯片超算。

與超級計算機一樣,工作負載由不同規模的算力承擔,稱為切片:64 芯片、128 芯片、256 芯片等。下圖顯示了當主機可用性從 99.0% 到 99.9% 不等有,及沒有 OCS 時切片大小的「有效輸出」。如果沒有 OCS,主機可用性必須達到 99.9% 才能提供合理的切片吞吐量。對於大多數切片大小,OCS 也有 99.0% 和 99.5% 的良好輸出。


與 Infiniband 相比,OCS 的成本更低、功耗更低、速度更快,成本不到系統成本的 5%,功率不到系統功率的 3%。每個 TPU v4 都包含 SparseCores 數據流處理器,可將依賴嵌入的模型加速 5 至 7 倍,但僅使用 5% 的裸片面積和功耗。

「這種切換機製使得繞過故障組件變得容易,」谷歌研究員 Norm Jouppi 和谷歌傑出工程師大衛・帕特森在一篇關於該系統的博客文章中寫道。「這種靈活性甚至允許我們改變超級計算機互連的拓撲結構,以加速機器學習模型的性能。」

在新論文上,谷歌著重介紹了稀疏核(SparseCore,SC)的設計。在大模型的訓練階段,embedding 可以放在 TensorCore 或超級計算機的主機 CPU 上處理。TensorCore 具有寬 VPU 和矩陣單元,並針對密集操作進行了優化。由於小的聚集 / 分散內存訪問和可變長度數據交換,在 TensorCore 上放置嵌入其實並不是最佳選擇。在超級計算機的主機 CPU 上放置嵌入會在 CPU DRAM 接口上引發阿姆達爾定律瓶頸,並通過 4:1 TPU v4 與 CPU 主機比率放大。數據中心網絡的尾部延遲和帶寬限製將進一步限製訓練系統。

對此,谷歌認為可以使用 TPU 超算的總 HBM 容量優化性能,加入專用 ICI 網絡,並提供快速收集 / 分散內存訪問支持。這導致了 SparseCore 的協同設計。

SC 是一種用於嵌入訓練的特定領域架構,從 TPU v2 開始,後來在 TPU v3 和 TPU v4 中得到改進。SC 相對劃算,只有芯片面積的約 5% 和功率的 5% 左右。SC 結合超算規模的 HBM 和 ICI 來創建一個平坦的、全局可尋址的內存空間(TPU v4 中為 128 TiB)。與密集訓練中大參數張量的全部歸約相比,較小嵌入向量的全部傳輸使用 HBM 和 ICI 以及更細粒度的分散 / 聚集訪問模式。

作為獨立的核心,SC 允許跨密集計算、SC 和 ICI 通信進行並行化。下圖顯示了 SC 框圖,谷歌將其視為「數據流」架構(dataflow),因為數據從內存流向各種直接連接的專用計算單元。

最通用的 SC 單元是 16 個計算塊(深藍色框)。每個 tile 都有一個關聯的 HBM 通道,並支持多個未完成的內存訪問。每個 tile 都有一個 Fetch Unit、一個可編程的 8-wide SIMD Vector Processing Unit 和一個 Flush Unit。獲取單元將 HBM 中的激活和參數讀取到 2.5 MiB 稀疏向量內存 (Spmem) 的圖塊切片中。scVPU 使用與 TC 的 VPU 相同的 ALU。Flush Unit 在向後傳遞期間將更新的參數寫入 HBM。此外,五個跨通道單元(金色框)執行特定的嵌入操作,正如它們的名稱所解釋的那樣。

與 TPU v1 一樣,這些單元執行類似 CISC 的指令並對可變長度輸入進行操作,其中每條指令的運行時間都取決於數據。

在特定芯片數量下,TPU v3/v4 對分帶寬比高 2-4 倍,嵌入速度可以提高 1.1-2.0 倍。

下圖展示了谷歌自用的推薦模型(DLRM0)在不同芯片上的效率。TPU v3 比 CPU 快 9.8 倍。TPU v4 比 TPU v3 高 3.1 倍,比 CPU 高 30.1 倍。

谷歌探索了 TPU v4 超算用於 GPT-3 大語言模型時的性能,展示了預訓練階段專家設計的 1.2 倍改進。


雖然谷歌直到現在才公布有關其超級計算機的詳細信息,但自 2020 年以來,基於 TPU 的 AI 超算一直在位於俄克拉荷馬州的數據中心發揮作用。谷歌表示,Midjourney 一直在使用該系統訓練其模型,最近一段時間,後者已經成為 AI 畫圖領域最熱門的平台。


谷歌在論文中表示,對於同等大小的系統,其芯片比基於英偉達 A100 芯片的系統快 1.7 倍,能效高 1.9 倍,後者與第四代 TPU 同時上市,並被用於 GPT-4 的訓練。

對此,英偉達發言人拒絕置評。

當前英偉達的 AI 芯片已經進入 Hopper 架構的時代。谷歌表示,未對第四代 TPU 與英偉達目前的旗艦 H100 芯片進行比較,因為 H100 在谷歌芯片之後上市,並且采用了更先進的製程。

但同樣在此,谷歌暗示了下一代 TPU 的計劃,其沒有提供更多細節。Jouppi 告訴路透社,谷歌擁有開發「未來芯片的健康管道」。


TPU v4 比當代 DSA 芯片速度更快、功耗更低,如果考慮到互連技術,功率邊緣可能會更大。通過使用具有 3D 環面拓撲的 3K TPU v4 切片,與 TPU v3 相比,谷歌的超算也能讓 LLM 的訓練時間大大減少。

性能、可擴展性和可用性使 TPU v4 超級計算機成為 LaMDA、MUM 和 PaLM 等大型語言模型 (LLM) 的主要算力。這些功能使 5400 億參數的 PaLM 模型在 TPU v4 超算上進行訓練時,能夠在 50 天內維持 57.8% 的峰值硬件浮點性能。

谷歌表示,其已經部署了數十台 TPU v4 超級計算機,供內部使用和外部通過谷歌雲使用。

編輯/new

You may also like
你可能會喜歡

標題:谷歌TPU超算,大模型性能超英偉達,已部署數十台:圖靈獎得主新作

返回:香港股票財經網新聞

財經新聞常見問題 FAQ

甚麼因素會影響錢財的價值?

由於產品和服務的價格不斷上升,故幣值會隨時間而降低,這便是通貨膨脹。幣值會受以下因素侵蝕通脹:簡單來說,產品和服務的價格上升,就會造成通脹。當物價上升,受薪人士便會要求加薪,隨著通脹加劇,貨幣的購買力便不斷減弱。 利率波動:當利率下降,存款的利息回報便會減少。如果存款利率低於通脹,儲蓄便會失去原有的價值。但某類投資如股票和債券等卻可能因息口下降而升值。

為何銀色債券以債務工具於中央結算系統(CMU) 作清算及儲存 ?

根據銀色債券發行通函,若客戶經配售銀行申請銀色債劵,所分配的銀色債券會以債務工具於中央結算系統(CMU)作清算。

甚麼是債券?

債券是由政府、公司或其他機構發行的一種借貸票據。當您購入債券,即等同向發行者提供貸款,發行者則承諾於債券到期日以指定價格贖回債券,而在到期日前則須支付指定的利息。債券的種類繁多,不同的發行者以不同的條款發行債券。例如:定息債券、浮息債券、零息債券及存款證等。一般來說,債券及存款證的回報比較穩定。目前,銀行可代客買賣多種債券和存款證,除備有多種主要貨幣選擇外,客戶亦可選擇不同債券發行機構,包括政府,如中國政府、美國政府及香港特區政府等,或本地著名的半官方機構,超國機構及世界知名的公司。此外,債券年期由一年至三十年不等,而票面收益亦各異,選擇眾多,能符合投資者的不同需要。投資金額低至港幣1萬元。

甚麼是證券?

證券是一般可在股票市場交易之投資工具的統稱。任何人士均可透過經紀或銀行從事證券投資,並可從每日的報章或互聯網觀察投資行情。 證券投資的回報潛力一般高於儲蓄戶口。在經濟蓬勃的地區,只要假以時日,股市一般都會出現增長,有時更會在短時間內急升。但是,股市波動在所難免,所以購買證券不應視為一種短線的謀利方法。購買證券需要支付有關的交易費用,例如經紀佣金。如果要享有交收的便利,您可考慮採用銀行證券買賣服務。除了自行投資證券外,您亦可委託專業投資管理人員或公司代勞。

何謂「首次公開招股」(IPO)?

「首次公開招股」(IPO)是指一間公司首次向公眾投資者發行新股,債券或銀行發行的存款證。此類股票,債券或存款證有可能在證券交易所上市買賣。

為何我經銀行IPO申請獲分配的通脹掛鈎債券以債務工具於中央結算系統(CMU) 作清算及儲存?

根據通脹掛鈎債券發行通函, 若客戶經配售銀行申請該債劵, 所分配的債券會以債務工具中央結算系統(CMU)作清算,及在銀行的債券買賣服務透過場外交易買賣。

如何啓動我的中國A股交易服務?

如您已持有銀行綜合投資戶口及人民幣儲蓄戶口,即可買賣合資格的中國A股, 毋須登記。如您未持有任何銀行綜合投資戶口,亦可透過銀行銀行網上理財(只適用於現有銀行銀行客戶)或親臨任何一間銀行分行開立綜合投資戶口,過程方便快捷。此服務只適用於非美國個人客戶並持有符合美國稅務局要求的身分證明文件,例如香港永久居民身份証或護照。

參加銀行的「股票月供投資計劃」有什麼好處?

您可以:以符合預算的金額購入股票透過「成本平均法」減低投資風險享受中長線投資所帶來的較高回報潛力迎合個人的儲蓄投資需要

甚麼是單位信託基金?我怎受惠於基金投資?

單位信託基金亦稱互惠基金為投資者提供多元化投資機會,方法是由基金經理把眾投資者的資金,匯聚成一筆龐大基金,用以在廣泛地區及市場作不同的投資。所以,即使個人的投資額不大,投資者亦可參予全球各地市場的證券、債券、貨幣及商品投資。這種多元化投資稱為投資組合。單位信託基金提供多項有利因素:分散風險:由於分散投資,故基金的風險通常低於投資單一股票。但不同的基金,其風險和回報的水平,當然亦會有差異。專業管理:基金經理的日常工作主要是研究和管理投資。個人投資者一般很難像基金經理對全球市場有透徹的認識,但如果購買單位信託基金,便可享有基金經理提供的專業知識。投資全球市場:透過單位信託基金,您的資金可運用於個人投資者未必能夠涉足的海外市場,從而擴闊投資範疇。經濟效益:由於大量投資者的資金以單一基金處理,故能平均攤銷經營成本和佣金,減低個人投資者支付的費用。流動性:您可在任何交易日(但基金所掛屬國家的公眾假期除外)買賣單位信託基金,增加資金流動性。有些單位信託基金產品與各證券交易所上市的指數期權掛屬,亦有時與貨幣期權掛屬。這種基金的風險略高於多元化的基金組合。

什麼是結構投資產品?它是如何運作的?

結構投資產品是涉及衍生工具的投資產品,其回報﹑到期金額及/或其結算方法是參照1) 任何一項或多於一項的參考資產的價格、價值或水平的變動; 及/或 2) 任何事件的發生或不發生而釐定。

有哪些資產屬於要約範圍內?

要約僅針對透過歐洲清算銀行有限公司(Euroclear Bank SA/NV) 直接持有的證券(即債券,存款證和股票),Euroclear Bank SA / NV是本行參與的唯一歐洲經濟區中央證券存管處(例如帶有ISIN 前置代號XS,US,AU,CA)。該要約與透過Euroclear的其他託管人或附屬託管人持有的證券無關。

當「高息投資存款」的存款日為提交指示之後第2個營業日,如何計算綜合理財戶口有抵押信貸的信貸比例?

若已於交易日(Trade Date) 開立「高息投資存款」並處於存款日(Deposit Date)之前的時間: 如以外幣作為存款貨幣,該筆已保留於戶口作為扣除交易所需的款項將會從戶口可用結餘 (account available balance) 中扣除並不會納入有抵押信貸的計算。因此有抵押信貸的信貸額將會下降,基於外幣存款在「高息投資存款」交易日之前被計算為有抵押信貸的信貸額。 如以港元作為存款貨幣,該筆已保留於戶口作為扣除交易所需的款項將亦會從戶口可用結餘 (account available balance) 中扣除並不會納入有抵押信貸的計算。但基於港元存款在「高息投資存款」交易日之前已不納入為有抵押信貸的信貸額,因此有抵押信貸的信貸額不會受影響。 在「高息投資存款」存款日(Deposit Date)當日(即交易日之後第2個營業日),以任何貨幣作為存款貨幣的交易金額將會納入計算為有抵押信貸的信貸額,直至到期日為止。

如何經銀行投資外匯?

您可以經銀行透過多種方法投資外匯。您可使用24小時外幣兌換服務讓您隨時隨地透過網上理財或流動理財設立兌換指示。若您對個別外幣有特定的目標兌換價,您可透過外匯限價買賣服務預設指示。若您想以定期儲蓄的形式累積外幣或人民幣,您可透過外幣/人民幣轉存服務預設兌換指示,我們會根據您的預設指令自動替您執行指示。

要約僅針對透過歐洲清算銀行有限公司(Euroclear Bank SA/NV) 直接持有的證券(即債券,存款證和股票),Euroclear Bank SA / NV是本行參與的唯一歐洲經濟區中央證券存管處(例如帶有ISIN 前置代號XS,US,AU,CA)。該要約與透過Euroclear的其他託管人或附屬託管人持有的證券無關。

您首先需要了解個人的理財需要或投資目標、財政狀況及風險取向。您的目標可包括應付以下各項需要:保障家人子女教育退休策劃管理及累積財富遺產規劃您亦須考慮您的目標,投資年期,可承擔的投資金額及個人的投資偏好。

你們會於何時強制出售我的股票(斬倉?

如(i) 您的股票孖展比率連續3個月維持於105%至少於120%;或(ii) 股票孖展比率一旦觸及120%或以上;或(iii)我們不時訂定之時間,我們將強制出售您的股票(斬倉),不會另行通知。