谷歌新一代AI芯片發布，Jeff Dean：AI硬件性能提升更難了

半導體行業觀察 2023-08-30

最後更新: 2024-04-26 19:04

來源：半導體行業觀察

昨夜晚間，$谷歌-A(GOOGL.US)$/$谷歌-C(GOOG.US)$突然對外披露公司新一代 AI 加速器Cloud TPU v5e。

谷歌在博客中指出，我們正處於計算領域千載難逢的拐點。設計和構建計算基礎設施的傳統方法不再足以滿足生成式人工智能和LLM等工作負載呈指數級增長的需求。事實上，過去五年里LLM的參數數量每年增加 10 倍。因此，客戶需要具有成本效益且可擴展的人工智能優化基礎設施。

Google Cloud 則通過提供領先的人工智能基礎設施技術、TPU 和 GPU，以滿足開發者的需求，今天，谷歌宣布，公司在這兩個產品組合均得到重大增強。首先，我們正在通過 Cloud TPU v5e 擴展我們的 AI 優化基礎設施產品組合，這是迄今為止最具成本效益、多功能且可擴展的 Cloud TPU，現已提供預覽版。TPU v5e 提供與 Google Kubernetes Engine (GKE)、Vertex AI 以及 Pytorch、JAX 和 TensorFlow 等領先框架的集成，因此您可以通過易於使用、熟悉的界面開始使用。

同時，谷歌還宣布，公司基於$英偉達(NVDA.US)$ H100 GPU的GPU 超級計算機 A3 VM將於下個月全面上市，為您的大規模 AI 模型提供支持。

TPU v5e，為大模型而生

谷歌表示，Cloud TPU v5e是Google Cloud 最新一代 AI 加速器，專為提供中大規模訓練和推理所需的成本效益和性能而構建。雖然谷歌並沒披露更多關於這個芯片的工藝，但據猜測，這可能是基於5nm打造的。

了解谷歌TPU 芯片的讀者都知道，在之前的產品中，他們都有一個或兩個 TensorCore 來運行矩陣乘法。與 v2 和 v3 Pod 類似，v5e 每個芯片都有一個 TensorCore。每個 TensorCore 有 4 個矩陣乘法單元 (MXU)、一個向量單元和一個標量單元。下表顯示了 v5e 的關鍵規格及其值。相比之下，v4 Pod 每個芯片有 2 個 TensorCore。

與 Cloud TPU v4 相比，TPU v5e 可為LLM和新一代 AI 模型提供高達 2 倍的訓練性能和高達 2.5 倍的推理性能。TPU v5e 的成本不到 TPU v4 的一半，使更多組織能夠訓練和部署更大、更復雜的 AI 模型。

谷歌指出，v5e 每個 Pod 的芯片占用空間較小，為 256 個，經過優化，成為transformer、文本到圖像和卷積神經網絡 (CNN) 訓練、微調和服務的最高價值產品。

換而言之，通過 TPU v5e Pod 平衡性能、靈活性和效率，允許最多 256 個芯片互連，總帶寬超過 400 Tb/s 和 100 petaOps INT8 性能。TPU v5e 的用途也非常廣泛，支持八種不同的虛擬機 (VM) 配置，範圍從一個芯片到單個片內的 250 多個芯片。這使得客戶能夠選擇正確的配置來服務於各種 LLM 和 gen AI 模型大小。

與此同時，Cloud TPU v5e 還為領先的 AI 框架（如 JAX、PyTorch 和 TensorFlow）以及流行的開源工具（如 Hugging Face 的 Transformers 和 Accelerate、PyTorch Lightning 和 Ray）提供內置支持。谷歌透露，公司將通過即將發布的 PyTorch/XLA 2.1 版本進一步加強對 Pytorch 的支持，其中包括 Cloud TPU v5e 支持，以及用於大規模模型訓練的模型和數據並行性等新功能。

據介紹，在公共預覽版，推理客戶可以使用 1 芯片 (v5litepod-1)、4 芯片 (v5litepod-4) 和 8 芯片 (v5litepod-8)。“為了為具有更多芯片的虛擬機騰出空間，調度程序可能會搶占具有較少芯片的虛擬機。因此，8 芯片虛擬機很可能會搶占 1 芯片和 4 芯片虛擬機。”谷歌表示。

他們進一步指出，為了更輕鬆地擴展訓練作業，谷歌還在預覽版中引入了 Multislice 技術，該技術允許用戶輕鬆擴展 AI 模型，使其超出物理 TPU pod 的範圍，最多可容納數萬個 Cloud TPU v5e 或 TPU v4 芯片。

谷歌在博客中寫道，到目前為止，使用 TPU 的訓練作業僅限於單個 TPU 芯片slice，TPU v4 的最大slice大小為 3,072 個芯片。借助 Multislice，開發人員可以在單個 Pod 內通過芯片間互連 (ICI)：inter-chip interconnect 或通過數據中心網絡 (DCN：Data center network) 跨多個 Pod 將工作負載擴展到數萬個芯片。Multislice 技術同時還為谷歌最先進的 PaLM 模型的創建提供了動力。

“我們真正致力於使其成為一個可擴展的解決方案，”谷歌的Lohmeyer說。“我們跨軟件和硬件進行設計。在這種情況下，該軟件[和]硬件與Multislice等新軟件技術協同工作的魔力，使我們的客戶能夠輕鬆擴展其 AI 模型，超越單個 TPU pod 或單個 GPU 集群的物理邊界，”他解釋道。“換句話說，單個大型人工智能工作負載現在可以跨越多個物理 TPU 集群，擴展到數萬個芯片，而且這樣做非常經濟高效。”Lohmeye強調。

Jeff Dean：AI 硬件性能的下一個100倍將會更加困難

十年前，Jeff Dean 在一張紙上做了一些數學計算，並發現：如果谷歌將人工智能功能添加到其同名搜索引擎中，它就必須將其數據中心占地面積擴大一倍，這就趨勢谷歌走上創建定製張量處理單元（TPU）矩陣數學引擎的道路。

十年過去了，人工智能變得更加復雜、計算密集，備受討論的 TPUv4 鐵雖然現在和未來很多年都很有用，但看起來有點過時了。全新推出的 TPUv5e將替代TPUv4 系統。

在日前開幕的Hotchips演講中，Jeff Dean表示，谷歌專注於驅動人工智能模型的三種不同方法——稀疏性、自適應計算和動態神經網絡——並且還試圖讓人工智能蛇吃掉它的尾巴而不是蠶食它。

在Jeff Dean看來，真正讓人工智能專家系統開始設計人工智能處理器可加快整個芯片開發周期，從而幫助不斷改進的硬件進入該領域，以滿足更快增長的模型。

Dean 解釋說，到目前為止創建的人工智能模型，整個模型的層數不斷增加，參數數量呈爆炸式增長，由數十億、數百億、數千億的token snippets 數據驅動，每次人工智能都會被激活。在新token上訓練的模型或針對已完成的模型提出token以進行人工智能推理。

但是，有了像 Pathways 這樣的框架（它是 Google PaLM 系列模型的基礎），世界正在從專門針對不同任務的單獨 AI 模型轉向擁有單一基礎模型。

對於稀疏模型，AI 模型的各個部分會在需要時激活（activate ），並且僅激活這些部分。模型如何知道要激活哪些部分尚不清楚，這就是 Pathways 框架中的秘密武器，該框架已通過 Gemini 模型得到完善，毫無疑問使用了 Dean 所說的技術。

值得注意的是，Pathways 框架不像 Google 創建的早期且可能更為初級的 TensorFlow 框架（該框架於 2015 年 11 月開源）那樣是開源的。因此，我們只能知道 Google 告訴我們的有關 Pathways 和 Gemini 的信息。

“與這個巨大的模型相比，稀疏模型的效率要高得多，”Dean解釋道。“他們只是調用整個模型的正確部分——正確的部分也是在訓練過程中學到的東西。然後模型的不同部分可以專門用於不同類型的輸入。最終的結果是，您最終會得到一些非常大的模型的正確 1% 或正確 10% 的結果，這會提高您的響應能力和更高的準確性，因為您現在擁有比您大得多的模型容量可以進行其他訓練，然後可以調用正確的部分。”

根據 Dean 的說法，稀疏性的另一個方面對於系統架構師來說很重要，它與加速器中通常談論的細粒度稀疏性不同，在加速器中，單個向量或張量內的稀疏性（通常每四個中的兩個）矩陣中的值設置為零，將其從密集型轉換為稀疏型），這也不同於粗粒度稀疏性，其中模型中的大型模塊要麽被激活，要麽不被激活。這種稀疏性看起來像這樣，我們將幾個 Dean 的圖表合並到一頁上，這樣您就可以將其全部理解：

“當今大多數稀疏工作對每個專家都使用相同的大小和結構，”Dean說。“所以這里有一些綠色專家為他們服務。這里有一些學習路由功能，可以了解哪個專家擅長哪種事情，然後將一些示例發送給適當的專家。計算平衡通常是通過每個專家的計算量相等以及每個專家的示例數量相等的流量來實現的。對於計算機架構師來說，這意味著跨加速器的全面混洗性能非常重要。對於所有稀疏模型來說都是如此——您希望能夠以正確的方式將事物從模型的一個部分快速路由到另一部分。”

“不過，您可能想做的一件事是，不是具有固定的計算成本，而是改變模型不同部分的計算成本。在每個示例上花費相同的計算量是沒有意義的，因為有些示例的難度是原來的 100 倍。我們在真正困難的事情上花費的計算量應該是非常簡單的事情上的 100 倍。”Dean強調。

事實證明，一些小型專家可能只需要少量計算，並且可以用於生產中使用的模型中大約 90% 的提示。專家們為了處理更復雜的事情而變得更大，具有不同的計算結構和可能更多的層，並且它們的計算量更大，因此運行成本更高。如果您正在運行人工智能服務，您將希望能夠將成本歸因於所提供的專家答案的價值，以便您可以適當收費。

提高效率和計算能力的途徑

當然，這不是谷歌的獨家理論——該公司之所以談論它是因為 Pathways 框架這樣做：

這就是稀疏性和自適應計算。

Dean 說，上圖中提到的最後一件事是動態神經網絡，這意味著可以在正在運行的系統中添加或刪除容量——這是我們幾十年來通用服務器所擁有的（雖然不是在 X86 平台上，但奇怪的是，這就是 Arm 和 RISC-V 可能能夠趕上大型機和 RISC/Unix 系統的地方）。CPU 及其工作負載的情況（虛擬機管理程序級別肯定存在動態分配）對於 GPU、TPU 和其他 AI 計算引擎來說也是如此。您希望能夠在運行推理或訓練時動態地為任何給定模型添加或減少核心池的容量。

來自 Google 的具有 5000 億個參數的 PaLM 模型在 Pathways 上進行了訓練，並通過在具有 6,144 個 TPUv4 引擎的一對 pod 之間動態分配資源來實現這一目標，但 TPUv4 引擎實際上分布在總共 24,576 個引擎的 6 個 pod 中，所有這些都鏈接在一起通過高速數據中心網絡。像這樣：

以下是 Dean 希望給系統架構師留下深刻印象的關鍵要點：

加速器的連接性（帶寬和延遲）很重要
規模對於訓練和推理都很重要
稀疏模型給內存容量和高效路由帶來壓力
機器學習軟件必須能夠輕鬆表達有趣的模型 - 就像上圖中所示的函數稀疏性

功率、可持續性和可靠性確實很重要

Google Fellow以及工程副總裁Amin Vahdat在隨後的演講中展示了人工智能行業面臨的模型大小增長的指數曲線：

據觀察，我們絕對沒有理由相信模型的復雜性會因此而降低，計算能力的需求將會降低。但根據我們的估計，模型每年增長 10 倍，GPU 和 TPU 的性能最多每年增長 2 到 3 倍。公司必須通過擴展來彌補這一點，這很困難，並改進他們的模型，這也很困難。

這就是為什麽谷歌已經在其機群中部署了 TPUv5e 引擎。在我們看來，谷歌的 TPUv6 可能正在開發中並準備就緒很快就會部署，以幫助支持Gemini模型的商業化。

為了使每 TCO 的性能提高 100 倍，Vahdat進行了一個深入的講座，介紹了如何衡量人工智能或通用計算平台的相對價值，在人工智能出現之前，我們一直同意這一點系統——谷歌必須做很多事情，當中包括：

創建專門的硬件 - TPU - 用於密集矩陣乘法。
使用 HBM 內存將這些矩陣數學引擎的內存帶寬提高 10 倍。
創建專門的硬件加速器，用於稀疏矩陣中的分散/聚集操作 - 我們現在稱之為 Sparsecore，它嵌入在 TPUv4i、TPUv4 和可能的 TPUv5e 引擎中。
采用液體冷卻可最大限度地提高系統電源效率，從而提高經濟效益。
使用混合精度和專門的數字表示來提高設備的實際吞吐量（Vahdat 稱之為“有效吞吐量”）。
並具有用於參數分配的同步、高帶寬互連，事實證明，這是一種光路開關，可以在系統上的作業發生變化時幾乎即時重新配置網絡，並且還提高了機器的容錯能力。對於一個擁有數萬個計算引擎且工作負載需要數月才能運行的系統來說，這是一件大事，世界各地的 HPC 中心都非常清楚這一點。

“我們為應對這一挑戰而必須構建的計算基礎設施類型必須改變，”Vahdat在主題演講中說道。“我認為，值得注意的是，如果我們試圖在通用計算上做到這一點，我們就不會達到今天的水平。換句話說，我們在過去 50 到 60 年間所形成的傳統智慧實際上已經被拋到了九霄雲外。我認為可以公平地說，在谷歌，但更重要的是，在整個社區，機器學習周期將占據我們想做的事情中越來越多的部分。”

谷歌專注於優化硬件和軟件以跨系統集群動態管理工作負載和功耗的一件事：

對於受內存限製的部分，電壓和電流強度可能會有很大差異，正如 Vahdat 所說，試圖管理數千到數萬個計算引擎集群的功耗是“介於困難和不可能之間的事情”。通過不在集群中創建大量熱點（這可能發生在 Google 訓練 PaLM 模型時），可以延長設備的使用壽命並減少中斷，這對於 AI 訓練等同步工作非常具有破壞性，就像 HPC 模擬一樣和建模。與其回滾到檢查點並從那里開始，不如從一開始就避免中斷。

以下是如何利用核心頻率和電壓來平衡一些事情。

當然，快速更新TPU芯片是谷歌工作最重要的一部分。

Dean表示，目前芯片的問世大約需要三年時間。這需要六到十二個月的時間進行設計和探索，一年的時間來實施設計，六個月的時間與晶圓進行流片，十二個月的時間用於將其投入生產、測試和提升。

目前尚不清楚人工智能可以在多大程度上縮短芯片開發周期或可以減少多少人力，Dean也沒有提供任何估計。但顯然，硬件設計越接近新興人工智能模型就越好。

編輯/tolk

來源：半導體行業觀察

昨夜晚間，$谷歌-A(GOOGL.US)$/$谷歌-C(GOOG.US)$突然對外披露公司新一代 AI 加速器Cloud TPU v5e。

谷歌在博客中指出，我們正處於計算領域千載難逢的拐點。設計和構建計算基礎設施的傳統方法不再足以滿足生成式人工智能和LLM等工作負載呈指數級增長的需求。事實上，過去五年裏LLM的參數數量每年增加 10 倍。因此，客戶需要具有成本效益且可擴展的人工智能優化基礎設施。

Google Cloud 則通過提供領先的人工智能基礎設施技術、TPU 和 GPU，以滿足開發者的需求，今天，谷歌宣佈，公司在這兩個產品組合均得到重大增強。首先，我們正在通過 Cloud TPU v5e 擴展我們的 AI 優化基礎設施產品組合，這是迄今爲止最具成本效益、多功能且可擴展的 Cloud TPU，現已提供預覽版。TPU v5e 提供與 Google Kubernetes Engine (GKE)、Vertex AI 以及 Pytorch、JAX 和 TensorFlow 等領先框架的集成，因此您可以通過易於使用、熟悉的界面開始使用。

同時，谷歌還宣佈，公司基於$英偉達(NVDA.US)$ H100 GPU的GPU 超級計算機 A3 VM將於下個月全面上市，爲您的大規模 AI 模型提供支持。

TPU v5e，爲大模型而生

谷歌表示，Cloud TPU v5e是Google Cloud 最新一代 AI 加速器，專爲提供中大規模訓練和推理所需的成本效益和性能而構建。雖然谷歌並沒披露更多關於這個芯片的工藝，但據猜測，這可能是基於5nm打造的。

與 Cloud TPU v4 相比，TPU v5e 可爲LLM和新一代 AI 模型提供高達 2 倍的訓練性能和高達 2.5 倍的推理性能。TPU v5e 的成本不到 TPU v4 的一半，使更多組織能夠訓練和部署更大、更復雜的 AI 模型。

谷歌指出，v5e 每個 Pod 的芯片佔用空間較小，爲 256 個，經過優化，成爲transformer、文本到圖像和卷積神經網絡 (CNN) 訓練、微調和服務的最高價值產品。

與此同時，Cloud TPU v5e 還爲領先的 AI 框架（如 JAX、PyTorch 和 TensorFlow）以及流行的開源工具（如 Hugging Face 的 Transformers 和 Accelerate、PyTorch Lightning 和 Ray）提供內置支持。谷歌透露，公司將通過即將發佈的 PyTorch/XLA 2.1 版本進一步加強對 Pytorch 的支持，其中包括 Cloud TPU v5e 支持，以及用於大規模模型訓練的模型和數據並行性等新功能。

據介紹，在公共預覽版，推理客戶可以使用 1 芯片 (v5litepod-1)、4 芯片 (v5litepod-4) 和 8 芯片 (v5litepod-8)。“爲了爲具有更多芯片的虛擬機騰出空間，調度程序可能會搶佔具有較少芯片的虛擬機。因此，8 芯片虛擬機很可能會搶佔 1 芯片和 4 芯片虛擬機。”谷歌表示。

他們進一步指出，爲了更輕鬆地擴展訓練作業，谷歌還在預覽版中引入了 Multislice 技術，該技術允許用戶輕鬆擴展 AI 模型，使其超出物理 TPU pod 的範圍，最多可容納數萬個 Cloud TPU v5e 或 TPU v4 芯片。

谷歌在博客中寫道，到目前爲止，使用 TPU 的訓練作業僅限於單個 TPU 芯片slice，TPU v4 的最大slice大小爲 3,072 個芯片。藉助 Multislice，開發人員可以在單個 Pod 內通過芯片間互連 (ICI)：inter-chip interconnect 或通過數據中心網絡 (DCN：Data center network) 跨多個 Pod 將工作負載擴展到數萬個芯片。Multislice 技術同時還爲谷歌最先進的 PaLM 模型的創建提供了動力。

“我們真正致力於使其成爲一個可擴展的解決方案，”谷歌的Lohmeyer說。“我們跨軟件和硬件進行設計。在這種情況下，該軟件[和]硬件與Multislice等新軟件技術協同工作的魔力，使我們的客戶能夠輕鬆擴展其 AI 模型，超越單個 TPU pod 或單個 GPU 集羣的物理邊界，”他解釋道。“換句話說，單個大型人工智能工作負載現在可以跨越多個物理 TPU 集羣，擴展到數萬個芯片，而且這樣做非常經濟高效。”Lohmeye強調。

Jeff Dean：AI 硬件性能的下一個100倍將會更加困難

十年前，Jeff Dean 在一張紙上做了一些數學計算，並發現：如果谷歌將人工智能功能添加到其同名搜索引擎中，它就必須將其數據中心佔地面積擴大一倍，這就趨勢谷歌走上創建定製張量處理單元（TPU）矩陣數學引擎的道路。

十年過去了，人工智能變得更加複雜、計算密集，備受討論的 TPUv4 鐵雖然現在和未來很多年都很有用，但看起來有點過時了。全新推出的 TPUv5e將替代TPUv4 系統。

在Jeff Dean看來，真正讓人工智能專家系統開始設計人工智能處理器可加快整個芯片開發週期，從而幫助不斷改進的硬件進入該領域，以滿足更快增長的模型。

Dean 解釋說，到目前爲止創建的人工智能模型，整個模型的層數不斷增加，參數數量呈爆炸式增長，由數十億、數百億、數千億的token snippets 數據驅動，每次人工智能都會被激活。在新token上訓練的模型或針對已完成的模型提出token以進行人工智能推理。

但是，有了像 Pathways 這樣的框架（它是 Google PaLM 系列模型的基礎），世界正在從專門針對不同任務的單獨 AI 模型轉向擁有單一基礎模型。

對於稀疏模型，AI 模型的各個部分會在需要時激活（activate ），並且僅激活這些部分。模型如何知道要激活哪些部分尚不清楚，這就是 Pathways 框架中的祕密武器，該框架已通過 Gemini 模型得到完善，毫無疑問使用了 Dean 所說的技術。

值得注意的是，Pathways 框架不像 Google 創建的早期且可能更爲初級的 TensorFlow 框架（該框架於 2015 年 11 月開源）那樣是開源的。因此，我們只能知道 Google 告訴我們的有關 Pathways 和 Gemini 的信息。

“與這個巨大的模型相比，稀疏模型的效率要高得多，”Dean解釋道。“他們只是調用整個模型的正確部分——正確的部分也是在訓練過程中學到的東西。然後模型的不同部分可以專門用於不同類型的輸入。最終的結果是，您最終會得到一些非常大的模型的正確 1% 或正確 10% 的結果，這會提高您的響應能力和更高的準確性，因爲您現在擁有比您大得多的模型容量可以進行其他訓練，然後可以調用正確的部分。”

根據 Dean 的說法，稀疏性的另一個方面對於系統架構師來說很重要，它與加速器中通常談論的細粒度稀疏性不同，在加速器中，單個向量或張量內的稀疏性（通常每四個中的兩個）矩陣中的值設置爲零，將其從密集型轉換爲稀疏型），這也不同於粗粒度稀疏性，其中模型中的大型模塊要麼被激活，要麼不被激活。這種稀疏性看起來像這樣，我們將幾個 Dean 的圖表合併到一頁上，這樣您就可以將其全部理解：

“當今大多數稀疏工作對每個專家都使用相同的大小和結構，”Dean說。“所以這裏有一些綠色專家爲他們服務。這裏有一些學習路由功能，可以了解哪個專家擅長哪種事情，然後將一些示例發送給適當的專家。計算平衡通常是通過每個專家的計算量相等以及每個專家的示例數量相等的流量來實現的。對於計算機架構師來說，這意味著跨加速器的全面混洗性能非常重要。對於所有稀疏模型來說都是如此——您希望能夠以正確的方式將事物從模型的一個部分快速路由到另一部分。”

“不過，您可能想做的一件事是，不是具有固定的計算成本，而是改變模型不同部分的計算成本。在每個示例上花費相同的計算量是沒有意義的，因爲有些示例的難度是原來的 100 倍。我們在真正困難的事情上花費的計算量應該是非常簡單的事情上的 100 倍。”Dean強調。

事實證明，一些小型專家可能只需要少量計算，並且可以用於生產中使用的模型中大約 90% 的提示。專家們爲了處理更復雜的事情而變得更大，具有不同的計算結構和可能更多的層，並且它們的計算量更大，因此運行成本更高。如果您正在運行人工智能服務，您將希望能夠將成本歸因於所提供的專家答案的價值，以便您可以適當收費。

提高效率和計算能力的途徑

當然，這不是谷歌的獨家理論——該公司之所以談論它是因爲 Pathways 框架這樣做：

這就是稀疏性和自適應計算。

Dean 說，上圖中提到的最後一件事是動態神經網絡，這意味著可以在正在運行的系統中添加或刪除容量——這是我們幾十年來通用服務器所擁有的（雖然不是在 X86 平台上，但奇怪的是，這就是 Arm 和 RISC-V 可能能夠趕上大型機和 RISC/Unix 系統的地方）。CPU 及其工作負載的情況（虛擬機管理程序級別肯定存在動態分配）對於 GPU、TPU 和其他 AI 計算引擎來說也是如此。您希望能夠在運行推理或訓練時動態地爲任何給定模型添加或減少核心池的容量。

來自 Google 的具有 5000 億個參數的 PaLM 模型在 Pathways 上進行了訓練，並通過在具有 6,144 個 TPUv4 引擎的一對 pod 之間動態分配資源來實現這一目標，但 TPUv4 引擎實際上分佈在總共 24,576 個引擎的 6 個 pod 中，所有這些都鏈接在一起通過高速數據中心網絡。像這樣：

以下是 Dean 希望給系統架構師留下深刻印象的關鍵要點：

加速器的連接性（帶寬和延遲）很重要
規模對於訓練和推理都很重要
稀疏模型給內存容量和高效路由帶來壓力
機器學習軟件必須能夠輕鬆表達有趣的模型 - 就像上圖中所示的函數稀疏性

功率、可持續性和可靠性確實很重要

Google Fellow以及工程副總裁Amin Vahdat在隨後的演講中展示了人工智能行業面臨的模型大小增長的指數曲線：

據觀察，我們絕對沒有理由相信模型的複雜性會因此而降低，計算能力的需求將會降低。但根據我們的估計，模型每年增長 10 倍，GPU 和 TPU 的性能最多每年增長 2 到 3 倍。公司必須通過擴展來彌補這一點，這很困難，並改進他們的模型，這也很困難。

這就是爲什麼谷歌已經在其機羣中部署了 TPUv5e 引擎。在我們看來，谷歌的 TPUv6 可能正在開發中並準備就緒很快就會部署，以幫助支持Gemini模型的商業化。

爲了使每 TCO 的性能提高 100 倍，Vahdat進行了一個深入的講座，介紹瞭如何衡量人工智能或通用計算平台的相對價值，在人工智能出現之前，我們一直同意這一點系統——谷歌必須做很多事情，當中包括：

創建專門的硬件 - TPU - 用於密集矩陣乘法。
使用 HBM 內存將這些矩陣數學引擎的內存帶寬提高 10 倍。
創建專門的硬件加速器，用於稀疏矩陣中的分散/聚集操作 - 我們現在稱之爲 Sparsecore，它嵌入在 TPUv4i、TPUv4 和可能的 TPUv5e 引擎中。
採用液體冷卻可最大限度地提高系統電源效率，從而提高經濟效益。
使用混合精度和專門的數字表示來提高設備的實際吞吐量（Vahdat 稱之爲“有效吞吐量”）。
並具有用於參數分配的同步、高帶寬互連，事實證明，這是一種光路開關，可以在系統上的作業發生變化時幾乎即時重新配置網絡，並且還提高了機器的容錯能力。對於一個擁有數萬個計算引擎且工作負載需要數月才能運行的系統來說，這是一件大事，世界各地的 HPC 中心都非常清楚這一點。

“我們爲應對這一挑戰而必須構建的計算基礎設施類型必須改變，”Vahdat在主題演講中說道。“我認爲，值得注意的是，如果我們試圖在通用計算上做到這一點，我們就不會達到今天的水平。換句話說，我們在過去 50 到 60 年間所形成的傳統智慧實際上已經被拋到了九霄雲外。我認爲可以公平地說，在谷歌，但更重要的是，在整個社區，機器學習週期將佔據我們想做的事情中越來越多的部分。”

谷歌專注於優化硬件和軟件以跨系統集羣動態管理工作負載和功耗的一件事：

對於受內存限製的部分，電壓和電流強度可能會有很大差異，正如 Vahdat 所說，試圖管理數千到數萬個計算引擎集羣的功耗是“介於困難和不可能之間的事情”。通過不在集羣中創建大量熱點（這可能發生在 Google 訓練 PaLM 模型時），可以延長設備的使用壽命並減少中斷，這對於 AI 訓練等同步工作非常具有破壞性，就像 HPC 模擬一樣和建模。與其回滾到檢查點並從那裏開始，不如從一開始就避免中斷。

以下是如何利用核心頻率和電壓來平衡一些事情。

當然，快速更新TPU芯片是谷歌工作最重要的一部分。

目前尚不清楚人工智能可以在多大程度上縮短芯片開發週期或可以減少多少人力，Dean也沒有提供任何估計。但顯然，硬件設計越接近新興人工智能模型就越好。

編輯/tolk

財經新聞常見問題 FAQ

甚麼因素會影響錢財的價值？

由於產品和服務的價格不斷上升，故幣值會隨時間而降低，這便是通貨膨脹。幣值會受以下因素侵蝕通脹：簡單來說，產品和服務的價格上升，就會造成通脹。當物價上升，受薪人士便會要求加薪，隨著通脹加劇，貨幣的購買力便不斷減弱。利率波動：當利率下降，存款的利息回報便會減少。如果存款利率低於通脹，儲蓄便會失去原有的價值。但某類投資如股票和債券等卻可能因息口下降而升值。

為何銀色債券以債務工具於中央結算系統(CMU) 作清算及儲存 ?

根據銀色債券發行通函，若客戶經配售銀行申請銀色債劵，所分配的銀色債券會以債務工具於中央結算系統(CMU)作清算。

甚麼是債券？

債券是由政府、公司或其他機構發行的一種借貸票據。當您購入債券，即等同向發行者提供貸款，發行者則承諾於債券到期日以指定價格贖回債券，而在到期日前則須支付指定的利息。債券的種類繁多，不同的發行者以不同的條款發行債券。例如：定息債券、浮息債券、零息債券及存款證等。一般來說，債券及存款證的回報比較穩定。目前，銀行可代客買賣多種債券和存款證，除備有多種主要貨幣選擇外，客戶亦可選擇不同債券發行機構，包括政府，如中國政府、美國政府及香港特區政府等，或本地著名的半官方機構，超國機構及世界知名的公司。此外，債券年期由一年至三十年不等，而票面收益亦各異，選擇眾多，能符合投資者的不同需要。投資金額低至港幣1萬元。

甚麼是證券？

證券是一般可在股票市場交易之投資工具的統稱。任何人士均可透過經紀或銀行從事證券投資，並可從每日的報章或互聯網觀察投資行情。證券投資的回報潛力一般高於儲蓄戶口。在經濟蓬勃的地區，只要假以時日，股市一般都會出現增長，有時更會在短時間內急升。但是，股市波動在所難免，所以購買證券不應視為一種短線的謀利方法。購買證券需要支付有關的交易費用，例如經紀佣金。如果要享有交收的便利，您可考慮採用銀行證券買賣服務。除了自行投資證券外，您亦可委託專業投資管理人員或公司代勞。

何謂「首次公開招股」(IPO)？

「首次公開招股」(IPO)是指一間公司首次向公眾投資者發行新股，債券或銀行發行的存款證。此類股票，債券或存款證有可能在證券交易所上市買賣。

為何我經銀行IPO申請獲分配的通脹掛鈎債券以債務工具於中央結算系統(CMU) 作清算及儲存？

根據通脹掛鈎債券發行通函，若客戶經配售銀行申請該債劵，所分配的債券會以債務工具中央結算系統(CMU)作清算，及在銀行的債券買賣服務透過場外交易買賣。

如何啓動我的中國A股交易服務？

如您已持有銀行綜合投資戶口及人民幣儲蓄戶口，即可買賣合資格的中國A股，毋須登記。如您未持有任何銀行綜合投資戶口，亦可透過銀行銀行網上理財（只適用於現有銀行銀行客戶）或親臨任何一間銀行分行開立綜合投資戶口，過程方便快捷。此服務只適用於非美國個人客戶並持有符合美國稅務局要求的身分證明文件，例如香港永久居民身份証或護照。

參加銀行的「股票月供投資計劃」有什麼好處？

您可以：以符合預算的金額購入股票透過「成本平均法」減低投資風險享受中長線投資所帶來的較高回報潛力迎合個人的儲蓄投資需要

甚麼是單位信託基金？我怎受惠於基金投資？

單位信託基金亦稱互惠基金為投資者提供多元化投資機會，方法是由基金經理把眾投資者的資金，匯聚成一筆龐大基金，用以在廣泛地區及市場作不同的投資。所以，即使個人的投資額不大，投資者亦可參予全球各地市場的證券、債券、貨幣及商品投資。這種多元化投資稱為投資組合。單位信託基金提供多項有利因素：分散風險：由於分散投資，故基金的風險通常低於投資單一股票。但不同的基金，其風險和回報的水平，當然亦會有差異。專業管理：基金經理的日常工作主要是研究和管理投資。個人投資者一般很難像基金經理對全球市場有透徹的認識，但如果購買單位信託基金，便可享有基金經理提供的專業知識。投資全球市場：透過單位信託基金，您的資金可運用於個人投資者未必能夠涉足的海外市場，從而擴闊投資範疇。經濟效益：由於大量投資者的資金以單一基金處理，故能平均攤銷經營成本和佣金，減低個人投資者支付的費用。流動性：您可在任何交易日（但基金所掛屬國家的公眾假期除外）買賣單位信託基金，增加資金流動性。有些單位信託基金產品與各證券交易所上市的指數期權掛屬，亦有時與貨幣期權掛屬。這種基金的風險略高於多元化的基金組合。

什麼是結構投資產品？它是如何運作的？

結構投資產品是涉及衍生工具的投資產品，其回報﹑到期金額及/或其結算方法是參照1) 任何一項或多於一項的參考資產的價格、價值或水平的變動; 及/或 2) 任何事件的發生或不發生而釐定。

有哪些資產屬於要約範圍內？

要約僅針對透過歐洲清算銀行有限公司(Euroclear Bank SA/NV) 直接持有的證券（即債券，存款證和股票），Euroclear Bank SA / NV是本行參與的唯一歐洲經濟區中央證券存管處（例如帶有ISIN 前置代號XS，US，AU，CA）。該要約與透過Euroclear的其他託管人或附屬託管人持有的證券無關。

當「高息投資存款」的存款日為提交指示之後第2個營業日，如何計算綜合理財戶口有抵押信貸的信貸比例？

若已於交易日(Trade Date) 開立「高息投資存款」並處於存款日(Deposit Date)之前的時間: 如以外幣作為存款貨幣，該筆已保留於戶口作為扣除交易所需的款項將會從戶口可用結餘 (account available balance) 中扣除並不會納入有抵押信貸的計算。因此有抵押信貸的信貸額將會下降，基於外幣存款在「高息投資存款」交易日之前被計算為有抵押信貸的信貸額。如以港元作為存款貨幣，該筆已保留於戶口作為扣除交易所需的款項將亦會從戶口可用結餘 (account available balance) 中扣除並不會納入有抵押信貸的計算。但基於港元存款在「高息投資存款」交易日之前已不納入為有抵押信貸的信貸額，因此有抵押信貸的信貸額不會受影響。在「高息投資存款」存款日(Deposit Date)當日(即交易日之後第2個營業日)，以任何貨幣作為存款貨幣的交易金額將會納入計算為有抵押信貸的信貸額，直至到期日為止。

如何經銀行投資外匯？

您可以經銀行透過多種方法投資外匯。您可使用24小時外幣兌換服務讓您隨時隨地透過網上理財或流動理財設立兌換指示。若您對個別外幣有特定的目標兌換價，您可透過外匯限價買賣服務預設指示。若您想以定期儲蓄的形式累積外幣或人民幣，您可透過外幣／人民幣轉存服務預設兌換指示，我們會根據您的預設指令自動替您執行指示。

要約僅針對透過歐洲清算銀行有限公司(Euroclear Bank SA/NV) 直接持有的證券（即債券，存款證和股票），Euroclear Bank SA / NV是本行參與的唯一歐洲經濟區中央證券存管處（例如帶有ISIN 前置代號XS，US，AU，CA）。該要約與透過Euroclear的其他託管人或附屬託管人持有的證券無關。

您首先需要了解個人的理財需要或投資目標、財政狀況及風險取向。您的目標可包括應付以下各項需要：保障家人子女教育退休策劃管理及累積財富遺產規劃您亦須考慮您的目標，投資年期，可承擔的投資金額及個人的投資偏好。

你們會於何時強制出售我的股票（斬倉？

如(i) 您的股票孖展比率連續3個月維持於105%至少於120%；或(ii) 股票孖展比率一旦觸及120%或以上；或(iii)我們不時訂定之時間，我們將強制出售您的股票（斬倉），不會另行通知。