,,

4000 多個芯片串聯而成谷歌稱其超級計算機比英偉達的更快更節能

2023-04-06 09:43:24 來源：迪族網

谷歌自主設計了一種名為張量處理單元(Tensor Processing Unit，簡稱 TPU)的芯片，用于訓練人工智能模型，該公司 90% 以上的人工智能訓練工作都使用這些芯片，這些模型可以用于諸如用人類語言回答問題或生成圖像等任務。

據IT之家了解，谷歌的 TPU 現在已經是第四代了。谷歌周二發表了一篇科學論文，詳細介紹了他們如何使用自己定制開發的光學開關將 4000 多個芯片串聯成一臺超級計算機。

改善這些連接已經成為建造人工智能超級計算機的公司之間競爭的關鍵點，因為為谷歌的 Bard 或 OpenAI 的 ChatGPT 等技術提供動力的所謂大型語言模型的規模已經爆炸性增長，這意味著它們太大，無法存儲在單個芯片上。

這些模型必須被分割到數以千計的芯片中，然后這些芯片必須協同工作數周或更長時間來訓練模型。谷歌的 PaLM 模型 —— 迄今為止其公開披露的最大的語言模型 —— 是通過將其分散到 4,000 個芯片的兩臺超級計算機上，歷時 50 天進行訓練的。

谷歌表示，其超級計算機可以輕松地實時重新配置芯片之間的連接，有助于避免問題并提高性能。

谷歌研究員 Norm Jouppi 和谷歌杰出工程師 David Patterson 在一篇關于該系統的博文中寫道：“電路切換使我們很容易繞過故障部件。這種靈活性甚至允許我們改變超級計算機互連的拓撲結構，以加速 ML(機器學習)模型的性能。”

雖然谷歌現在才公布其超級計算機的細節，但它已經于 2020 年在內部上線，在美國俄克拉荷馬州梅斯縣(Mayes County)的一個數據中心運行。谷歌表示，初創公司 Midjourney 使用了該系統來訓練其模型，該模型可以在輸入文字后生成圖像。

谷歌在論文中說，對于同等規模的系統，其超級計算機比基于 Nvidia A100 芯片的系統快 1.7 倍，節能 1.9 倍。谷歌表示，之所以沒有將其第四代產品與 Nvidia 目前的旗艦產品 H100 芯片進行比較，因為 H100 是在谷歌的芯片之后上市的，而且是用更新的技術制造的。谷歌暗示他們可能正在開發一種新的 TPU，與 Nvidia H100 競爭。

關鍵詞：谷歌計算機超級計算機英偉達計算機人工智能模型人工智能訓練