102.4 Tb/s的交換機芯片，博通重磅發佈 - asiasworldcity.hk

本文内容：

如果您希望可以時常見面，歡迎標星收藏哦~來源：內容編譯自 nextplatform 。儘管隨着以太網路線圖上的每一次減速，更扁平的網絡和更快的網絡都是可能的，但網絡規模仍然保持着足夠快的增長速度，以至於交換機 ASIC 製造商和交換機制造商能夠通過產量來彌補這一不足，並保持交換機業務的增長。隨着 GenAI 的爆發式增長，所有大型 AI 廠商都一致希望擺脫英偉達控制的專有 InfiniBand 技術，將 InfiniBand 的所有功能移植到全新升級的以太網上，使其能夠進一步擴展，並在更扁平的網絡中實現擴展，從而創建規模更大的 AI 集羣。超級以太網聯盟 (UltraEthernet Consortium) 的宏偉目標是實現 100 萬個 GPU 端點，而要實現這一目標，需要容量更大的交換機 ASIC。如今，商用芯片市場的行業領導者博通 (Broadcom) 在以太網領域面臨着來自思科系統和 Nvidia 的激烈競爭，該公司正在向市場推出其“Tomahawk 6” StrataXGS 以太網交換機 ASIC，該市場將以 102.4 Tb/秒 ASIC 爲主導，並展望 204.8 Tb/秒和 409.6 Tb/秒的 Tomahawk 7 和 Tomahawk 8 芯片，所有大型人工智能公司無疑都在博通的發展路線圖上看到了這些芯片。他們可能也在熱切期待共封裝光學器件的推出，以降低成本並擴大未來龐大網絡的主幹網的覆蓋範圍。這一切與企業市場形成了鮮明對比。過去十五年，企業市場後端和前端網絡從 10 Gb/秒以太網向 100 Gb/秒以太網的遷移進展緩慢。然而，許多人希望將人工智能限制在企業內部，以及從現有系統中提取數據以驅動人工智能的壓力，可能會導致企業加速採用比歷史趨勢更快的以太網，而且速度前所未有。人工智能後端可能會推動企業前端採用 100 Gb/秒、200 Gb/秒甚至 400 Gb/秒以太網，速度遠超以往。好消息是，由於其巨大的聚合帶寬，博通的Tomahawk 6 ASIC芯片在實現200 Gb/秒或400 Gb/秒端口方面從未有過比它更便宜的方法。思科Silicon One、英偉達Spectrum-X將緊隨其後，Marvell Teralynx、Xsight Labs X3和X4，以及華爲CloudEngine ASIC芯片也將迎頭趕上——而且幾乎是按照這個順序——但本週，博通似乎將率先推出104.2 Tb/秒的設備。華爲將面臨尤其嚴峻的挑戰，因爲美國對交換ASIC（專用集成電路）實施了出口管制，就像對英偉達和AMD的GPU加速器一樣。此外，鑑於網絡對人工智能系統的重要性，沒有理由相信大容量以太網ASIC會獲得例外。自2020年以來，華爲海思芯片部門一直被限制使用中國本土代工廠中芯國際，該公司目前工藝製程停留在7納米，但正在努力向5納米及更低工藝邁進。博通將擁有相當明顯的先發優勢，這完全是由經濟因素驅動的，而經濟因素又由技術驅動。或許，將Tomahawk 6與其前代產品Tomahawk 5進行比較會有所幫助。Tomahawk 5 芯片於 2022 年 8 月推出，是單片 Tomahawk 芯片設計的最後一款產品，值得注意的是，它是在 2022 年 11 月 GenAI 熱潮開始之前創建並向世界展示的。博通 Trident 和 Tomahawk 交換機產品線經理 Peter Del Vecchio 向The Next Platform表示，AI 訓練和推理應用（不僅僅是訓練）對帶寬、低延遲和高基數的需求推動了 Tomahawk 6 的設計。但整個以太網市場的實用性也推動了這一設計，因爲不同細分市場的發展速度不同。Tomahawk 5 芯片是唯一一款能夠提供 51.2 Tb/秒總帶寬的單片芯片；其他所有芯片都使用了 chiplet 技術，即將多箇信令 SerDes chiplet 包裹在單片數據包處理引擎周圍。博通儘可能地降低網絡引擎的發熱量和直通延遲，但可能也因此在芯片良率上付出了一些代價。Tomahawk 5 採用臺積電 5 納米工藝蝕刻而成，集成了 512 個 SerDes，每個 SerDes 在去除編碼開銷後可提供一箇以 100 Gb/秒速度運行的通道。準確地說，該芯片的原生信令速率爲 50 Gb/秒，然後對信號使用 PAM4 調製，爲每個信號雙泵兩位數據，從而實現 100 Gb/秒的有效數據速率。基於Tomahawk 5的交換機可以正式實現64個800Gb/秒端口、128個400Gb/秒端口、256個200Gb/秒端口。在Tomahawk 5發佈時，我們認爲擁有512個以100 Gb/秒運行的端口——這確實是一箇非常高的基數，從而可以用相當少的主幹交換機構建非常扁平的網絡——是一箇有趣的概念。我們不確定是否有人真正實現了這一點……無論如何，Tomahawk 5 以不到 1 瓦的功耗實現了 100 Gb/秒的信令傳輸，幷包含認知路由功能，有助於加速 AI 工作負載。重要的是，Tomahawk 5 中的 SerDes 旨在驅動長達 4 米的有源銅纜鏈路，以及可插拔光學器件和 Tomahawk 5“Bailly”版本中使用的同封裝光學器件，這些器件已在美國和中國的多家超大規模數據中心和雲服務提供商處進行了測試。或許更重要的是，正如博通和其他所有交換機芯片製造商之前的交換機ASIC一樣，每當設備的總帶寬翻倍時，一箇單芯片的交換機設備就能完成六顆芯片以一半帶寬運行的工作，提供相同數量、相同速度的端口。（你基本上是在設備內部創建一箇小型的葉子/旋轉網絡，從而在交換機盒內創建一箇無阻塞網絡。）這種縮減顯然會大幅降低每個端口的成本，即使單個N代ASIC的成本遠高於N-1代。這個等式——N ASIC = 4 * (N-1) leaf 加 2 * (N-1) spine——是網絡架構中每一代 ASIC 的綜合容量翻倍的魔力所在，同時還能降低複雜性和成本。這個等式也是爲什麼超大規模用戶和雲構建者現在就想要 Tomahawk 7，因爲它還要兩年纔會發佈，並且他們也對四年後可能發佈的 Tomahawk 8 翹首以盼，他們也希望現在就能擁有它。博通的演示文稿稱Tomahawk 6芯片採用3納米工藝，這意味着它採用了臺積電的N3工藝。令我們有些驚訝的是，數據包處理引擎和環繞它的SerDes都採用3納米工藝蝕刻而成。我們原本猜測中央數據包處理引擎採用臺積電N4（4納米）或N3（3納米）工藝蝕刻，但信令SerDes則採用先進的N5（5納米）或N4工藝蝕刻。縮小I/O芯片的難度比縮小計算芯片的難度更大，這對於交換機ASIC和在芯片組設計中將I/O單獨拆分的CPU來說都是如此。我們想確認SerDes和數據包處理芯片組均採用N3工藝蝕刻。Tomahawk 6 有兩種版本，如上圖右側所示。一種版本擁有 512 個 SerDes（四個芯片組，每個芯片組包含 128 個 SerDes），原生 100 Gb/秒信令，採用 PAM4 調製，每條通道有效信令速率達 200 Gb/秒。如果將其中八個通道組合成一箇端口，則可以獲得 64 個端口，運行速度達 1.6 Tb/秒。Tomahawk 6 的另一組 SerDes 以之前每通道 100 Gb/秒的信號速率運行——也就是 50 Gb/秒加上像 Tomahawk 5 SerDes 那樣的 PAM4 調製——併爲 Tomahawk 6 數據包處理引擎提供高達 1,024 個通道。每個端口 8 個通道，總共 128 個通道以 800 Gb/秒的速率運行，是 Tomahawk 5 在相同速度下單個 ASIC 所能驅動的端口數量的兩倍。如果要使用 Tomahawk 5 驅動 128 個以 800 Gb/秒運行的端口，則需要在交換機內部的小型葉/脊結構中使用 6 個芯片，並且需要在交換機內部添加額外的跳數，而不是在單個 Tomahawk 6 ASIC 上添加一箇。“我們認識的每一個人——原始設備製造商 (OEM)、原始設計製造商 (ODM)、超大規模廠商和雲構建商——都面臨着巨大的壓力，要求我們將 Tomahawk 6 推向市場，”Del Vecchio 說道。“他們都告訴我們，他們絕對必須率先推出基於 Tomahawk 6 的 GPU 集羣。所以，目前我們正在進行大量的工程工作。我們會看到標準的披薩盒外形，人們不久前就不再使用底盤，而是使用披薩盒連接 DAC 線纜和光纖。但我們現在也看到，隨着 Tomahawk 6 的推出，人們正努力讓這些 AI 集羣儘可能高效、密集，而 Tomahawk 6 不僅在橫向擴展網絡中得到應用，也在縱向擴展網絡中得到應用。”我們將單獨深入研究基於 Broadcom 以太網的擴展網絡，但可以說，使用 200 Gb/秒的鏈路，Broadcom 表示它可以使用 Tomahawk 6 將 512 個 XPU 鏈接到單個共享內存映像中。橫向擴展的故事看起來類似於給定端口數量的交換機內部的擴展，正如您可能想象的那樣：圖顯示的是 128,000 個 XPU，但橫向擴展集羣中實際有 131,072 個 XPU。以下是用於連接這麼多 XPU 的兩層 Tomahawk 6 網絡的結構，以及任何 51.2 Tb/秒以太網 ASIC（包括 Tomahawk 5）都需要一箇三層網絡來連接相同的 131,072 個 GPU，所有設備之間都使用 200 Gb/秒的端口：Del Vecchio 表示，這是一箇每個端點配備一條 200 Gb/秒鏈路的示例，爲了獲得更高的帶寬，集羣通常會增加平面數量。因此，例如，如果您希望一箇端點的總帶寬爲 800 Gb/秒，則需要將每層交換機的數量乘以 4；如果您希望達到 1.6 Tb/秒（類似於 Nvidia 使用 NVLink 5 端口實現的速度），則需要乘以 8。如您所見，三層網絡中的交換機數量比兩層網絡高得多，是後者的3.3倍，這還只是純粹的成本。或許更重要的是，在超級主幹層和主幹層中使用的光收發器數量，在交換容量僅爲51.2 Tb/秒的舊式ASIC中，要高出1.7倍。Del Vecchio表示，這些光器件消耗了整個網絡約70%的電力。電力就是金錢，光器件數量越多，發生故障並導致人工智能處理停止的可能性就越高。因此，使用N代ASIC的兩層網絡的電力消耗大約是基於N-1代ASIC的三層網絡的一半。由此可見，超大規模計算平臺和雲構建商爲何希望儘快在其最先進的 AI 集羣中推出 Tomahawk 6，這些集羣的 GPU 數量已達到 10 萬甚至更多。Del Vecchio 表示，OEM 廠商可能會在 2026 年第一季度準備好產品，並在 2026 年第二季度完成部署，但所有廠商都在儘可能加快速度。https://www.nextplatform.com/2025/06/03/the-ai-datacenter-is-ravenous-for-102-4-tb-sec-ethernet/半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅爲了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4055期內容，歡迎關注。『半導體第一垂直媒體』實時專業原創深度公衆號ID：icbank喜歡我們的內容就點“在看”分享給小夥伴哦

(本文内容不代表本站观点。)
---------------------------------