光子技术在数据中心加速AI中作用渐显,市场需求转变驱动发展

   日期:2025-06-06     来源:网络整理    作者:佚名    浏览:182    
核心提示:光子技术(Photonics)在数据中心加速 AI 方面发挥着越来越重要的作用。数据显示,全球光学元件市场去年规模达到 170 亿美元。从市场历史来看

光子技术在数据中心领域对人工智能加速应用的作用日益凸显,其重要性正日益增强。

研究数据显示,去年全球光学元件的总体市场规模已攀升至170亿美元。回顾市场发展历程,我们发现电信领域,包括海底电缆及光纤入户等业务,长期占据市场需求的中心地位。但近期,随着AI技术的推动,数据中心的发展势头迅猛,数据通信领域的市场份额正在逐渐超越传统电信,其占比现已超过60%。

市场需求的转变促使光学技术迅猛进步。为了适应人工智能集群持续增长的规模与效能,光速传输正急剧提升,同时对数据中心未来网络的发展产生了深远影响。

_光子霸主长什么样_霸光电子有限公司

图一:光学元件市场历史和预测。

摩根大通的市场研究揭示了当前光学元件市场的格局,其中Coherent和Innolight并列成为最大的供应商,它们各自占据了20%的市场份额。Broadcom紧随其后,其市场份额大约为10%。此外,还有众多市场份额相对较小的供应商在市场竞争中占有一席之地,这些供应商的参与共同促成了光学生态系统的今日繁荣。

大模型驱动数据中心网络高速增长

大型语言模型(LLM)正促使人工智能的工作负载以指数形式迅速扩张。

大模型技术的不断升级,加之生成式AI的广泛应用,使得大模型的持续训练和智能体产生的海量推理需求日益凸显,这都需要一个高性能的AI集群来提供支持。同时,随着数据处理需求的不断增加,也迫切需要大量的内存和存储资源。

因此,确保数据传输与资源分配的高效性对于AI应用的实现至关重要,这要求众多GPU需进行协同作业,而GPU间的互联网络相较于传统网络,提出了更为严苛的标准。目前,互联需求增长的速度已经超越了XPU的数量,亟需寻求具备高带宽和低延迟特性的网络解决方案。

Broadcom公司持观点,数据中心网络成本正逐渐上升,目前资本支出占比已从5%至10%的范围,预计到2030年将增至15%至20%。

光子霸主长什么样__霸光电子有限公司

图二:AI集群规模呈现爆炸性增长趋势

目前,不论是云计算提供商还是人工智能领域的领军企业,它们的AI集群都在不断壮大,网络负荷也在不断攀升。以Oracle云基础设施(OCI)为例,其正在实施一个由131000个Nvidia Blackwell GPU组成的集群,这些GPU通过NVlink72技术相互连接。

_霸光电子有限公司_光子霸主长什么样

光子霸主长什么样__霸光电子有限公司

图三:OCI AI超级集群

横向扩展与纵向扩展网络

目前,单纯依赖传统的网络解决方案,已不足以满足AI集群对于高性能的迫切需求,甚至可能引发延迟问题以及带宽限制,从而严重制约了AI集群的运行效率。

传统的电气连接方式有一个核心缺陷,即距离限制。在较远的距离传输时,信号会显著减弱。此外,在100G乃至即将普及的200G速率的连接中,单个机箱的容量也成为了瓶颈。当连接需求超出单个机箱的承载能力,扩展至跨机架乃至多机架的规模时,便迫切需要引入可插拔的光学连接技术。

在当下,光学互联网络对于AI集群的性能展现具有极其重要的地位。这一网络直接关联着模型的处理速度、运作效率、扩展潜力,还有其应对动态需求以及满足用户需求的实际能力。

在 AI 数据中心中,基于光学的网络互联主要有两种类型:

光子霸主长什么样__霸光电子有限公司

图四: 数据中心光学元件

尽管横向拓展网络已转向光学领域,然而,针对纵向拓展网络的光学技术还在一个转变过程中,尚未实现全面完善。

横向扩展网络的光学进展

光子学构成了横向扩展架构的基石。目前,可插拔的光收发器能够在网络接口卡与交换机之间实现长达数十米的远距离数据传输。然而,随着数据传输速率的提升,这些技术解决方案正遭遇日益显著的能耗与性能瓶颈。

Oracle的131K-GPU架构在横向扩展网络的三个层级均采用了光缆连接。不过,常规的可插拔式光学组件在功耗方面存在较大问题。

光子霸主长什么样_霸光电子有限公司_

图五:Oracle 光学集群网络结构

光子霸主长什么样_霸光电子有限公司_

图六:功耗和 TCO 仍是核心关注点

随着横向扩展网络的数据传输速度不断提升,以适应大型语言模型对数据吞吐量的需求增长,网络所需的功率已开始超越加速器机架的承载能力。据Nvidia公司透露,若将可插拔光学器件替换为共封装光学器件(CPO),光学器件的功率可以显著降低,从30W降至9W,从而实现1.6Tbps的链路速度。

在 GTC25 大会上,Nvidia 率先发布了具备 CPO 技术的横向扩展型交换机。该交换机具备节能特性,能够支持更高的 GPU 密度,即在相同的数据中心电力消耗条件下,GPU 的数量可以增加至最多三倍。

_光子霸主长什么样_霸光电子有限公司

图七:使用 Spectrum-X 光学节省 3.5 倍功耗

可靠性成为从铜缆过渡至光学元件,进而发展到 CPO 的核心考量。AI 数据中心的数据量庞大,且增速迅猛,堪比 iPhone 的普及速度。根据统计数据,其产量与可靠性需达到极高的标准。谷歌平台的光学部门负责人指出,尽管每天 0.004% 的连接故障率看似理想,但对于拥有 1M 个连接的数据中心而言,这相当于每天有 40 个连接出现故障。光学解决方案的设计必须保证极低的故障率,需在极为严格的条件下进行测试,同时样品数量极为庞大,从而确保生产过程的顺利进行。

在纵向扩展网络中实现 CPO 的途径

目前,纵向扩展的互连技术主要依赖铜缆。Nvidia的Blackwell架构采用了全铜的NVlink72解决方案,这一技术可以在电路板、交换机和机架背板上观察到大量的铜线布局。信号的频率已经极高,以至于铜线直接与GPU相连,从而跳过了传统的PCB走线方式。

霸光电子有限公司__光子霸主长什么样

霸光电子有限公司_光子霸主长什么样_

图八展示了Nvidia的路线图已扩展至NVlink 576版本,尽管目前仍采用铜缆技术,但随着数据速率的持续提升以及信号完整性的挑战,最终将不得不寻求光学解决方案以应对这些问题。

然而,铜材的局限问题日益凸显。尽管Nvidia的规划已延伸至NVlink 576,继续采用铜缆,但随着数据传输速率的持续提升以及信号完整性的挑战,最终将不得不寻求光学技术的解决方案。

微软对未来的AI加速器提出了CPO的具体需求。他们期望通过采用具备可调接口的单个物理层,来替代现有的接口设计。

光子霸主长什么样__霸光电子有限公司

图九展示了:在新的互连场景中,我们迫切需要一种具备更高延迟容忍度和更强可靠性的统一接口。

光子霸主长什么样__霸光电子有限公司

新的统一接口必须兼具优势——它所融合的规范是传统接口中的佼佼者。这一特性使得CPO的挑战性有所提升,同时也扩大了市场范围。

_光子霸主长什么样_霸光电子有限公司

图十: 新统一接口需要比它所取代的传统接口更好。

英伟达还明确提出了自己在CPO与AI加速器融合方面的具体需求:

_光子霸主长什么样_霸光电子有限公司

图十一: Nvidia 的 CPO 要求

这些要求虽然颇具挑战性,但仍然可以实现。据 Needham & Company 提出,在 Scale-Up 网络架构中,CPO 技术的首次应用将出现在单个 GPU 域内的机架之间,而机架内部的连接则暂时维持使用铜质材料。

目前,多数数据中心所使用的AI芯片均由台积电负责生产。此外,台积电在AI相关技术的研发道路上扮演着核心角色,深度介入了整个技术发展路径。今年四月,台积电对外公布了涵盖共封装光学器件在内的技术发展蓝图,显示出其正积极为市场爆发期做足准备。

市场前景分析

光子技术的迅猛进步,正为庞大的AI集群提供更为灵活、高效的通信网络,以此突破互联带宽的局限,突破传统网络的束缚。这满足了生成式AI的特定需求,对促进AI领域的未来创新具有不可忽视的重要作用。

Scale-Up 网络向 CPO 的转变预计将在未来数年内启动,并在 2030 年代全面超越可插拔光学设备。届时,CPO 市场规模将从当前的停滞不前发展到高达 50 亿美元。Broadcom、Marvell、Ayar Labs、Celestial AI 以及 Lightmatter 等公司作为行业先驱,Coherent 等激光器供应商亦将从中获益。

霸光电子有限公司__光子霸主长什么样

图十二:CPO 光学器件将2027-2030 年快速增长

光子学的作用已不仅限于支撑人工智能的发展。它正逐渐演变为人工智能迅猛发展的关键要素。预计到2030年代中期,所有网络连接都将采用光学技术,并且这些连接都将基于CPO技术。

 
打赏
 
更多>同类资讯

推荐热播视讯

推荐视频

    Copyright © 2017-2021  二手钢结构网  版权所有  
    Powered By DESTOON 鄂ICP备2025106939号-1