智算中心GPU集群对互联带宽和延迟有极高要求,奥远光通800G光模块在某互联网公司千卡级H800集群中完成了实际部署,解决了GPU到GPU以及GPU到存储之间的带宽瓶颈。该集群采用三层胖树架构,接入层使用128台配备8块GPU的服务器,汇聚层和核心层采用支持32个1.6T端口的交换机。每个800G光模块在接入层以2×400G拆分模式工作,一个模块同时连接两台交换机的上行端口。
部署过程中遇到的首个问题是光纤布线密度
每台服务器需要4条800G链路连接到TOR交换机,64台服务器共计256条链路。如果使用单模光纤和双工LC接口,256条链路需要占用512芯光纤配线架,机柜侧面被尾纤完全占满。奥远光通800G光模块采用MPO-12接口配合多模光纤,一条12芯光缆承载两个800G通道,实际只占用12芯物理光纤就跑通了两条800G链路。最终256条链路只用了192芯光缆,布线空间缩减了六成。
第二个问题是模块散热和功耗
训练任务中GPU满载运行时,机柜进风温度达到32摄氏度。标准功耗16瓦的800G模块在此温度下壳温超过85度,触发模块内部过温保护,出现端口闪断。奥远光通提供的低功耗版800G光模块整机功耗控制在11瓦,在相同环境温度下壳温稳定在76度以内。实测连续运行720小时未出现因温度导致的端口掉线。第三个问题是链路误码率。H800集群内部GPU之间采用全互联通信模式,每完成一轮梯度同步需要经过多个交换节点。任何一个800G链路的误码率超过1e-6,整个训练任务就会因为数据重传而拖慢。
奥远光通800G模块采用低功耗定制DSP芯片,去掉了多余的长距纠错算法,保留了针对机柜内部50米以内短距链路的均衡滤波。在30米OM4多模光纤上,实测误码率达到2e-8,远优于集群要求的1e-6。从部署结果看,采用奥远光通低功耗800G模块后,该集群的单机架总算力密度从原来的56PFLOPS提升到112PFLOPS。每万卡GPU对应的光模块总功耗从160千瓦降低到110千瓦,仅电费和散热两项每年节省约180万元。模块故障率在连续三个月运行中保持在千分之二,低于同集群中其他品牌的千分之五。
奥远光通800G光模块在该智算中心完成了从实验室送样到规模化部署的完整验证,其低功耗特性和高密度接口设计直接解决了GPU集群互联中的温度控制和布线拥挤两个实际问题。后续该互联网公司计划在其新建的两个千卡集群中继续采用奥远光通的800G模块方案。

部署过程中遇到的首个问题是光纤布线密度
每台服务器需要4条800G链路连接到TOR交换机,64台服务器共计256条链路。如果使用单模光纤和双工LC接口,256条链路需要占用512芯光纤配线架,机柜侧面被尾纤完全占满。奥远光通800G光模块采用MPO-12接口配合多模光纤,一条12芯光缆承载两个800G通道,实际只占用12芯物理光纤就跑通了两条800G链路。最终256条链路只用了192芯光缆,布线空间缩减了六成。
第二个问题是模块散热和功耗
训练任务中GPU满载运行时,机柜进风温度达到32摄氏度。标准功耗16瓦的800G模块在此温度下壳温超过85度,触发模块内部过温保护,出现端口闪断。奥远光通提供的低功耗版800G光模块整机功耗控制在11瓦,在相同环境温度下壳温稳定在76度以内。实测连续运行720小时未出现因温度导致的端口掉线。第三个问题是链路误码率。H800集群内部GPU之间采用全互联通信模式,每完成一轮梯度同步需要经过多个交换节点。任何一个800G链路的误码率超过1e-6,整个训练任务就会因为数据重传而拖慢。
奥远光通800G模块采用低功耗定制DSP芯片,去掉了多余的长距纠错算法,保留了针对机柜内部50米以内短距链路的均衡滤波。在30米OM4多模光纤上,实测误码率达到2e-8,远优于集群要求的1e-6。从部署结果看,采用奥远光通低功耗800G模块后,该集群的单机架总算力密度从原来的56PFLOPS提升到112PFLOPS。每万卡GPU对应的光模块总功耗从160千瓦降低到110千瓦,仅电费和散热两项每年节省约180万元。模块故障率在连续三个月运行中保持在千分之二,低于同集群中其他品牌的千分之五。
奥远光通800G光模块在该智算中心完成了从实验室送样到规模化部署的完整验证,其低功耗特性和高密度接口设计直接解决了GPU集群互联中的温度控制和布线拥挤两个实际问题。后续该互联网公司计划在其新建的两个千卡集群中继续采用奥远光通的800G模块方案。













