GPU新品出现散热问题、大客户订单受影响,这些天的英伟达,简略并不好过。想要保住“算力霸主”的宝座,这家巨头亟需一剂良药。
日前有讯息称,英伟达将在本年3月的GTC大会上推出CPO交换机,若试产班师,则有望8月量产,届时CPO交换机可终了115.2T的信号传输。
媒体征引供应链揣摸称,“针对(CPO交换机)产能,英伟达相等焦躁。”
天然黄仁勋对外声称供货一切班师,但刻下GB200系列出货果真退却乐不雅。GB200 NVL72机柜研讨复杂,高性能计较带来了高功耗及高散热需求。零部件厂商示意,单机柜问题依然“简略科罚”,但多机柜贯穿问题“巨大”——机柜贯穿需要高达8万根铜线,散热、信号侵略等问题不绝浮现。
这不是骇东说念主闻见的夸大其词——散热和贯穿的巨大问题,依然影响到了英伟达那些顶级大客户的订单。
本周有另一报说念指出,微软、亚马逊、谷歌和Meta等公司依然选择推迟Blackwell订单、或径直“弃B(Blackwell)投H(Hopper)”。一方面,GB200的功耗“前所未有得高”,每个机柜功耗高达120-132千瓦,径直将传统冷却系统推向极限。另一方面,Blackwell机柜还出现贯穿故障,妨碍了热量分派,又进一步加重了热治理问题。
散热互连问题紧追不舍,英伟达拿什么科罚?芯片级优化,更先进的冷却决策,照旧绝对创新机柜?
这一次,光通讯简略成为现阶段的最好技巧解药,英伟达将见地投向了CPO。
7年千倍成漫空间与172%CAGR
为什么是CPO?
CPO全称为Co-Packaged Optics,中语译为光电共封装,是一种新式光电子集成技巧。通过进一步镌汰光信号输入和运算单元之间的电学互连长度,CPO在提高光模块和ASIC芯片之间互连密度的同期,终明晰更低功耗,已成为科罚过去数据运算处理中海量数据高速传输问题的顾惜技巧道路。
在2023年2月发表的一篇计划论文中,英伟达计划东说念主员曾直言,“当今,跟着CPO面世,咱们正处于新一场紧要变革的角落。在CPO架构中,光学器件将和ASIC封装在一齐,以降固执耗、终了更高带宽。天然十年前CPO就已开启系统部署,但最近的一系列计划演示以及关系居品诠释齐标明,过去几年,CPO将得到市集雷同接收。”
摩根士丹利在最新发布的AI供应链产业报告中指出,CPO具备AI数据中心的传输后劲,预估2023年至2030年期间,其市集限制将从800万好意思元激增至93亿好意思元——7年千倍的成漫空间,年复合成长率高达172%。
此前有讯息称,英伟达筹划从2025年下半年推出的GB300芯片初始接收CPO,Rubin平台(Blackwell下一代平台)也将接收该技巧,旨在碎裂刻下NVLink 72互连(最多可贯穿72个GB200芯片)的截止,提高通讯质料。
大摩的报告则指出,英伟达的Rubin平台偏激NVL奇迹器机柜系统,在导入CPO的能见度更高,且每系统中的内含价值更高,预估2027年占公共CPO需求的75%。
与巨头同业
不论何如,CPO这条路,英伟达也许是选对了,从AMD、想科、IBM到英特尔,齐是同业者。
举例1月6日,好意思国芯片大厂Marvell(填塞电子)晓示,公司在定制AI加快器架构上获取碎裂,整合了CPO技巧,大幅提高奇迹器性能。这种新架构能让AI奇迹器才略终了拓展,从刻下使用铜互连的单个机架内的数十个XPU,拓展到横跨多个机架的数百个XPU。通过这一架构,超大云奇迹商将能拓荒定制XPU,终了更高的带宽密度,并在单个AI奇迹器内提供更长距离的XPU到XPU贯穿,同期具有最好延迟和功率着力。
2024年末IBM晓示终了一项紧要CPO技巧碎裂,不错以“光速”磨练AI模子,同期省俭多数动力。凭证IBM论断,这项CPO技巧不错将圭臬大模子的磨练时候从3个月镌汰至3周;何况,与中端电气贯穿比拟,能耗凭空了5倍多,数据中心互连电缆的长度不错从1米延长至数百米,大幅凭空拓展生成式AI的老本。
除此除外,英特尔、AMD、想科等均有在比年OFC展上推出CPO原型机。
还有多远?
站在当下节点,CPO这根“稻草”能救得了英伟达吗?
简略还需要恭候。
在1月16日的投资者会议上,算作英伟达CPO配联合伴台积电的董事长,魏哲家示意,天然CPO依然有初步收尾(Good Result),但想要达到量产阶段仍需要1年致使1年半以上时候。
另有媒体征引分析师表述称,CPO流程将影响英伟达Rubin系列的量产流程。供应链清晰,刻下“量产确乎有难度,尤其是在建树部分仍稀零吃紧,另外良率也有待提高”。
值得一提的是,1月16日,针对GB200奇迹器散热问题,黄仁勋示意,Blackwell平台散热技巧相对复杂,不外Blackwell系统已初始全面量产,初期面临的挑战对比系统的复杂度,是很正常的,Blackwell系统已初始销售给公共客户。