AI 45%
Musk’s xAI has 550,000 NVIDIA GPU accelerator cards, with a utilization rate of only 11%
马斯克的xAI坐拥55万张英伟达GPU加速卡 利用率仅11%
凤凰网科技
ifeng
Document Text
1,244 characters
快科技5月5日消息,坐拥约55万块英伟达GPU,实际算力利用率仅有11%,这一巨大反差让马斯克旗下 xAI 近期推向舆论风口浪尖,也引发业界对其算力利用效率的广泛质疑。<br>
据外媒《The Information》获取的xAI内部备忘录显示,xAI公司总裁迈克尔·尼科尔斯(Michael Nicolls)向团队坦言,目前公司模型浮点运算利用率(MFU)约为11%。<br>
这一数字背后的含义十分直观:理论上可输出100份训练算力的硬件,实际仅能产出11份,尼科尔斯在备忘录中直白评价其“低得尴尬”,并明确为团队设定了目标——未来几个月内将这一利用率拉升至50%。<br>
据悉,xAI目前拥有约55万颗NVIDIA GPU,涵盖H100和H200系列。尽管这些GPU比最新的Blackwell产品落后了一个世代,但如此庞大的硬件部署规模,仍给市场留下了深刻印象。<br>
需要指出的是,11%这个数字,并非指89%的GPU在完全闲置,而是衡量有效训练吞吐占硬件理论峰值算力比例的严苛指标。<br>
与行业基准相比,xAI的表现差距尤为明显。当前,生产级大模型训练的MFU通常维持在35%至45%之间,其中Meta和谷歌凭借长期积累的深厚软件堆栈,其GPU利用率分别可达约43%和46%;<br>
即便在以“低效”著称的GPT-3训练时期,MFU也能稳定在21%-26%之间。反观xAI的11%,不仅远低于当前行业主流水平,甚至不及AI算力发展史上的“古早”尴尬时期。<br>
值得一提的是,坐拥顶级算力却难以发挥价值, xAI 症结不在硬件,而在软件短板。<br>
据悉,xAI一直照搬英伟达标准部署方案,但软件堆栈、并行策略和模型工程优化,远远跟不上硬件激进扩张速度。<br>
具体来看,HBM显存读取速度远慢于计算芯片,导致芯片大量时间空转等待数据;网络拓扑中的任何一处瓶颈,在数万张卡的同步要求下,都会被急剧放大。<br>
此外,Lambda等机构分析指出,显存压力、过度的激活重计算和张量并行带来的跨GPU通信开销等,都是拖累MFU的系统性因素。<br>
值得注意的是,xAI 基建扩张堪称行业奇迹,其Colossus 超算仅 122天建成,GPU规模短时间内极速扩容,过快的硬件铺摊,也放大了软件优化滞后的致命短板。<br>
【本文结束】如需转载请务必注明出处:快科技<br>
责任编辑:秋白<br>
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。<br>
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”
Metadata
| Publisher | 凤凰网科技 |
| Site | ifeng |
| Date | N/A |
| CMS Category | 媒体报道 |
| Keywords | 算力 硬件 利用率 软件 理论 芯片 行业 备忘录 部署 规模 模型 比例 堆栈 指标 大量 公司 方案 策略 含义 业界 数据 团队 峰值 责任编辑 瓶颈 过度 系统性 科技 张卡 压力 因素 秋白 实际 马斯克 时间 风口浪尖 坦言 市场 评价 公司总裁 加速卡 基准 直观 利用效率 标准 工程 速度 舆论 深刻印象 水平 奇迹 数字 网络拓扑 目标 短时间 旗下 顶级 价值 短板 症结 |
Verification