媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

谷歌TPU与英伟达GPU的“算力对决”:前工程师深度剖析未来格局

2026-03-25来源:快讯编辑:瑞雪

在人工智能算力竞争愈发激烈的当下,英伟达凭借GPU在市场中占据主导地位,然而如今其地位正受到挑战。近期,苹果披露其Apple Intelligence全部由TPU训练;Anthropic签下数十亿美元订单采购TPU训练Claude;meta也与谷歌签署数十亿美元协议租用TPU运行Llama。这一系列动态表明,谷歌的TPU正逐渐在市场中崭露头角。

TPU作为谷歌的“秘密武器”,在过去十年驱动着谷歌几乎所有核心产品。直到TPU训练的Gemini 3取得出色成果,人们才开始重新审视这款从搜索推荐系统中诞生的定制芯片。前谷歌TPU工程师Henry深度参与了三代TPU的研发,见证了大模型时代TPU的关键转型。他从硬件架构、软件生态、生产供应链博弈三个维度,揭开了TPU的神秘面纱。

TPU与GPU在设计哲学上截然不同。Henry用“流水线”与“大厨们”来比喻两者架构差异:GPU起源于图形处理,采用SIMT架构,如同厨房里众多独立思考的大厨并行处理多种任务;而TPU是专为机器学习矩阵计算定制的加速器,通过芯片间互联构建3D Torus网络,让数千张芯片协同工作,如同一张芯片,减少了调度和调控,提高了计算单元使用率。

在大规模部署场景中,TPU展现出独特优势。Henry表示,在软硬件深度协同下,TPU能对整颗TPU Pod进行全局算子融合与内存管理优化,将硬件性能“榨干”到极致,实现比GPU更低的推理成本。例如,谷歌的Ironwood芯片在物理参数上接近英伟达的GB200,在训练Gemini模型时,若谷歌为其他大模型公司定制,性价比(TCO)可能更高。因为TPU可根据已知任务负载进行物理芯片和软件层面的定制,保证每个计算单元都有任务,提高利用率。

然而,TPU也存在明显短板。在软件生态方面,尽管TPU已向外部客户开放,但其编译工具XLA仍是一个“黑盒”,外部团队难以独立完成调优。开发者使用TPU时,上层可选用PyTorch、JAX和TensorFlow等语言,XLA将其转化为TPU指令,但外部开发者很难独立处理或修补bug,需依赖谷歌工程师或其专门对接外部客户的软件组。

产能方面,TPU面临诸多挑战。HBM(高带宽内存)生产被SK hynix、三星和Micron三家公司垄断,英伟达是HBM最大客户,TPU作为次要客户,此前难以获得优质订单。同时,CoWoS是台积电的核心产能,TPU的HBM内存芯片和计算芯片需通过2.5D stacking封装成集成芯片,此过程谷歌和博通都无法完成,只能依赖台积电。良率也是问题,TPU主打芯片间通信,失败率高于GPU,且作为定制芯片,良率不佳则芯片报废,而GPU可降级使用。

在定制芯片领域,TPU需提前预测模型走向。以MoE(混合专家模型)为例,此前在TPU和GPU上运行效果不佳,直到TPU V4推出3D torus架构和OCS(光交换机),通过软件更改通信路径,解决了MoE的痛点。但芯片设计流程漫长,从设计到量产最快需两年到两年半、三年,而模型每6个月就变化一次,TPU需在两年前预测模型方向。虽然目前V7押对了方向,但未来若模型范式变化,TPU的先发优势可能被蚕食。

供应链方面,博通在TPU生产中扮演关键角色。博通负责TPU的通信ICI设计,将芯片物理连接并布局拓扑网络。谷歌与博通的合作可争取到更好的CoWoS和HBM产能,但博通议价权逐渐增大,对谷歌成本控制不利。同时,HBM产能被英伟达垄断,未来几年HBM可能决定芯片训练效率上限。

回顾TPU的发展历程,其最初是针对内部CNN大模型的加速器,第一代仅为推理芯片。Jeff Dean和图灵奖获得者David Patterson深度参与了第一代架构设计。第二代成为旗舰训练模型,用于AlphaGo、PaLM等训练。此后,针对推荐和排序算法加入Sparse Core,V5、V6进入大模型时代,针对Transformer进行优化并推出推理版本。

英伟达收购的Groq公司也值得关注。Groq踩准了推理、ASIC和Agent元年三个时间点,其芯片主做推理,针对低延迟场景,是编译器的公司而非芯片公司。创始人Jonathan Ross曾是TPU编译器团队成员,将TPU编译器经验带到Groq。Groq的LPU通过编译器精准确定每个计算单元任务,确定性高,适合Agent、实时语音和高频交易等对延迟要求高的场景。

随着人工智能发展,推理芯片市场将分层并分应用场景。谷歌和TPU将占据大规模部署的高层市场,中间和下层市场将有更多参与者。未来,TPU和GPU将并存,形成定制与通用、垂类场景相结合的健康生态,为用户带来成本降低后的无限可能。

腾科领航:533名湾区师生齐聚华为大会,共绘数智人才新蓝图
大会通过主题论坛、专业展区等环节,精准解读数字经济发展趋势与产业人才刚需,腾科组织师生全程参与核心议程,让学子跳出课本理论,直面行业最新动态,快速拓宽专业视野、明晰职业发展路径。 未来,愿所有学子以此次盛会为…

2026-03-25

国家互联网应急中心等联合发布指南 助力各群体安全使用OpenClaw
为帮助用户安全使用OpenClaw,国家互联网应急中心、中国网络空间安全协会3月22日联合发布OpenClaw安全使用实践指南,面向普通用户、企业用户、云服务商以及技术开发者等,提出安全防护建议。 其中,对于…

2026-03-25

智能学习机怎么选?科大讯飞S30 Turbo等五款热门产品全方位对比测评
强大的AI功能:通过语音识别,学生可以与学习机进行互动,提升学习兴趣。总结通过对比这些学习机,我们发现科大讯飞S30 Turbo在功能和性能上具备明显优势,尤其是在AI智能点读和课程同步方面,能够更好地满…

2026-03-25

2025年春“萝卜快线”上线 十城联动开启无人驾驶文旅出行新篇章
“萝卜快线”不仅仅是一个出行工具,它是一个跨越城市与景区的智能交通网络,结合了无人驾驶技术与当地的热门景点,打造了超过20条主题线路,涵盖亲子游、历史文化等多样化需求。萝卜快线的推出,恰恰为这一问题提供了完…

2026-03-25