谷歌发布第七代AI芯片TPU Ironwood:专为推理设计,算力提升10倍至4614 TFLOPs

发布时间:2025-04-10 阅读量:1248 来源: 综合自网络 发布人: wenwei

【导读】当地时间4月9日,谷歌在美国“Google Cloud Next 25”大会上正式推出第七代TPU芯片Ironwood,这是其首款专为AI推理任务设计的处理器。Ironwood单芯片峰值算力达4,614 TFLOPs,较前代Trillium提升10倍,并首次支持FP8计算格式以优化推理效率。其HBM容量增至192GB(Trillium的6倍),带宽提升至7.2Tbps,结合芯片间互连(ICI)带宽翻倍至1.2Tbps,大幅减少数据传输瓶颈。此外,Ironwood能效比达到Trillium的2倍,支持液冷方案,可扩展至单Pod 9,216颗芯片,总运算能力达42.5 Exaflops,为当前最强超算的24倍,适用于超大规模LLM和MoE模型训练与推理。


据介绍,Ironwood是谷歌首款在其张量核和矩阵数学单元中支持 FP8 计算的 TPU,此前谷歌的 TPU 仅支持用于推理的 INT8 格式和处理以及用于训练的 BF16 格式和处理。Ironwood 芯片还拥有第三代 SparseCore 加速器,该加速器首次在 TPU v5p 中首次亮相,并在去年的 Trillium 芯片中得到了增强。SparseCore 芯片最初旨在加速推荐模型,这些模型利用嵌入来跨用户类别进行推荐。Ironwood 芯片中的第三代 SparseCore 编码了各种算法,以加速金融和科学计算,但具体细节未透露。


Ironwood还大幅增加高频宽內存(HBM)容量,每颗芯片的HBM容量提高到了192GB,达到了Trillium的6倍,可处理更大型的模型和数据集运算,减少频繁的数据传输需求,提升整体性能。同时,HBM带宽也大幅提升,Ironwood单颗芯片的内存带宽可达7.2Tbps,是Trillium的4.5倍。如此高速的带宽可确保数据快速存取。


谷歌还强化了Ironwood芯片间互连(Inter-Chip Interconnect,ICI)带宽,双向传输提高至1.2Tbps,是Trillium的1.5倍,如此一来加速芯片间的通信,提升大型分布式训练和推理的效率。


17.jpg

Ironword 封装包括计算芯片上方的中央小芯片,以及沿顶部边缘的HBM上方的另外两个小芯片。这些无疑是谷歌用于将 TPU 芯片电气连接成 pod 的芯片间互连 (ICI) 的 I/O 芯片。更大的 TPU 聚合与谷歌的“Jupiter”光电路开关进一步捆绑在一起。


总体来看,得益于计算核心、HBM等多方面的提升,Ironword单芯片峰值算力可达4,614 TFLOPs,达到了上一代 Trillium的10倍。


18.jpg

近三代谷歌TPU产品比较


在提升性能的同时,谷歌还提升了“Ironwood”能效表现。据介绍,相比 2024年推出的第六代TPU “Trillium”,Ironwood的性能功耗比达到了Trillium的2倍。Ironwood 还可结合先进的液冷解决方案和芯片设计优化,即使持续面对繁重AI工作负载,也能维持相比标准气冷高出近2倍的性能。


Ironwood 根据客户对AI工作负载的需求提供2种规模配置,分别是面向推理的256个计算引擎的版本、面向训练的9,216个计算引擎的版本。


19.jpg


当扩展至每个Pod达到9,216颗晶片时,总运算能力可达42.5 Exaflops,是世界上最大的超级电脑El Capitan的24倍以上,El Capitan每个Pod仅提供1.7 Exaflops。由于Ironwood提供大规模运算能力,能够支持最严苛的AI工作负载,例如用于训练和推理、具备思考能力的超大型密集LLM或MoE。


Ironwood 还配备增强版的SparseCore,这是一种专门用于处理进阶排序和推荐系统工作负载常见的超大规模嵌入加速器。此外,Google DeepMind 开发的机器学习执行阶段构架Pathways,可在多个TPU间达成高效的分布式运算。Google Cloud 上的Pathways让客户轻易超越单个Ironwood Pod的限制,将数十万颗芯片组合在一起,快速推进AI发展。


Ironwood的发布标志着谷歌在AI芯片领域的技术跃进,其增强版SparseCore加速器和Pathways分布式架构进一步强化了复杂推荐系统与科学计算的能力。尽管英伟达仍主导AI芯片市场,但谷歌正通过TPU系列(如Ironwood、Trillium)与亚马逊Trainium、微软Maia等展开竞争。随着Ironwood加入谷歌云服务,其在支持超大规模AI模型和定制化工作负载上的优势,或将成为企业级客户选择云平台的关键筹码。



推荐阅读:


长电科技2024年净利增9.5% 2025Q1预增50% 美国关税政策“基本无直接影响”

智驾未来 芯创生态|ST 2025慕尼黑上海电子展科技盛宴即将启幕

粤港澳大湾区领航全球电子产业革新 CITE2025启幕勾勒AI与低空经济新纪元

SK海力士突破第六代DRAM量产门槛!1c制程良率飙升至80%,HBM领域仍需等待

三星电子启动内部人力大调整 全力押注HBM4争夺AI芯片市场主导权



相关资讯
三星HBM3E拿下AMD大单 288GB内存重塑AI算力格局

韩国媒体Business Korea最新披露,全球处理器巨头AMD日前推出的革命性AI芯片MI350系列,已确认搭载三星电子最新研发的12层堆叠HBM3E高带宽内存。这一战略性合作对三星具有里程碑意义,标志着其HBM技术在新一代AI计算平台中获得核心供应商地位。

苹果获智能眼镜模块化专利 液态玻璃技术革新可穿戴设备未来

美国专利商标局近日授权苹果公司一项颠覆性专利(编号:US 11,985,623 B2),揭示了其下一代智能眼镜的模块化设计方向。该技术通过可拆卸式"支撑臂"(Securement Arms)创新结构,解决传统头戴设备舒适性与功能扩展的关键痛点。支撑臂从镜框两侧延伸,采用自适应力学分配系统,将设备重量分散至头部颞区及耳廓区域,有效降低鼻托70%以上压力负荷。

激光二极管驱动存储革命:索尼半导体与西部数据联手拓展HAMR硬盘市场

日本索尼半导体与美国存储巨头西部数据近日宣布达成战略合作,索尼将为西部数据下一代HAMR(热辅助磁记录)硬盘提供核心激光二极管组件。面对数据中心指数级增长的数据存储需求,此次合作标志着高容量硬盘技术产业化进程的关键突破。索尼计划投资50亿日元(约合3200万美元)在泰国工厂新建生产线,预计2026年该部件产能将实现翻倍增长。

TP-Link芯片业务战略收缩:WiFi 7研发受阻与全球合规挑战

2025年6月12日,TP-Link外销主体联洲国际(TP-Link Systems)位于上海张江的WiFi芯片部门启动重大裁员,从通知到离职手续仅用半天完成,涉及算法、验证、设计等核心岗位员工,仅保留少数成员。公司提供N+3的高额补偿方案,远高于中国法定的N+1标准,被视为当前裁员潮中的“清流”。行业分析指出,此次调整主要针对WiFi前端模块(FEM) 研发线,而非全面退出芯片领域。FEM作为连接芯片与天线的关键组件,其研发投入缩减与WiFi 7芯片量产进度延迟及成本控制压力直接相关。

DDR4内存现十年罕见价格倒挂,产业链急备货应对停产危机

2025年6月全球存储市场遭遇剧烈波动,DDR4内存现货价格单日暴涨近8%,创下近十年最大单日涨幅。据DRAMeXchange数据显示,截至6月13日,DDR4 8Gb(1G×8)3200颗粒均价飙升至3.775美元,单周涨幅达38.27%,本季度累计涨幅更突破132%。反常的是,DDR4价格竟反超新一代DDR5,形成罕见“价格倒挂”现象,业界直呼“十年未遇”。