国内外CSP厂商开启AI军备竞赛,Capex先行提高投入
海外:微软、谷歌、Meta、亚马逊四者合计资本开支在2023Q3后连续多个季度环比上升,同时上调资本开支指引。
微软:25Q2(2025财年第四财季)资本开支为242亿美元,同比+27%,Q1同比+53%;其中,不动产和设备相关的现金支出171亿美元,同比+23%,Q1同比+52%。目前,微软正在加速建设数据中心,以满足对AI训练和工具激增的市场需求。公司预计,2026财年第一财季有望将资本开支提升至300亿美元以上。
谷歌:由于云产品和服务的需求强劲且不断增长,25年capex上调至850亿美元,同比+13%,此前2月份预计全年capex为750亿美元;预计26年capex将进一步增加。
亚马逊:2025财年制定了1000亿美元的激进资本支出计划,重点关注人工智能基础设施和数据中心的扩张。
Meta:25Q2,将全年capex的最低水平从上季度的640亿美元上调至660亿美元,capex范围在660亿美元至720亿美元之间,25年的总支出将在1140-1180亿美元之间。
国内:以腾讯、阿里为代表的云厂商由于AI发展滞后于海外,23下半年开始发力,加大对AI领域投资。当前,我国开源大模型取得重要突破,资本开支上或将连续上涨。
阿里:2月,阿里CEO吴泳铭表示,将加大投入三大AI领域,未来三年将是云建设最集中的三年,在云和AI的基础设施投入预计将超越过去十年的总和。8月29日,阿里发布FY26Q1财报,capex 386.76亿元,同比+220%,超市场预期,创历史新高,并重申未来三年持续投入3800亿元用于AI资本开支的计划。
腾讯:从24年下半年开始,腾讯发觉AI加速发展迹象,加大了对AI芯片的投入。25年腾讯计划进一步加大资本开支,预计会占25年总收入的“低两位数百分比”,意味着25年腾讯capex可能接近千亿水平,而24年全年capex为767.6亿元。
百度:自24Q3开始,资本开支连续三个季度环比增长。25Q2,百度资本开支为38亿元,同比+79.41%,环比+31.03%。
阿里等资本开支先行,也有望带动华为云、通信运营商等提高 AI资本开支预期,以应对云端推理需求大幅增加的可能。例如,根据中国产业经济信息网,三大运营商25年capex计划规模合计达到2898亿元,虽各自的投资规模出现下调,但在投入结构上偏向算力、AI,甚至还设立了特别预算或者“不设上限”。
英伟达由B向R卡跨越,AMD布局26年新型MI400系列GPU
英伟达芯片架构正在由Blackwell向Rubin过渡。根据美股研究社,短期看,英伟达GB300相比GB200在性能、存储、互连、安全与管理等多个方面进行了全面升级,性能增幅高达50%,25Q4或是NVL72规模化出货节点。26年下半年,英伟达将发布Vera Rubin架构,这是基于HBM4内存、基于3nm节点构建的全新芯片系列。VeraRubin NVL144将提供比GB300高三倍以上的推理计算能力提升,同时提供机架级系统级架构兼容性。在2027年之前,Rubin Ultra设计将继续突破极限。凭借NVL576机架设计,它可以提供高达15 exaFLOPS的FP4吞吐量,大约是新GB300系统计算能力的14倍。
AMD MI350系列对标GB200,MI400系列计划为26年新型服务器“Helios”的基础。6月,AMD正式推出下一代Instinct MI350系列,其中包括MI350X和旗舰MI355GPU及平台。在FP4和FP6精度,新GPU芯片相对MI300X实现的AI计算性能提升4倍,推理性能提升35倍。此外,AMD预览了基于MI400 GPU的下一代人工智能机架“Helios ”。
华为云CloudMatrix 384通过多卡互联实现性能弯道超车
25年4月,华为发布384超节点,凭借其颠覆性的系统架构设计与全栈技术创新,在多项关键指标上实现对英伟达旗舰产品GB200 NVL72的超越,标志着中国在人工智能基础设施领域实现里程碑式突破。
CloudMatrix 384由384颗昇腾910C芯片组成,这些芯片通过全互联拓扑结构连接。其中的权衡很简单:昇腾芯片的数量是英伟达 Blackwell芯片的五倍,这足以弥补每颗昇腾芯片的性能仅为后者三分之一的差距。
完整的CloudMatrix系统现在可以提供300 PFLOPs的密集型BF16计算能力,几乎是GB200 NVL72的两倍;凭借超过3.6倍的总内存容量和2.1倍的内存带宽,为大规模AI训练和推理提供了更高效的硬件支持。
云端巨头竞相自研ASIC推理芯片
根据TrendForce集邦咨询,AI Server需求带动北美四大CSP加速自研ASIC芯片,平均1~2年就会推出升级版本。CSP为应对AI工作负载规模逐步扩大,同时计划降低对NVIDIA、AMD的高度依赖,因此积极投入ASIC开发进程,以便能控制成本、性能和供应链弹性,进一步改善营运成本支出。
谷歌:已推出TPU v6 Trillium,主打能效比和针对AI大型模型的最佳化,预计2025年将大幅取代现有TPU v5。
亚马逊:目前以与Marvell(美满电子)协同设计的Trainium v2为主力,其主要支持生成式AI与大型语言模型训练应用,AWS也和Alchip合作Trainium v3开发。
Meta:成功部署首款自研AI加速器MTIA后,正与Broadcom共同开发下一代MTIA v2,MTIA v2设计特别聚焦能效最佳化与低延迟架构,以确保兼顾推理效能与运营效率。
微软:目前在AI Server建置仍以搭载NVIDIA GPU的解决方案为主,但也加速ASIC开发,其Maia系列芯片主要针对Azure云端平台上的生成式AI应用与相关服务进行优化,下一代Maia v2的设计也已定案,并由GUC负责后段实体设计及后续量产交付。
国内:阿里巴巴旗下平头哥(T-head)已推出Hanguang 800 AI推理芯片;百度继量产Kunlun II后,已着手开发Kunlun III,主打高效能训练与推理双支持架构;腾讯除了自家AI推理芯片Zixiao,亦采用策略投资的IC设计公司Enflame(燧原科技)解决方案。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。