推理算力爆发，国产芯片窗口期已至

自主可控新鲜事

推理主导的算力时代，正在为国产芯片搭建一个比拼系统级技术选择、成本控制能力和持续工程耐力的更公平赛场。

出品丨自主可控新鲜事

本文内容来源于21世纪经济报、焉知AI等

正文共2690，建议阅读时间4分钟

三年前，衡量一家AI公司实力的标尺是“囤积了多少张英伟达H100”。彼时，集中式、高强度的模型训练是AI产业的核心叙事，全球科技巨头不惜以百亿计的资金追逐最先进的高端GPU，将算力军备竞赛视为通往通用人工智能（AGI）的唯一门票。

然而，到了2026年，AI算力的叙事已经彻底改写。随着智能体（Agent）取代对话模型成为主流交互形态，AI的应用重心正从一次性的模型预训练，转向长期、大规模、高频次的实时推理。联想集团董事长兼CEO杨元庆在今年5月的业绩发布会上明确指出，当前约70%—80%的AI算力用于训练，20%—30%用于推理，但“未来这一趋势会倒过来，用于推理的AI算力将占到70%以上”。这一判断，正在被全球市场的迅猛数据所印证。

推理需求爆发：从“训练为王”到“推理主导”

推理算力的增长势头远超训练，已成为驱动全球AI基础设施投资的核心引擎。市场研究机构TrendForce集邦咨询的数据显示，2026年，北美五大云服务提供商（CSP）的AI训练算力预计增长56%，而推理算力将暴增122%，后者增速是前者的两倍以上。中国市场的发展节奏更为陡峭。根据IDC的报告，2025年上半年，中国AI基础设施即服务（AI IaaS）整体市场规模达到198.7亿元人民币，同比激增122.4%。其中，生成式AI（GenAI）IaaS市场中，推理场景的占比已达到42%。IDC进一步预测，到2029年，推理算力在整体AI算力中的占比将接近八成。

这一结构性转变的根本原因在于，推理与训练对算力的需求逻辑截然不同。训练追求的是极致的单卡算力密度和集群协同能力，以完成一次性的、海量参数优化。而推理则更看重成本、能效和规模化部署的可行性。每一次用户与AI应用的交互，都是一次推理调用，其成本呈线性累加。据分析，推理成本在AI系统全生命周期中的占比高达80%至90%。这意味着，谁能以更低的单位成本、更高的能效比提供稳定的推理服务，谁就将在AI应用普及的下半场占据主导。

全球巨头转向：专芯专用，优化推理

面对这一不可逆转的趋势，全球芯片与科技巨头早已调整航向，将战略重心从单纯的训练性能竞赛，转向对推理场景的深度优化。

英伟达作为市场领导者，其战略转向最具代表性。在2025年的GTC大会上，英伟达正式发布Blackwell Ultra架构，将推理优化置于最优先位置。该架构通过NVLink 5.0技术将72个GPU连接成统一的计算单元，互联带宽高达130 TB/s，并引入全新的NVFP4精度格式，大幅提升了推理吞吐量和能效。英伟达CEO黄仁勋更提出了“Token工厂经济学”的概念，将数据中心重新定义为生产Token的工厂，每瓦性能、每瓦Token吞吐量成为衡量竞争力的新标准。数据显示，Blackwell Ultra在运行DeepSeek-R1模型时，相比前代Hopper架构，每兆瓦吞吐量提升了50倍，每百万Token的成本降至1/35。

AMD紧随其后，于2025年6月发布了专为推理优化的Instinct MI350系列芯片。该芯片基于CDNA 4架构，采用3nm制程，宣称推理性能比上一代MI300系列提升高达35倍。AMD同时推出了Radeon AI PRO R9700工作站GPU，专攻本地AI推理场景，形成了数据中心与边缘推理并行的产品路线。

谷歌的举措则标志着“训推分离”的芯片设计理念成为行业共识。2026年4月，谷歌发布了第八代TPU，并首次将架构拆分为面向训练的TPU 8t和专攻推理的TPU 8i。TPU 8i重点优化了内存配置与片内数据吞吐能力，其SRAM容量是上一代的3倍，并采用了新的Boardfly网络拓扑，将推理环节的性价比提升了近80%。

国产芯片“上桌”：从替代到体系化突围

推理时代的到来，为长期在英伟达CUDA生态壁垒下艰难求生的中国AI芯片厂商，打开了一个历史性的“战略窗口期”。

推理任务对芯片的通用性和生态兼容性要求相对训练更为宽松，更强调单位能耗下的Token产出量、弹性伸缩能力和部署成本。这恰恰是国产芯片可以发挥其成本优势和本地化服务能力的领域。

市场数据清晰地反映了这一转变。根据IDC于2026年4月发布的报告，2025年中国市场AI加速卡总交付量达400万片，其中国产厂商交付165万片，市场份额一举跃升至41%。摩根士丹利预测，到2030年，中国AI芯片市场规模将达到670亿美元，国产芯片有望满足约76%的市场需求。该机构的调研还显示，国产AI加速器的总拥有成本（TCO）可比当前中国市场可获得的英伟达产品低出30%至60%，在推理的每Token成本上已达到大致可比水平。

在实际部署中，国内科技大厂正将宝贵的英伟达高端卡集中用于极少数超大模型的预训练，而在占据算力消耗大头的推理和微调环节，则开始激进地引入国产算力。这一策略的可行性，得到了国产大模型与国产芯片深度协同的强力支撑。2026年以来，以DeepSeek-V4、智谱GLM-5、MiniMax M2.7为代表的国产大模型，纷纷宣布与海光信息、华为昇腾、摩尔线程、沐曦、寒武纪、昆仑芯等主流国产芯片平台完成深度适配与优化。这种“模型发布即算力就绪”的Day-0适配节奏，正在快速打破生态壁垒，为国产芯片提供了海量的场景反馈和迭代机会。

重要的是，2026年5月下旬，来自国家层面的两则重磅信号，为国产芯片的体系化突围注入了前所未有的战略确定性。

首先，国家发改委在5月21日的新闻发布会上明确表态，将“指导国产大模型加大力度适配国产算力芯片，在保持快速发展的同时，确保自主可控”。这标志着“模型适配芯片”已从企业自发的市场行为，升级为国家战略层面的硬性要求，为国产算力生态的闭环建设提供了顶层驱动力。

紧接着，5月26日中国信息安全测评中心发布《安全可靠测评结果公告（2026年第2号）》，海思半导体、海光信息、壁仞科技、平头哥、摩尔线程等9款头部国产AI芯片通过测评，并全部被评为安全可靠I级。这一举措的政策含义极其清晰：AI算力基础设施的安全可控，已被提升至与数据库、操作系统同等重要的核心战略层级。 可以预见，未来政务、金融、能源等关键行业的AI算力采购，将以“国测入围”作为不可或缺的前置门槛。

当然，国产芯片在推理端的突围仍然面临“通用性和生态兼容性、供应链稳定性”等根本挑战。

结语

推理主导的算力时代，正在为国产芯片搭建一个比拼系统级技术选择、成本控制能力和持续工程耐力的更公平赛场。在这个赛道上，纯粹的性能差距被能效和成本优势部分对冲，封闭的生态壁垒被国产模型的爆发式增长和深度协同逐步瓦解。

正如炜烨智算董事长兼CEO周韡韡所言，国产芯片的定位已从“盲目追求与国际高性能算力比肩”，转向“在追求性能的同时也追求成本”。如果国产芯片能抓住推理需求爆发的窗口期，在规模化应用中持续证明自己的落地能力和商业价值，那么从局部替代走向体系化突围，将不再是一个遥远的愿景，而是中国AI算力底座走向自主可控的必然路径。