作者:高恒(中国科技新闻学会科幻传播与未来产业专委会会员专家)
进入2026年,国内外云厂商同时宣布AI算力价格上调,这是近20年来首次出现的集体涨价。腾讯云、阿里云、百度智能云相继上调模型、算力和存储服务价格,涨幅从5%到463%不等;海外AWS、Azure、OpenAI也同步跟进。
这一轮价格调整背后,并非单纯的硬件成本上涨,而是智能体应用爆发带来的Token需求激增,单个任务消耗的算力和Token量,已经是传统AI的几十倍甚至上百倍。短期来看,涨价意味着厂商利润回补;中长期,则预示着整个云算力行业正进入资源稀缺、商业模式重构的新时代。
01:集体涨价,云算力拐点
全球AI算力需求持续爆发,加上核心硬件供应紧张,推动云计算价格迎来近20年来的首次集体上调。进入2026年,国内外云厂商相继发布涨价公告,标志着云算力市场的长期下行格局被彻底打破。
国内方面,3月11日,腾讯云率先出手,调整了部分模型的计费策略,结束GLM5、MiniMax2.5、Kimi2.5等第三方模型的限时免费公测,同时大幅上调混元系列模型Tencen HY2.0 Instruct和Tencen HY2.0 Think的价格。以Tencen HY2.0 Instruct为例,输入价格从0.0008元/千tokens上调至0.004505元/千tokens,涨幅高达463%。不到一个月时间,4月9日,腾讯云再次发布价格调整公告,宣布将于5月9日起对AI算力、容器服务TKE-原生节点及弹性MapReduce(EMR)相关产品刊例价统一上调5%。显示出价格调整不仅是单次行为,而是形成了连续机制。
紧随其后,3月18日,阿里云发布公告称,平头哥真武810E等算力卡相关服务上涨5%-34%,文件存储CPFS(智算版)上涨30%;随后在4月13日公告调整DataWorks标准版、专业版用户的API(应用程序编程接口)免费额度,并支持按量付费,该变更自4月14日逐步发布,到4月23日所有region(区域)生效。紧接着4月15日上午,阿里云再次发布调价公告,宣布为统一产品定价规范,于7月15日起对DDoS原生防护2.0(包年包月)、DDoS高防(中国内地)及DDoS高防(非中国内地)商品的弹性95功能进行价格调整,其中DDoS高防(中国内地)弹性95由100元/Mbps/月调整至150元/Mbps/月。
同日,百度智能云跟进,AI算力相关产品涨约5%—30%,并行文件存储涨约30%。科大讯飞智算平台、智谱、火山引擎等也调整了算力服务价格;DeepSeek虽未正式提价,但最新上线的分层模式被市场解读为为付费铺垫。
海外市场的涨价动作更早且幅度更大,为全球趋势定下基调。1月22日,亚马逊AWS打破20年“价格下行”惯例,上调EC2机器学习容量块价格15%;2月15日,微软Azure调整GPT-4o、GPT-4 Turbo API价格,取消GPT-4o免费额度;3月10日,Google Cloud官宣5月1日起AI计算实例价格调整,下架Gemini低价订阅套餐;OpenAI则调整GPT-4o/4 Turbo API价格,ChatGPT Plus从20美元/月涨至30美元/月,每日消息限30条。可以看出,无论国内外,涨价幅度、产品覆盖和调整频率都显示出市场正在经历一轮系统性压力测试,而不仅仅是个别厂商的单次操作。
企事界北京科技有限公司执行董事表示,对投资者、企业和开发者而言,这一阶段不仅是云计算价格的调整,更是AI产业结构和竞争格局的分水岭,标志着云算力市场进入高门槛、资源稀缺、商业模式重构的新时代。
知名科技产业时评人彭德宇进一步指出,从公告内容看,各厂商官方理由强调硬件成本上涨,但背后推动价格上涨的根本因素,是智能体应用爆发带来的Token需求激增。随着需求快速叠加,硬件供给、GPU算力、内存带宽、存储容量等资源都成为稀缺瓶颈,任何厂商都无法通过低价策略无限消化。AI算力正在从公共资源转变为稀缺资产,Token正成为AI时代的新硬通货,价格上涨不仅反映成本上升,更是对供需不平衡和商业模式重塑的信号。
02:智能体爆发,订阅模式失效
涨价只是表象,真正推动AI算力紧张的,是需求端的爆炸式增长。智能体应用正以前所未有的速度消耗Token,彻底打破了传统固定订阅模式的账本。
国家数据局局长刘烈宏在3月24日的国新办新闻发布会上披露:“到今年3月,我国日均Token的调用量已超过140万亿,相比2024年初的1000亿增长了1000多倍,相比2024年底的100万亿,三个月时间又增长了40%以上。”全球最大的API聚合平台OpenRouter也显示,周度累计Token消耗量较一年前提升约7至8倍;IDC预测,到2030年全球活跃AI智能体将达22.16亿,年度Token消耗将从2025年的0.0005 Peta Tokens飙升至15.2万Peta Tokens,增长超3亿倍。这些数据充分说明,智能体时代的Token需求已经远远超出传统Chatbot或固定订阅模式的承载能力。
一位科技公司的程序员向我们解释,不同于传统Chatbot的单轮交互模式,智能体需要自主拆解任务、调用工具、多轮迭代直至完成任务。一条指令触发的任务,后台可能要跑几十轮甚至上百轮推理,单任务Token消耗是对话式AI的几十倍甚至上百倍。一个典型智能体代理每天的算力消耗可能高达数千美元,远超传统订阅价格的承受范围。
最典型的案例是美国Anthropic公司。Claude Enterprise原订阅模式为每月200美元固定费,但随着智能体使用普及,一些重度用户每月仅付200美元,却消耗价值5000美元的算力资源。4月初,Anthropic宣布停止通过第三方工具接入Claude API的订阅用户,并将固定月费改为按算力消耗计费,同时附加每月20美元的固定费用。Redress Compliance联合创始人Fredrik Filipsson指出,这对重度用户而言,成本可能翻倍甚至三倍。
火山引擎总裁谭待在接受21世纪经济报道采访时指出:“很多用户反馈智能体产品Token消耗极快,核心问题不是单Token贵,而是任务完成过程中大量无效探索,为了找到最终解法,超过一半的Token都消耗在试错中。如果模型能力不足,即使单Token价格低,用户依然需要消耗10倍甚至20倍的Token才能完成任务,最终造成更大浪费。”小米集团MiMo负责人罗福莉在社交平台上进一步判断:“全球计算资源增长的脚步已跟不上Agent带来的Token需求增长。真正的出路不是提供更便宜的Token,而是让‘更高效的Agent框架’ב更强大且更高效的模型’协同演进。”行业共识正在浮现:智能体时代,拼的不是Token单价,而是单位Token的有效产出率。
彭德宇指出,行业共识正在逐渐形成:智能体时代,拼的不是单Token价格,而是单位Token的有效产出率。
供给端同样承受压力。大模型推理本质是顺序化自回归过程,每次只生成一个Token,模型参数要频繁从GPU显存加载到计算单元。决定Token生成速度的关键是内存带宽,这让存储从“配角”变成“瓶颈”。据业内数据,单台AI服务器的DRAM用量是传统服务器的8–10倍,NAND需求达5–6倍。
集邦咨询(TrendForce)数据显示,一季度DRAM合约价环比涨90%–95%,NAND闪存环比涨55%–60%。仅2026年一季度,三星宣布NAND闪存供应价格上调超过100%。HBM的紧张更加典型,三星、SK海力士的HBM产能在2026年之前就已被长期订单锁定;先进封装同样是瓶颈,CoWoS工艺扩产周期长、门槛高,封装跟不上,晶圆再多也出不了货。同时,下游元件如MLCC(多层陶瓷电容器)也从4月起涨价15%–35%,龙头厂商村田制作总裁中岛规巨透露,高端MLCC订单量已是公司当前产能规模的2倍,“公司无法满足市场需求”。
笔者认为,这种供需双重挤压,使得Token消耗成为决定成本和商业模式成败的核心变量。固定月费订阅模式不再适用,涨价和按算力计费成为行业必然选择。整个行业正在经历从粗放订阅向精细化Token计费的转型,用户端、厂商端和政策端都在同步调整策略。
03:涨价与扩产,Token经济重塑格局
涨价只是第一步,真正的行业转型才刚开始。面对爆炸式Token需求和供给紧张,头部互联网公司迅速加码资本投入,以抢占算力产能并建立未来定价权。
财报数据显示,财报数据显示,腾讯资本支出在2024年迅速增加到768亿元,同比增长221%,2025年进一步增至792亿元;阿里巴巴资本支出从2023年244亿元增长至2025年的1039亿元,突破千亿。据21世纪经济报道,字节跳动2026年资本支出计划约1600亿元,约一半投向AI芯片和数据中心。巨额资金投入的目标非常明确:在算力紧缺下抢先储备资源,为自家大模型研发提供独占优势,同时通过价格调整保持外部供需平衡。
据公开报道,业内估算,字节跳动仅H20 GPU就储备了48万张,腾讯、阿里也优先将自有算力用于自身大模型训练,对外出租资源有限。海外同样如此,OpenAI、谷歌、微软持续加码算力投入。全球范围内算力争夺,使得云厂商面临双重压力:一方面要保障自身大模型研发需求,另一方面客户需求不断增长,价格调整成为必要杠杆。
然而,涨价和扩产只是正常措施,背后隐藏的是深层次商业模式的重塑。从“卖算力”到“卖智能”,从卖裸资源到以Token为核心构建新的收入体系。阿里是这一转型的最清晰样本:就在近日,阿里新设 Alibaba Token Hub(ATH)事业群,整合通义实验室、千问事业部等核心AI业务,由CEO吴泳铭直接带队。
笔者认为,涨价和事业群成立其实是一套战略的两面:一方面提高基础算力价格,引导市场资源向高价值Token业务倾斜;另一方面将紧缺算力集中用于自家AI服务,对外输出完整“智能服务”,而不只是裸算力。
Token经济正在形成清晰的商业逻辑。英伟达创始人兼CEO黄仁勋在2026年3月的一篇署名文章中,将Token定义为现代AI的基本单位,并指出它同时具有两种属性:作为语言,它是计算过程的原子;作为货币,它是价值流通的媒介。在GTC 2026大会上,他进一步表示:“Token是硬通货,计算能力就是企业的收入”,并勾勒出分层定价蓝图:从免费层到超高速层,每百万Token价格从0到150美元不等,Token将像电力、自来水一样,成为分层定价的基础商品。
Token不是成本项,而是收入项。谁能把Token卖出去、卖出价值,谁就拿到了定价权。国内最早验证这一逻辑的是智谱。其在2月发布GLM-5时,CodingPlan套餐价格上调30%起,3月发布GLM-5-Turbo时再涨20%,相对GLM-4.7累计涨幅达83%。但是涨价并未抑制需求。据智谱公开披露,2026年一季度API调用定价提升了83%,调用量反而增长400%。智谱MaaSAPI平台ARR约17亿元,在过去12个月提升60倍。截至2026年3月,平台注册用户已突破400万,覆盖全球218个国家和地区。智谱CEO张鹏表示,当模型足够强,API本身就是最好的商业模式,定价权是由技术实力以及长期趋势所带来的领先地位决定的。
张鹏这句话点出了当前行业正在面临分水岭,只有模型能力跑在前面的厂商,才有底气把价格抬起来还不掉量。腰部和尾部厂商,此刻拼的是活下去。中国信通院云计算与数字化研究所总工程师郭亮形容,这是一场“压力测试”,它将加速产业出清,告别粗放的发展时代,迈向高门槛、高效率的Token生产和使用的“深水区”。
彭德宇表示,头部厂商通过自研芯片的成本优势进一步压缩二线厂商生存空间,而中小企业面临首当其冲的成本压力。工信部信息通信经济专家委员会委员盘和林进一步补充:“算力涨价将显著增加中小企业和个人用户使用AI的成本。”当前,多数中小企业主要依赖在云端购买算力与存储资源完成模型训练,为AI应用提供算力支持。然而,如果AI能够产出更多价值、创造更多利润,中小企业很可能选择忽视短期成本上升,选择“AI+”战略来改善经营效率与市场竞争力。
这轮涨价不仅是成本传导,更是行业成年礼:推动资本、技术和政策协同升级,重塑头部格局,明确商业模式边界,形成Token效率竞争的新赛点。极端涨幅会回落,但低价走量时代已经结束,算力不再是无限资源,而是高价值的稀缺资产,谁能在Token产出效率上领先,谁就掌握了未来的定价权与行业主导权。