Domestic Large Models: A Different Script This Time

Full text · 原文 4,796 字

2025年底，全球最大的AI模型聚合平台OpenRouter发布的年度使用报告显示，在其用户构成中，47%来自美国，中国开发者占6%。此外，平台调用内容中，英语占比83%，中文不足5%。 但截至2026年4月3日当周，该平台调用量排名前十的模型中，有6个来自中国。按调用量从高到低依次为：小米MiMo-V2-Pro、阶跃星辰Step 3.5 Flash、MiniMax M2.7、DeepSeek V3.2、智谱GLM 5 Turbo和MiniMax M2.5。其中，小米MiMo-V2-Pro以4.82万亿Token（词元）位居全平台第一。 事实上，自2026年2月9日至15日，当周中国模型调用量首次超过美国以来，中国模型的领先已持续近两个月。 OpenRouter平台汇聚了超过400个AI模型，覆盖60多家供应商，其调用量的数据被视为观察全球开发者模型选择偏好的窗口之一。开发者可通过同一API Key（一种用于验证身份和调用服务的密钥）在不同模型间随时切换。 OpenRouter联合创始人兼COO Chris Clark在2026年2月公开表示，中国开源模型在美国企业运行的Agent（智能体）工作流中占比“不成比例的高”。同时，开发者社区中围绕模型间任务分配与成本优化的讨论也日益增多。 有观点将这一现象与30年前的中国制造业类比：当时中国凭借成本优势切入全球电子产业链的组装环节，产生了富士康、立讯精密等代工企业；如今，中国大模型也正以价格优势切入全球AI产业链的执行环节。也有观点将国产大模型视为“AI时代的富士康”。 国产大模型在AI产业链中扮演何种角色？该角色的含金量究竟有多高？ 价格优势 经济观察报记者梳理各厂商截至2026年3月底的官方API定价发现，中美主流大模型的价格存在巨大差距。 以输入价格为例，中国模型中，DeepSeek V3.2为每百万Token0.28美元，MiniMax M2.5为0.3美元，月之暗面Kimi K2.5为0.42美元。美国模型中，Anthropic Claude Opus 4.6为5美元，OpenAI GPT-5.4为2.50美元。美国主流模型的输入价格约为中国主流模型的10至20倍。 输出价格差距更为明显。中国模型方面，DeepSeek V3.2为每百万Token0.42美元，MiniMax M2.5为1.1美元，月之暗面Kimi K2.5为2.2美元。美国模型方面，OpenA IGPT-5.4为15美元，ClaudeOpus 4.6为25美元。中美主流模型输出价格差距约为7倍至60倍。 上述价差一直存在，此前未引发大规模用户迁移，原因很简单，大多数人用AI的主要场景就是聊天，Token消耗量较低，价差影响甚微。 但2026年初，一只“龙虾”的出现改变了这一切。开源工具OpenClaw（开发者社区称为“龙虾”）于2026年2月前后迅速走红，上线后很快登顶OpenRouter应用排行榜第一，单周消耗超6000亿Token。“龙虾”属于智能体应用，和过去“你问我答”的聊天模式不同，它可使AI在电脑上自主执行编程、测试、文件管理等任务，无需逐步人工干预。 在这种工作模式下，Token消耗量与聊天场景不在一个量级。 比如，一个编程任务可能需要经历几十轮“写代码—运行—报错—修改—再运行”的循环，每一轮都是一次完整的模型调用。为了让智能体记住此前的操作，每次调用还需要调用对话历史。 有开发者在社交平台上表示，一个活跃的OpenClaw会话上下文很容易膨胀到23万Token以上。若全程使用ClaudeAPI，月费用可能在800至1500美元之间。也有用户称，一个配置不当的自动化任务，一天就烧掉了200美元。 以OpenClaw为代表的智能体应用推高了整个平台Token消耗量。比如，2025年3月3日至9日当周，OpenRouter前十大模型周调用量总计1.24万亿Token。至2026年2月16日至22日当周，仅前十大模型周调用量就超过了8.7万亿Token，增长近7倍。编程任务在平台Token消耗中的占比也从2025年初的11%升至2025年底的50%以上。 当单次任务Token消耗从几千增至几十万，中美模型间的价格差距从可忽略的成本转变为每月数百甚至上千美元的显著差异。 2026年2月19日前后，美国大模型公司Anthropic更新服务条款，禁止用户将Claude订阅账号凭证接入OpenClaw等第三方工具，要求通过API按量计费。随后Google也推出类似限制。对于每天需频繁调用API的智能体应用，模型选择中的价格因素成为绕不过去的问题，开发者被推上了按量付费的赛道。 在智能体核心的编程场景上，中美模型能力已较为接近。 SWE-Bench Verified是由普林斯顿大学研究团队维护的一项编程能力公开评测，做法是让AI模型去修复GitHub（全球最大的开源代码托管平台）上真实的代码问题。根据该评测公开排行榜的数据，2026年2月13日发布的中国模型MiniMax M2.5拿到了80.2%，2月5日发布的美国模型Claude Opus 4.6为80.8%，两者差距只有0.6个百分点。 在能力相近而价格悬殊的情况下，开发者的选择迅速反映在了数据上。 2026年2月9日至15日当周，中国模型Token调用量达4.12万亿，首次超过美国模型的2.94万亿。随后一周，中国模型调用量升至5.16万亿，三周时间增长127%。同期美国模型调用量降至2.7万亿。 中国大模型为什么能比美国大模型便宜这么多？ 工信部信息通信经济专家委员会委员盘和林向经济观察报表示，原因主要有两点：一是中国算力基础设施规模大、复用率高，报价较低；二是中国算力集群中存在大量自建算力，获取成本低于海外。 此外，技术路线也影响成本。有业内人士告诉记者，目前主流中国大模型普遍采用MoE架构，也称为“混合专家模型”。通俗地说，一个MoE模型虽然参数总量很大，但每次运行时只激活其中一小部分参数来处理任务，而不是全体参数，这大幅降低了每次推理所需的计算量。 不同路径 硅谷风投机构a16z合伙人Martin Casado在2025年底表示，在使用开源技术栈的AI初创公司中，约80%的公司使用中国模型。他随后在社交平台上补充说明，这并非指80%的美国AI初创公司都在使用中国模型，而是那些选择开源技术路线的公司中（约占全部美国AI初创公司的20%至30%），约80%使用了中国模型。 记者注意到，GitHub上已出现多个帮助开发者在不同模型间优化成本的开源工具。其思路多为将任务按难度分级，简单任务交由免费或低价的中国模型处理，复杂任务再调用高价美国模型。 其中一个名为ClawRouter的项目在文档中给出了对比数据，显示采用这种搭配方式后，平均成本从每百万Token25美元降到了约为2美元。Anthropic的产品ClaudeCode，在官方文档中也采用了类似的分层设计，默认用最便宜的模型处理日常任务。 这种模式能够成立的前提是中国模型在执行类任务上能力足够。在编程方面，前面提到的SWE-Bench数据已经说明了这一点。而在编程之外，中美大模型整体能力差距有多大呢？ LMSYS Chatbot Arena是目前全球公认度最高的AI模型评测平台之一，其做法是让真人用户在不知道模型名字的情况下同时试用两个模型，然后投票选出更好的那个，相当于一场AI之间的盲品测试。 在其截至2026年3月25日的综合排名中，前五名均为美国公司模型，中国模型中排名最高的DeepSeek V3.2 Speciale位列第六。在专门测试复杂推理能力的Hard Prompts（高难度提示词，专门用于测试模型处理复杂推理和多步逻辑任务的能力）类别中，中美模型的差距更为明显，第一梯队仍主要为美国模型。 编程能力接近、复杂推理尚有差距，这是当下中美大模型之间差异化能力的体现，也是“分层调用”这套做法成立的基础。 不过，和30年前被锁在低利润率的代工厂商不同，中国大模型厂商在价格上并没有一直往下走。 事实上，从2024年开始，中国大模型行业曾发生过一轮价格战：2024年5月，字节跳动旗下火山引擎豆包大模型以0.0008元/千Token的价格引发“价格战”，阿里云、百度智能云相继跟进。此后近一年，行业经历Token价格下降超过90%的阶段，部分厂商推理算力毛利率一度为负。 厂商当时的策略是以亏损换取规模，培养用户调用习惯。然而，2026年2月OpenClaw走红后，Token消耗量增速远超预期，算力供给趋紧。 智谱最先做出反应，2026年2月12日发布新模型GLM-5时上调API定价，3月16日发布GLM-5-Turbo时再次提价，两轮累计涨幅83%。 智谱CEO张鹏在2025年度业绩说明会上表示，2026年一季度API调用定价提升83%，调用量增长400%。根据年报，智谱2025年全年收入7.243亿元，同比增长132%，MaaS（模型即服务）平台年度经常性收入约为17亿元，12个月增长60倍。 选择涨价的不只智谱一家。2026年3月13日，腾讯云调整了混元系列大模型定价，部分模型涨幅超460%。3月18日，阿里云与百度智能云同日发布调价公告，AI算力相关产品涨幅在5%至34%之间，新价格于4月18日生效。 中科曙光高级副总裁李斌在接受经济观察报采访时称，算力系统评价指标正在发生改变，过去衡量一个系统的标准是看它有多少算力，现在则要看它能够多么经济地产出Token。 从集体降价到集体涨价，转变只用了不到两年。 2026年3月，国家数据局局长刘烈宏在中国发展高层论坛上公布了一组数字：中国日均Token调用量已突破140万亿，较两年前增长超过1000倍。 在同月的GTC大会上，英伟达创始人黄仁勋称，Token将是未来数字世界最核心的大宗商品。 在盘和林看来，中国大模型的竞争力很强，不是在补全，而是在引领，尤其在AI应用端。但他同时表示，中国在原创性创新上还有提升空间，当前AI体系中的核心架构，从人工神经网络到注意力机制，都是海外率先提出、国内跟进迭代。中国大模型下一步需要在应用端继续发力的同时，在基础算法上展开原创性创新。 30年前的消费电子代工产业有一个特点，组装环节的利润率被上游品牌商牢牢压住，不少头部的代工厂发展至今的毛利率都没有超过10%。成本优势带来了订单，但未能带来定价权。 当前，中国大模型的处境看起来与当年的消费电子代工产业有几分相似，但在定价权方面似乎又颇有不同。例如，智谱涨价83%之后，调用量增长了400%。阿里云、百度智能云、腾讯云在2026年3月集体上调了AI算力和模型服务的价格，需求并没有萎缩，调用量在持续增长。 在SWE-Bench编程评测上，头部中国模型和头部美国模型的差距已经缩小到不足1个百分点。两者在复杂推理上的差距还在，但这个差距也在快速收窄。 此次，中国大模型厂商的发展路径似乎有所不同。 “特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。 Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

Site key	ifeng
Policy area	人工智能
Category	report
CMS	媒体报道
AI score	0.31

Domestic Large Models: A Different Script This Time

国产大模型：这次剧本不一样