DeepSeek and Domestic Computing Power: A Grand Strategy

Full text · 原文 3,136 字

摘要： DeepSeek与国产算力合力，实现token成本的大幅降低后，又会反向利好AI应用市场，催生更大的市场空间。 凤凰网科技出品 作者｜Dale、姜凡 编辑｜董雨晴 两天两次降价，效率成了DeepSeek最深护城河 2026年4月的最后一个周末，中国AI产业被一连串消息彻底点燃，而消息背后的主角只有一个，DeepSeek。 4月24日，DeepSeek正式发布V4系列预览版，同步开源Pro与Flash两款模型，均支持百万token超长上下文。紧接着的25日与26日，DeepSeek连续两晚出手降价——先是V4-Pro限时2.5折，再是全系API输入缓存命中价格永久降至首发价的十分之一。两天两次调价之后，V4-Flash每百万tokens输入缓存命中价格仅为0.02元，V4-Pro为0.025元，创下全球大模型价格新低。 这样一场精心策划的闪电战，背后是DeepSeek长达一年的艰难求索。 但如果依旧将目光放在“价格战”的浅层叙事，就低估了DeepSeek此番出手的深意。V4的降价已经无关于烧钱换市场，其更大的意义是底层架构效率革命带来的成本变化。正如高盛Ronald Keung团队在最新研报中所指出的，“V4的核心意义在于以更低成本支持更复杂的智能体应用落地，从而打开AI应用规模化的新空间”。 在DeepSeek-V4的技术报告里，效率是极致的。 V4-Pro在100万token上下文场景下，单token推理所需浮点运算量仅为V3.2的27%，KV缓存占用仅为10%；V4-Flash更为激进——FLOPs降至10%，KV缓存压缩至7%。这意味着什么？通俗地说，过去跑一条百万字上下文需要三台机器的算力，现在一台机器就能从容应对，而且内存开销仅是过去的十分之一。 效率飞跃背后，有V4在架构层面的三项关键创新：混合注意力机制（CSA/HCA）、流形约束超连接（mHC），以及Muon优化器。其中最核心的突破在于混合注意力——CSA（压缩稀疏注意力）沿序列维度压缩KV缓存后执行稀疏注意力计算，每m个token的KV缓存被压缩为一条记录；HCA（重度压缩注意力）则施加更激进的压缩策略，将m'个token的KV缓存合并为单条记录，但仍保留稠密注意力。这套组合拳在几乎不影响模型性能的前提下，将长上下文场景的计算与存储成本砍掉了一个数量级。 更精妙的设计体现在细节处：对KV条目采用混合存储格式，旋转位置编码维度保持BF16精度，其余维度使用FP8精度，这一项便将KV缓存容量压缩近半。闪电索引器内部的注意力计算以FP4精度执行，进一步加速长上下文下的注意力运算。 技术压缩效率，效率兑现成本。这才是DeepSeek敢于连续降价的真正底牌。 理解了这一逻辑，便能看穿此次降价的产业含义：相比于其他AI大模型降价拼命上桌，这一次DeepSeek直接用技术优势主动构建了成本壁垒。V4-Flash以0.02元/百万tokens的价格横扫市场背后，每一分钱的降价都有底层架构优化作为支撑，而不是资本烧钱补贴的逻辑。竞争对手要跟进，首先得在技术上追平这份效率——而这显然不是一朝一夕之功。 从模型等芯片，到芯片靠模型 与两次降价几乎同步发生的，是国产芯片阵营的集体“起立”。 V4发布当日，华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、昆仑芯、平头哥真武、天数智芯8家国产AI芯片品牌，以及英伟达，均宣布完成对DeepSeek-V4的适配。尤其值得注意的是，这是大模型产业首次实现“Day 0”级别的全栈适配：模型发布即适配上线，芯片厂商不再需要数月的“追逐式”调试周期。 这里有一个细节必须拆解清楚。DeepSeek官方在技术报告中表示，“我们在英伟达GPU和华为昇腾NPU两个平台上验证了细粒度EP（专家并行）方案，在通用推理任务中实现1.50至1.73倍加速；在延迟敏感场景下最高达到1.96倍”。这是DeepSeek历史上首次将国产芯片与英伟达GPU并列写入硬件验证清单，确立对等地位。 华为昇腾的反应也十分迅猛。昇腾官方在B站直播中称，在推理部署层面，昇腾950PR平台针对V4实现了多项深度适配。量化方面，原生的硬件加速精度明确支持MXFP8与MXFP4等低精度数据格式，兼顾模型精度与内存占用优化。算子层面，华为官方宣布昇腾950通过融合kernel与多流并行技术，大幅降低了混合注意力机制的计算和访存开销，显著提升了推理性能。而MoE模块中路由专家与共享专家的计算重叠等深度优化，则进一步确保了万亿参数模型在国产硬件上的高效平稳运行。 图｜昇腾直播间截图 寒武纪则在基于自研NeuWare软件生态与vLLM框架上，完成了对V4的“Day 0”适配并同步开源自研算子库。这已是寒武纪连续第二次在DeepSeek新模型发布首日便推出适配方案，其技术迭代速度同样不容小觑。 更有说服力的信号来自财务上的持续好转，国产开源大模型的极速发展，正在把中国算力产业拉入良性发展的通道里。 4月26日晚，摩尔线程发布2026年一季报：一季度营业收入7.38亿元，同比增长155.35%；归母净利润2935.92万元，同比扭亏为盈。这家被称为“中国英伟达”的国产GPU厂商，此前因研发投入高达营收86.68%而备受市场质疑，如今终于交出了一份逆转的答卷。与此同时，摩尔线程还与某客户签订了金额达6.6亿元的夸娥智算集群销售合同。 寒武纪此前发布的年度业绩快报亦显示已率先实现盈利，沐曦股份则呈现出亏损持续收窄的态势。三家国产AI芯片代表企业同步进入业绩改善通道，已经是十分有力的回应。 国产算力生态临界点的到来 当DeepSeek的技术效率革命与国产芯片的产能释放在同一时间窗口交汇，一条完整的产业闭环开始浮出水面。 中银国际在4月26日发布的研报中判断：“DeepSeek V4的发布标志着国产大模型已基本跑通全栈国产化，理论上已形成从底层硬件、基础软件、平台服务到上层应用、安全体系的完整技术链条，国产算力板块或迎来自己的质变临界点。” 反过来看，DeepSeek与国产算力实现合力，在大幅降低token成本后，又会反向利好AI应用市场，催生更大的市场空间。 据华泰证券表述，“市场容易将V4理解为‘降本压低算力、存储需求’，但更重要的边际变化在于长上下文成本下降后，复杂Agent、多文档分析、长周期任务、在线学习等场景可用性提升，推理调用量与存储访问频次有望扩张。”换句话说，降价不会缩减蛋糕，还会做大蛋糕——越便宜用得越凶，总调用量反而会暴增。 同样在4月24日，新版本OpenClaw 发布，直接接入了最新的DeepSeek V4双版本，并将V4 Flash设置为了默认大模型。 据OpenRouter平台数据，DeepSeek V4 flash今日调用量较前一天上涨了62%。 值得一提的是，DeepSeek已明确将华为昇腾950超节点量产纳入其商业路径，并预告下半年实现大规模供货后API定价将迎来显著下降。这意味着当前的降价可能只是一个预告，真正的主菜还在后面。 资本市场已作出热烈反应。4月27日早盘，A股算力芯片概念延续强势，CPU方向领涨，海光信息、摩尔线程等跟涨；港股半导体板块领涨，澜起科技涨超6%，中芯国际涨近5%。产业链上下游——从芯片设计到服务器整机，从算力租赁到AI应用——都在重新定价这一历史性的产业变局。 这个4月，DeepSeek以一组硬核效率数据为矛、以两次精准降价为鼓，打出明牌——AI的长上下文时代已经到来，而它的“高速公路”将由国产算力铺就。对那些刚刚登陆科创板的国产芯片企业而言，这个春天确实比往年都暖。

Site key	ifeng
Policy area	人工智能
Category	report
CMS	媒体报道
AI score	0.45

DeepSeek and Domestic Computing Power: A Grand Strategy

DeepSeek和国产算力下了好大一盘棋