low 2026-04-29

DeepSeek Launches Image Recognition Mode in Beta, Filling Multimodal Capability Gap

DeepSeek开启内测识图模式,补齐多模态能力空白

观察者网 guancha
This media report covers DeepSeek's beta launch of an image recognition mode on its main product, indicating progress in multimodal capabilities. It details user observations and API field returns suggesting the feature is being tested but not yet publicly released.
Document Text 3,592 characters
(文/陈济深 编辑/张广凯) <br> "Soon, we see you. 👀" <br> 4月28日上午,DeepSeek多模态团队研究员陈小康(X账号@PKUCXK)发出了这条推文。配图是两只蓝色的小鲸鱼——左边那只戴着画有"XX"的黑色眼罩,右边那只没戴眼罩、正常露出眼睛。 <br> 陈小康(@PKUCXK)4月28日发布的推文,配图为两只鲸鱼对照 <br> 尽管这条推文很快被陈小康自己删除了。但这条推文或在暗示DeepSeek的多模态功能或将近期上线。 <br> 除了该推文外,有用户截图显示,chat.deepseek.com输入框上方曾经出现过三个并列的标签——除了原有的「快速模式」「专家模式」,多出了一个「识图模式」,鼠标悬停后弹出的提示语是"图片理解功能内测中"。这是DeepSeek出圈以来第一次在主线产品里把视觉理解作为独立模式呈现。但需要说明的是,这个标签并不是所有用户都能看到,目前也无法确认它是常态化的灰度内测,还是短暂开放后又被回收——DeepSeek官方至此没有任何对外说明。 <br> DeepSeek网页端出现的"识图模式"tab,标注"图片理解功能内测中" <br> 根据该用户测试信息显示,在试图模式里,用户上传了一张人物照片并提问"这是什么动作姿势"。DeepSeek思考8秒后,先按位置、手臂、头部、头发、着装、光影逐项拆解了画面——"躯干呈一定角度,但面部明显朝向镜头""发丝散落在脸上和肩膀周围""高对比度,肤色苍白,深色衣服和阴影"——再给出最终判断:这是摄影和社交媒体语境里的"慵懒风躺姿"或"清冷氛围感姿势",常出现在小红书、抖音的"宅家""慵懒风""清冷感"等标签下。 <br> 值得记下的是这段思考过程里有一步明确的"自我修正考虑"。模型先列出了其他可能的解读——"手放在胸/肩处的『淑女』姿势"、"忧郁的自拍姿势"——再判断"慵懒氛围感姿势"才是最能涵盖所有细节的描述,最后才输出。这种结构化拆解、自我复核加文化语境识别的组合,已经超出DeepSeek过去主线产品上"图片识文字"的能力层次。 <br> 图3:沃垠AI流出的DeepSeek识图功能对话截图,显示了完整的拆解和自我修正过程 <br> 对话链接:https://chat.deepseek.com/share/ablc57vmv2ompm3vy6 <br> 值得注意的是,V2EX网友MichaelBitzo 4月29日下午发帖称DeepSeek API已经返回"识图模式"字段,跟帖的其他用户实测反馈"还是不可用状态"——意味着接口侧的字段已经存在,但调用尚未对外开放。 <br> DeepSeek-V4预览版4月24日上线,陈小康那条推文发布于4月28日,距离V4只隔了四天。多模态团队负责人发出预告,主线产品冒出新tab,对话分享链接生效,API字段返回——指向都比较一致:DeepSeek正在为主线产品装上视觉理解能力。但具体什么时候正式开闸、是否还会在五一假期前后落地,截至发稿尚没有官方时间表。 <br> V4本身没有原生多模态。4月24日发布当天,DeepSeek官方对V4的定义集中在三件事上——百万级长上下文、Agent能力、推理性能。媒体复盘的判断也大致一致:V4在长上下文成本、Coding和Agent任务上达到了开源模型的第一梯队,但缺乏原生多模态是明显的短板。钛媒体的实测稿直言"V4目前并没有原生多模态功能,这会限制它在一些场景的发挥"。36氪的复盘稿则透露,DeepSeek暂缓多模态生成的训练策略,主要源于算力和现金的掣肘。 <br> 但DeepSeek的研究侧,并没有在多模态上停下来。 <br> 陈小康博士毕业于北京大学,2024年加入DeepSeek,主导多模态预训练和后训练工作。从他的Google学术页里能数出一长串相关成果——2024年12月开源的DeepSeek-VL2(基于MoE架构,激活参数最大4.5B)、2025年发布并被CVPR收录的Janus和JanusFlow,再到春节前后开源的Janus-Pro。其中Janus-Pro在GenEval图像生成基准上超过了DALLE-3和Stable Diffusion 3,是当时开源多模态阵营里最受关注的成果之一。 <br> 也就是说,DeepSeek多模态团队的论文和开源模型一直在出,缺的只是把这套能力接到主线产品上。 <br> V4之前,DeepSeek主线产品里和"看图"有关的功能只有一项:chat.deepseek.com的"快速模式"支持识别图片中的文字,但本质是OCR调用,不是真正意义上的视觉理解。这一次冒出来的"识图模式",从沃垠那段对话case看,已经超出文字识别的层次,进入到画面语义、空间结构、氛围审美和文化语境的判断这一层。 <br> 事实上,铺垫4月初就开始了。4月8日,DeepSeek网页端在输入框上方第一次新增了「快速模式」和「专家模式」两个图标——这是DeepSeek出圈以来第一次在产品界面里做能力分层。爱范儿当时的实测稿援引技术KOL Teortaxes的判断:把Vision单独列为一个类是很不寻常的设计,DeepSeek此前拒绝在网页端部署DS-VL系列,原因是"尚未成熟"。如果Vision模式真的上线,背后支撑它的很可能已经是一个完全功能化的VLM,甚至是Janus系列的下一步演化。 <br> 也就是说,从4月8日的分层入口,到4月24日V4纯文本发布,再到4月28日陈小康那条已被删除的预告,到4月29日"识图模式"在网页端、对话分享和API三个层面同时冒头——这是一条连续的产品节奏,只是DeepSeek自己暂时还没把它说出来。 <br> DeepSeek多模态团队近年也并非没有人员变动。据《京报网》援引的公开消息,DeepSeek多模态核心贡献者阮翀今年4月加盟自动驾驶公司元戎启行任首席科学家,DeepSeek-OCR系列核心作者魏浩然也在春节前后离职。在这些变动之后,多模态团队的产品化进度依然推进到当前节点,本身也是一个值得记录的信息。 <br> DeepSeek把识图能力送上主线产品的时间点,落在一个比较特殊的行业拐点上。 <br> 按目前公开信息盘点,国内主要模型公司的多模态布局已经基本铺齐。阿里巴巴的Qwen系列推出了多代Qwen-VL视觉语言模型;智谱的GLM-V贯穿GLM-4和GLM-5两代;字节跳动和阶跃星辰把"全模态"作为核心定位,阶跃年初的Step 3.5 Flash把全模态能力首次开源;月之暗面的Kimi同步在视觉理解和Coding两条线并行;MiniMax在保持语言模型能力的同时把视频生成模型作为差异化优势。腾讯混元4月23日发布的Hy3 preview则把对标目标定为DeepSeek和阿里。换句话说,国内头部模型公司里,主线产品上没有视觉理解能力的,目前只剩DeepSeek一家。 <br> DeepSeek这次一旦正式开闸,意味着这条尾巴也合上了。中国头部模型公司全员"睁眼",这是2026年模型层一个比较结构性的变化。 <br> 让这件事变得更紧迫的是Agent。 <br> V4发布稿里,DeepSeek官方明确提到针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品做了适配优化,Agent能力是V4三个核心卖点之一。但纯文本Agent的能力上限是有限的——当Agent需要操作浏览器、读截图、看仪表盘、识别UI元素、处理图表和PDF的时候,没有视觉理解就没办法完成闭环。这也是过去半年Computer Use、屏幕操作Agent这一类产品集中冒出来的原因。 <br> 智谱的AutoClaw、阿里云的Coding Plan、Anthropic的Computer Use,在底层逻辑上共享一个判断:Agent要真正进入生产力场景,视觉能力是基础设施而不是锦上添花。从这个角度看,DeepSeek这次给主线产品装上识图能力,更接近补一张入场券,而不是单纯补短板。 <br> 不过具体效果还得等正式开闸之后看。沃垠流出的那个case里,DeepSeek识图模型表现出了画面拆解、自我复核和文化语境识别的能力,但单点case不能替代系统性测评。和Qwen-VL、GLM-V、Step的多模态版本相比能拉开多少差距,能不能接住开源社区对DeepSeek一贯的"打榜"期待,目前都没有可对比的数据。 <br> 另一个待观察的悬念是开源策略。DeepSeek过去把所有大版本模型都做了开源——包括VL、VL2、Janus系列。如果这次的识图能力最终也走开源路线,开源多模态阵营会再增加一个旗舰玩家;如果走闭源或半开源路线,则意味着DeepSeek在多模态商业化路径上做了一次和过去不同的选择。考虑到DeepSeek正在以超过200亿美元估值寻求融资,路径选择的信号意义不会小。
Topics
artificial intelligence multimodal AI image recognition
Metadata
Publisher 观察者网
Site guancha
Date 2026-04-29
Category report
Policy Area 人工智能
CMS Category 媒体报道