Sudden! DeepSeek "opened eyes" and the AI ​​circle was in turmoil overnight

突发!DeepSeek“开眼”,AI圈一夜腥风血雨

凤凰网科技 ifeng
Document Text 1,311 characters
DeepSeek的「鲸鱼」,终于睁开了眼睛。<br> 今日,DeepSeek负责多模态开发的研究员陈小康在X平台发布了一条动态:Now, we see you。配图里,DeepSeek标志性的鲸鱼logo摘下了眼罩。<br> 几乎在同一时间,用户发现DeepSeek网页版悄然上线了「识图模式」。在该模式下,用户可以上传图片,由模型进行内容理解与分析。不过,这一功能目前尚未全量推送,仅有部分用户获得了入口权限,雷科技(ID:leitech)已第一时间获得灰度测试资格,具体内容可以关注稍后的雷科技相关内容。<br> 说实话,DeepSeek之前的爆火,靠的就是文本推理上的性价比奇迹。V3和R1用极低的训练成本,干出了接近甚至超越闭源巨头的逻辑推理能力,直接把行业价格打下来,但短板也很明显:它一直只能读文,不能看图。<br> 这在日常用起来特别别扭,别人传张Excel截图让Claude直接分析数据,或者给Gemini一张草图让它生成代码,这些操作以往在DeepSeek上都玩不了。它可以写代码、解数学题、写大纲,但遇到一张图片,它只能说一声抱歉。<br> 但,要做平台级AI,视觉理解始终是绕不开的,DeepSeek也不例外。<br> 现实世界里大量信息根本不以文字形式存在,发票、报表、路牌、商品包装、设计稿、朋友圈截图等等,如果AI连这些都读不了,它的实用性就被砍了一大半。<br> 如今识图模式的到来,意味着DeepSeek的产品能力正式从纯文本对话延伸至图文交互领域,补齐了其与GPT、Gemini等主流多模态大模型之间的关键差距。<br> 但不可否认的是,DeepSeek现在推出识图模式,压力不小。<br> GPT的视觉理解已经相当成熟,而Gemini本来就是多模态原生架构,Claude对图表和文档的解析也越来越强。用户胃口早就被养刁了,DeepSeek想在这个领域再当一次黑马,光能看图不够,还得有点绝活。<br> 比如结合它擅长的推理能力,看着一张数据图表推导出商业趋势,或者对着一张电路图给出维修建议,那才是真正的差异化。<br> 大胆猜测,在视觉理解能力开放之后,DeepSeek后续可能还会逐步开放图像生成、视频理解等更高阶的能力。如果能把专家模式的深度思考与识图模式的视觉理解的结合,那DeepSeek未来在复杂图文推理场景中的表现值得期待。<br> 鲸鱼摘了眼罩只是第一步,但它「看见」了之后,能不能给出让人眼前一亮的回答?能不能做出差异化?做出一些颠覆行业的事情,哪怕只是一点点,这才是我们熟悉的DeepSeek。<br> “特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。<br> Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”
Metadata
Publisher 凤凰网科技
Site ifeng
Date N/A
CMS Category 媒体报道
Keywords 能力 模式 鲸鱼 用户 图表 视觉 图文 模型 文本 模态 行业 平台 发票 数学题 代码 入口 信息 资格 灰度 黑马 架构 睁开 路牌 报表 商业 深度 闭源 数据 视频 逻辑推理 差距 巨头 关键 文字 功能 电路图 科技 全量 建议 权限 领域 现实 大量 性价比 世界 眼罩 高阶 小康 对话 研究员 时间 具体内容 上线 网页 趋势 原生 商品 专家 不可否认 形式 内容 草图 大纲 部分 图片 光能 眼睛 图像 奇迹 腥风血雨 标志性 价格 事情 动态 大胆 理解能力 场景 文档 产品 压力 胃口