Kimi K2.6, the strongest model of Dark Side of the Moon, is released and open source: code capabilities benchmarked against GPT-5.4

月之暗面最强模型Kimi K2.6发布并开源：代码能力对标GPT-5.4

凤凰网科技 ifeng

Document Text 3,167 characters

感谢IT之家网友 Domado、一只Zenon、枯、苏菲死丢丢、软媒用户389454、佳宜、子神、Alita的迷弟、还能再等等、JARK006、Tallis、LL J、流汗黄豆、files 的线索投递！ IT之家 4 月 21 日消息，月之暗面昨天发布并开源了其最新模型 Kimi K2.6，该模型在代码编写、长程任务执行及 Agent 集群能力方面实现了全面升级。 即日起，所有用户均可通过官网（IT之家附地址：kimi.com）、最新版 Kimi 应用、Kimi API 以及 Kimi Code 编程助手使用该模型。 据官方披露，Kimi K2.6 在博士级难度的完整版“终极人类考试”（Humanity's Last Exam）、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中，均取得了行业领先的成绩，表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。 作为月之暗面迄今最强的代码模型，Kimi K2.6 的长程编码能力显著提升。在测试中，该模型可以不间断编码长达 13 小时，编写或修改超过 4000 行代码，完成复杂系统的开发与优化。通过将代码与视觉能力深度融合，K2.6 能够交付具有设计创意的专业级 Web 应用。IT之家注意到，在 Kimi 内部的严格代码评测基准 Kimi Code Bench 中，K2.6 的成绩相比上一代 K2.5 提升了约 20%。 实测案例显示，该模型成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型，使用小众的 Zig 语言实现并优化模型推理，经过 4000 多次工具调用、超过 12 小时的不间断运行，共迭代 14 轮，将吞吐量从约 15 tokens/s 提升至约 193 tokens/s，最终推理速度比 LM Studio 快 20%。 在另一个案例中，Kimi K2.6 自主完成了对拥有 8 年历史、接近性能极限的开源金融撮合引擎 exchange-core 的深度重构，历经 13 小时连续作业，迭代 12 套优化策略，通过 1000 余次工具调用，精准修改了 4000 多行代码，最终实现中位吞吐量从 0.43 MT/s 跃升至 1.24 MT/s（增幅 185%），峰值吞吐量从 1.23 MT/s 飙升至 2.86 MT/s（增幅 133%）。 在代码驱动设计方面，K2.6 的 Agent 模式能够制作具有设计感和视觉冲击力的网站。凭借对图像和视频生成工具的熟练调用，该 Agent 可以生成视觉风格高度统一的素材，构建视觉焦点突出的首屏区，并实现交互元素和滚动触发动效。 月之暗面表示，它不局限于前端页面编写，也支持基础的后端数据库模块，例如在网页中嵌入表单信息收集功能。 另外，月之暗面还创建了一套专门的前端开发设计评测基准 Kimi Design Bench，涵盖视觉输入、落地页构建、全栈应用开发及通用 Web 开发四个维度，对比 Google AI Studio 中的 Gemini 3 模型，基于 Kimi K2.6 的 Agent 展现出了明显领先优势。 同时，其 Agent 集群能力迎来全面升级。K2.6 支持动态拆解复杂任务，自主生成专项 Agent 并行处理，现在最多可调度 300 个子 Agent 并行完成 4000 个协作步骤，实现更大规模的并行化，任务完成度和交付质量相比 K2.5 显著提升。Agent 集群能够将搜索、深度研究、文档分析和长文创作等能力进行组合，在单次运行中独立完成从文档到网页、再到 PPT 和表格的多产物端到端交付。 例如，该集群针对全球 100 个半导体标的设计并执行了 5 套量化策略，将麦肯锡风格的 PPT 逻辑沉淀为可复用技能，最终交付了详尽的建模表格和整套汇报演示文档。 在另一个案例中，Agent 集群将一篇包含大量视觉数据的天体物理论文转化为可复用学术技能，提取论文的推理流程和可视化方法，产出了 40 页、7000 字的研究论文，以及包含 2 万多条数据的结构化数据集和 14 张天文级图表。 K2.6 显著增强了 Agent 的自主化执行能力，尤其在与 OpenClaw、Hermes Agent 等主动式 Agent 框架协同工作时表现突出。这类场景要求 AI 能够跨应用实现 24/7 不间断运行。 月之暗面的 RL 基础设施团队使用基于 K2.6 的 Agent 实现了连续 5 天自主运行，该 Agent 负责监控、故障响应和系统运维，展现了持久的上下文维持能力、多线程任务处理能力以及从接收告警到彻底解决的全流程执行能力。 Kimi 内部的 Claw Bench 测试结果显示，K2.6 相比 K2.5 综合性能提升了 10%，涵盖编程任务、即时通讯生态集成、信息检索与分析、定时任务管理及记忆调用五大维度，在需要长时间自主运行且无需人工干预的工作流中优势尤为显著。 借助 K2.6 更强的代码和视觉理解能力，Kimi Agent 模式现在支持创建和调用技能（Skill）。系统已内置上百个官方推荐技能，包括投研技能包，可一键生成专业排版的 A 股、港股、美股公司一页纸或深度投资研报。 用户在 Kimi Agent 模式下输入斜杠“/”即可开始创建和调用技能。此外，Kimi Agent 已支持“Office 文档转技能”功能，上传高质量 Office 文档后，模型会尝试理解原文档的结构与风格基因，生成专属的可复用文档创建技能。 月之暗面同时宣布开启“Claw 群组”小范围内测。该群组的目标是让多个 Agent 与人类作为真正的协作者共同运行，用户可以接入来自任何设备、任何供应商、运行任何模型的全天候 Agent（首批支持 OpenClaw，后续将加入对 Hermes Agent 等框架的支持），每个 Agent 可携带各自的专业工具包、技能和持久化记忆上下文。 在 Claw 群组中，K2.6 担任协调者，根据 Agent 的技能画像和可用工具动态匹配任务，当某个 Agent 遇到故障或停滞时，协调者会检测到中断并自动重新分配任务或生成子任务。Kimi Claw 用户将陆续收到内测邀请。 Kimi K2.6 现已面向所有免费用户、付费订阅用户、Kimi Code 和企业 API 用户开放。企业和开发者在 Kimi API 中指定模型为 kimi-k2.6 即可开始使用。 为庆祝 K2.6 模型 API 上线，Kimi 开放平台同步开启了最高 30% 的限时充赠活动。同时，Kimi K2.6 官方 API 已经首发登陆腾讯云 TokenHub 等平台。月之暗面推荐直接调用官方 API 复现基准评测成绩，如需使用第三方 API 服务，可通过 Kimi 模型供应商验证服务（Kimi Vendor Verifier, KVV）挑选精度更高的服务商。 “特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。 Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

Metadata

Publisher	凤凰网科技
Site	ifeng
Date	N/A
CMS Category	媒体报道
Keywords	模型能力代码视觉任务技能文档用户开源暗面风格深度数据工具成绩群组流程论文集群完整版领先编程基准功能人类系统表格模块企业天体网页生态即时通讯汇报官方黄豆部署小时页面调度标的天文框架基础设施模式精度流汗本地下载作业局限于个子半导体图表协同工作团队斜杠服务商范围动态素材性能吞吐量数据库基础长程后端记忆物理大量方面终极全面图像前端开发金融行业专业网站表单信息基因公司焦点建模上线结构协作者画像专属高度中断落地编码中位运维故障方法可视化麦肯锡内置

Verification

Original URL
https://tech.ifeng.com/c/8sUoDkFF44L

Compare with archived HTML