AI 45%

AI learns to "sleep"! After Claude memory optimization, task completion rate increased by 6 times

AI学会“睡眠”!Claude记忆优化后任务完成率飙升6倍

凤凰网科技 ifeng
Document Text 1,495 characters
快科技5月7日消息,据媒体报道,在旧金山举办的开发者大会上,人工智能公司Anthropic宣布为旗下智能体平台Claude推出一项突破性功能——Dreaming。<br> 该技术允许AI在执行任务间隙进入类似睡眠的状态,通过模拟人类快速眼动(REM)睡眠机制,自动整理历史会话数据、优化记忆库并挖掘潜在规律,从而在“醒来”后显著提升性能。<br> 传统AI代理处理复杂任务时,会将信息以碎片化方式存储于记忆库。随着会话次数增加,记忆库中逐渐积累重复条目、过时数据和矛盾信息,而AI缺乏全局视角,难以自主识别这些问题。<br> Dreaming功能通过定时运行的异步任务,同时读取现有记忆库及最多100个历史会话的完整记录,生成经过优化的全新记忆库。该过程包含三个核心步骤:合并重复数据、更新过时条目、提炼宏观规律,其运作原理与人类大脑在REM阶段将短期记忆整合为长期记忆的过程高度相似。<br> 为确保系统安全,Anthropic设计了严格的控制机制。Dreaming生成的记忆库不会直接覆盖原始数据,开发者可先审查优化结果,再决定是否应用。<br> 该功能还支持实时监控:开发者通过订阅会话事件流,可观察AI处理记忆的具体过程,并在发现问题时随时终止任务。借助自定义指令字段,用户可引导AI聚焦特定主题进行记忆整理,实现多维度优化。<br> 针对AI输出质量不稳定的问题,平台同步推出Outcomes自动评分系统。开发者可制定包含成功标准的评分规则,系统会分配独立评估器对AI输出进行打分。当检测到缺陷时,评估器将精准定位问题并指示AI重新优化,直至满足标准。<br> 内部测试显示,该功能使任务成功率提升最高达10个百分点。在文档生成场景中,docx格式任务成功率提高8.4%,pptx格式提高10.1%,对品牌调性匹配等主观质量评估同样有效。<br> 为应对更复杂的任务挑战,平台引入了多智能体编排系统。当单个代理无法完成任务时,主智能体可将任务拆解为多个子任务,分配给具备不同专业能力的子智能体并行处理。<br> 各子智能体基于共享文件系统协作,成果汇总至主智能体的全局上下文。开发者可在控制台追溯每个步骤的决策依据,实现全流程透明化管理。<br> 在月球采矿无人机着陆模拟实验中,该系统协调地质探测与导航两个子智能体,将安全评分从67%成功提升至100%。<br> 法律科技公司Harvey的实践验证了这套技术组合的价值。在应用Dreaming功能后,其任务完成率增长约6倍。<br> 此外,Anthropic宣布与SpaceX达成战略合作,租赁位于得克萨斯州的Colossus 1数据中心全部算力资源,包含22万张GPU。这笔交易为托管智能体平台提供了强大算力支撑,满足Dreaming处理海量数据、多智能体并行运算以及Outcomes系统反复迭代的需求。<br> 作为直接用户福利,Claude Code的使用时长限额即时翻倍,Pro/MAX版本高峰时段访问限制大幅放宽,Opus API调用速率也获得显著提升。<br> “特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。<br> Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”
Metadata
Publisher 凤凰网科技
Site ifeng
Date N/A
CMS Category 媒体报道
Keywords 任务 记忆 智能 系统 数据 开发者 平台 人类 代理 公司 整理 功能 过程 完成率 历史 评分 条目 大会 步骤 算力 评估器 旧金山 高峰 调性 技术 版本 主观 价值 时段 问题 原理 大脑 成功率 全局 用户 质量 规律 媒体报道 阶段 格式 资源 人工智能 数据中心 全部 标准 规则 透明化 信息 场景 方式 流程 月球 旗下 精准 定位问题 库中 决策依据 模拟实验 指令 品牌 科技 法律 记录 会话 性能 传统 碎片 宏观 能力 汇总 专业 成果 机制 内部测试 核心 海量 福利 突破性 次数 无法 消息 主题 多维度 高度 文档 状态 眼动 视角 原始数据 地质 交易 间隙