AI 43%
medium
2026-04-27
Robots Enter Home Cleaning: Embodied Intelligence Moves Toward the 'Ultimate Test' of Households
机器人“投身”家庭保洁 具身智能迈向家庭“终极考场”
经济参考报
xinhua
This media report covers the first deployment of a robot cleaner in real households in China, highlighting the progress and challenges of embodied intelligence in complex home environments. It discusses the technical bottlenecks, particularly the need for advanced AI models to handle unstructured household tasks.
Document Text
2,709 characters
近日,在北京市海淀区中关村大街一座大厦内的便利店,机器人将抓取好的饮料交给顾客。 新华社记者 任超 摄<br>
当58到家的保洁阿姨按下门铃时,她的身边多了一位新“同事”:一台由具身智能企业自变量研发的机器人。随着房门打开,全球首个机器人保洁员“上岗”入户,与保洁阿姨协同作业完成家庭保洁。<br>
记者了解到,目前机器人保洁员已先后在深圳、北京等地累计服务近百个家庭。这也意味着机器人从实验室和工业场景来到了更为复杂的家庭场景,为攻克具身智能应用“最后一公里”迈出了真实一步。<br>
“实习保洁员”的一小步<br>
机器人的一大步<br>
深圳市民陈果(化名)是呼叫机器人保洁员上门服务的首批体验者:她通过58同城App预约了国产机器人上门的智能保洁服务。“确实很新奇,一开始还有点担心机器人做家务活会做不好。”<br>
在3小时的服务中,陈果观察到,机器人不仅能在客厅和厨房间顺畅行走,还能负责清理垃圾、收拾桌面、清洁收纳等任务。“这台机器人干活还挺稳,人机配合很高效,比预期中好得多。”<br>
在家庭服务场景中,人机协作分工明确:保洁阿姨主要承担与客户沟通、现场判断以及更复杂的深度保洁工作,机器人作为得力助手,主要负责客厅区域的收纳和基础清洁。<br>
作为“实习保洁员”进家入户,对机器人来说已是显著的进步。因为家庭是一类具有极高复杂性、非标准化特征的开放场景,被认为是检验通用机器人技能的“终极考场”。智元机器人合伙人、高级副总裁王闯认为,普通百姓可能期待机器人直接进入家庭干活,但家庭场景实际上落地难度最高,需解决安全性、成本、复杂任务泛化性、作业成功率及避免破坏物品等诸多难题。<br>
正因如此,为使机器人在家庭场景中更稳定地干好精细活,需要更优的预训练,这对机器人的“大脑”——模型能力提出了更高要求。一位参与技术研发的工程师打了个比方:工业机器人像循规蹈矩的实习生,每一步都按手册操作;而家庭机器人需要像一个有常识的成年人,即使遇到没见过的情形也能随机应变。<br>
应用于家庭场景的机器人,一直是具身智能领域公认的“最后一公里”。36氪研究院发布的《2026年具身智能产业发展研究报告》提出,人形机器人产业发展的核心突破口在于机器人大脑的“演进”。宇树科技创始人王兴兴也不止一次公开表达过,机器人当下及未来最关键的挑战在于大模型,足见具身智能模型能力提升的急迫。如果说硬件决定了机器人能不能动,那么大模型决定了它能不能“聪明”地动——而这恰恰是目前全球业界共同的瓶颈。<br>
大脑进化关键在于处理“未见场景”<br>
用于家庭场景的机器人应当拥有怎样的大脑?<br>
“真正的智能机器人难点不在于单一动作的重复,而在于能不能在随机环境下做出全新的没有被训练过的动作。这要求基础模型必须具备高度的泛化性、准确性,能应对足够复杂的任务。”自变量机器人CEO王潜介绍,为此自变量研发了具身智能基础模型Wall-B。<br>
纵观全球多数具身智能企业,VLA(视觉-语言-行动)架构是当前具身智能领域的主流方案,其结构清晰:视觉模块负责“看”,语言模块负责“理解”,动作模块负责“做”。三个模块各司其职,数据依次传递。然而这一架构具有天然缺陷:数据在模块之间每传递一次,就会发生一次信息损耗和延迟。视觉模块“看到”的丰富空间信息,传到动作模块时,往往只剩一个模糊的摘要。而且VLA只能“模仿”训练数据中的轨迹,并不理解杯子为什么会掉,也不理解为什么盘子悬在桌边需要推回去。<br>
王潜说,Wall-B不是一个只会背标准答案的大脑。“它包括三方面能力:一个是以感知和理解,代替死记硬背标准答案的动作模仿。第二种能力是举一反三,不是每一个动作或场景都需要历史数据或‘老师’教。第三是实时调整的能力,做错动作之后可以马上调整正确,以高效完成任务。”<br>
具体而言,Wall-B将视觉、语言、动作、预测四方面的能力统一放在同一个架构里进行训练。这意味着模型不再是“看了再想、想了再做”的串联模式,而是能同时处理多种信息流。因此模型能够对物理世界的重力、惯性、摩擦等规律有更精确的认知和感受——比如它知道一个空纸杯比一个装满水的杯子更容易被碰倒,也知道光滑的地板上刹车需要更长的距离。这种对物理常识的内化,使得模型对数据的处理更加高效准确,而且能够应对从没见过的场景。<br>
例如,在一次真实家庭服务中,机器人第一次遇到一个底部带有吸盘的杯垫。它没有经过专门训练,但通过视觉识别和物理推理,意识到需要稍微用力才能拿起杯子。这种“现场推理”能力,正是Wall-B区别于传统VLA模型的关键所在。<br>
拿得掉遥控器<br>
还要离得开人<br>
今年以来,具身智能迈入应用快车道。2026年政府工作报告中,具身智能被明确列为需要培育壮大的未来产业之一。同期,工业和信息化部正式发布的《人形机器人与具身智能标准体系(2026版)》,为行业规范化、规模化发展提供了顶层设计。<br>
记者注意到,目前不论工业机器人还是用于商业场景的机器人,大部分依然依赖于遥操作,或者需要人的现场“指挥”。这意味着机器人的功能还停留在被动执行而非主动行动层面。拿得掉遥控器,机器人才能真正独立;离得开人,它才算拥有了自己的“大脑”。<br>
除大脑不够智能之外,数据也是相当关键的制约因素。再好的算法模型,如果没有海量、高质量、贴近真实场景的数据去训练,都会沦为“纸上谈兵”。<br>
因此,让人形机器人进入实战场以提升数据质量,已成为业内共识。王兴兴在2026人形机器人与具身智能标准化年会上说,通过模仿学习采集真人数据,机器人才有望掌握人类的各类动作。中国科学院自动化研究所研究员赵晓光称,实训场就像机器人上岗前的“实训课堂”,通过由简到繁的系统训练,让机器人掌握解决实际问题的能力。<br>
然而,目前行业大多数训练模型的数据来自实验室:固定光照、固定物体位置、无干扰环境。但这一环境与真实世界有着显著差距,尤其与家庭中随时变化的自然光、随意摆放的物品、孩子和宠物的随机动作截然不同。在实验室里表现优异的模型,一旦面对真实家庭的“混乱”,准确率可能从90%骤降到60%以下。<br>
机器人保洁员每次完成任务后,都会将脱敏后的感知数据和操作数据回传至训练平台。这些来自真实场景的“一手经验”,成为模型迭代最宝贵的养料。“训练的数据包括两个部分,我们用实验室的数据去帮助它建立基本能力,用真实场景的数据让模型学会真正的生存。”王潜说。<br>
接下来,搭载Wall-B的新一代具身智能机器人将更大批量进入多个城市的家庭场景,并加快训练、增强能力,使机器人尽快成为人类的家庭成员与好帮手。可以预见,在不远的将来,当我们听到门铃开门,迎接一位机器人保洁员进门服务,或许会像今天看到扫地机器人一样习以为常。(记者 吴蔚 张漫子)
Topics
embodied intelligence
robotics
home services
Metadata
| Publisher | 经济参考报 |
| Site | xinhua |
| Date | 2026-04-27 |
| Category | report |
| Policy Area | 具身智能 |
| CMS Category | 媒体报道 |
| Keywords | 具身智能 |
Verification