You haven’t taken this exam in thousands of years? Google’s “Most Poisonous” AI Exam Tests How You Conduct Yourself Under Pressure
几千年都没考过这个?谷歌“最毒”AI考局,专测你在压力下怎么做人
凤凰网科技
ifeng
Document Text
4,061 characters
编辑:元宇 大卫<br>
谷歌最新实验Vantage,派AI假扮你的同事,按剧本跟你唱反调、搞情绪化施压。考的不是你知道什么,而是你在压力下怎么做人。<br>
考试考了几千年,还从来没人考过这个。<br>
SAT考你数学,GRE考你词汇,再往前看:科举考试考你的八股文……<br>
古今考试形式不同,但底层逻辑却很一致:考你知道什么。<br>
但有一类能力,从来没有考试碰过:你跟人吵架时怎么办。<br>
最近,Google Research推出了一个叫Vantage的实验项目,就把这件事给干了。<br>
自动播放<br>
Google Labs实验中的Vantage入口https://research.google.com/p/vantage<br>
目前Vantage已经在Google Labs开放申请体验,现阶段主要支持英文。<br>
Vantage项目由谷歌联合纽约大学开发,主要设想是利用GenAI模拟团队协作场景,以此来开发和测量被测试者的软技能。<br>
它会把你扔进一个AI角色扮演的协作场景里,然后让你和一群AI角色组队完成任务。<br>
其中会有一个agent跳出来,专门按剧本跟你唱反调,抛不合理要求,搞情绪化反应。<br>
你在压力下做出的每一个回应,都会被另一个Agent基于评分量表进行分析,生成评分与反馈。<br>
整个过程中,你所面对的是一个被AI精心操控的「职场修罗场」:它考的不是你背了多少东西,而是你在压力下怎么做人。<br>
谷歌联合纽约大学做了188人验证,结果显示:<br>
AI评分与人类专家的一致性,跟专家与专家之间的一致性,处于同一水平。<br>
这意味着,至少在「评判」这件事上,AI已经开始接近人类专家。<br>
看来,考试这件事,以后可能要被重新定义了。<br>
最值钱的能力,偏偏最难考<br>
为什么软技能一直考不了?<br>
这个事企业HR太清楚了:招人最怕的不是技术不行,而是进了团队才发现这人完全不会协作。<br>
世界经济论坛2025年《Future of Jobs 2025》报告给了一组数据:到2030年,全球39%的核心职场技能将发生变化。<br>
未来五年内,预计工人核心技能将发生改变与保持不变的占比演变https://www.weforum.org/publications/the-future-of-jobs-report-2025/<br>
在企业最看重的能力排名中,分析思维排第一,紧随其后的是韧性、灵活性、领导力与社会影响力,排在最前面的几乎全是「软技能」。<br>
雇员最核心的技能中,排名靠前的包括分析思维、韧性、灵活性与敏捷性,以及领导力与社会影响力等。<br>
AI时代,这些软技能仍然是最核心的技能。<br>
问题是,怎么测?<br>
传统标准化测试太僵硬了,题目难易捕捉人类思维过程和人际互动,跟真实场景隔着十万八千里。<br>
基本上只能依靠两条。<br>
第一条,自我汇报问卷。问你「你善于沟通吗」,人人都勾「是的」。<br>
第二条,真人评估中心。请几个专业考官,设计情境,观察你一整天,最后给个评语。<br>
靠谱是靠谱,但做一次往往价格不菲、耗时几天,评分还因为考官不同而漂移。<br>
核心矛盾只有一条:软技能必须在互动中才能被观测,但标准化互动的成本太高,限制了它的实现和推广。<br>
你不可能给每个学生配一个真人考官,让他们吵一架再打分。<br>
所以几十年来,这一直是教育评估领域的一个老大难问题。<br>
市场上也不是没人尝试。<br>
HireVue用视频面试做AI情绪分析,Pymetrics用神经科学小游戏做性格测评,但它们都有一个共同局限:<br>
候选人面对的,更多仍是被设计好的数字流程,而不是一个会跟你争论、会给你挖坑、会把互动不断推进下去的真实对手。<br>
直到谷歌推出 Vantage,事情才开始变得不一样:它试图用多方AI角色协作生成情境,而且还把软技能测试的成本压到接近可规模化的水平。<br>
Vantage的多智能体架构<br>
Vantage不是一个AI在干活,而是一群AI在演戏,该系统的精巧之处在于架构设计。<br>
它不是一个AI出题、你来答题的传统路子,而是搭了一个四层架构,每层都有AI各司其职,同时运转。<br>
第一层,场景生成。<br>
你输入一个软技能维度,比如「冲突解决」。系统不是随机编个故事,它先拿到评估量表,看清楚「什么表现算好、什么算差」,然后倒推出一个能区分好坏的具体情境。<br>
第二层,角色扮演。<br>
这是整个系统最有意思的部分:多个AI agent各领一个角色进入场景,跟真人被测者对话。<br>
关键的地方来了:其中一个agent(Executive LLM)的任务就是「制造麻烦」。<br>
谷歌研究人员提到,它的角色就是按剧本给你施压、抛出不合理要求、搞情绪化反应。<br>
这不是随便聊聊天,而是有组织、有「预谋」的压力测试。<br>
当然,这个agent也不是傻压,而是实时分析对话状态,动态调整施压策略。它就像一个自适应的考试引擎,确保考完之后该采集的证据都采集到了。<br>
第三层,行为提取。<br>
对话结束后,另一个agent上场,逐轮回看对话记录。<br>
它不打分,只做一件事:把你的具体行为抽出来。<br>
哪句话是在回避冲突,哪句是在主动倾听,哪句是在强行说服。<br>
事实归事实,判断归判断,这两步被刻意分开了。<br>
第四层,评分。<br>
评分agent拿着量表和上一步提取出的行为证据,逐条对照打分。<br>
每个分数必须指向具体对话片段作为依据,不允许凭印象给分。<br>
这样四层解耦的好处很明显:场景可以换,角色可以换,评分标准可以换,但流水线本身不变,而且,模块化意味着可扩展。<br>
今天测冲突解决,明天换个量表就能测项目管理,后天再换就能测谈判能力。<br>
熟悉软件工程的人大概一眼就认出来了,这就是把微服务架构的思路,搬到了教育评估里。<br>
188人实测<br>
AI考官到底靠不靠谱<br>
架构再漂亮,不实测都是空谈。<br>
谷歌和NYU做了一次联合验证。他们找了188名美国测试者,年龄18-25岁,在Vantage中完成了冲突解决和项目管理两个维度的评估。<br>
然后,NYU的人类评分专家用同一份rubric对同样的对话记录打分。<br>
结果很有意思。<br>
人类专家之间的一致性,Kappa值为0.45到0.64,也就是中等一致性。<br>
专家彼此之间,以及大模型和专家之间,在对话评估上的一致性对比。 蓝色是专家与专家,红色是大模型与专家的一致性评估结果。柱子越高,代表看法越接近。<br>
两个人类专家给同一段对话打分,经常打出不同的分数。<br>
这不意外。<br>
软技能评估本来就是主观判断密集的领域。<br>
比如,一个人觉得候选人在冲突中表现出了「坚定但尊重」,另一个人可能觉得那叫「固执」。<br>
而AI评分期跟人类专家之间的一致性呢?跟两个人类专家之间差不多,这意味着它的评分质量已经到了同一水平线上。<br>
这听起来似乎没什么大不了,但在软技能评估这个领域里,这已经是一个了不起的基线。<br>
更重要的是:人类专家一次只能评几个人,AI可以同时评几万人。<br>
成本直接差了两个数量级。<br>
这不只是考试<br>
很多人第一反应是:这不就是个花哨的AI面试官吗。<br>
过去几年,AI面试工具层出不穷,大多数最后沦为噱头。<br>
但Vantage更像是一个基础设施层,目前谷歌已公开 Vantage 的技术报告与实验介绍,外界已经能比较清楚地看到它如何用评分量表驱动情境生成、角色互动与结果评估。<br>
从方法上看,这套框架具备一定的可迁移性:在理论上,研究者或机构可以围绕不同软技能设计相应任务与量表,并据此搭建类似的评估流程。<br>
比如,企业可以探索把它用于领导力或协作场景的训练与评估,教育机构也可以把它用于协作能力练习和反馈。<br>
这让人想起教育评估领域长期讨论的「形成性评估」:不是期末一次定结果,而是在学习过程中持续测量、持续反馈、持续调整。<br>
过去这件事之所以难以规模化,一个重要原因是高质量互动评估往往依赖真人考官,成本高、耗时长、标准化困难。<br>
而像Vantage这类基于生成式AI的模拟评估系统,则让这件事第一次呈现出更强的可扩展性。<br>
当「最难考的能力」变得可考<br>
当然,必须说清楚Vantage目前的边界。<br>
Google Labs博客中将其定义为研究实验,它目前更接近一个公开可体验的研究实验,而不是已经大规模落地的成熟应用。<br>
188人的验证规模不算大,只明确覆盖了协作中的冲突解决和项目管理两个维度,跨文化场景没碰,长期技能成长追踪没做,模拟环境里的表现能不能迁移到真实的人际互动,也还是个问号。<br>
谷歌自己也承认,下一步要研究的正是这些。但这不妨碍Vantage这项实验的潜力。<br>
OECD早就把创造力、批判性思维列进了教育系统的核心讨论。所有人都知道软技能重要,但没人真正解决过怎么测、怎么大规模地测。<br>
Vantage给出了一个可能的答案。<br>
Google Research博客里提到了这样一句话:「在全球教育体系中,被测量的东西往往就是被教授的东西。」<br>
这句话才是真正的炸弹。<br>
如果软技能可以被量化评估,那学校教什么就会变。<br>
现在学校考什么?知识、公式、标准答案。因为只有这些东西能标准化测量。<br>
但如果有一天,协作力、冲突解决能力、创造力都能被精准打分了,课程设计的底层逻辑就会被改写。<br>
企业招聘也一样。<br>
今天的招聘流程看学历、看简历、看面试官的直觉。<br>
如果AI可以在沉浸式模拟中直接观察一个人处理冲突的能力,并给出可量化的分数,面试这件事本身就会被重新定义。<br>
个人成长也一样。<br>
你的沟通能力、你的领导力,第一次有了可视化的进步曲线。<br>
不再是「我觉得自己变强了」,而是「系统显示你的冲突解决得分从上个月的63提升到了71」。<br>
这就是Vantage这个小实验背后的大故事:当「最难考的能力」变得可考,教育评估的边界就会被重新划定。<br>
未来的考试<br>
可能是让你跟AI吵一架<br>
当AI能制造冲突、观察行为、提取证据、逐条打分,「考试」这个词的含义就永远变了。<br>
它不再是你对着一张试卷独自奋斗,可能是你走进一个房间,面对一群不好对付的人,然后做你自己。<br>
下一个被AI考的软技能会是什么?<br>
也许是谈判,也许是共情,也许是你最不想被打分的那个东西。<br>
当AI不仅能替代你的硬技能,还能给你的软技能精准打分的时候,你还觉得「情商」「协作力」是不需要认真对待的东西吗?
Metadata
| Publisher | 凤凰网科技 |
| Site | ifeng |
| Date | N/A |
| CMS Category | 媒体报道 |
| Keywords | 技能 专家 核心 对话 评分 人类 角色 谷歌 一致性 领导力 做人 架构 真人 场景 结果 情境 思维 考官 流程 定义 答题 面试官 东西 纽约大学 底层 韧性 系统 灵活性 领域 研究者 报告 职场 理论 技术 问题 压力 每层 剧本 量表 维度 创造力 精准 影响力 社会 原因 逻辑 论坛 科举考试 情绪化 问卷 视频 性格 局限 工具 标准答案 曲线 经济 测试者 项目 八股文 不合理 汇报 情绪 小游戏 候选人 层出不穷 公式 可视化 世界 路子 元宇 博客 传统 教授 中将 任务 课程设计 成本 编辑 动态 项目管理 能力 规模化 老大难 事实 耗时 企业 主观 大卫 柱子 花哨 直觉 雇员 全球 关键 美国 专业 年龄 跨文化 测者 |
Verification