“请把房间里的汽车找出来。”
“好的,我去找玩具汽车。”
3月29日
在2025中关村论坛年会
通用人工智能论坛上
北京通用人工智能研究院(以下简称“通研院”)
研发的“通通”2.0发布
相较于去年发布的“通通”1.0
“通通”2.0在语言、认知、动作、
学习、情绪、交互等方面
都实现了多种核心能力的升级
全球首个通用智能人“通通”2.0升级迭代
nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />
通研院先进技术中心执行主任陈浩介绍道:“‘通通’2.0实现了一个有自身价值观、世界观的小女孩,在理解对话目标意图的基础上,遵循自身价值和人格,利用对话策略来引导对话的走向,从而达到自身的目的。在价值调控对话生成、消除模型幻觉、保持对话前后连贯性以及‘言行一致’等方面取得突破。”简单地说,当妈妈要求“通通”睡觉,或者吃她不喜欢的食物时,“通通”可以向妈妈耍赖,找理由磨蹭,并试图要求妈妈给予奖励,在多轮协商达成一致后才会实施对应任务。
“通通”生活在高度仿真的复杂、动态三维虚拟场景中,1.0版本的“通通”在任务执行过程中,如果周围的环境发生变化,会导致她原本规划的任务无法顺利完成。但“通通”2.0可以实时响应外界场景的变化,进行反思和重新规划,对已有任务进行挂起、恢复、修改或取消等处理,同时动态生成新的任务规划,从而以更灵活、智能、多变的方式完成指令。
不仅如此,不同于当前大语言模型普遍采用的离线数据驱动的学习模式,“通通”在和场景交互(自主学)及与人类的多模态对话(他人教)过程中,能动态更新自身的知识库、价值函数和技能,使得她初步具备类人的持续反思和成长的能力。
发布过程中,当“通通”想打开空调时,通研院技术人员利用VR手多次改变遥控器位置,让她无法轻易拿到,“通通”进行了一系列尝试:先是脱鞋上沙发,然后再利用沙发上的靠垫,增加自身高度后最终拿到放在墙架上的遥控器;在按下遥控器,空调仍未打开时,可以教导她“电器需要插上插头才能使用”,“通通”在遵循教导,成功打开空调的同时,能够更新自己的技能库,使得该项技能、知识被长期存储。
在研发过程中,研究人员为“通通”打造了幼儿园、六口之家等多智能体场景,并在场景中设置了各自独立,具备自身价值、能力、人设、状态的多个智能体,使“通通”拥有了自己的家人和朋友。
nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />
“在这种多智能体场景中,‘通通’不仅需要理解周围环境,还需要理解环境中其他智能体,识别他们的身份、性格和自身的关系、彼此之间的关系和物品的关系、当前动作、意图、气氛等,并在此基础之上进行自身的任务规划,包括发起和响应对话,实施帮助、捣乱等复杂行为交互。”陈浩说道。在演示过程中记者看到,当“通通”在做任务遇到困难时,能主动开口寻求帮助,并解释自己的困难;在和弟弟一起打扫房间时,她会实时观察弟弟,并根据弟弟的行为来调整自己的任务规划,从而完成合作。
通智测试填补通用人工智能评测的国际空白
当前,国际上缺乏通用人工智能的严格数理定义,更缺少衡量一个AI系统是否达到了通用人工智能的测试标准与平台。为了测试通用智能体的能力,通研院自主设计开发的通智测试TongTest发布,作为一个专为评估通用人工智能而设计的综合评测体系,包含视觉、语言、认知、运动、学习、价值等六维度,初级自身价值、高级自身价值、多智能体互动的价值、基础社交价值、高级社交价值等五层级的智能体评级标准,以及一个支撑该评级标准实现的智能体虚拟测试平台。通智测试基于“论绩、论迹、论理、论心”四论标准,即以结果为核心的基础评价、关注行为过程与轨迹、聚焦推理路径的合理性、探究动机与价值观的正确性,实现了“通用能力测试-专项能力测试-行业应用测试”三位一体。
测试平台基于动态具身的物理和社会交互环境,通过模拟复杂的真实世界任务,全面评估AGI在不同维度上的能力与价值等级。在技术特点上,TongTest可无限测试任务生成,同时注重能力与价值测量并重,平台提供与虚拟环境中的其他角色和元素的互动,并能够根据评级体系对AGI达到的等级进行定量描述。
TongTest突破了传统人工智能测试方法的局限,填补了通用人工智能评测的国际空白,为规范通用人工智能的发展提供了科学的度量与指挥棒,为人工智能的安全与标准提供了数理框架,同时也为我国在通用人工智能领域抢占国际话语权提供了科学依据。
经过TongTest86项综合任务对“通通”进行的阶段性测试结果显示,与人类儿童发展阶段对比,“通通”主要能力维度已初步达到5-6岁发展水平,相当于幼儿园小朋友的水平。TongTest也能够测试当前的主流大模型,将其封装为具身智能体后,测试其场景感知与任务规划、空间交互与任务执行等能力。
三维场景重建与具身智能数据构建平台发布
面对新场景、新环境,“通通”是如何快速理解并重建场景的?又是如何通过自主学习来适应并完成任务的?为了提升和训练通用智能体的能力,论坛发布了三维场景重建与具身智能数据构建平台“通通到我家”,该平台能“把现实世界搬进电脑”,让智能体“通通”走进千家万户。
记者在现场看到,家庭服务场景中,研究员借助虚拟现实设备与三维场景中的“通通”开展交互,“通通”不仅精准理解了现实场景中研究员的手势指令,还在虚拟空间内完成了玩具收纳的任务,后续还支持将虚拟环境中的训练成果部署至真实场景,实现技能向现实世界的迁移。
也就是说,无论是家庭客厅、商场街道,还是复杂工业环境,“通通到我家”都能进行任意图片或视频的三维重建,快速构建高精度、可交互的三维虚拟空间,精准还原真实世界的物理细节,并自动标注场景中物体的属性与空间关系,形成百万级语义数据集,为机器人、数字人、智能人在虚拟场景中进行学习、社交、训练提供强大的数据支撑和技术保障。同时该成果突破传统学习的限制,让智能体在虚拟空间和真实环境中无缝切换,推动更多智能、可靠的智能体走进千家万户,未来将引领数字孪生、家庭服务机器人、元宇宙等领域迈入全新发展阶段。
随着“通通”的持续迭代,她的能力也在稳步提升。未来,“通通”将成为通用底座支撑各类垂直应用场景,进一步学习行业特定的知识和技能,形成千万个“通用智能人”赋能千行百业,同时与具身智能机器人相结合,为智能制造、智慧城市、养老陪护、数字助理、家用机器人等领域带来革命性的变化,更好地服务居民日常生活。
记者:李洪亚
编辑:罗雨涵
推荐 · 阅读