英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

【新智元导读】给游戏行业来点GPT-4式震撼?这个叫Voyager的智能体不仅可以根据游戏的反馈自主训练,而且还能自行写代码推动游戏任务。

继斯坦福的25人小镇后,AI智能体又出爆款新作了。

最近,英伟达首席科学家Jim Fan等人把GPT-4整进了「我的世界」(Minecraft)——提出了一个全新的AI智能体Voyager。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

Voyager的厉害之处在于,它不仅性能完胜AutoGPT,而且还可以在游戏中进行全场景的终身学习!

比起之前的SOTA,Voyager获得的物品多出了3.3倍,旅行距离变长了2.3倍,解锁关键技能树的速度快了15.3倍。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

对此,网友直接震惊了:我们离通用人工智能AGI,又近了一步。

所以,未来的游戏,就是由大模型带动NPC来玩的吧?

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

真·数字生命

接入GPT-4之后,Voyager根本不用人类操心,完全就是自学成才。

它不仅掌握了挖掘、建房屋、收集、打猎这些基本的生存技能,还学会了自个进行开放式探索。

它会自己去到不同的城市,路过一片片海洋,一座座金字塔,甚至还会自己搭建传送门。

通过自我驱动,它不断探索着这个神奇的世界,扩充着自己的物品和装备,配备不同等级的盔甲,用盾牌格挡上海,用栅栏圈养动物……

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

论文地址:https://arxiv.org/abs/2305.16291

项目地址:https://voyager.minedojo.org/

Voyager的英勇事迹包括但不限于——

大战末影人

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

造基地

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

挖紫水晶

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

挖金子

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

收集仙人掌

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

打猎

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

钓鱼

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

数字生命的潜能究竟有多大?我们只知道,现在Voyager仍然在Minecraft中一刻不停地探索,不断扩展着自己的疆域。

「训练」无需梯度下降

此前,AI领域的一大挑战就是,构建具有通用能力的具身智能体,让它们在开放世界中自主探索,自行发展新技能。

以往,学界都是采用强化学习和模仿学习,但这些方法在系统化的探索、可解释性和泛化性等方面,表现往往差强人意。

大语言模型的出现,给构建具身智能体带来了全新的可能性。因为基于LLM的智能体可以利用预训练模型中蕴含的世界知识,生成一致的行动计划或可执行策略,这就非常适合应用于游戏和机器人之类的任务。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

此前,斯坦福研究者构建出生活着25个AI智能体的虚拟小镇,震惊了AI社区

这种智能体还有一个好处就是,不需要具体化的自然语言处理任务。

然而,这些智能体仍然无法摆脱这样的缺陷——无法终身学习,因而不能在较长时间跨度上逐步获取知识,并且将它们积累下来。

而这项工作最重要的意义就在于,GPT-4开启了一种新的范式:这个过程中是靠代码执行「训练」,而非靠梯度下降。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

Jim Fan解释道:我们在BabyAGI/AutoGPT之前就有了这个想法,花了很多时间找出最好的无梯度架构

「训练模型」是Voyager迭代式构建的技能代码库,而非浮点数矩阵。通过这种方法,团队正在将无梯度架构推向极限。

在这种情况下训练出的智能体,已经具备了同人类一样的终身学习能力。

比如,Voyager如果发现自己处在沙漠而非森林中,就会知道学会收集沙子和仙人掌就比学会收集铁矿更重要。

而且,它不仅能根据目前的技能水平和世界状态明确自己最合适的任务,还能根据反馈不断完善技能,保存在记忆中,留在下次调用。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

所以,我们离硅基生命出现还有多远?

刚刚回到OpenAI的Karpathy对这个工作表示盛赞:这是个用于高级技能的「无梯度架构」。在这里,LLM就相当于是前额叶皮层,通过代码生成了较低级的mineflayer API。

Karpathy回忆起,在2016年左右,智能体在Minecraft环境中的表现还很让人绝望。当时的RL只能从超稀疏的奖励中随机地探索执行长期任务的方式,让人感觉非常stuck。

而现在,这个障碍已经在很大程度上被解除了——正确的做法是另辟蹊径,首先训练LLM从互联网文本上学习世界知识、推理和工具使用(尤其是编写代码),然后直接把问题抛给它们。

最后他感慨道:如果我在2016年就读到这种对智能体的「无梯度」方法,我肯定会大吃一惊。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

微博大V「宝玉xp」也对这个工作给予了高度评价——

Voyager

与其他AI研究中常用的游戏不同,Minecraft并没有强加预定义的终点目标或固定的剧情线,而是提供了一个具有无尽可能性的游乐场。

对于一个有效的终身学习智能体来说,它应该具有与人类玩家类似的能力:

1. 根据其当前的技能水平和世界状态提出适当的任务,例如,如果它发现自己是在沙漠而不是森林中,就会在学习收集铁之前学习收集沙子和仙人掌

2. 基于环境反馈来完善技能,并将掌握的技能记入记忆,以便在类似情况下重复使用(例如,与僵尸战斗与与蜘蛛战斗类似)

3. 持续探索世界,以自我驱动的方式寻找新的任务。

为了让Voyager具有上述这些能力,来自英伟达、加州理工学院、得克萨斯大学奥斯汀分校和亚利桑那州立大学的团队提出了3个关键组件:

1. 一个迭代提示机制,能结合游戏反馈、执行错误和自我验证来改进程序

2. 一个技能代码库,用来存储和检索复杂行为

3. 一个自动教程,可以最大化智能体的探索

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

首先,Voyager会尝试使用一个流行的Minecraft Javascript API(Mineflayer)来编写一个实现特定目标的程序。

虽然程序在第一次尝试时就出错了,但是游戏环境反馈和Javascript执行错误(如果有的话)会帮助GPT-4改进程序。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

通过提供智能体当前的状态和任务,GPT-4会告诉程序是否完成了任务。

此外,如果任务失败了,GPT-4还会提出批评,建议如何完成任务。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

自我验证

其次,Voyager通过在向量数据库中存储成功的程序,逐步建立一个技能库。每个程序可以通过其文档字符串的嵌入来检索。

复杂的技能是通过组合简单的技能来合成的,这会使Voyager的能力随着时间的推移迅速增长,并缓解灾难性遗忘。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

第三,自动课程会根据智能体当前的技能水平和世界状态,提出合适的探索任务。

例如,如果它发现自己在沙漠而非森林中,就学习采集沙子和仙人掌,而不是铁。

具体来说,课程是由GPT-4基于「发现尽可能多样化的东西」这个目标生成的。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

自动课程

实验

接下来,让我们看一些实验!

团队将Voyager与其他基于LLM的智能体技术进行了系统性的比较,比如ReAct、Reflexion,以及在Minecraft中广受欢迎的AutoGPT。

在160次提示迭代中,Voyager发现了63个独特的物品,比之前的SOTA多出3.3倍。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

寻求新奇的自动课程自然会驱使Voyager进行广泛的旅行。即使没有明确的指示,Voyager也会遍历更长的距离(2.3倍),访问更多的地形。

相比之下,之前的方法就显得非常「懒散」了,经常会在一小片区域里兜圈子。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

地图探索率

那么,经过终身学习后的「训练模型」——技能库,表现如何呢?

团队清空了物品/护甲,生成了一个新的世界,并用从未见过的任务对智能体进行了测试。

可以看到,Voyager解决任务的速度明显比其他方法更快。

值得注意的是,从终身学习中构建的技能库不仅提高了Voyager的性能,也提升了AutoGPT的性能。

这表明,技能库作为一种通用工具,可以有效地作为一个即插即用的方法来提高性能。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

零样本泛化

此外,与其他方法相比,Voyager在解锁木工具上快了15.3倍,石工具快8.5倍,铁工具快6.4倍。而且拥有技能库的Voyager是唯一解锁钻石工具的。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

技能树掌握情况(木工具 → 石工具 → 铁工具 → 钻石工具)

目前,Voyager只支持文本,但在未来可以通过视觉感知进行增强。

在团队进行的一个初步研究中,人类可以像一个图像标注模型一样,向智能体提供反馈。

从而让Voyager能够构建复杂的3D结构,比如地狱门和房子。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

结果表明,Voyager的性能优于所有替代方案。此外,GPT-4在代码生成方面也明显优于GPT-3.5。

英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手

消融实验

结论

Voyager是第一个由LLM驱动、可以终身学习的具身智能体。它可以利用GPT-4不停地探索世界,开发越来越复杂的技能,并始终能在没有人工干预的情况下进行新的发现。

在发现新物品、解锁Minecraft技术树、穿越多样化地形,以及将其学习到的技能库应用于新生成世界中的未知任务方面,Voyager表现出了优越的性能。

对于通用智能体的开发来说,无需调整模型参数的Voyager是可以作为一个起点的。

参考资料:

https://voyager.minedojo.org/

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年5月27日 18:25
下一篇 2023年5月27日 19:00

热点推荐

  • 为什么中国油价一直涨(为何近期中国油价狂涨)

    油价的涨跌要关乎到车主的腰包,所以买了之后大家每天都会关心油价有没有涨。进入2022年以来,国内油价经历了“十连涨”,92号汽油一度涨到了9块多。后来经历了两次下调,但是油价依旧维持在8块多,和前两年的6块多、7块多相比,现在的油…

    2022年10月11日 热点
    127
  • 中华白海豚在广东阳江海域现身 犹如水中精灵

    近日,广东省阳江市阳东区东平海域,十多头中华白海豚在海中嬉戏遨游。碧海蓝天之下,白海豚不时跃出海面,翻起朵朵浪花,犹如水中精灵。中华白海豚是国家一级保护动物,因为对水质要求高,也被视作衡量水域质量的“活指标”。

    热点 2023年8月16日
    115
  • 2023十大网络作家排行榜(网络作家排名前十名)

    网络作家有哪些? 1、毕业于河北大学政法学院,曾于上海社会科学院高级作家班研修。2004年,在读写网开始创作处女作《光之子》。2005年,成为起点中文网签约作家之一 。2008年,开始创作《斗罗大陆》。2012年,问鼎中国网络作家…

    热点 2023年9月8日
    371
  • 河北人工增雪“崩到”河南?假的!气象部门最新回应

    近日,河北、山东、河南等地迎来了今年的第一场雪。但在网上,有消息称此次降雪系“河北发射251枚火箭弹进行的人工增雪所致”。这一信息引起了不少网友热议。有网友发文称,难怪河北河南山东都在下雪,“这河北人工降雪威力真大,崩了三个省!”…

    热点 2023年12月14日
    78
  • 感染奥密克戎后症状较轻,没必要搞动态清零?梁万年回应!

    坚持“动态清零”总方针不动摇——梁万年谈疫情防控焦点 面对奥密克戎,部分地区采取较严格的疫情管控举措,科学依据是什么?有人认为一些疫情防控措施影响了正常生产生活,对此怎么看? 国家卫生健康委疫情应对处置工作领导小组专家组组长梁万年…

    热点 2022年10月13日
    127
  • 已有一个淘宝账号怎么在注册(申请淘宝账号注册)

    想要成为淘宝店铺的商家,首先要做的就是拥有自己的淘宝店铺,这就需要进行店铺的注册,下面学得起课堂就详细的为大家介绍淘宝如何注册网店,淘宝注册网店的详细流程。 1、淘宝账号申请 还没有申请账号的卖家需要先申请淘宝账号才能注册淘宝店铺…

    热点 2022年12月20日
    122
  • 李斌:蔚来手机将迭代 不会出蔚来手表

    今天,在蔚来创新科技日的媒体专访活动中,蔚来汽车的CEO和董事长李斌透露了该公司手机及其他产品的后续信息。李斌表示,蔚来手机的后续研发方向将会持续迭代。此外,他还透露,蔚来将会研发后续版本的NIOPhones,目前第二代NIOPh…

    热点 2023年9月22日
    92
  • 小红书有没有流量池概念?笔记如何被推荐?

    上周,小红书种草学在直播,PO出一张小红书流量层级,将笔记层级分为:笔记被限流、初始流量池、千人流量池、万人流量池、热门等类型。 具体如何理解流量层级,笔记如何被系统推荐? 始终是个黑匣子,今天我谈一下小红书流量池理解,结合两条报…

    2023年11月27日 热点
    124
  • 丹昆特大桥全图(丹昆特大桥简介)

    今天小编给各位分享丹昆特大桥简介的知识,其中也会对丹昆特大桥全图进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧! 世界上最长的桥 丹昆特大桥长164851米(横跨苏南) 中国地域广阔,而为了更方便的交通,于是…

    热点 2023年5月2日
    280
  • 美发布“全球海军排行”,中美差距大幅减少

    阅读此文大概需要2-3分钟,诚邀您点击右上角“关注”按钮,先点后看,养成习惯,您的支持与鼓励便是我们创作的最大动力! 美国知名军事网站近日公布了各国海军实力排行榜,一经公布便引起外界广泛关注,其中有2点惹人怀疑,分别是哪2点?美方…

    热点 2023年8月12日
    94

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注