大家好,欢迎来到IT知识分享网。
添加小助理:dddvision,备注:SLAM,拉你入群。文末附行业细分群
Agent这个词起源于拉丁语中的Agere,意思是”to do”。在LLM语境下,Agent可以理解为某种能自主理解、规划决策、执行复杂任务的智能体。不同于GPT的是,它不仅告诉你”如何做”,更会帮你去做。
最直观的公式:Agent = LLM + Planning + Feedback + Tool use
AI Agent是大模型与场景间价值传递桥梁,当给定目标时,能够自己创建任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的顶级任务,并循环直到达到目标。游戏环境可以作为开发AI Agent的测试平台,但是通常受限于可用的游戏数量。
现在提问:我们拥有来自互联网的大量视频语料库,目前已经可以训练能够生成新颖图像或视频的模型,那么能否创造整个交互式体验?
这就是Genie的工作:可以从合成图像、照片甚至草图中生成无穷无尽的各种可玩(动作可控)的世界。Genie对训练通才Agent有重要意义。通过Genie,未来的AI智能体可以在一个永无止境的新的、生成的世界的课程中进行训练。Genie学习到的潜在动作可以迁移到真实的人类设计的环境中,然而这只是一个开始!
下面一起来阅读一下这项工作~
标题:Genie: Generative Interactive Environments
作者:Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel
机构:谷歌DeepMind、哥伦比亚大学
原文链接:https://arxiv.org/abs/2402.15391
官方主页:https://sites.google.com/view/genie-2024/home
我们介绍了Genie,这是第一个通过无监督方式从未标记的互联网视频中训练而成的生成式交互环境。该模型可以提示生成通过文本、合成图像、照片,甚至草图描述的各种可控行为的虚拟世界。以110亿参数计算,Genie可以被视为基础世界模型。它由一个时空视频标记器、一个自回归动力学模型和一个简单可扩展的潜在行为模型组成。尽管训练时没有任何地面真实的行为标签或其他通常在世界模型文献中找到的领域特定要求,但Genie使用户能够在生成的环境中逐帧进行操作。此外,所得到的学习潜在行为空间有助于训练代理程序模仿来自未见视频的行为,为训练未来的通用代理打开了道路。
一个全新的世界:Genie能够将多种不同的提示转换为互动的、可玩的环境,这些环境可以很容易地创建、进入和探索。这可以通过一个潜在的动作接口来实现,从互联网视频中完全无监督地学习。
在没有动作标签的情况下学习控制 Genie的独特之处在于它能够专注于从互联网视频中学习细粒度的控件。这是一个挑战,因为互联网视频通常没有关于正在执行的动作的标签,甚至图像的哪一部分应该被控制。值得注意的是,Genie不仅可以学习到观测的哪些部分通常是可控的,还可以推断在生成环境中一致的各种潜在动作。这里注意到相同的潜在动作如何在不同的提示图像中产生相似的行为。
赋能新一代创作者:令人惊讶的是,它只需要一个单一的图像就可以创建一个全新的交互环境。这就为各种新的方式来产生和进入虚拟世界打开了大门,例如,我们可以采用最新的文本生成高清图像模型,并使用它来产生初始框架,然后我们可以通过Genie来实现。在这里,可以用Imagen2生成图像,并用Genie将它们带入生活。
但它并没有止步于此,甚至可以完成像速写这样的人类设计创作!
或者真实世界图像!
生成性虚拟世界的未来:Genie是一种通用的方法,可以应用于许多领域,而不需要任何额外的领域知识。作者在RT1的无动作视频上训练了一个较小的2.5 B模型。正如Platformers的情况一样,具有相同潜在动作序列的轨迹通常表现出相似的行为。这表明Genie能够学习到一致的动作空间,这可能有利于训练具身化的通才代理。
这篇文章提出了生成式交互环境,这是一种新的生成式人工智能范式,其中交互式环境可以从单一的文本或图像提示中生成。Genie是从一个超过20万小时的互联网游戏视频的大型数据集中训练的,尽管没有动作或文本注释,但可以通过学习的潜在动作空间逐帧地进行控制。
在11B参数的情况下,Genie展现出了通常在基础模型中看到的特性——它可以将未见过的图像作为提示,从而可以创造并玩耍完全想象出的虚拟世界。 Genie可以通过多种方式进行提示,既可以是生成的图像(顶部),也可以是手绘的草图(底部)。在每个时间步,模型采取用户提供的潜在动作来生成下一帧,产生具有趣味性和多样性的人物动作的轨迹。
作者还在RT1数据集的无动作机器人视频上训练了一个单独的模型,学习了具有一致潜在动作的生成环境。展示了来自互联网视频学习到的潜在动作可以用于推理出在未见动作的模拟强化学习(RL)环境视频中的策略,这表明Genie可能是解锁用于训练下一代通用型代理的无限数据的关键。
Genie基于最先进的视频生成模型的思想,核心设计选择是时空(ST) Transformer,这些Transformer用于所有的模型组件。Genie利用一种新颖的视频标记器,并通过因果动作模型提取潜在动作。视频标记和潜在动作都被传递给一个动力学模型,该模型使用MaskGIT自回归地预测下一帧。作者将Batch Size和模型大小两个参数从40M变化到2.7B,结果表明Genie可以随着额外的计算资源而优雅地扩展,最终形成一个11B参数的模型。在来自数百个2D平台游戏的30,000小时互联网游戏视频的经过筛选的数据集上训练了Genie,为该环境提供了一个基础世界模型。
Genie模型训练:Genie以帧视频为输入,通过视频标记器将其标记为离散的标记,并通过潜在动作模型推断每帧之间的潜在动作。然后将两者以迭代的方式传递给动力学模型,以生成下一帧的预测。
谷歌提出了Genie,一种新型的生成式人工智能,它使任何人,甚至是儿童,都能像我们在人类设计的模拟环境中那样梦想、创造并进入生成的世界。尽管只是从视频数据进行训练,Genie可以被提示生成各种交互式和可控的环境。
模型有一些明显的改进空间:Genie继承了其他自回归Transformer模型的一些弱点,并且可能会产生不切实际的未来幻想。虽然在时空表示方面取得了进展,但仍然受到16帧记忆的限制,这使得在长期视角下获得一致的环境变得具有挑战性。最后,Genie目前的运行速度约为1FPS,并需要未来的进展来实现高效的帧率以进行交互。
尽管如此,Genie为未来的研究开辟了广阔的潜力。鉴于其通用性,该模型可以从更大比例的互联网视频中进行训练,以模拟多样、真实和想象的环境。此外,作者仅简要提及了利用Genie来训练代理的能力,但鉴于缺乏丰富多样的环境是强化学习的关键限制之一,可能会开辟出创建更普遍能力代理的新途径。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
下载
在公众号「3D视觉工坊」后台,回复「 3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。
3D视觉方向交流群成立啦
目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:
[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
[无人机]四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
大家可以添加小助理:dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/98517.html
