盖世汽车讯 可与物理世界互动的具身AI代理在各种应用中都具有巨大潜力,但缺乏训练数据仍是其面临的主要障碍之一。据外媒报道,为解决该挑战,英国伦敦帝国理工学院(Imperial College London)和谷歌DeepMind的研究人员推出了一种名为扩散增强型代理(Diffusion Augmented Agent,DAAG)的新型框架,利用了大型语言模型(LLM)、视觉语言模型(VLM)以及扩散模型的力量,以提升具身代理的学习效率和迁移学习能力。
DAAG模型
为何数据效率对具身代理很重要?
近年来,LLM和VLM取得了令人惊叹的进展,为其应用于机器人和嵌入式AI领域带来了希望。但是,虽然LLM和VLM可以在从互联网上抓取来的大量文本及图像数据集上进行训练,但是具身AI系统需要通过与物理世界的交互来学习。
现实世界对具身AI系统的数据收集提出了几个挑战。首先,物理环境比数字世界更加复杂和不可预测。其次,机器人和其他具身AI系统依赖于物理传感器和执行器,而此类传感器和执行器可能会有速度慢、有噪声、易故障等问题。研究人员们认为,克服这一障碍的关键在于更有效地利用该代理现有的数据和经验。
DAAG是什么?