89 / 2024-08-15 12:40:02
基于环境映射图的具身任务规划视觉语言模型
具身智能,视觉语言模型,任务规划
摘要待审
岳远昌 / 中国科学院空天信息创新研究院
姚方龙 / 中国科学院空天信息创新研究院
张道兵 / 中国科学院空天信息创新研究院

无人机具身智能是指无人机智能体与环境互动,像人类一样感知、规划、决策和执行,适用于无人机检查、智能快递和其他领域。无人机具身任务规划是无人机具身智能的主要任务之一,它在感知周围环境和理解语言指令的同时,生成详细的分步计划。视觉语言模型具有强大的多模态表示能力,已被推广到各种任务中。当应用于无人机具身任务规划时,它仍然面临着以下两个挑战。首先,环境的复杂性导致了全局环境信息建模的困难。其次,任务路径的频繁转弯导致对空间推理能力的依赖。为了克服这些挑战,我们提出了Plan-Agent,这是第一个用于无人机具身任务规划的具身视觉语言模型。具体而言,采用环境映射图对全局环境信息进行建模。然后,我们提出了环境映射编码器,从环境中提取任务相关信息。此外,为了减少任务路径规划对强空间推理的依赖,我们引入了自我姿势感知训练策略,将长期空间推理分解为短期。我们构建了无人机EmbodiedPlan-20k数据集,用于无人机具身任务中的任务规划。我们在数据集上的实验表明,Plan-Agent的性能优于之前的方法,所有组件都是有效的

重要日期
  • 会议日期

    09月20日

    2024

    09月22日

    2024

  • 08月30日 2024

    初稿截稿日期

  • 09月22日 2024

    注册截止日期

主办单位
山东省人民政府
中国电子学会
承办单位
中国科学院学部
中国科学院空天信创新研究所息
复旦大学
联系方式
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询
Baidu
map