无人机具身智能是指无人机智能体与环境互动,像人类一样感知、规划、决策和执行,适用于无人机检查、智能快递和其他领域。无人机具身任务规划是无人机具身智能的主要任务之一,它在感知周围环境和理解语言指令的同时,生成详细的分步计划。视觉语言模型具有强大的多模态表示能力,已被推广到各种任务中。当应用于无人机具身任务规划时,它仍然面临着以下两个挑战。首先,环境的复杂性导致了全局环境信息建模的困难。其次,任务路径的频繁转弯导致对空间推理能力的依赖。为了克服这些挑战,我们提出了Plan-Agent,这是第一个用于无人机具身任务规划的具身视觉语言模型。具体而言,采用环境映射图对全局环境信息进行建模。然后,我们提出了环境映射编码器,从环境中提取任务相关信息。此外,为了减少任务路径规划对强空间推理的依赖,我们引入了自我姿势感知训练策略,将长期空间推理分解为短期。我们构建了无人机EmbodiedPlan-20k数据集,用于无人机具身任务中的任务规划。我们在数据集上的实验表明,Plan-Agent的性能优于之前的方法,所有组件都是有效的
09月20日
2024
09月22日
2024
初稿截稿日期
注册截止日期