86 / 2024-08-15 11:13:06
基于多轮次图文特征融合的遥感视觉定位方法研究
视觉定位,多模态处理,遥感图像解译,多层级网络,注意力机制
摘要待审
梁博 / 中国科学院空天信息创新研究院
白越然 / 中国科学院空天信息创新研究院
李重阳 / 中国科学院空天信息创新研究院
张文凯 / 中国科学院空天信息创新研究院
视觉定位任务旨在通过自然语言指导在图像中准确识别并定位所描述的目标对象,在遥感领域中具有广阔的应用前景,近些年来被广泛的研究。然而,视觉定位网络在遥感领域的应用中面临查询语句分析利用不足和长难句查询易导致目标定位错误的问题,因此亟需针对性优化。针对上述问题,本文研究了ReSC方法在遥感数据集上的视觉定位效果。该方法引入多轮次模块融合机制,在获取到输入图像及查询的视觉特征和文本特征后,逐步进行特征融合,使得模型可以获取更符合视觉定位的语义嵌入。在遥感图像视觉定位公开数据集上进行实验,实验结果表明,ReSC方法在准确率指标上提升2.4%,可以较好的定位遥感图像中的弱小目标。
重要日期
  • 会议日期

    09月20日

    2024

    09月22日

    2024

  • 08月30日 2024

    初稿截稿日期

  • 09月22日 2024

    注册截止日期

主办单位
山东省人民政府
中国电子学会
承办单位
中国科学院学部
中国科学院空天信创新研究所息
复旦大学
联系方式
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询
Baidu
map