88 / 2024-08-15 11:29:35
基于掩码图像建模的多模态遥感基础模型
遥感图像处理;自监督学习;多模态预训练;多模态基础模型
摘要待审
谷延锋 / 哈尔滨工业大学
杜达宽 / 哈尔滨工业大学
刘天竹 / 哈尔滨工业大学
多种卫星传感器的协同使用为对地观测提供了更为全面的视角。然而,由于不同模态数据之间存在显著的异构性,以及高质量标注数据的稀缺性,大多数方法在利用大量未标记的多模态卫星数据时面临瓶颈,导致难以全面理解场景。为解决这一问题,本文提出了一种基于掩码图像建模的多模态统一表示学习框架(MURLF)用于多模态数据的预训练。该框架由多级传感器感知特征提取器(SAFE)、编码器和解码器组成,通过利用不同模态间的一致性和互补性,提取模态间的共有特征和模态内的独立特征,从而有效缓解由模态间差异大引发的多模态数据联合利用困难问题。

考虑到多模态数据输入不可避免地增加预训练的计算成本,MURLF框架采用类似MAE的架构,以提高预训练效率,其在不同模态中独立地应用随机掩码,利用同模态内及跨模态间的视觉标记共同恢复被掩盖的像素,从而在预训练阶段便能实现全面的跨模态信息交互。针对不同传感器所获取的数据特性各异的情况,本文设计了SAFE模块以充分利用不同数据类型的固有特性,提取具有区分度的特征。通过将多级SAFE与ViT骨干网相结合,MURLF能够自然地提取适用于下游任务的多尺度特征表示。

当应用于分类任务时,MURLF移除解码器,同时将不同模态编码器的输出特征进行连接,并输入到线性分类器中进行微调。微调过程中,框架从Transformer块中移除类令牌,并采用全局平均池化操作以更好地利用数据的异构特性。在分割任务中,MURLF将多级SAFE的输出特征与编码器的输出特征拼接,形成特征金字塔,并将其输入到UperNet头中以完成分割任务。

实验结果表明,在So2Sat与BigEarthNet-MM场景分类数据集上,MURLF的分类准确率分别达到68.72%和91.61%;在DFC2020与WHU-OPT-SAR语义分割数据集上,其分割准确率分别为88.13%和84.31%,均达到了当前先进水平。通过大量的特征可视化实验,对MURLF优异性能的原因进行了深入分析。在BigEarhNet-MM数据集上采用t-SNE算法将MURLF与多种先进方法进行比较,结果显示MURLF具有更为显著的特征分离能力。在热力图可视化方面,MURLF对同一区域的光学图像和SAR图像的激活存在明显差异,表明该方法有效利用了两种模态下的不同特征。此外,即使在没有像素级地面真值约束的情况下,MURLF仍能以较高的精度对不同像素类别进行划分,证明了该模型能够充分利用多模态数据的异构信息,进而综合理解场景内容。
重要日期
  • 会议日期

    09月20日

    2024

    09月22日

    2024

  • 08月30日 2024

    初稿截稿日期

  • 09月22日 2024

    注册截止日期

主办单位
山东省人民政府
中国电子学会
承办单位
中国科学院学部
中国科学院空天信创新研究所息
复旦大学
联系方式
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询
Baidu
map