懂球帝直播赛事-足球免费直播24小时直播

摘要详情

ID / 提交时间

88 / 2024-08-15 11:29:35

标题

基于掩码图像建模的多模态遥感基础模型

关键字

遥感图像处理；自监督学习；多模态预训练；多模态基础模型

主题及专题

3. 空天光学遥感信息

状态

摘要待审

作者

谷延锋 / 哈尔滨工业大学

杜达宽 / 哈尔滨工业大学

刘天竹 / 哈尔滨工业大学

摘要

多种卫星传感器的协同使用为对地观测提供了更为全面的视角。然而，由于不同模态数据之间存在显著的异构性，以及高质量标注数据的稀缺性，大多数方法在利用大量未标记的多模态卫星数据时面临瓶颈，导致难以全面理解场景。为解决这一问题，本文提出了一种基于掩码图像建模的多模态统一表示学习框架（MURLF）用于多模态数据的预训练。该框架由多级传感器感知特征提取器（SAFE）、编码器和解码器组成，通过利用不同模态间的一致性和互补性，提取模态间的共有特征和模态内的独立特征，从而有效缓解由模态间差异大引发的多模态数据联合利用困难问题。

考虑到多模态数据输入不可避免地增加预训练的计算成本，MURLF框架采用类似MAE的架构，以提高预训练效率，其在不同模态中独立地应用随机掩码，利用同模态内及跨模态间的视觉标记共同恢复被掩盖的像素，从而在预训练阶段便能实现全面的跨模态信息交互。针对不同传感器所获取的数据特性各异的情况，本文设计了SAFE模块以充分利用不同数据类型的固有特性，提取具有区分度的特征。通过将多级SAFE与ViT骨干网相结合，MURLF能够自然地提取适用于下游任务的多尺度特征表示。

当应用于分类任务时，MURLF移除解码器，同时将不同模态编码器的输出特征进行连接，并输入到线性分类器中进行微调。微调过程中，框架从Transformer块中移除类令牌，并采用全局平均池化操作以更好地利用数据的异构特性。在分割任务中，MURLF将多级SAFE的输出特征与编码器的输出特征拼接，形成特征金字塔，并将其输入到UperNet头中以完成分割任务。

实验结果表明，在So2Sat与BigEarthNet-MM场景分类数据集上，MURLF的分类准确率分别达到68.72%和91.61%；在DFC2020与WHU-OPT-SAR语义分割数据集上，其分割准确率分别为88.13%和84.31%，均达到了当前先进水平。通过大量的特征可视化实验，对MURLF优异性能的原因进行了深入分析。在BigEarhNet-MM数据集上采用t-SNE算法将MURLF与多种先进方法进行比较，结果显示MURLF具有更为显著的特征分离能力。在热力图可视化方面，MURLF对同一区域的光学图像和SAR图像的激活存在明显差异，表明该方法有效利用了两种模态下的不同特征。此外，即使在没有像素级地面真值约束的情况下，MURLF仍能以较高的精度对不同像素类别进行划分，证明了该模型能够充分利用多模态数据的异构信息，进而综合理解场景内容。

重要日期

会议日期

09月20日

2024

至

09月22日

2024
08月30日 2024

初稿截稿日期
09月22日 2024

注册截止日期

主办单位

山东省人民政府
中国电子学会

承办单位

中国科学院学部
中国科学院空天信创新研究所息
复旦大学

联系方式

李若明
li******@aircas.ac.cn
177********

赵丽云
zh******@aircas.ac.cn
186********

高华
ra******@aircas.ac.cn
010*********

登录查看完整联系方式

移动端

在手机上打开

小程序

打开微信小程序

客服

扫码或点此咨询

首届空天信息软件直播观看大会

摘要详情

重要日期

会议日期

主办单位

承办单位

联系方式