第一章：研究背景与动机

1.1 多模态学习与域适应

多模态学习（Multimodal Learning）通过整合来自多个感知通道的异构互补信号（如声学、视觉和语言信息）来完成机器学习任务，包括分类、聚类和检索等。得益于硬件和模型设计的最新进展，多模态学习已被广泛应用于动作识别、情感计算和医学分析等领域。

与单模态方法相比，多模态学习能够取得显著的性能提升。然而，其 notorious 的缺点是：收集和标注多模态数据既昂贵又耗时。因此，标注数据的稀缺性成为多模态学习实际应用中的主要挑战。

无监督域适应（Unsupervised Domain Adaptation, UDA）旨在将知识从标注丰富的源域（Source Domain）迁移到无标注但相关的目标域（Target Domain），从而在不增加标注成本的前提下提升模型在新环境中的表现。

主流方法通常通过以下两种途径对齐源域和目标域：
- 直接最小化特征分布差异：如基于矩匹配的方法（MMD、CORAL）
- 对抗学习：训练域判别器与特征提取器进行对抗博弈（DANN、CDAN）

这些方法在图像分类、语义分割、目标检测和问答系统等多种任务上展示了令人印象深刻的结果。

现有的域适应文献主要集中在单模态场景（特别是计算机视觉和自然语言处理领域）。相比之下，多模态域适应的研究相对较少，但由于多模态学习的普及，该领域正受到越来越多的关注。

从模态多样性的角度，多模态域适应可分为两类：

（1）同质多模态适应（Homogeneous Multimodal Adaptation）

关注多个模态共享相似底层结构或环境的场景。例如：
- 多模态视觉域适应任务中的 2D 图像和 3D 点云
- 光流和 RGB 图像
- CT 和 MRI 图像

在这种情况下，不同模态的源域和目标域之间的差距相对较小，可以对各模态的域进行统一对齐。

（2）异质多模态适应（Heterogeneous Multimodal Adaptation）

处理不同模态具有不同形式并处于独立空间的场景。一个典型例子是多模态情感识别任务，如图 1 所示：

Figure 1: 多模态情感识别中的域偏移

图 1：多模态情感识别中的域偏移。示例样本来自 IEMOCAP 数据集。

在该任务中，声学、视觉和词汇模态被同时用于检测情绪。每个模态面临不同的域偏移因素：
- 声学模态：背景噪声
- 视觉模态：光照变化
- 词汇模态：对话场景变化

这自然导致不同模态从源域到目标域的分布偏移程度各不相同。

在同质多模态适应中，不同模态的数据通常来自同一类型的传感器或具有相似的数据结构。例如：
- RGB 图像和光流都基于视觉信息
- CT 和 MRI 都是医学影像

由于模态间的相似性，源域和目标域的偏移在各模态间大致相当，因此可以采用统一的对齐策略。

异质多模态适应更具挑战性，原因如下：

模态不平衡（Modality Imbalance）是指在训练过程中，某些模态主导训练而其他模态训练不足的现象。这与多模态学习中观察到的"贪婪学习"（Greedy Learning）问题密切相关：

现有的多模态学习方法通过以下方式缓解这一问题：
- 根据过拟合估计调节学习率
- 基于梯度进行动态调整
- 利用各模态的损失优势进行平衡
- 知识蒸馏和自蒸馏技术

在多模态域适应中，模态不平衡表现为：

现有的域适应方法在处理多模态场景时存在以下局限：

Boomda（Balanced multi-objective optimization for multimodal domain adaptation）提出了一种平衡的多目标优化框架，核心思想包括：