第四章:实验与结果分析

4.1 数据集介绍

4.1.1 IEMOCAP 数据集

基本信息
- 全称:Interactive Emotional Dyadic Motion Capture Database
- 模态:声学(Acoustic)、视觉(Visual)、词汇(Lexical)
- 内容:演员之间的脚本化和自发性二元对话
- 类别:4 类情感 — neutral、happy、sad、angry
- 划分: evenly 且随机划分为两个子集,一个作为源域,另一个经处理后作为目标域

目标域处理(模拟域偏移):
- 声学模态:注入白噪声,信噪比 SNR = 1.0
- 视觉模态:视频亮度降至原始的 20%,并添加高斯噪声(SNR = 0.5)
- 词汇模态:每个话语中 40% 的单词被随机掩码

4.1.2 MSP-IMPROV 数据集

基本信息
- 全称:MSP-IMPROV Corpus
- 模态:声学、视觉、词汇
- 内容:参与者的广泛自发性互动,无脚本对话
- 类别:与 IEMOCAP 相同的 4 类情感
- 划分方式:同 IEMOCAP

4.1.3 数据集对比

数据集 对话类型 模态数 域偏移方式 主要挑战
IEMOCAP 脚本+自发 3 噪声、亮度降低、掩码 偏移程度大
MSP-IMPROV 完全自发 3 同上 情感表达更自然

4.2 实现细节

4.2.1 骨干网络配置

模态 预训练模型 后续编码器 微调策略
声学 (A) WavLM TextCNN 最后三层可训练
视觉 (V) APViT (RAF-DB 预训练) 单层 LSTM 最后三层可训练
词汇 (L) Bert-base TextCNN 最后三层可训练

4.2.2 训练配置


4.3 与SOTA方法的对比

4.3.1 实验设置

对比方法包括:
- D.T.(Direct Transfer):仅用源域数据训练,直接测试目标域
- DANN:域对抗神经网络
- CDAN:条件对抗域适应
- MADA:多对抗域适应
- DALN:无判别器对抗域适应
- PCL:概率对比学习域适应
- DADA:基于数据增强的域适应

实验模态组合:AL(声学+词汇)、AV(声学+视觉)、VL(视觉+词汇)、AVL(三模态)

4.3.2 IEMOCAP 结果(表 1)

Table 1: 性能对比

表 1:Boomda 与现有方法的性能对比(Weighted F1 score)

方法 AL AV VL AVL ave.
D.T. 30.99 39.34 36.37 40.31 36.75
DANN 37.32 43.96 39.87 45.22 41.59
DADA 41.87 40.27 35.63 45.16 40.73
MADA 38.17 35.35 42.32 49.85 41.42
DALN 40.41 47.23 42.99 45.58 44.05
PCL 44.85 47.01 41.44 49.72 45.76
CDAN 47.23 47.36 41.74 51.47 46.95
Boomda 49.81 47.46 42.83 54.82 48.73

关键发现

  1. 全面领先:在 IEMOCAP 数据集上,Boomda 在 4 个模态组合中的 3 个(AL、VL、AVL)取得最佳性能,平均 F1 超过所有对比方法至少 1.78。

  2. 融合性能显著提升:AVL 设置下达到 54.82,比次优方法 CDAN(51.47)高出 3.35 分,充分验证了模态平衡的价值。

  3. 模态增加不退化:部分方法在增加模态时性能下降(如 DALN 的 AV 47.23 -> AVL 45.58),而 Boomda 随模态增加持续提升。

4.3.3 MSP-IMPROV 结果(表 1 右侧)

方法 AL AV VL AVL ave.
D.T. 25.09 34.48 35.77 38.76 33.53
DANN 32.69 42.44 37.72 37.41 37.57
... ... ... ... ... ...
Boomda 33.30 40.31 45.10 47.29 41.50

关键发现


4.4 消融实验

4.4.1 实验设计

在 IEMOCAP 数据集上进行消融实验,分析两个核心设计的贡献:
- 平衡相关对齐(CA):多目标优化平衡的对齐
- 伪标签(PL):目标域伪标签监督

Table 2: 消融实验

表 2:IEMOCAP 数据集上的消融实验结果

CA PL AL AV VL AVL ave.
30.99 39.34 36.37 40.31 36.75
46.19 44.74 43.42 47.85 45.55
42.53 44.58 44.48 48.78 45.09
✓̄ 45.96 45.88 39.91 53.36 46.27
49.81 47.46 42.83 54.82 48.73

注:✓̄ 表示使用相关对齐但不做模态平衡(即 $\gamma_1 = \gamma_2 = \cdots = \gamma_{M+1} = \frac{1}{M+1}$)

4.4.2 结果分析

(1)各组件独立贡献

两者各自都能带来超过 8 分的显著提升,说明两个组件都是有效的。

(2)联合使用效果

当两个技术联合使用时,平均 F1 进一步提升到 48.73,相比单独使用任一组件提升约 3 分,证明了两者的互补性。

(3)模态平衡的价值

对比最后两行:
- 不加权平衡(✓̄):平均 46.27
- 加权平衡(✓):平均 48.73

模态平衡带来了约 2.5 分的性能提升,验证了多目标优化框架的有效性。

(4)特定模态组合分析


4.5 训练动态可视化

4.5.1 矩阵 Q 的特征

Figure 3: 训练动态

图 3:IEMOCAP 数据集上的训练动态

图 3(a) 展示了矩阵 $\mathbf{Q}$ 的特征值比值:

$$r := \frac{\max{|Q_{ij}| \mid i,j \in [M+1], i \neq j}}{\min{Q_{ii} \mid i \in [M+1]}}$$

关键发现:$r$ 在整个训练过程中保持较小值,这验证了用对角矩阵 $\tilde{\mathbf{Q}}$ 近似 $\mathbf{Q}$ 的合理性,为闭式解的有效性提供了实验支持。

4.5.2 平衡权重 $\gamma$ 的演化

图 3(b) 展示了训练过程中各模态平衡权重 $\gamma$ 的变化:

直观解释:在训练初期,声学模态可能需要更强的对齐信号来适应目标域的噪声;随着训练进行,各模态逐渐达到平衡状态。

4.5.3 伪标签准确率

图 3(c) 展示了每轮训练中伪标签的准确率:


本节小结


思考题

  1. 为什么在 VL 设置上,不加权平衡(固定平均权重)会导致性能下降?这与模态特性有何关系?
  2. 伪标签准确率从初期到末期的提升幅度大约是多少?这对训练稳定性有何启示?
  3. 如果训练过程中 $r$ 值突然增大,可能意味着什么?应该如何调整方法?
  4. Boomda 在 MSP-IMPROV 上的平均提升(1.43)小于 IEMOCAP(1.78),可能的原因是什么?