EN

基于动态梯度调节的平衡化多模态学习

22.jpg

当人类感知世界的时候,我们会利用‘视,听,嗅,触,味’五感,它们相辅相成,生动具象地将美妙的世界展示给我们。受此启发,机器多模态学习通过整合不同的感官,有助于全面了解世界。因此,更多的可利用模态有望提高模型性能,但我们实际上发现即使多模态模型优于其单模态模型,它们也并没有得到充分利用。我们指出现有的视听判别模型可能仍然存在欠优化的单模态表示。进一步实验和分析发现,这是由某些场景中的另一种主导模态引起的,例如吹风事件中的风声,绘图事件中的图片等。有趣的是,我们可以发现机器像人一样,更偏向于学习更容易掌握的内容而逃避更加困难的。那么这时候就需要我们去规范机器的学习流程,做到齐头并进,全面发展。为了缓解这种优化不平衡,我们提出了动态梯度调制方法,通过监控它们对学习目标的贡献程度来自适应地控制每种模态的优化过程。该方法在不同的多模态学习任务上实现了对常用融合方法的较大的提升,此外,这种简单的策略也可以提升现有的多模态方法性能,这说明了它的有效性和通用性。通过该研究工作,我们希望能缓解这种多模态学习中的不平衡现象,从而让机器能更加灵活有效的利用好更多的模态信息,让AI更加便捷和智能地服务人类。

文本正文
复制文本
媒体联络
media@baai.ac.cn