|
ACM MM是计算机学科领域的顶级会议,被中国计算机学会(CCF)列为A类会议。本次会议共收到有效稿件2473篇,最终录用690篇,录用率为27.9%,会议于2022年10月10-14日在葡萄牙里斯本召开。
之前经常总结时间序列paper list的汇总,这次弄了些不一样的,总结了ACM MM 2022关于情感计算的论文汇总(主要侧重于情感计算中关于情绪识别的论文),进行情绪识别可以使用图像,视频,语音,生理信号等多种数据,不过我感觉MM作为多媒体的顶会,还得是使用多模态进行情绪识别可能更符合MM。

1. 论文标题:Leveraging Multi-modal Interactions among the Intermediate Representations of Deep Transformers for Emotion Recognition
论文链接:https://dl.acm.org/doi/10.1145/3551876.3554813
关键词:多模态情感识别; 多模态交互。
一句话总结全文:提出了多模态的递归中间层聚合(RILA)模型,以探索利用深度预训练转化器的中间表征之间的多模态互动来实现端到端的情感识别的有效性。
研究内容:多模态情感识别旨在从多模态输入中识别情感状态。现有的端到端模型通常在最后一层融合单模态表示,而不利用中间表示之间的多模态互动。在本文中,我们提出了多模态的递归中间层聚合(RILA)模型,以探索利用深度预训练转化器的中间表征之间的多模态互动来实现端到端的情感识别的有效性。我们模型的核心是中间表征融合模块(IRFM),它由多模态聚集门控模块和多模态标记注意模块组成。具体来说,在每一层,我们首先使用多模态聚合门控模块来捕捉跨模态和跨层的语料级互动。然后,我们利用多模态标记关注模块来利用标记级的多模态互动。在IEMOCAP和CMU-MOSEI上的实验结果表明,我们的模型达到了最先进的性能,充分地利用了中间表征之间的多模态相互作用。
2. 论文标题:Towards Unbiased Visual Emotion Recognition via Causal Intervention
论文链接:https://dl.acm.org/doi/10.1145/3503161.3547936
关键词: 因果干预,后门调整,面部表情识别,数据集偏差。
一句话总结全文:为了缓解数据集偏差带来的负面影响,提出了一种新型的干预性情感识别网络(IERN)来实现后门调整,这是因果推理中的一种基本去混淆技术。
研究内容:尽管在视觉情感识别方面已经取得了很大的进展,但研究人员已经意识到,现代深度网络倾向于利用数据集特征来学习输入和目标之间的虚假统计关联。这样的数据集特征通常被视为数据集偏见,它损害了这些识别系统的鲁棒性和泛化性能。在这项工作中,我们从因果推理的角度仔细研究了这个问题,这种数据集特征被称为混淆因素,误导系统学习虚假的关联。为了缓解数据集偏差带来的负面影响,我们提出了一种新型的干预性情感识别网络(IERN)来实现后门调整,这是因果推理中的一种基本去混淆技术。具体来说,IERN首先将与数据集相关的背景特征与实际的情绪特征分开,其中前者构成混淆因素。然后,情绪特征将被迫在被送入分类器之前平等地看到每个混杂因素的分层。一系列设计的测试验证了IERN的功效,在三个情感基准上的实验表明,IERN在无偏见的视觉情感识别方面优于最先进的方法。
3. 论文标题:Disentangled Representation Learning for Multimodal Emotion Recognition
论文链接:https://dl.acm.org/doi/10.1145/3503161.3547754
关键词:Disentangled表征学习,情感识别,对抗性学习,多模态融合。
一句话总结全文:提出了一种特征分解的多模态情感识别(FDMER)方法,该方法为每种模态学习共同和私有的特征表征。
研究内容:多模态情感识别旨在从文本、音频和视觉模态中识别人类的情感。以前的方法要么探索不同模态之间的相关性,要么设计复杂的融合策略。然而,严重的问题是,分布差距和信息冗余往往存在于异质模态之间,导致学到的多模态表征可能是不完善的。在这些观察的激励下,我们提出了一种特征分解的多模态情感识别(FDMER)方法,该方法为每种模态学习共同和私有的特征表征。具体来说,我们设计了共同的和私有的编码器,将每个模态分别投射到模态不变的子空间和模态特定的子空间。模态不变的子空间旨在探索不同模态之间的共性,并充分减少分布差距。特定模态子空间试图加强多样性,并捕捉每种模态的独特特征。之后,引入一个模态判别器,以对抗性的方式指导共同和私有编码器的参数学习。我们通过为上述子空间设计定制的损失来实现模态一致性和差异性约束。此外,我们提出了一个跨模态注意力融合模块,以学习自适应权重,从而获得有效的多模态表征。最终的表征被用于不同的下游任务。实验结果表明,FDMER在两个多模态情感识别基准上的表现优于最先进的方法。此外,我们通过对多模态幽默检测任务的实验进一步验证了我们模型的有效性。
4. 论文标题:A Multi-view Spectral-Spatial-Temporal Masked Autoencoder for Decoding Emotions with Self-supervised Learning
论文链接:https://dl.acm.org/doi/10.1145/3503161.3548243
关键词: 情感计算;基于EEG的情绪识别;自我监督学习;CNN-Transformer。
一句话总结全文:提出了一种基于自监督学习的多视角光谱-空间-时间掩码自动编码器(MV-SSTMA),以解决这些数据标注耗时和脑电信号敏感的挑战。
研究内容:情感型脑机接口已经取得了相当大的进展,研究人员可以成功地解释在实验室环境中收集的有标签和无缺陷的EEG数据。然而,脑电图数据的注释是很耗时的,需要大量的劳动力,这限制了在实际场景中的应用。此外,由于脑电信号对噪声很敏感,每天收集的脑电数据可能会被部分损坏。在本文中,我们提出了一种带有自我监督学习的多视角光谱-空间-时间掩码自动编码器(MV-SSTMA),以解决这些日常应用的挑战。MV-SSTMA是基于一个多视图CNN-变换器的混合结构,从光谱、空间和时间的角度解释EEG信号的情感相关知识。我们的模型由三个阶段组成。1)在通用预训练阶段,来自所有受试者的未标记的EEG数据的通道被随机屏蔽,随后被重建,以从EEG数据中学习通用的表征;2)在个性化校准阶段,只有来自特定受试者的少数标记数据被用来校准模型;3)在个人测试阶段,我们的模型可以从健全的EEG数据中解码个人情绪,也可以解码通道丢失的受损情绪。在两个开放的情绪脑电数据集上进行的广泛实验表明,我们提出的模型在情绪识别方面取得了最先进的性能。此外,在通道缺失的异常情况下,我们提出的模型仍然可以有效地识别情绪。
5. 论文标题:Wav2vec2-based Paralinguistic Systems to Recognise Vocalised Emotions and Stuttering
论文链接:https://dl.acm.org/doi/10.1145/3503161.3551572
关键词: 计算辅助语言学, 发声, 口吃, wav2vec2, 数据增量。
一句话总结全文:在这项工作中,专注于使用称为wav2vec2的现代预训练模型解决两个分挑战。
研究内容:随着自动语音识别和自然语言理解的快速发展,出现了一个补充领域(准语言学),重点关注语音的非语言内容。ACM多媒体2022年计算准语言学挑战赛介绍了这个领域的几个令人兴奋的任务。在这项工作中,我们专注于使用称为wav2vec2的现代预训练模型解决两个分挑战。我们的实验结果表明,wav2vec2是检测发声背后的情绪和识别不同类型口吃的优秀工具。尽管它们单独取得了出色的结果,但我们的结果表明,基于wav2vec2的系统可以通过与其他模型的组合来进一步改进。我们最好的系统比竞争基线的表现要好得多,在发声分挑战赛中取得了44.0的非加权平均召回率(比基线绝对值提高了6.6%),在口吃分挑战赛中取得了62.1(比基线绝对值提高了21.7%)。
6. 论文标题:Unsupervised Domain Adaptation Integrating Transformer and Mutual Information for Cross-Corpus Speech Emotion Recognition
论文链接:https://dl.acm.org/doi/10.1145/3503161.3548328
关键词: 无监督领域适应;跨语料库语音情感识别;Transformer;互信息 。
一句话总结全文:本文提出了一种无监督的领域适应方法,该方法整合了Transformer和互感信息(MI),用于跨语料库的SER。
研究内容:本文重点讨论了一个有趣的任务,即无监督的跨语料库语音情感识别(SER),其中标记的训练(源)语料库和未标记的测试(目标)语料库具有不同的特征分布,导致源域和目标域之间存在差异。为了解决这个问题,本文提出了一种无监督的领域适应方法,该方法整合了Transformer和互感信息(MI),用于跨语料库的SER。首先,我们的方法采用变形器的编码层,从提取的段级对数-梅尔频谱特征中捕捉语料的长期时间动态,从而为两个域中的每个语料产生相应的语料级特征。然后,我们提出了一种无监督的特征分解方法,采用混合的Max-Min MI策略,从提取的混合语篇级特征中分别学习领域不变的特征和领域特定的特征,在此过程中,两个领域之间的差异被尽可能地消除,同时保留了它们各自的特征。最后,设计了一个交互式多头关注融合策略,以学习领域可变特征和领域特定特征之间的互补性,从而使它们可以交互式地融合到SER中。在IEMOCAP和MSP-Improv数据集上的大量实验表明,我们提出的方法在无监督的跨语料库SER任务上是有效的,超过了最先进的无监督的跨语料库SER方法。
7. 论文标题:Feeling Without Sharing: A Federated Video Emotion Recognition Framework Via Privacy-Agnostic Hybrid Aggregation
论文链接:https://dl.acm.org/doi/10.1145/3503161.3548278
关键词: 视频识别, 情感计算, 联邦学习。
一句话总结全文:为了缓解异质性数据,本文提出了EmoFed,这是一个通过多组聚类和隐私无关的混合聚合来进行基于视频的情绪识别的联邦学习的实用框架。
研究内容:视频数据的爆炸性增长给情感识别带来了新的机遇和挑战。视频情感应用具有巨大的商业价值,但可能涉及对个人情感的非法窥探,导致了对隐私保护的争议。联合学习(FL)范式可以大大解决公众对视频情感识别中数据隐私的日益关注。然而,由于任务的独特性,传统的联合学习方法表现不佳:由情感标签倾斜和跨文化表达差异引起的数据在客户之间是异质的。为了缓解异质性数据,我们提出了EmoFed,这是一个通过多组聚类和隐私无关的混合聚合来进行基于视频的情绪识别的联合学习的实用框架。它在保护隐私的同时,产生了一个普遍适用和改进的模型,它在群组感知的个性化聚合下训练本地模型。为了进一步鼓励在客户之间交流全面和隐私无关的信息,我们将全局层和个性化层的模型参数上传到服务器。我们对个性化层采用同态加密的方法,由于在加密/解密过程中没有噪音被添加到模型更新中,因此不会产生学习精度的损失。所提出的方法适用于基于视频的情绪识别任务,以预测演员的情绪表达和观众的诱导情绪。在四个基准上进行的大量实验和消融研究证明了我们方法的有效性和实用性。
8. 论文标题:EASE: Robust Facial Expression Recognition via Emotion Ambiguity-SEnsitive Cooperative Networks
论文链接:https://dl.acm.org/doi/10.1145/3503161.3548005
关键词: 面部表情识别,用噪声标签学习。
一句话总结全文:为了解决情绪的模糊性问题,提出了情感模糊-敏感合作网络(EASE)。
研究内容:面部表情识别(FER)在现实世界的应用中起着至关重要的作用。然而,在野外收集的大规模面部表情识别数据集通常包含噪音。更重要的是,由于情绪的模糊性,具有多种情绪的面部图像很难从具有噪声标签的图像中区分出来。因此,为FER训练一个健壮的模型是很有挑战性的。为了解决这个问题,我们提出了情感模糊-敏感合作网络(EASE),它包含两个部分。首先,对模糊性敏感的学习模块将训练样本分为三组。两个网络中损失小的样本被认为是干净的样本,而损失大的样本是有噪声的。注意对于一个网络不同意另一个网络的冲突样本,我们利用情绪的极性线索,将传达模糊情绪的样本与有噪音的样本区分开来。在这里,我们利用KL散度来优化网络,使它们能够注意到非主导的情绪。EASE的第二部分旨在加强合作网络的多样性。随着训练历时的增加,合作网络将收敛到一个共识。我们根据特征之间的相关性构建了一个惩罚项,这有助于网络从图像中学习不同的表征。在6个流行的面部表情数据集上进行的大量实验表明,EASE优于最先进的方法。
PS:【9-11】为MuSe-Stress子挑战的解决方案/文献,在总结的文献中页数小于8页的,基本均为子挑战的解决方案/文献。
9. 论文标题: Comparing Biosignal and Acoustic feature Representation for Continuous Emotion Recognition
论文链接:https://dl.acm.org/doi/10.1145/3551876.3554812
关键词: 情感识别, 自监督, 预训练, 模态融合, 呼吸模式
一句话总结全文:基于多种流行的技术(例如自监督、预训练),对level of valence and psycho-physiological arousal进行时间连续的预测。
研究内容: 人类情感的自动识别有着广泛的应用。人类的情绪可以通过不同的模式被识别,如生物信号、语音、文本和模仿。本文的重点是对情感水平和心理生理唤醒的时间连续预测。在这方面,我们研究了:(a)使用从不同语音任务(如电话分类、语音情感识别)预训练的神经网络和自监督神经网络获得的不同特征嵌入;(b)以端到端方式从生理信号中估计arousal and valence;(c)结合不同的神经嵌入。我们对MuSe-Stress子挑战的调查显示:(a)使用CNN以端到端方式训练的生理信号提取的嵌入比生理信号建模的基线方法要好;(b)从phone分类神经网络和在辅助语言数据集上训练的语音情感识别神经网络获得的神经嵌入比纯粹在目标数据上训练的基线系统要好;(c)特定任务的神经嵌入比自我监督的神经嵌入在唤醒和价值方面都要好。我们在测试集上表现最好的系统超过了DeepSpectrum基线(综合得分)的7.7%。
10. 论文标题: Towards Multimodal Prediction of Time-continuous Emotion using Pose Feature Engineering and a Transformer Encoder
论文链接:https://dl.acm.org/doi/10.1145/3551876.3554807
关键词:情感检测, 人体姿势,多模态情感分析.
一句话总结全文:基于LSTM和Transformer,提出一种序列回归模型,预测面临压力的人的情绪和生理唤醒水平。
研究内容: MuSe-Stress 2022的目的是建立序列回归模型,以预测面临压力的人的情绪和生理唤醒水平。为此,可以利用视听记录、文字记录和生理信号。在本文中,我们描述了我们为Muse-Stress 2022开发的方法。具体来说,我们设计了一个新的姿势特征,捕捉人体关键点的运动。我们还在不同类型的特征序列及其不同组合上训练了一个长短期记忆(LSTM)网络和一个变形器编码器。此外,我们采取了双管齐下的策略来调整支配可用特征的不同方式的超参数。最后,我们利用后期融合来结合对不同单模态特征的预测。我们的实验结果表明,新设计的姿势特征在现有的七个单模态特征中获得了第二高的发展CCC。此外,我们的Transformer编码器在14个可能的特征和情感维度组合中的5个获得了最高的发展CCC,在进行后期融合时,这个数字从5个增加到9个。此外,在寻找最佳的超参数设置时,我们双管齐下的超参数调整策略导致了最大开发CCC的明显改善,特别是当基础模型是基于LSTM的时候。综上所述,我们可以得出结论,我们的方法能够在唤醒和情感方面分别达到0.6196和0.6351的测试CCC,确保了在2022年的Muse-Stress中排名前三。
11. 论文标题:Improving Dimensional Emotion Recognition via Feature-wise Fusion
论文链接:https://dl.acm.org/doi/10.1145/3551876.3554804
关键词:维度情感识别、多模态、特征融合。
一句话总结全文:本文主要解决了在特征融合中传统方法通常忽略了细粒度的信息的问题。
研究内容:本文介绍了RiHNU团队对多模态情感分析(MuSe)2022年的MuSe-Stress子挑战的解决方案。MuSe-Stress是一项通过内部或外部反应(如音频、生理信号和面部表情)来辨别求职面试中的人类情绪状态的任务。多模态学习被广泛认为是多模态情感分析任务的一种可用方法。然而,大多数多模态模型未能捕捉到每个模态之间的关联,导致通用性有限。我们认为,这些方法无法建立辨别性的特征,主要是因为它们通常忽略了细粒度的信息。为了解决这个问题,我们首先通过一个特征融合机制对空间-时间特征进行编码,以学习更多的信息表示。然后,我们利用后期融合策略来捕捉多种模式间的细粒度关系。集合策略也被用来提高最终的性能。在测试集上,我们的方法对情绪和生理唤醒分别达到了0.6803和0.6689。
12. 论文标题:ViPER: Video-based Perceiver for Emotion Recognition
论文链接:https://dl.acm.org/doi/10.1145/3551876.3554806
关键词:视频处理,情感识别,多模态学习,模态诊断学习。
一句话总结全文:提出了一个多模态架构,利用基于模态的变换器模型来结合视频帧、音频记录和文本注释进行情绪识别。
研究内容: 从视频中识别人类的情绪需要深入了解底层的多模态来源,包括图像、音频和文本。由于输入的数据源在不同的模态组合中是高度可变的,利用多种模态往往需要特设的融合网络。为了预测一个人对给定视频片段的情绪唤起,我们提出了ViPER,这是一个多模态架构,利用基于模态的变换器模型来结合视频帧、音频记录和文本注释。具体来说,它依赖于一个与模式无关的后期融合网络,这使得ViPER很容易适应不同的模式。在MuSe-Reaction挑战赛的Hume-Reaction数据集上进行的实验证实了所提方法的有效性。
13. 论文标题:Transformer-based Non-Verbal Emotion Recognition: Exploring Model Portability across Speakers' Genders
论文链接:https://dl.acm.org/doi/10.1145/3551876.3554801
关键词:非语言情感识别, 音频分类, 对比学习, 数据增强。
一句话总结全文:我们探索使用在对比性音频实例上训练的转化器架构。利用增强的数据来学习强大的非语言情感分类器。还研究了不同音频转换的影响。
研究内容:识别非语言音轨中的情绪需要深入了解其基本特征。传统的分类器依靠激励、声调和声带特征,并不总是能够有效地在说话者的性别之间进行概括。在ComParE 2022年的发声分挑战中,我们探索使用在对比性音频实例上训练的转化器架构。我们利用增强的数据来学习强大的非语言情感分类器。我们还研究了不同音频转换的影响,包括神经语音转换,对分类器在不同说话人的性别上的概括能力。实证研究结果表明,神经语音转换在预训练阶段是有益的,可以提高模型的通用性,而在微调阶段则是有害的,因为它阻碍了模型对非语言情感识别任务的专业化。
14. 论文标题:Bridging the Gap: End-to-End Domain Adaptation for Emotional Vocalization Classification using Adversarial Learning
论文链接:https://dl.acm.org/doi/10.1145/3551876.3554816
关键词:逆向学习,领域适应,情感,发声,生成逆向网络,cycleGANs。
一句话总结全文:本文探讨了使用对抗性领域转移的现有方法来弥补这种领域间的差距是否可行。为此,本文使用了一个在域间转换中训练的CycleGAN。
研究内容:只有在测试数据的数据分布与训练数据相匹配的情况下,才能期望在保留分区上获得良好的分类性能。然而,在许多现实生活中的使用案例中,这一约束条件并没有被满足。在这项工作中,我们探讨了使用对抗性领域转移的现有方法来弥补这种领域间的差距是否可行。为此,我们使用了一个在域间转换中训练的CycleGAN。我们证明了生成的数据的质量对领域转换的有效性有很大影响,并提出了一个额外的步骤来克服这个问题。为了评估该方法,我们对女性和男性发声的情绪进行了分类。此外,我们表明我们的模型成功地接近了声学特征的分布,并且我们的方法可以被用来提高情感分类的性能。由于所提出的方法是独立于领域和特征的,因此它可以应用于任何分类任务。
其他论文整理: |
|