大家好,欢迎来到IT知识分享网。
| 题目 | Hierarchical Network based on the Fusion of Static and Dynamic Features for Speech Emotion Recognition |
|---|---|
| 时间 | 2021年 |
| 期刊\会议 | ICASSP |
基于静态和动态特征融合的语音情感识别层次网络
摘要:许多关于自动语音情感识别(SER)的研究都致力于提取有意义的情感特征,以生成与情感相关的表征。然而,它们通常忽略了静态和动态特征的互补学习,导致性能有限。在本文中,我们提出了一种称为 HNSD ( Hierarchical Network Static and Dynamic ) 的新型分层网络,它可以有效地集成 SER 的静态和动态特征。具体而言,提出的 HNSD 框架由三个不同的模块组成。为了捕获判别特征,首先设计了一个有效的编码模块来同时对静态和动态特征进行编码。通过将获得的特征作为输入,进行门控多特征单元(Gated Multi-features Unit, GMU)来明确地确定用于帧级特征融合的情感中间表示,而不是直接融合这些声学特征。通过这种方式,学习到的静态和动态特征可以联合、全面地生成统一的特征表示。得益于精心设计的注意力机制,最后一个分类模块被应用于预测话语层面的情绪状态。在 IEMOCAP 基准数据集上进行的大量实验表明,与最先进的基线相比,我们的方法具有优越性。
1 Introduction
作为情感计算最重要的任务之一,语音情感识别(SER)旨在检测说话人的情绪状态,具有广泛的应用,如医疗保健系统和人机交互[1]。随着深度学习的发展,许多研究采用了基于卷积神经网络(CNN)和递归神经网络(RNN)的模型来生成更具鉴别性的声学特征,以提高 SER 的性能[2,3,4,5,6]。这些方法大多将静态特征作为网络的输入来学习高级特征。例如,Li 等人[4]设计了两个不同的卷积核,用于分别从频谱图中捕获时域和频域特征。Li 等人[5] 提出了一种具有多头自注意的扩张神经网络,从 Mel Frequency 倒谱系数(MFCC)中研究情绪相关特征。最近,注意力机制在提高 SER 性能方面取得了很大进展[7,8,9]。Mirsamadi 等人[7]应用 RNN 来检测 MFCC 的时间上下文信息,并引入了一种可靠的注意力机制来关注语音信号的情绪相关区域。
尽管现有的基于 CNN 和 RNN 的方法在提取特征方面取得了显著的性能,但自动 SER 系统仍然具有挑战性。一方面,前面的方法忽略了表达过程中情绪的变化。这些变化被视为动态特征,可以反映语音的变化。尽管 Chen 等人[10]和 Lee 等人[11]认为语音的动态特征是网络的输入,但他们将级联的静态和动态特征转移到了深度神经网络中。然而,这种策略忽略了静态和动态特征会相互干扰,从而导致性能不令人满意[12]。另一方面,语音的速度和响度变化的动态特性是不一致的。因此,静态特征和动态特征对情绪的贡献在一个话语中是不同的。发明一种从更详细的帧级别考虑特征融合的策略是至关重要的。
图1 HNSD 用于语音情感识别的工作流程。三个模块学习不同级别的特征:层次 1 是帧级别的特征编码;层次 2 是帧级的特征融合,层次 3 是用于识别的话语级的特征学习
为了解决这些问题,本文提出了一种新的架构,称为 HNSD ,它可以探索基于分层网络的静态和动态特征的贡献,如图所示1。在我们的工作中,静态特征表示 log-Mel 滤波器组特征,该特征包含来自频域的足够信息。相比之下,动态特征包含Log-Mel 滤波器组的一阶导数(Delta-Mel)特征和 Log-Mel 滤波器组的二阶导数(Delta-Delt-Mel)特征,它们描述了帧之间的光谱变化,反映了情绪的变化过程。为了防止不同的特征相互干扰,HNSD 在第一模块分别学习静态和动态特征的时间上下文信息。为了融合静态和动态特性,我们引入了门控多特征单元(GMU),用于访问受[13]启发的第二模块的情感中间表示。为了获得情绪识别的话语水平表征,Bahdanau 注意机制[14,15]致力于计算最后一个模块的情绪显著框架。主要贡献概述如下:
- 这项工作引入了一种基于层次的多特征融合网络,该网络可以从静态和动态特征中逐步学习高级情感表示;
- 发明了一种基于门的多特征融合单元,用于在帧级有效地融合来自静态和动态特征的情感信息;
- 得益于分层结构,我们的方法在四类情感识别中实现了72.5%的未加权准确率(UA),这是 IEMOCAP 上最先进的性能。
2 Methodology
在本节中,介绍了 HNSD 的三个层次模块,即层次 1 中的静态和动态表示,层次 2 中用于融合的门控多特征单元,以及层次3 中的 Bahdanau 注意机制。
2.1 静态和动态表示
2.1.1 静态特征
在本文中,静态特征是与频谱相关的特征。采用汉明窗口将语音信号分割成宽 25ms 、偏移 10ms 的短帧。此外,利用短时傅立叶变换(STFT)将信号从时域变换到频域。此外,我们对梅尔滤波器组的能谱进行对数运算。话语的 Log-Mel 特征可以作为静态特征获得,并由矩阵 X s ∈ R T × N X^s \in R^{T×N} Xs∈RT×N表示,其中 T T T 是帧数, N N N 是 Mel-Bank 滤波器的数量。 x i s x^s_i xis 是覆盖 N N N 个滤波器的第 i i i 个帧( i ∈ [ 1 , T ] i \in [1, T] i∈[1,T])。
2.1.2 动态特征
Delta-Mel 由第一个差值计算,表示为 Y Y Y, y i ∈ Y y_i \in Y yi∈Y:
y i = ∑ n = 1 M n ( x i + n s − x i − n s ) / 2 ∑ n = 1 M n 2 . ( 1 ) y_i = \displaystyle \sum_{n=1}^M n(x^s_{i+n} – x^s_{i-n})/2\displaystyle\sum_{n=1}^Mn^2 .\kern10em(1) yi=n=1∑Mn(xi+ns−xi−ns)/2n=1∑Mn2.(1)
公式中的常数 M M M 为 1,表示差值的持续时间为 1。类似地,Del-Delta-Mel 可以通过 Delta-Mel 的第一个差值获得,并表示为 Z Z Z 和 z j ∈ Z z_j \in Z zj∈Z:
z i = ∑ n = 1 M n ( y i
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/117152.html
