音频（二）基音周期与共振峰

大家好，欢迎来到IT知识分享网。

1. 基音周期：

基音周期：表示声带的震动周期，每隔这么长时间（震动周期），有一个气流通过，“每隔”就体现了周期性，这就是基音周期。

基音频率：是基音周期的倒数，谱图上就应该有这个频率的信号分量，而且这个频率的幅度（能量）不应该很小，因为每隔一段时间“就有”一团能量通过声带。

图1：上：语音波形，下边：对应的窄带语谱图

图1小图可明显看到，基音频率也不是不变的，其也具有波动，我们可以人为的将基频线连接起来为一条曲线，这称为基音跟踪。

共振峰表示“谐振”，频谱上表示为频谱包络（其实是上包络）的峰值，那么频谱下包络的谷值点就表示“反谐振”。

频谱的“尖峰”显示的是源的信息，小尖包突起是周期性的，是有用的，那么“杂乱”的源头是非周期性的，这在语音转换中是一种很重要的信息。

比如，窄带语谱图上基本上可以发现，低频部分，横条纹比较直，而高频部分，条纹变“弯”了，这表示什么？

基音频率和共振峰是能从谱图、频谱上看出来的语音的最基本的信息，当然可以看出其他更多的信息。

2 时域与频谱中的音频特征：

2.1 时域中估计基音周期，频谱中估计基音频率

选取0.5s处的一段语音片段，长度为20ms。其时域波形和频谱如图：

图2：左语音波形，右边：对应频谱

左图，用红圈圈示的尖峰用于估计基音周期，双向箭头表示时间范围内5个圈共4个相似的波段，这4段就表示4个基音周期，则可估计基音周期约为4.25ms，则基音频率约为235.2941Hz。

右图，频谱具有明显小尖峰，这些尖峰在低频部分（可认为语音频率3400Hz内）比较有规律且平滑，高频出现小幅度的“杂乱”，这些“杂乱”表示噪声，来源有录音设备及量化噪声等（虽然幅度很小，甚至根本就“听”不出来，但存在是事实）。这些尖峰就是各次谐波，从左往右一次是1次、2次、3次……谐波。其中最左边的尖峰对应基音频率，其横坐标对应的值表示基音频率，从小图可看到大约为234.83Hz。利用各次谐波可以得到更精确的估计，图中用红圈表示用于估计基频的谐波，共选取了15个，估计出基频为234.8337Hz。

2.2 频谱中看共振峰

基音频率体现的是声源的信息.

共振峰体现的是声道的信息。

图3：语音片段时域波形及其源、声道和语音频谱，小图遮挡了部分信息

红线：是语音的频谱，黑色虚线：是语音频谱的包络，

粉红虚竖线：显示这些峰值点的位置。

根据语音产生的源-滤波器模型及源、系统的卷积解释，语音频谱的包络显示的是声道的信息，而小尖峰显示源的信息，如谐波。

可看到粉红线和红线二者的峰值的位置正好一一对应，体现了源的信息，而且粉红线（源）明显没有包络峰值，说明声道的信息被滤除。同样，蓝线没有了小尖峰，即滤掉了源的信息。

图4：语音片段时域波形及其源、声道和语音频谱

并且声道的峰值点位置与语音频谱包络的峰值位置也正好一一对应。蓝圈圈的个数表示共振峰的个数，共有4个，从左至右分别称为F1、F2、F3、F4，（F0是基音频率）。它们横轴值表示共振峰频率值，某共振峰带宽就表示该共振峰所占频带宽度。

这个图还暗示了另一个有趣的事实，源所占的频率范围和声道所占的频率范围是一样的，在频域利用高通或低通或带通的方法分离源和系统是行不通的。

3. 语谱图的取对数

这为：后面对语谱图的取对数埋下了伏笔；

人类的发声系统发出的信号是由基音信息与声道信息卷积而成。记作”s卷积v”

经过语谱图FFT变换后，卷积变成了乘法。即”FFT(s)*FFT(v)”。

取对数后，乘法变成了加法。即”Log(FFT(s))+Log(FFT(v))”

把卷积信号转换成加性信号，这就是取FFT和对数的原因

——————————————————- reference ——————-

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/129067.html

音频（二） 基音周期与共振峰