语音基础知识–持续更新

语音基础知识–持续更新这种处理可以包括混响 Reverberatio 延迟 Delay 回声 Echo 失真 Distortion 等 使得声音听起来更加饱满 有空间感或具有特定的效果

大家好,欢迎来到IT知识分享网。

1、干声

        干声是指录音以后未经过任何后期处理和加工的纯人声。

2、湿声

        湿音是在干音基础上进行修饰处理后的声音。

        这种处理可以包括混响(Reverberation)、延迟(Delay)、回声(Echo)、失真(Distortion)等,使得声音听起来更加饱满、有空间感或具有特定的效果。

3、信噪比

        英文名称叫做SNR或S/N(SIGNAL-NOISE RATIO),是指语音信号中有用信号与噪声信号的比值,通常用分贝表示。

SNR=10lg\frac{P_s{}}{P_n{}}

信噪比越高表示信号越清晰,噪声越小。

        信噪比越高,表示信号的质量越好,噪声对信号的影响越小。在音频设备中,高信噪比意味着音频更加纯净,没有杂音或噪音。在通信系统中,高信噪比有助于减少误码率,提高通信质量。

应用领域:

        (1)音频设备:如耳机、音箱、麦克风等,信噪比越高,音质越好。

        (2)通信设备:如手机、无线电、卫星通信等,信噪比越高,通信质量越好。

        (3)视频设备:如电视机、显示器、摄像头等,信噪比越高,图像质量越好。

4、语音图像

        语音的图像主要包括时域图和频域图,它们分别展示了语音信号在不同维度上的特性。

4.1、时域图

描述:

        (1)横轴:时间,通常表示语音信号随时间流逝的连续性。

        (2)纵轴:信号的幅度(振幅),表示声音信号的强弱。

        (3)波形:直接反映了语音信号的波形特征,如音节的起始和结束、声音的强弱变化等。

​​​​​​​​​​​​​​​​​​​​​4.2、频域图

描述:

        (1)横轴:频率,表示语音信号中不同频率成分的分布。

        (2)纵轴:信号的幅度(或功率),表示该频率成分在语音信号中的强度。

        (3)频谱:反映了语音信号中各个频率成分的强度和分布情况。

​​​​​​​​​​​​​​​​​​​​​4.3、频谱图

描述:

        (1)横轴:时间,通常表示语音信号随时间流逝的连续性。

        (2)纵轴:信号的频率,表示该频率成分的强度。

        (3)频谱:表示信号在不同时间和频率上的能量分布。​​​​​​​

4.4、举例

4.4.1、发音【小泰小泰】

(1)时域图

语音基础知识--持续更新

(2)频域图

语音基础知识--持续更新

(3)频谱图

时域和频域上分析:

        时域上,其波形非常规律,具有明显的周期性。

        频域上,其能量较为集中在中间频率区域。

python代码试下如下:

import numpy as np import matplotlib.pyplot as plt from scipy.fft import fft def plot_audio(audio_data, sample_rate): # 时域图 time = np.arange(0, len(audio_data)) / sample_rate plt.subplot(311) plt.plot(time, audio_data) plt.xlabel('Time (s)') plt.ylabel('Amplitude') plt.title('Time Domain') # 频域图(通过快速傅里叶变换) fft_audio = fft(audio_data) freqs = np.fft.fftfreq(len(audio_data), 1.0 / sample_rate) magnitude = np.abs(fft_audio) plt.subplot(312) plt.plot(freqs, magnitude) plt.xlabel('Frequency (Hz)') plt.ylabel('Magnitude') plt.title('Frequency Domain') # 频谱图(通过短时傅里叶变换) from scipy.signal import stft f, t, Zxx = stft(audio_data, sample_rate, nperseg=256) plt.subplot(313) plt.pcolormesh(t, f, np.abs(Zxx), shading='gouraud') plt.xlabel('Time (s)') plt.ylabel('Frequency (Hz)') plt.title('Spectrogram') plt.tight_layout() plt.show() # 示例用法 # 假设您已经有音频数据 audio_data 和采样率 sample_rate # 您可以替换以下示例数据为您实际的数据 audio_data = np.sin(2 * np.pi * 440 * np.arange(0, 1024) / 44100) sample_rate = 44100 plot_audio(audio_data, sample_rate)

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/137918.html

(0)
上一篇 2025-06-16 20:20
下一篇 2025-06-16 20:26

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信