大家好,欢迎来到IT知识分享网。
Pydub 是一个用 Python 编写的音频处理库,它可以方便地处理许多音频文件,诸如分割、合并、格式转换、音量调节等。它具有以下特点:
- 主要使用 ffmpeg 和 libav 模块来实现音频的读取、处理和输出。
- 支持的音频格式非常广泛,包括 MP3、WAV、FLAC、MP4 等。
- API 简单易用,可以方便地进行常用的音频处理操作。
Pydub 是一个轻量级、快速且易于使用的库。silence库是pydub的一个扩展库,可以在音频文件中根据静默部分进行分割,非常方便。
1 pydub安装
安装 Pydub 的最简单方法是使用 pip,只需在命令行下运行以下命令即可:
pip install pydub
依赖:需安装ffmpeg或者libav
如果 ffmpeg 或 libav 未安装,则还需要在系统中安装相关依赖库。
2 pydub模块使用
读取音频文件非常简单,只需使用 AudioSegment.from_file() 函数即可。以下示例演示了如何读取名为 “soundfile.mp3” 的 MP3 文件:
2.1 打开音频文件
from pydub import AudioSegment # 打开wav格式音频文件 sound = AudioSegment.from_wav('./soundfile.wav') # 打开mp3音频文件,AudioSegment原生只支持wav,raw文件,安装ffmpeg可支持其所有格式 sound = AudioSegment.from_mp3('./soundfile.mp3') # 打开音频文件,生成AudioSegment对象 sound = AudioSegment.from_file('./soundfile.mp3') # format默认值为"mp3" sound = AudioSegment.from_file('./soundfile.wav', format='wav') # 打开raw文件需要额外参数,sample_width(采样位数),frame_rate(采样频率),channels(声通道) # sample_width: 1、8bit,2、16bit,3、32bit # frame_rate: 44100(44.1kHz CD audio), 48000(48kHz DVD audio) # channels: 1、单声道,2、立体声 sound = AudioSegment.from_file('./soundfile.raw', format='raw', frame_rate=44100, channels=2, sample_width=2)
2.2 导出音频文件
要将 AudioSegment 对象保存为音频文件,可以使用 export() 函数。以下示例将上述读取的音频输出为名为 “outputsoundfile.mp3” 的 mp3文件:
sound = AudioSegment.from_file('./soundfile.wav', format='wav') # 导出音频文件 sound.export('./outputsoundfile.mp3', format='mp3')
2.3 创建音频文件
# 生成一个时间长度为0秒的AudioSegment对象,一般用于多个音频合并 sound = AudioSegment.empty() # 生成一个时间长度为5秒的无声AduioSegment对象 # 参数duration:时间长度(毫秒),frame_rate:频率,默认为11025Hz sound = AudioSegment.silent(duration=50000)
2.4 合并音频文件
# 两个单声道音频合并为一个多声道音频 left_channel = AudioSegment.from_wav('sound_left.wav') right_channel = AudioSegment.from_wav('sound_right.wav') stereo_sound = AudioSegment.from_mono_auidosegments(left_channel,right_channel) # 将多声道音频分解成两个单声道 sound = AudioSegment.from_wav('sound.wav') sound.split_to_mono() # 两个音频文件合并为一个音频文件 sound1 = AudioSegment.from_file('sound1.wav', format='wav') sound2 = AudioSegment.from_file('sound2.wav', format='wav') # 无交叉淡入淡出 sound = sound1 + sound2 # OR sound = sound1.append(sound2, crossfade=0) # 淡入淡出,参数crossfade:效果持续时间,默认100毫秒 sound = sound1.append(sound2, crossfade=100) # 两个音频文件叠加为一个音频文件 # 例,长音频sound1,30s sound1 = AudioSegment.from_file('sound1.wav', format='wav') # 例,短音频sound2,10s sound2 = AudioSegment.from_file('sound2.wav', format='wav') # 将sound2叠加至sound1上,参数postions:从sound1音频10秒处开始叠加,默认为0,得到的音频文件,会从10秒处开始出现sound2音频,20秒处sound2音频结束,只余sound1音频 sound = sound1.overlay(sound2, postions=10000) # 将sound2叠加至sound1上,参数loop:开启循环,默认为Fasle,得到的音频文件sound2将会循环播放至sound1结束 sound = sound1.overlay(sound2, loop=true) # 将sound2叠加至sound1上,参数times:重复次数,默认为1,得到的音频文件sound2将会重复两次,在两个sound2的时间结束sound2音频 sound = sound1.overlay(sound2, times=2) # 将sound1叠加至sound2上,10秒后sound2音频结束,sound1音频截断至10s结束,最终该音频长度只有10s,即 sound = sound2.overlay(sound1) len(sound) == sound2
2.5 音频文件信息
sound = AudioSegment.from_file('soundfile.wav', format='wav') # 声道数 schannel = sound.channels # 采样位数,也称位深度,是指每个采样样本所包含的位数(字节数),通常有8 bit、16 bit sbytes = sound.sample_width # 采样频率,也称采样率,是指在单位时间内对声音信号的采样数或样本数,采样频率越能高表现的频率范围越大(电话:8kHZ,无线电广播:22.05kHz,CD:44.1kHz,DVD:48kHZ,蓝光:96kHz,192kHz) srate = sound.frame_rate # 帧位数, 帧包含每个声道的采样位数frame_width = channels * sample_width sframebytes = sound.frame_width # 音频文件帧数, 可选参数ms:时间长度,默认None sframe = sound.frame_count() # 音频文件时长,单位秒 stime = sound.duration_seconds # OR stime = (len(sound) / 1000)
2.6 处理音频文件
sound = AudioSegment.from_file('soundfile.wav', format='wav') # 音频前5秒,pydub中时间以毫秒(ms)为单位 audio_begin = sound[:5000] # 音频后5秒,pydub中时间以毫秒(ms)为单位 audio_end = sound[-5000:] # 改变音频幅度,以分贝(dB)为单位 # 调高幅度 raise_via = sound.apply_gain(+5) raise_via = sound + 5 # 调低音量 lower_via = sound.apply_gain(-5) lower_via = sound - 5 # 淡入淡出效果 # 淡入,参数duration:持续时间 sound.fade_in(duration=5000) # 淡出,参数duration:持续时间 sound.fade_out(duration=5000) # 倒放音频文件 newsound = sound.reverse()
2.7 播放音频文件
from pydub import playback from pydub import AduioSegment from pydub.playback import play sound = AduioSegment.from_wav('sound.wav') # 播放音频 play(sound)
2.8 分割音频
from pydub import utils from pydub import AudioSegment from pydub.utils import make_chanks sound = AduioSegment.from_wav('sound.wav') # 分割音频, 参数chunk_length:一段音频多长时间 make_chanks(sound, chunk_length=5000)
3 使用pydub根据静音分割音频
3.1 静音检测原理
静音检测原理是通过分析音频信号的能量,判断其是否为静音状态。具体的原理如下:
- 音频信号通常可以用时域或频域来表示。对于时域表示,可以将音频信号分成一段一段的小块,每个小块称为帧。对于频域表示,可以将音频信号变换为频谱图。
- 静音的特点是信号的能量较低,通常处于接近零的水平。因此,静音检测可以通过计算每个帧或频谱图的能量来判断是否为静音。
- 计算能量的方法可以使用绝对能量或相对能量。绝对能量是指计算信号的平方和,即将信号的每个样本取平方后相加。相对能量是指计算信号的功率谱密度,即将信号的功率谱密度求和。
- 静音检测的阈值是根据实际应用来确定的。通常可以根据经验设置一个合适的阈值,当帧的能量或频谱图的能量低于阈值时,被判断为静音。
- 静音检测也可以结合其他特征进行判断,例如零交叉率、短时过零率等。这些特征可以提供更准确的静音检测结果。
静音检测原理是通过计算音频信号的能量来判断是否为静音状态,通常通过设置一个阈值来判断。此外,还可以结合其他特征进行判断,提高检测的准确性。
- 如果某部分短时能量和过零率都为零或者为很小的值,就可以认为这部分为无声段。
- 如果该部分语音短时能量很大但是过零率很小,则认为该部分语音为浊音段。
- 如果该部分短时能量很小但是过零率很大,则认为该部分语音为清音段。
正如前面提到,语音信号具有短时性,因此在对语音信号进行分析时,需要将语音信号以30ms为一段分为若干帧来进行分析,则两帧起始点之间的间隔为10ms。
- 短时能量,无声<浊音<清音
- 过零率,无声<清音<浊音
3.2 使用pydub进行静音检测
代码首先使用AudioSegment类从audio.mp3文件中读取音频数据,然后设置了分割参数min_silence_len、silence_thresh和keep_silence。min_silence_len是最小静音长度,silence_thresh是静音阈值,keep_silence是保留静音长度。这些参数的具体含义可以根据实际情况进行调整。最后,根据分割参数使用split_on_silence函数对音频文件进行分割。
from pydub import AudioSegment from pydub.silence import split_on_silence # 读取音频文件 audio = AudioSegment.from_file("D:/dataset/lyb01.wav", format="wav") # 设置分割参数 min_silence_len = 300 # 最小静音长度 silence_thresh = -50 # 静音阈值,越小越严格 keep_silence = 200 # 保留静音长度 # 分割音频文件 segments = split_on_silence(audio, min_silence_len=min_silence_len, silence_thresh=silence_thresh, keep_silence=keep_silence) for idx in range(len(segments)): segments[idx].export(f'wav_{idx:04}.wav')
运行结果显示:
[<pydub.audio_segment.AudioSegment object at 0x00000263D65E1D60>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E3D0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E370>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E340>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E0A0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E310>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E8E0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E910>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E940>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E9A0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E970>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EC10>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EC40>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EC70>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ECA0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ECD0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ED00>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ED30>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ED60>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ED90>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EDC0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EDF0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EE20>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EE50>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EE80>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EEB0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EEE0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EF10>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EF40>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EF70>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EFA0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EFD0>, <pydub.audio_segment.AudioSegment object at 0x00000263D>, <pydub.audio_segment.AudioSegment object at 0x00000263D>, <pydub.audio_segment.AudioSegment object at 0x00000263D66220A0>, <pydub.audio_segment.AudioSegment object at 0x00000263D66220D0>, <pydub.audio_segment.AudioSegment object at 0x00000263D>, <pydub.audio_segment.AudioSegment object at 0x00000263D>, <pydub.audio_segment.AudioSegment object at 0x00000263D>, <pydub.audio_segment.AudioSegment object at 0x00000263D>, <pydub.audio_segment.AudioSegment object at 0x00000263D66221C0>, <pydub.audio_segment.AudioSegment object at 0x00000263D66221F0>, <pydub.audio_segment.AudioSegment object at 0x00000263D>, <pydub.audio_segment.AudioSegment object at 0x00000263D>, <pydub.audio_segment.AudioSegment object at 0x00000263D>, <pydub.audio_segment.AudioSegment object at 0x00000263D66222B0>, <pydub.audio_segment.AudioSegment object at 0x00000263D66222E0>, <pydub.audio_segment.AudioSegment object at 0x00000263D>, <pydub.audio_segment.AudioSegment object at 0x00000263D>, <pydub.audio_segment.AudioSegment object at 0x00000263D>]
4 总结
通过pydub,我们可以方便地进行音频编解码、混音、重采样等操作,进一步扩展了pydub的应用场景。需要注意的是,在进行音频混音操作时,需要保证两个音频文件的采样率、采样位数和声道数相同。
pydub优点:
- 轻量级:pydub是一个轻量级的音频处理库,安装方便,使用简单。
- 功能丰富:pydub提供了丰富的音频处理功能,包括切割、合并、转换、调整音量、编解码、混音、重采样等。
- 应用广泛:pydub的应用场景非常广泛,包括音频处理、铃声制作、音频格式转换、语音识别等等。
pydub缺点:
- 对格式的兼容性有限:pydub对音频格式的兼容性有限,不支持所有的音频格式,需要先将音频转换为支持的格式后才能进行处理。
- 性能一般:pydub在处理大文件时,性能可能会比较一般,需要耗费一定的时间和计算资源。
- 不支持流式处理:pydub不支持流式处理,需要将整个音频文件读取到内存中,导致内存占用较大。
pydub是一个功能丰富、应用广泛的音频处理库。在使用pydub时,需要注意音频格式的兼容性问题,并注意处理大文件时的性能和内存占用。如果需要处理更复杂的音频任务,可以考虑使用其他更专业的音频处理库。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/111631.html

