大家好,欢迎来到IT知识分享网。
目录
参考
华为云学院
语音处理
语音处理的主要应用场景
语音学
语音学是语言学的一个分支,是研究人类语言声音的学科。主要研究语言的发音机制,语言特性和在言谈中的变化规律。狭义语言学对应phonetics一词,关注预提语音本质以及产生语音的方法。与之相对的音韵学(音系学),研究音位或语音区别特征在某种语言中运作的抽象规则和语音系统。广义的语音学是指语音学和音韵学的总合。
语音学分类
语音来源
语言学
语言学是以语言为研究对象的科学。它研究的对象是人类语言,它的任务是研究、描写语言的结构、功能及其历史发展,找出语言的本质,探索语言的规律。语音、语法、词汇以及文字这些学科都关注语言的结构本身,是语言学的中心,称为“微观语言学”。
语音特征
特征提取方法
线性预测系数(LPCs)、LPC倒谱系数(LPCCs)、线谱对参数(LSP)、共振峰率、短时谱、Mel频率倒谱系数(MFCC)、感知线性预测(PLP)
线性预测系数(Linear Prediction Coefficient,LPCs)
基本概念是:一个语音的采样值可以通过过去若干语音采样值得线性组合来逼近(最小均方误差),能够决定唯一的一组预测系数,这个预测系数就是LPC,可以看做是该语音的一个特征。
线性倒谱系数(LPCCs)
共振峰率
共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道的物理特征。
MFCC
语音识别
机器通过识别和理解把语音信号转变为相应文本或命令的技术。设计的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
语音识别发展史
语音识别任务的处理流程
语音识别的应用
语音打字,语音搜索,语音拨号,语音助手
语音合成
语音合成应用场景
服务机器人、客服系统、智慧家具、出行导航、阅读软件
语音合成系统
语音合成处理流程
文本分析
语音合成方法
在语音合成技术的发展过程中,早期的研究主要是采用参数合成的方法,而后随着计算机技术的发展又出现了波形拼接的合成方法。
参数合成
Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),只要精心调整参数,它们可以合成非常自然的语音。但是准确提取共振峰参数比较困难。
波形拼接
基音同步叠加(PSOLA)方法,使基于时域波形凭借方法合成的语音在音色和自然度上有了大大提高。自然度比LPC方法或共振峰合成器的自然度要高,并且基于PSOLA方法的合成器结构简单,易于实时实现。
语音信号
语音信号分析
语音信号数字化
语音信号预处理
语音信号的时域分析
语音信号的频域分析
对语音信号进行频谱分析,最常用的方法为傅里叶分析法。通过语音信号的频谱可以观察它们的共振峰特点、基音频率和谐波频率。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/135775.html