基于DSP的汉字语音识别系统设计。

基于DSP的汉字语音识别系统设计。

语音识别是一项高科技,其中机器通过识别和理解过程将语音信号转换为相应的文本文件或命令。作为一个专门的研究领域,语音识别是另一门交叉学科,与声学,语音学,语言学,数字信号处理理论,信息论和计算机科学等许多学科紧密相关。
经过40多年的发展,语音识别已显示出广阔的应用前景。本文从实现原理入手,介绍了语音识别系统的实现。
1概述中文语音识别系统是一个独立于人的孤立音调语音识别系统。其中,孤立的声音包括至少400多个中文音节(不考虑音调)和一些常用短语。
识别系统主要用于手持设备,例如手机和手持计算机。这些设备的CPU通常是DSP,并且硬件资源非常有限,并且大多数不支持浮点运算。
然后,设计系统各部分的主要考虑因素是系统在硬件资源上的支出必须尽可能小,并且不能超出这些设备的限制。硬件资源的成本包括存储模型参数的成本,以及识别过程中内存和DSP运行时的成本。
2实现过程一般的语音处理流程图如图1所示。图1语音识别系统的处理流程图在语音识别系统中,模拟语音信号在A / D转换完成后变为数字信号,但语音时域中的信号很难直接用于识别,因此需要从语音信号中提取语音的特征,一方面可以获得语音的基本特征,另一方面,它在数据压缩中也起着作用。
输入的模拟语音信号必须首先进行预处理,包括预滤波,采样和量化,加窗,端点检测和预加重。语音识别系统的模型通常由声学模型和语言模型组成,分别对应于语音对半音节的概率计算和语音对半音节的概率计算。
3特征提取当前的通用特征提取方法是基于语音帧的,即将语音信号分为几个重叠的帧,并从每个帧中提取语音特征。由于本技术方案采用的语音库采样率为8kHz,因此帧长为256个采样点(即32ms),且帧步长或帧偏移(即各语音帧的长度不重叠)与上一帧语音相同))是80个采样点(即10毫秒)。
现有语音识别系统使用的两个主要语音特征包括:线性预测倒频谱系数(LPCC),它基于语音信号是自回归信号的假设,并且使用线性预测分析来获得倒频谱。范围。
LPCC参数的优点是计算量少,并且具有良好的元音描述能力。它的缺点是描述辅音的能力很差,抗噪性能也很差。
梅尔频率倒谱系数(MFCC),此功能考虑了人耳的听力特性,并根据梅尔频率标准将频谱转换为非线性频谱,然后将其转换为倒频谱域。由于它完全模拟了人类的听觉特征并且没有任何假设,因此MFCC参数具有识别性能和抗噪能力。
实验证明,MFCC参数在中文数字语音识别中的性能明显优于LPCC参数。因此,该技术方案采用了MFCC参数。
是语音功能参数。寻找MFCC参数的大概过程是:在输入的语音帧中添加汉明窗之后,执行快速傅立叶变换(Fast Fourier Transformation,FFT)将时域信号转换为频域信号。
将线性频率标准转换为梅尔频率标准。转换方法是使频域信号通过24个三角滤波器,其中12个三角滤波器的中心频率高于和低于1,000 Hz。
滤波器的中心频率间隔的特征在于低于1000 Hz的线性分布和高于1000 Hz的几何级数分布。三角滤波器的输出为:其中:Xk为t。

深圳市相信过程科技有限公司❤李经理❤欢迎您的咨询