语音识别算法及其实现-五谷道场的回答

19条回答

2019-07-17 17:03

二、算法原理
2.1. 语音识别的基本过程
   根据实际中的应用不同，语音识别系统可以分为：特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。但无论那种语音识别系统，其基本原理和处理方法都大体类似。一个典型的语音识别系统的原理图如图1所示。

   语音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。语音信号识别最重要的一环就是特征参数提取。提取的特征参数必须满足以下的要求：
   (1)提取的特征参数能有效地代表语音特征，具有很好的区分性； (2)各阶参数之间有良好的独立性；
   (3)特征参数要计算方便，最好有高效的算法，以保证语音识别的实时实现。
   在训练阶段，将特征参数进行一定的处理后，为每个词条建立一个模型，保存为模板库。在识别阶段，语音信号经过相同的通道得到语音特征参数，生成测试模板，与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。同时，还可以在很多先验知识的帮助下，提高识别的准确率。
2.2. 语音识别的DSP实现技术
2．21. 浮点运算的定点实现
   在语音识别的算法中，有许多的浮点运算。用定点DSP来实现浮点运算是在编写语音识别程序中需要首先解决的问题。这个问题可以通过数的定标方法来实现。数的定标就是决定小数点在定点数中的位置。Q表示法是一种常用的定标方法。其表示机制是：
   设定点数是J，浮点数是f，则Q法表示的定点数与浮点数的转换关系为：浮点数f转换为定点数x：x= (int)y×2Q；定点数z转换为浮点数y：y    =(float)x×2-Q。
2．22. 数据精度的处理
   用16b的定点DSP实现语音识别算法时，虽然程序的运行速度提高了，但是数据精度比较低。这可能由于中间过程的累计误差而引起运算结果的不正确。为了提高数据的运算精度，在程序中采用了以下的处理方法：
   (1)扩展精度在精度要求比较高的地方，将计算的中间变量采用32b，甚至48b来表示。这样，在指令条数增加不多的情况下却使运算精度大大提高了。
   (2)采用伪浮点法来表示浮点数
   伪浮点法即用尾数+指数的方法来表示浮点数。这时，数据块的尾数可以采用Q1．15数据格式，数据块的指数相同。这种表示数据的方法有足够大的数据范围，可以完全满足数据精度的要求，但是需要自己编写一套指数和尾数运算库，会额外增加程序的指令数和运算量，不利于实时实现。
   以上两种方法，都可以提高运算精度，但在实际操作时，要根据系统的要求和算法的复杂度，来权衡考虑。
2．23. 变量的维护
   在高级语言中，有全局变量与局部变量存储的区别，但在DSP程序中，所有声明的变量在链接时都会分给数据空间。所以如果按照高级语言那样定义局部变量，就会浪费大量的DSP存储空间，这对数据空间较为紧张的定点DSP来说，显然是不合理的。为了节省存储空间，在编写DSP程序时，最好维护好一张变量表。每进入一个DSP子模块时，不要急于分配新的局部变量，应优先使用已分配但不用的变量。只有在不够时才分配新的局部变量。
2．24. 采用模块化的程序设计方法
   在语音识别算法的实现中，为了便于程序的设计和调试，采用了模块化的程序设计方法。以语音识别的基本过程为依据进行模块划分，每个模块再划分为若干个子模块，然后以模块为单元进行编程和调试。在编写程序之前，首先用高级语言对每个模块进行算法仿真，在此基础上再进行汇编程序的编写。在调试时，可以采用高级语言与汇编语言对比的调试方式，这样可以通过跟踪高级语言与汇编语言的中间状态，来验证汇编语言的正确性，并及时的发现和修改错误，缩短编程周期。另外，在程序的编写过程中，应在关键的部分加上必要的注释与说明，以增强程序的可读性。
   在总调时，需要在各模块中设置好相应的人口参数与出口参数，维护好堆栈指针与中间变量等。

查看其它19个回答

语音识别算法及其实现

一周热门更多>

相关问题

相关文章

语音识别算法及其实现

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

一周热门 更多>

相关问题

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间

一周热门更多>