语音识别的运行方式及系统分类方法-电源网

语音识别可以说是当下科技圈的又一个热点，很多新的科技产品都想和语音识别搭上点关系，以此来吸引眼球。简单的说，语音识别技术就是让机器能够识别和理解人类的语言信息，并把语音信号转换成相应的文本或者命令。这项技术涉及到的知识面非常广泛，包括声学、语音学、语言学、信息理论等等。本篇文章就将为大家介绍语音识别的基本原理，识别方法及分类。

语音识别的基本原理

1-1

图1

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如图1所示。

未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

语音识别的方法

目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机（SVM）等方法。

动态时间规整算法（Dynamic Time Warping，DTW）是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。

隐马尔可夫模型（HMM）是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。

矢量量化（Vector Quantization）是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。

在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。

人工神经网络（ANN）是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型，它与 HMM正好相反，其分类决策能力和对不确定信息的描述能力得到举世公认，但它对动态时间信号的描述能力尚不尽如人意，通常MLP分类器只能解决静态模式分类问题，并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构，但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展，其识别率已经接近隐含马尔可夫模型的识别系统，进一步提高了语音识别的鲁棒性和准确率。

支持向量机（Support vector machine）是应用统计学理论的一种新的学习机模型，采用结构风险最小化原理（Structural Risk Minimization，SRM），有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力，在解决小样本、非线性及高维模式识别方面有许多优越的性能，已经被广泛地应用到模式识别领域。

语音识别系统的分类

语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑，可以将识别系统分为三类：特定人语音识别系统。仅考虑对于专人的话音进行识别；非特定人语音系统。识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习；多人的识别系统。通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。

如果从说话的方式考虑，也可以将识别系统分为三类：孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿；连接词语音识别系统。连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现；连续语音识别系统。连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。

如果从识别系统的词汇量大小考虑，也可以将识别系统分为三类：小词汇量语音识别系统。通常包括几十个词的语音识别系统；中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统；大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统，将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

现如今，语音识别系统在便携设备上的应用最为广泛。从手机到智能手环、智能手表，都有语音识别系统的身影。但是，需要指出的是，寻找到语音识别的正确突破口很重要，将力量集中到最有可能取得成功的市场当中，不要盲目的投资，这样才能使得这项技术真正的得到长足的发展。

贸泽电子与Fortebit签署全球分销协议备货Fortebit Speech语音识别和汽车物联网器件	20-05-26 17:50
你的手机能读懂你的心吗？	20-04-03 09:44
基于NXP i.MX RT106L本地语音识别全套设计方案	20-03-04 17:18
图文结合更容易理解，何为卷积神经网络？	20-02-25 08:08
干货普及：简述关于语音识别技术背后的那些事儿	19-12-31 10:46

贸泽电子与Fortebit签署全球分销协议备货Fortebit Speech语音识别和汽车物联网器件

20-05-26 17:50

你的手机能读懂你的心吗？

20-04-03 09:44

基于NXP i.MX RT106L本地语音识别全套设计方案

20-03-04 17:18

图文结合更容易理解，何为卷积神经网络？

20-02-25 08:08

干货普及：简述关于语音识别技术背后的那些事儿

19-12-31 10:46