CN102999161B

CN102999161B - 一种语音唤醒模块的实现方法及应用

Info

Publication number: CN102999161B
Application number: CN201210455175.2A
Authority: CN
Inventors: 操文祥; 王海坤; 康怀茂; 钱勇; 谢信珍; 黄海兵
Original assignee: iFlytek Co Ltd
Current assignee: Science And Technology University Information Flying South China Institute Of Artificial Intelligence (guangzhou) Co Ltd
Priority date: 2012-11-13
Filing date: 2012-11-13
Publication date: 2016-03-02
Anticipated expiration: 2032-11-13
Also published as: CN102999161A

Abstract

一种语音唤醒模块的实现方法及应用，包括：语音输入(1)、语音唤醒算法(2)和唤醒执行(3)；语音唤醒算法(2)实现主要通过声学特征提取(4)、唤醒词检测(5)、唤醒词确认(6)、构建唤醒词检测网络(7)、训练声学模型(8)和构建唤醒词确认网络(9)等实现。本发明即使在嘈杂环境下不论是否有播放音乐，都可以通过语音唤醒词开启语音唤醒功能，识别唤醒效果好；本发明的实现方法能够被移植到ARM或DSP通用处理器上运行，应用于车载及家电相关领域。

Description

一种语音唤醒模块的实现方法及应用

技术领域

本发明公开了一种语音唤醒模块的实现方法及应用，具体涉及一种通过用户说预定的语音唤醒词来触发系统执行用户下一步操作，可以应用与需要实现语音唤醒的车载及家电等领域。

背景技术

本发明涉及到一项已申请公开的发明专利，公开号为：CN102645977A，申请日为2012.03.26，发明人是殷建红、王忠、周彦煌，名称为“一种车载语音唤醒人机交互系统及方法”，在此将其引为参考文献。该发明的车载语音唤醒实现原理是：在预先设置的flash存储器中存放语音库、车载噪音库、语音引擎等信息，通过麦克风输入的语音指令经由主控制器MCU与存储器存储的语音指令相关信息进行比对进行语音识别，并将比对识别后确定的语音指令相关信息作为执行指令控制车载控制功能单元模块，实现其相应的功能。该发明中所涉及到的flash存放的都是固定的数据，而车载环境下，由于行车速度、路况、天气、是否开空调开窗户都会导致发动机噪声和轮胎噪声等车载噪声库变化，车内播放的音乐不同，发音人的不同会导致所参考的语音库发生变化，所以该发明仅适用于固定的场景下实现语音唤醒功能。而本发明通过采集各类场景下不同发音人录音数据，训练出一种声学模型，同时通过构建唤醒词检测网络及确认网络，使得本发明适应场景更广泛，同时语音唤醒效果好。

发明内容

本发明的目的是为了解决现有技术的不足，提供一种语音唤醒系统的实现方法，即使在嘈杂环境下不论是否有播放音乐，都可以通过语音唤醒词开启语音唤醒功能，同时语音唤醒效果好；此外本发明还提供语音唤醒系统的应用，包括应用于车载及家电相关领域的应用。

本发明是通过以下技术方案实现的：一种语音唤醒模块的实现方法包括：语音输入1、语音唤醒算法2和唤醒执行3步骤，语音唤醒算法2获取语音输入1的语音信号，进行语音唤醒处理后，将结果输出给唤醒执行3，从而完成唤醒操作；

所述语音唤醒算法2通过声学特征提取4、唤醒词检测5、唤醒词确认6、构建唤醒词检测网络7、训练声学模型8和构建唤醒词确认网络9来实现，具体实现过程如下：

第一步，声学特征提取4：通过语音输入1获取语音信号输入，提取具有区分性的、并且是基于人耳听觉特性提取的特征，通常选取语音识别中用到的MFCC(Mel-FrequencyCepstrumCoefficient，美尔频率倒谱系数)特征作为声学特征；

第二步，唤醒词检测5：将提取得到的声学特征，采用训练的声学模型8在唤醒词检测网络7上计算声学得分，如果得分最优的路径中包含要检测的唤醒词，则确定已检出唤醒词，进入第三步操作，否则回到第一步重新进行提取声学特征4步骤；

第三步，唤醒词确认6：将提取得到的声学特征，采用训练的声学模型8在唤醒词确认网络9上进行唤醒词确认，得到最终确认得分；判断该检出的唤醒词是否为真实的唤醒词，即将该唤醒词的最终确认得分和预先设定的门限进行比较，如果最终确认得分大于等于门限，则认为该唤醒词是真实的唤醒词，语音唤醒成功，将结果输出给唤醒执行3，从而完成语音唤醒操作；如果最终确认得分小于门限，则认为该唤醒词为虚假的唤醒词，重新回到第一步重新进行声学特征提取4步骤。

所述声学模型8的训练分为两部分，分别为音素声学模型和废料模型(即Garbage模型)；音素声学模型采用传统的语音识别中的声学模型训练方法，选取数据库，利用基于MLE(MaximumLikelihoodEstimation，最大似然估计)和MPE(MinimumPhoneError，最小音素错误)区分性训练准则下得到；Garbage模型用于吸收除唤醒词之外的无关语音，使用和训练音素模型同样的数据库，通过计算各音素模型之间的相似性，将各音素分为20类，使用每类音素对应的所有训练数据融合起来，采用MLE准则训练对应的Garbage模型，便得到20类Garbage模型。

所述唤醒词检测网络7的实现方法是采用最优得分路径计算得出，所述最优得分路径的计算公式是：

W = \underset{W}{\arg m a x} P (W) P (X | W) - - - (2)

其中X代表从输入语音中提取的声学特征向量，W代表得分最大的最优词序列；条件概率P(X|W)为声学模型得分，通过训练好的声学模型8计算得到；先验概率P(W)为语言模型得分，即为对不同的声学模型所加的PenaltyP(X)为全概率，当声学模型和唤醒词检测网络确定下来后就是定值。

所述唤醒词确认网络(9)实现方法是：

a.将检出的唤醒词解码到音素一级，并记录所有的得分(Score_phone1,Score_phone2,…,Score_phoneN)，其中N为唤醒词中总的音素个数；

Score_phone1,Score_phone2,…,Score_phoneN分别表示该唤醒词中所有音素的是解码得分，其中下标表示音素的N个音素的标识。

b.使用和唤醒词检测同样的特征，得到相应的声学得分，并精确到帧一级(Score_frame1,Score_frame2,…,Score_frameM)，其中M为该句特征总的时长，以帧为单位；

c.计算得到唤醒词每个音素的确认得分，计算方式如下：

{CM}_{p h o n e i} = ({Score}_{p h o n e i} - Σ_{k = K_{i s t a r t}}^{K_{i e n d}} {Score}_{f r a m e k}) / (K_{i e n d} - K_{i s t a r t}) - - - (3)

其中K_istart和K_iend分别为第i个音素的起始时间和结束时间；

CM_phonei表示第i个音素的确认得分，下标phonei表示第i个音素，Score_phonei如上面所示第i个phone的解码得分，Score_framek表示使用唤醒词确认网络解码得到的第k帧的得分。

d.计算得到该唤醒词的最终确认得分，计算方式如下所示：

{CM}_{w o r d} = \frac{1}{N} Σ_{i = 1}^{N} {CM}_{p h o n e i} - - - (4)

本发明的方法能够被移植到ARM或DSP通用处理器上，应用于车载及家电相关领域。

一种车载语音唤醒系统，其特征在于包括：微处理器、语音唤醒模块、音频转换装置、录音装置、音频处理装置、播音装置；其中语音唤醒模块运行在微处理器中，具体实现过程如下：

第一步，微处理器与音频处理装置互连，控制音频处理装置输出音频信息，而音频处理装置与播音装置互连，将所需要播放音频信息进行功率放大推动喇叭放音，完成音频播放操作；

第二步，录音装置与音频转换装置互连，当用户说出语音唤醒词时，通过录音装置进行语音录入并传给音频转换装置转换，完成语音采集操作；

第三步，音频转换装置对录音装置录入的语音信息进行数据转换，同时将转换后的数据传给微处理器进行权利要求1所述语音唤醒模块的运算，完成音频数据转换操作；

第四步，微处理器与音频转换装置互连，对音频转换装置输入的语音信息进行语音唤醒模块的运算，若正确识别出语音唤醒信息，则控制音频处理装置播放语音提示音，完成车载语音唤醒及提示音播放操作；若识别出错，则继续进行第二步语音采集操作。

本发明与现有技术相比的优点在于：

(1)本发明通过用户的语音唤醒词作为触发源，加上唤醒词检测和唤醒词确认，即使在嘈杂环境下不论是否有播放音乐，都可以通过语音唤醒词开启语音唤醒功能，语音唤醒效果好；同时也无需用户利用双手操作，仅通过语音命令快速实现唤醒功能，进行下一步交互操作。

(2)本发明实现，成本低，代码移植方便，具有很好的推广应用价值。

(3)本发明可以广泛应用于车载及家电等领域，还可以广泛应用于其它播放音频同时需要语音唤醒的各领域。在车载环境下，未使用本系统前用户行车过程中想启动识别功能需要手动去操作按键，暂停当前播放的音乐，导致行车过程存在安全隐患；同时用户体验效果差。

(4)本发明带来的价值是，使用本系统后可通过说约定的语音唤醒词开启语音唤醒功能，无需事先暂停音频播放，同时通过实际测试验证，正确识别唤醒率可以达到90％以上；在其它如家电领域，用户正在收看电视节目时，想开启语音识别功能，也可以通过语音唤醒词来实现，使得语音交互更便捷、更人性化。

(5)本发明中的语音唤醒功能均通过软件算法实现，可以很方便的被移植到ARM或DSP等通用处理器上。

附图说明

图1为本发明实现的示意框图；

图2为本发明的构建唤醒词检测网络示意框图；

图3为本发明的构建唤醒词确认网络示意框图；

图4为本发明在车载领域的具体实施示意图。

具体实施方式

如图1所示，本发明语音唤醒模块的实现由语音输入1、语音唤醒算法2和唤醒执行3步骤实现。

语音唤醒算法2实现主要由声学特征提取4、唤醒词检测5、唤醒词确认6、构建唤醒词检测网络7、训练声学模型8和构建唤醒词确认网络9完成，具体实现过程是：

(1)训练声学模型8：声学模型的训练分为两部分，分别为音素声学模型和废料模型(即Garbage模型)。音素声学模型采用传统的语音识别中的声学模型训练方法，选取合适的数据库，利用基于MLE(MaximumLikelihoodEstimation，最大似然估计)和MPE(MinimumPhoneError，最小音素错误)区分性训练准则下的得到。Garbage模型用于吸收除唤醒词之外的无关语音，使用和训练音素模型同样的数据库，通过计算各音素模型之间的相似性，将各音素分为20类，使用每类音素对应的所有训练数据融合起来，采用MLE准则训练对应的Garbage模型，这样即得到20类Garbage模型。Garbage模型采用了聚类的音素训练数据混合训练，有两种用途，在唤醒词检测网络中用来吸收除唤醒词之外的其他语音，在唤醒词确认网络中用来计算确认网络的得分。

(2)声学特征提取4：通过语音输入1获取语音信号输入，提取可以具有一定区分性的，并且是基于人耳听觉特性提取的特征，一般选取语音识别中用到的MFCC(Mel-FrequencyCepstrumCoefficient，美尔频率倒谱系数)特征。

(3)唤醒词检测5：将提取得到的声学特征，使用声学模型8在唤醒词检测网络7上计算声学得分，如果得分最优的路径中包含要检测的唤醒词，则检出唤醒词，进入下一步操作；否则重新提取声学特征操作。为了保证唤醒词能够被正常的检出，同时无效的语音又能被有效的吸收。唤醒检测网络的构建主要由用户选定的唤醒词和Garbage模型组成，如图2所示，这种网络在语音识别中也称为识别网络，由于唤醒检测网路结构非常简单，可以通过简单的程序或则手工构建都可以。由于实际使用环境的复杂性，在很多情况下，接收到的唤醒语音被噪声污染了，此时唤醒语音对应的声学的特征在音素声学模型上的得分就会降低的很多，而由于Garbage模型是使用较多音素混合训练得到，其本身不是很精确，声学特征在Garbage模型上的得分降低的幅度有限，此时唤醒语音就被Garbage模型误吸收，系统唤醒率就会降低。

为了防止上述情况的发生，在唤醒词检测网络上解码时，对Garbage所在的弧的解码得分做一定的惩罚，即Penalty，使其不能和音素声学模型公平竞争，以保证有被噪声污染的唤醒语音也能被正常检出。具体的惩罚幅度需要针对不同的唤醒词作经验性的调整。

唤醒词检测网络7的实现方法是采用最优得分路径计算得出。

最优得分路径的获取采用经典的贝叶斯公式，如下所示：

W = \underset{W}{\arg m a x} P (W | X) = \underset{W}{\arg m a x} \frac{P (W) P (X | W)}{P (X)} - - - (1)

上式中X代表从输入语音中提取的声学特征向量，W代表得分最大的最优词序列。条件概率P(X|W)为声学模型得分，可以通过训练好的音素声学模型和废料模型计算得到，先验概率P(W)为语言模型得分，这里可以理解为对不同的声学模型所加的Penalty。P(X)为全概率，当声学模型和唤醒词检测网络确定下来后就是定值，因此公式(1)可写为：

W = \underset{W}{\arg \max} P (W) P (X | W) - - - (2)

(4)唤醒词确认6：由于声学模型的本身存在不精确性以及实际使用环境的复杂性，通过唤醒词检测环节得到的唤醒词不一定是真实的唤醒词。为了能降低非唤醒带来的误唤醒以及后面会导致的问题，需要对检测得到的唤醒词作进一步的确认。本发明采用附图3的方式构建唤醒词确认网络9，唤醒词确认网络和唤醒词检测网络一样，都属于语音识别中的识别网络，确认网络中只包含Garbage模型，可以使用简单的程序或手工构建。

唤醒词确认的主要步骤如下：

a)将唤醒词检测得到唤醒词解码到音素一级，并记录其所有的得分(Score_phone1,Score_phone2,…,Score_phoneN)，其中N为唤醒词中总的音素个数。

b)使用和唤醒词检测同样的特征，在唤醒词确认网络上得到相应的声学得分，并精确到帧一级(Score_frame1,Score_frame2,…,Score_frameM)，其中M为该句特征总的时长，以帧为单位。

c)计算得到唤醒词每个音素的确认得分，计算方式如下：

{CM}_{p h o n e i} = ({Score}_{p h o n e i} - Σ_{k = K_{i s t a r t}}^{K_{i e n d}} {Score}_{f r a m e k}) / (K_{i e n d} - K_{i s t a r t}) - - - (3)

其中K_istart和K_iend分别为第i个音素的起始时间和结束时间。

d)计算得到该唤醒词的最终确认得分，计算方式如下所示：

{CM}_{w o r d} = \frac{1}{N} Σ_{i = 1}^{N} {CM}_{p h o n e i} - - - (4)

e)判断该唤醒词是否为真实的唤醒词，对比该唤醒词的最终确认得分和预先设定的门限，如果确认得分CM_word大于门限T则认为该唤醒词为真实的唤醒词，唤醒成功；如果CM_word小于门限T则认为该唤醒词为虚假的唤醒词，重新进行声学特征提取。

通过以上工作实现语音唤醒功能，最终将结果反馈给唤醒执行3，执行唤醒操作。

如图4所示，给出了本发明在车载领域的具体实施示意图，车载语音唤醒系统，其结构包括：微处理器11，优先选用ARM9处理器，但不限于此微处理器；语音唤醒模块运行在微处理器11中；音频转换装置12，优先选择WM8731，但不限于此音频转换装置；录音装置13，优先选择性价比高的驻极体麦克风，但不限于此录音装置；音频处理装置14，优先选择TDA7419，但不限于此音频处理装置；播音装置15，采用功率放大器TDA7388及汽车自带的四单元喇叭(左前方喇叭、左后方喇叭、右前方喇叭、右后方喇叭)，但不限于此功率放大器和车载喇叭单元；语音唤醒命令词，优先选择“汽车语点”，但不不限于此语音唤醒词。

实现原理主要包括音频播放、语音数据采集、音频数据转换、语音唤醒及提示音播放等步骤完成。具体如下：

第一、当用户使用本系统在行车过程中收听音乐时，音乐可以是由微处理器ARM9的播音模块提供的音频或者是接入音频处理器TDA7419的收音机/电视/DVD/linein等其它音源；所有播放的音乐先通过音频处理器进行音效处理后，再通过功率放大器TDA7388推动车载喇叭进行播音，完成音频播放工作；

第二、当用户说出特定的语音唤醒词---“汽车语点”时，用户说话音量应保持正常说话水平，声音太小会导致驻极体麦克风录不到语音信号，声音过大会导致录音削顶，都会导致唤醒功能失败；包含有语音唤醒词信息的麦克风信号，经过音频转换器WM8731中进行模数转换，完成语音信号采集工作；

第三、微处理器ARM9的语音采集模块通过IIC总线控制音频转换器WM8731进行模数转换工作，将麦克风录音信号转换成数字信号，并通过IIS总线回传给微处理器，完成音频数据转换工作；

第四、微处理器训练声学模型，提取麦克风信号输入的用户声学特征，通过唤醒词检测网络及唤醒词确认网络后，实现语音唤醒功能。同时通过音频处理器播放提示音信号，完成整个语音唤醒及提示音播放操作。

以上是本发明优先实施方式，用户在不播放音乐或非行车时，同样可以通过特定语音唤醒词开启语音识别功能。

本发明未详细阐述部分属于本领域公知技术。且上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的形式所获得的技术方案，均落在本发明的保护范围之内。

Claims

1.一种语音唤醒模块的实现方法，其特征在于包括：语音输入(1)、语音唤醒算法(2)和唤醒执行(3)步骤，语音唤醒算法(2)获取语音输入(1)的语音信号，进行语音唤醒处理后，将结果输出给唤醒执行(3)，从而完成唤醒操作；

所述语音唤醒算法(2)通过声学特征提取(4)、唤醒词检测(5)、唤醒词确认(6)、构建唤醒词检测网络(7)、训练声学模型(8)和构建唤醒词确认网络(9)来实现，具体实现过程如下：

第一步，声学特征提取(4)：通过语音输入(1)获取语音信号输入，提取具有区分性的、并且是基于人耳听觉特性提取的特征，选取语音识别中用到的美尔频率倒谱系数特征作为声学特征；

第二步，唤醒词检测(5)：将提取得到的声学特征，采用训练的声学模型(8)在唤醒词检测网络(7)上计算声学得分，如果声学得分最优的路径中包含要检测的唤醒词，则确定已检出唤醒词，进入第三步操作，否则回到第一步重新进行提取声学特征(4)步骤；

第三步，唤醒词确认(6)：将提取得到的声学特征，采用训练的声学模型(8)在唤醒词确认网络(9)上进行唤醒词确认，得到最终确认得分；判断该检出的唤醒词是否为真实的唤醒词，即将该唤醒词的最终确认得分和预先设定的门限，如果最终确认得分大于等于门限，则认为该唤醒词是真实的唤醒词，语音唤醒成功，将结果输出给唤醒执行(3)，从而完成语音唤醒操作；如果最终确认得分小于门限，则认为该唤醒词为虚假的唤醒词，重新回到第一步重新进行声学特征提取(4)步骤；

所述唤醒词检测网络(7)的实现方法是采用声学得分最优的路径计算得出，所述声学得分最优的路径的计算公式是：

W = \underset{W}{\arg \max} P (W) P (X | W)

其中X代表从输入语音中提取的声学特征向量，W代表得分最大的最优词序列；条件概率P(X|W)为声学模型得分，通过训练好的声学模型(8)计算得到；先验概率P(W)为语言模型得分，即为对不同的声学模型所加的PenaltyP(X)为全概率；

所述唤醒词确认网络(9)实现方法是：

a.将检出的唤醒词解码到音素一级，并记录所有的得分Score_phone1,Score_phone2,…,Score_phoneN，其中N为唤醒词中总的音素个数，

Score_phone1,Score_phone2,…,Score_phoneN分别表示该唤醒词中所有音素的是解码得分，其中下标表示音素的N个音素的标识；

b.使用和唤醒词检测同样的特征，得到相应的声学得分，并精确到帧一级Score_frame1,Score_frame2,…,Score_frameM，其中M为该特征总的时长，以帧为单位；

c.计算得到唤醒词每个音素的声学得分，计算方式如下：

{CM}_{p h o n e i} = ({Score}_{p h o n e i} - Σ_{k = K_{i s t a r t}}^{K_{i e n d}} {Score}_{f r a m e k}) / (K_{i e n d} - K_{i s t a r t})

其中K_istart和K_iend分别为第i个音素的起始时间和结束时间；

CM_phonei表示第i个音素的确认得分，下标phonei表示第i个音素，Score_phonei表示第i个phone的解码得分，Score_framek表示使用唤醒词确认网络解码得到的第k帧的得分；

d.计算得到该唤醒词的最终确认得分，计算方式如下所示：

{CM}_{w o r d} = \frac{1}{N} Σ_{i = 1}^{N} {CM}_{p h o n e i} .

2.根据权利要求1所述的语音唤醒模块的实现方法，其特征在于：所述声学模型(8)的训练分为两部分，分别为音素声学模型和废料模型即Garbage模型；音素声学模型采用传统的语音识别中的声学模型训练方法，选取数据库，利用基于最大似然估计和最小音素错误区分性训练准则下得到；Garbage模型用于吸收除唤醒词之外的无关语音，使用和训练音素模型同样的数据库，通过计算各音素模型之间的相似性，将各音素分为20类，使用每类音素对应的所有训练数据融合起来，采用最大似然估计准则训练对应的Garbage模型，便得到20类Garbage模型。

3.根据权利要求1所述的一种语音唤醒模块的实现方法，其特征在于：所述方法能够被移植到ARM或DSP通用处理器上运行，应用于车载及家电相关领域。

4.一种车载语音唤醒系统，其特征在于包括：微处理器、权利要求1所述语音唤醒模块、音频转换装置、录音装置、音频处理装置、播音装置，所述语音唤醒模块运行在微处理器中，具体实现过程如下：

第三步，音频转换装置对录音装置录入的语音信息进行数据转换，同时将转换后的数据传给微处理器进行语音唤醒模块的运算，完成音频数据转换操作；

第四步，微处理器与音频转换装置互连，对音频转换装置输入的语音信息进行语音唤醒模块的运算，若正确识别出语音唤醒信息，则控制音频处理装置播放语音提示音，完成语音唤醒及提示音播放操作；若识别出错，则继续进行第二步语音采集操作。