CN102999161B - 一种语音唤醒模块的实现方法及应用 - Google Patents

一种语音唤醒模块的实现方法及应用 Download PDF

Info

Publication number
CN102999161B
CN102999161B CN201210455175.2A CN201210455175A CN102999161B CN 102999161 B CN102999161 B CN 102999161B CN 201210455175 A CN201210455175 A CN 201210455175A CN 102999161 B CN102999161 B CN 102999161B
Authority
CN
China
Prior art keywords
wake
word
voice
score
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210455175.2A
Other languages
English (en)
Other versions
CN102999161A (zh
Inventor
操文祥
王海坤
康怀茂
钱勇
谢信珍
黄海兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Science And Technology University Information Flying South China Institute Of Artificial Intelligence (guangzhou) Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201210455175.2A priority Critical patent/CN102999161B/zh
Publication of CN102999161A publication Critical patent/CN102999161A/zh
Application granted granted Critical
Publication of CN102999161B publication Critical patent/CN102999161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

一种语音唤醒模块的实现方法及应用,包括:语音输入(1)、语音唤醒算法(2)和唤醒执行(3);语音唤醒算法(2)实现主要通过声学特征提取(4)、唤醒词检测(5)、唤醒词确认(6)、构建唤醒词检测网络(7)、训练声学模型(8)和构建唤醒词确认网络(9)等实现。本发明即使在嘈杂环境下不论是否有播放音乐,都可以通过语音唤醒词开启语音唤醒功能,识别唤醒效果好;本发明的实现方法能够被移植到ARM或DSP通用处理器上运行,应用于车载及家电相关领域。

Description

一种语音唤醒模块的实现方法及应用
技术领域
本发明公开了一种语音唤醒模块的实现方法及应用,具体涉及一种通过用户说预定的语音唤醒词来触发系统执行用户下一步操作,可以应用与需要实现语音唤醒的车载及家电等领域。
背景技术
本发明涉及到一项已申请公开的发明专利,公开号为:CN102645977A,申请日为2012.03.26,发明人是殷建红、王忠、周彦煌,名称为“一种车载语音唤醒人机交互系统及方法”,在此将其引为参考文献。该发明的车载语音唤醒实现原理是:在预先设置的flash存储器中存放语音库、车载噪音库、语音引擎等信息,通过麦克风输入的语音指令经由主控制器MCU与存储器存储的语音指令相关信息进行比对进行语音识别,并将比对识别后确定的语音指令相关信息作为执行指令控制车载控制功能单元模块,实现其相应的功能。该发明中所涉及到的flash存放的都是固定的数据,而车载环境下,由于行车速度、路况、天气、是否开空调开窗户都会导致发动机噪声和轮胎噪声等车载噪声库变化,车内播放的音乐不同,发音人的不同会导致所参考的语音库发生变化,所以该发明仅适用于固定的场景下实现语音唤醒功能。而本发明通过采集各类场景下不同发音人录音数据,训练出一种声学模型,同时通过构建唤醒词检测网络及确认网络,使得本发明适应场景更广泛,同时语音唤醒效果好。
发明内容
本发明的目的是为了解决现有技术的不足,提供一种语音唤醒系统的实现方法,即使在嘈杂环境下不论是否有播放音乐,都可以通过语音唤醒词开启语音唤醒功能,同时语音唤醒效果好;此外本发明还提供语音唤醒系统的应用,包括应用于车载及家电相关领域的应用。
本发明是通过以下技术方案实现的:一种语音唤醒模块的实现方法包括:语音输入1、语音唤醒算法2和唤醒执行3步骤,语音唤醒算法2获取语音输入1的语音信号,进行语音唤醒处理后,将结果输出给唤醒执行3,从而完成唤醒操作;
所述语音唤醒算法2通过声学特征提取4、唤醒词检测5、唤醒词确认6、构建唤醒词检测网络7、训练声学模型8和构建唤醒词确认网络9来实现,具体实现过程如下:
第一步,声学特征提取4:通过语音输入1获取语音信号输入,提取具有区分性的、并且是基于人耳听觉特性提取的特征,通常选取语音识别中用到的MFCC(Mel-FrequencyCepstrumCoefficient,美尔频率倒谱系数)特征作为声学特征;
第二步,唤醒词检测5:将提取得到的声学特征,采用训练的声学模型8在唤醒词检测网络7上计算声学得分,如果得分最优的路径中包含要检测的唤醒词,则确定已检出唤醒词,进入第三步操作,否则回到第一步重新进行提取声学特征4步骤;
第三步,唤醒词确认6:将提取得到的声学特征,采用训练的声学模型8在唤醒词确认网络9上进行唤醒词确认,得到最终确认得分;判断该检出的唤醒词是否为真实的唤醒词,即将该唤醒词的最终确认得分和预先设定的门限进行比较,如果最终确认得分大于等于门限,则认为该唤醒词是真实的唤醒词,语音唤醒成功,将结果输出给唤醒执行3,从而完成语音唤醒操作;如果最终确认得分小于门限,则认为该唤醒词为虚假的唤醒词,重新回到第一步重新进行声学特征提取4步骤。
所述声学模型8的训练分为两部分,分别为音素声学模型和废料模型(即Garbage模型);音素声学模型采用传统的语音识别中的声学模型训练方法,选取数据库,利用基于MLE(MaximumLikelihoodEstimation,最大似然估计)和MPE(MinimumPhoneError,最小音素错误)区分性训练准则下得到;Garbage模型用于吸收除唤醒词之外的无关语音,使用和训练音素模型同样的数据库,通过计算各音素模型之间的相似性,将各音素分为20类,使用每类音素对应的所有训练数据融合起来,采用MLE准则训练对应的Garbage模型,便得到20类Garbage模型。
所述唤醒词检测网络7的实现方法是采用最优得分路径计算得出,所述最优得分路径的计算公式是:
W = arg m a x W P ( W ) P ( X | W ) - - - ( 2 )
其中X代表从输入语音中提取的声学特征向量,W代表得分最大的最优词序列;条件概率P(X|W)为声学模型得分,通过训练好的声学模型8计算得到;先验概率P(W)为语言模型得分,即为对不同的声学模型所加的PenaltyP(X)为全概率,当声学模型和唤醒词检测网络确定下来后就是定值。
所述唤醒词确认网络(9)实现方法是:
a.将检出的唤醒词解码到音素一级,并记录所有的得分(Scorephone1,Scorephone2,…,ScorephoneN),其中N为唤醒词中总的音素个数;
Scorephone1,Scorephone2,…,ScorephoneN分别表示该唤醒词中所有音素的是解码得分,其中下标表示音素的N个音素的标识。
b.使用和唤醒词检测同样的特征,得到相应的声学得分,并精确到帧一级(Scoreframe1,Scoreframe2,…,ScoreframeM),其中M为该句特征总的时长,以帧为单位;
c.计算得到唤醒词每个音素的确认得分,计算方式如下:
CM p h o n e i = ( Score p h o n e i - Σ k = K i s t a r t K i e n d Score f r a m e k ) / ( K i e n d - K i s t a r t ) - - - ( 3 )
其中Kistart和Kiend分别为第i个音素的起始时间和结束时间;
CMphonei表示第i个音素的确认得分,下标phonei表示第i个音素,Scorephonei如上面所示第i个phone的解码得分,Scoreframek表示使用唤醒词确认网络解码得到的第k帧的得分。
d.计算得到该唤醒词的最终确认得分,计算方式如下所示:
CM w o r d = 1 N Σ i = 1 N CM p h o n e i - - - ( 4 )
本发明的方法能够被移植到ARM或DSP通用处理器上,应用于车载及家电相关领域。
一种车载语音唤醒系统,其特征在于包括:微处理器、语音唤醒模块、音频转换装置、录音装置、音频处理装置、播音装置;其中语音唤醒模块运行在微处理器中,具体实现过程如下:
第一步,微处理器与音频处理装置互连,控制音频处理装置输出音频信息,而音频处理装置与播音装置互连,将所需要播放音频信息进行功率放大推动喇叭放音,完成音频播放操作;
第二步,录音装置与音频转换装置互连,当用户说出语音唤醒词时,通过录音装置进行语音录入并传给音频转换装置转换,完成语音采集操作;
第三步,音频转换装置对录音装置录入的语音信息进行数据转换,同时将转换后的数据传给微处理器进行权利要求1所述语音唤醒模块的运算,完成音频数据转换操作;
第四步,微处理器与音频转换装置互连,对音频转换装置输入的语音信息进行语音唤醒模块的运算,若正确识别出语音唤醒信息,则控制音频处理装置播放语音提示音,完成车载语音唤醒及提示音播放操作;若识别出错,则继续进行第二步语音采集操作。
本发明与现有技术相比的优点在于:
(1)本发明通过用户的语音唤醒词作为触发源,加上唤醒词检测和唤醒词确认,即使在嘈杂环境下不论是否有播放音乐,都可以通过语音唤醒词开启语音唤醒功能,语音唤醒效果好;同时也无需用户利用双手操作,仅通过语音命令快速实现唤醒功能,进行下一步交互操作。
(2)本发明实现,成本低,代码移植方便,具有很好的推广应用价值。
(3)本发明可以广泛应用于车载及家电等领域,还可以广泛应用于其它播放音频同时需要语音唤醒的各领域。在车载环境下,未使用本系统前用户行车过程中想启动识别功能需要手动去操作按键,暂停当前播放的音乐,导致行车过程存在安全隐患;同时用户体验效果差。
(4)本发明带来的价值是,使用本系统后可通过说约定的语音唤醒词开启语音唤醒功能,无需事先暂停音频播放,同时通过实际测试验证,正确识别唤醒率可以达到90%以上;在其它如家电领域,用户正在收看电视节目时,想开启语音识别功能,也可以通过语音唤醒词来实现,使得语音交互更便捷、更人性化。
(5)本发明中的语音唤醒功能均通过软件算法实现,可以很方便的被移植到ARM或DSP等通用处理器上。
附图说明
图1为本发明实现的示意框图;
图2为本发明的构建唤醒词检测网络示意框图;
图3为本发明的构建唤醒词确认网络示意框图;
图4为本发明在车载领域的具体实施示意图。
具体实施方式
如图1所示,本发明语音唤醒模块的实现由语音输入1、语音唤醒算法2和唤醒执行3步骤实现。
语音唤醒算法2实现主要由声学特征提取4、唤醒词检测5、唤醒词确认6、构建唤醒词检测网络7、训练声学模型8和构建唤醒词确认网络9完成,具体实现过程是:
(1)训练声学模型8:声学模型的训练分为两部分,分别为音素声学模型和废料模型(即Garbage模型)。音素声学模型采用传统的语音识别中的声学模型训练方法,选取合适的数据库,利用基于MLE(MaximumLikelihoodEstimation,最大似然估计)和MPE(MinimumPhoneError,最小音素错误)区分性训练准则下的得到。Garbage模型用于吸收除唤醒词之外的无关语音,使用和训练音素模型同样的数据库,通过计算各音素模型之间的相似性,将各音素分为20类,使用每类音素对应的所有训练数据融合起来,采用MLE准则训练对应的Garbage模型,这样即得到20类Garbage模型。Garbage模型采用了聚类的音素训练数据混合训练,有两种用途,在唤醒词检测网络中用来吸收除唤醒词之外的其他语音,在唤醒词确认网络中用来计算确认网络的得分。
(2)声学特征提取4:通过语音输入1获取语音信号输入,提取可以具有一定区分性的,并且是基于人耳听觉特性提取的特征,一般选取语音识别中用到的MFCC(Mel-FrequencyCepstrumCoefficient,美尔频率倒谱系数)特征。
(3)唤醒词检测5:将提取得到的声学特征,使用声学模型8在唤醒词检测网络7上计算声学得分,如果得分最优的路径中包含要检测的唤醒词,则检出唤醒词,进入下一步操作;否则重新提取声学特征操作。为了保证唤醒词能够被正常的检出,同时无效的语音又能被有效的吸收。唤醒检测网络的构建主要由用户选定的唤醒词和Garbage模型组成,如图2所示,这种网络在语音识别中也称为识别网络,由于唤醒检测网路结构非常简单,可以通过简单的程序或则手工构建都可以。由于实际使用环境的复杂性,在很多情况下,接收到的唤醒语音被噪声污染了,此时唤醒语音对应的声学的特征在音素声学模型上的得分就会降低的很多,而由于Garbage模型是使用较多音素混合训练得到,其本身不是很精确,声学特征在Garbage模型上的得分降低的幅度有限,此时唤醒语音就被Garbage模型误吸收,系统唤醒率就会降低。
为了防止上述情况的发生,在唤醒词检测网络上解码时,对Garbage所在的弧的解码得分做一定的惩罚,即Penalty,使其不能和音素声学模型公平竞争,以保证有被噪声污染的唤醒语音也能被正常检出。具体的惩罚幅度需要针对不同的唤醒词作经验性的调整。
唤醒词检测网络7的实现方法是采用最优得分路径计算得出。
最优得分路径的获取采用经典的贝叶斯公式,如下所示:
W = arg m a x W P ( W | X ) = arg m a x W P ( W ) P ( X | W ) P ( X ) - - - ( 1 )
上式中X代表从输入语音中提取的声学特征向量,W代表得分最大的最优词序列。条件概率P(X|W)为声学模型得分,可以通过训练好的音素声学模型和废料模型计算得到,先验概率P(W)为语言模型得分,这里可以理解为对不同的声学模型所加的Penalty。P(X)为全概率,当声学模型和唤醒词检测网络确定下来后就是定值,因此公式(1)可写为:
W = arg max W P ( W ) P ( X | W ) - - - ( 2 )
(4)唤醒词确认6:由于声学模型的本身存在不精确性以及实际使用环境的复杂性,通过唤醒词检测环节得到的唤醒词不一定是真实的唤醒词。为了能降低非唤醒带来的误唤醒以及后面会导致的问题,需要对检测得到的唤醒词作进一步的确认。本发明采用附图3的方式构建唤醒词确认网络9,唤醒词确认网络和唤醒词检测网络一样,都属于语音识别中的识别网络,确认网络中只包含Garbage模型,可以使用简单的程序或手工构建。
唤醒词确认的主要步骤如下:
a)将唤醒词检测得到唤醒词解码到音素一级,并记录其所有的得分(Scorephone1,Scorephone2,…,ScorephoneN),其中N为唤醒词中总的音素个数。
b)使用和唤醒词检测同样的特征,在唤醒词确认网络上得到相应的声学得分,并精确到帧一级(Scoreframe1,Scoreframe2,…,ScoreframeM),其中M为该句特征总的时长,以帧为单位。
c)计算得到唤醒词每个音素的确认得分,计算方式如下:
CM p h o n e i = ( Score p h o n e i - Σ k = K i s t a r t K i e n d Score f r a m e k ) / ( K i e n d - K i s t a r t ) - - - ( 3 )
其中Kistart和Kiend分别为第i个音素的起始时间和结束时间。
d)计算得到该唤醒词的最终确认得分,计算方式如下所示:
CM w o r d = 1 N Σ i = 1 N CM p h o n e i - - - ( 4 )
e)判断该唤醒词是否为真实的唤醒词,对比该唤醒词的最终确认得分和预先设定的门限,如果确认得分CMword大于门限T则认为该唤醒词为真实的唤醒词,唤醒成功;如果CMword小于门限T则认为该唤醒词为虚假的唤醒词,重新进行声学特征提取。
通过以上工作实现语音唤醒功能,最终将结果反馈给唤醒执行3,执行唤醒操作。
如图4所示,给出了本发明在车载领域的具体实施示意图,车载语音唤醒系统,其结构包括:微处理器11,优先选用ARM9处理器,但不限于此微处理器;语音唤醒模块运行在微处理器11中;音频转换装置12,优先选择WM8731,但不限于此音频转换装置;录音装置13,优先选择性价比高的驻极体麦克风,但不限于此录音装置;音频处理装置14,优先选择TDA7419,但不限于此音频处理装置;播音装置15,采用功率放大器TDA7388及汽车自带的四单元喇叭(左前方喇叭、左后方喇叭、右前方喇叭、右后方喇叭),但不限于此功率放大器和车载喇叭单元;语音唤醒命令词,优先选择“汽车语点”,但不不限于此语音唤醒词。
实现原理主要包括音频播放、语音数据采集、音频数据转换、语音唤醒及提示音播放等步骤完成。具体如下:
第一、当用户使用本系统在行车过程中收听音乐时,音乐可以是由微处理器ARM9的播音模块提供的音频或者是接入音频处理器TDA7419的收音机/电视/DVD/linein等其它音源;所有播放的音乐先通过音频处理器进行音效处理后,再通过功率放大器TDA7388推动车载喇叭进行播音,完成音频播放工作;
第二、当用户说出特定的语音唤醒词---“汽车语点”时,用户说话音量应保持正常说话水平,声音太小会导致驻极体麦克风录不到语音信号,声音过大会导致录音削顶,都会导致唤醒功能失败;包含有语音唤醒词信息的麦克风信号,经过音频转换器WM8731中进行模数转换,完成语音信号采集工作;
第三、微处理器ARM9的语音采集模块通过IIC总线控制音频转换器WM8731进行模数转换工作,将麦克风录音信号转换成数字信号,并通过IIS总线回传给微处理器,完成音频数据转换工作;
第四、微处理器训练声学模型,提取麦克风信号输入的用户声学特征,通过唤醒词检测网络及唤醒词确认网络后,实现语音唤醒功能。同时通过音频处理器播放提示音信号,完成整个语音唤醒及提示音播放操作。
以上是本发明优先实施方式,用户在不播放音乐或非行车时,同样可以通过特定语音唤醒词开启语音识别功能。
本发明未详细阐述部分属于本领域公知技术。且上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的形式所获得的技术方案,均落在本发明的保护范围之内。

Claims (4)

1.一种语音唤醒模块的实现方法,其特征在于包括:语音输入(1)、语音唤醒算法(2)和唤醒执行(3)步骤,语音唤醒算法(2)获取语音输入(1)的语音信号,进行语音唤醒处理后,将结果输出给唤醒执行(3),从而完成唤醒操作;
所述语音唤醒算法(2)通过声学特征提取(4)、唤醒词检测(5)、唤醒词确认(6)、构建唤醒词检测网络(7)、训练声学模型(8)和构建唤醒词确认网络(9)来实现,具体实现过程如下:
第一步,声学特征提取(4):通过语音输入(1)获取语音信号输入,提取具有区分性的、并且是基于人耳听觉特性提取的特征,选取语音识别中用到的美尔频率倒谱系数特征作为声学特征;
第二步,唤醒词检测(5):将提取得到的声学特征,采用训练的声学模型(8)在唤醒词检测网络(7)上计算声学得分,如果声学得分最优的路径中包含要检测的唤醒词,则确定已检出唤醒词,进入第三步操作,否则回到第一步重新进行提取声学特征(4)步骤;
第三步,唤醒词确认(6):将提取得到的声学特征,采用训练的声学模型(8)在唤醒词确认网络(9)上进行唤醒词确认,得到最终确认得分;判断该检出的唤醒词是否为真实的唤醒词,即将该唤醒词的最终确认得分和预先设定的门限,如果最终确认得分大于等于门限,则认为该唤醒词是真实的唤醒词,语音唤醒成功,将结果输出给唤醒执行(3),从而完成语音唤醒操作;如果最终确认得分小于门限,则认为该唤醒词为虚假的唤醒词,重新回到第一步重新进行声学特征提取(4)步骤;
所述唤醒词检测网络(7)的实现方法是采用声学得分最优的路径计算得出,所述声学得分最优的路径的计算公式是:
W = arg max W P ( W ) P ( X | W )
其中X代表从输入语音中提取的声学特征向量,W代表得分最大的最优词序列;条件概率P(X|W)为声学模型得分,通过训练好的声学模型(8)计算得到;先验概率P(W)为语言模型得分,即为对不同的声学模型所加的PenaltyP(X)为全概率;
所述唤醒词确认网络(9)实现方法是:
a.将检出的唤醒词解码到音素一级,并记录所有的得分Scorephone1,Scorephone2,…,ScorephoneN,其中N为唤醒词中总的音素个数,
Scorephone1,Scorephone2,…,ScorephoneN分别表示该唤醒词中所有音素的是解码得分,其中下标表示音素的N个音素的标识;
b.使用和唤醒词检测同样的特征,得到相应的声学得分,并精确到帧一级Scoreframe1,Scoreframe2,…,ScoreframeM,其中M为该特征总的时长,以帧为单位;
c.计算得到唤醒词每个音素的声学得分,计算方式如下:
CM p h o n e i = ( Score p h o n e i - Σ k = K i s t a r t K i e n d Score f r a m e k ) / ( K i e n d - K i s t a r t )
其中Kistart和Kiend分别为第i个音素的起始时间和结束时间;
CMphonei表示第i个音素的确认得分,下标phonei表示第i个音素,Scorephonei表示第i个phone的解码得分,Scoreframek表示使用唤醒词确认网络解码得到的第k帧的得分;
d.计算得到该唤醒词的最终确认得分,计算方式如下所示:
CM w o r d = 1 N Σ i = 1 N CM p h o n e i .
2.根据权利要求1所述的语音唤醒模块的实现方法,其特征在于:所述声学模型(8)的训练分为两部分,分别为音素声学模型和废料模型即Garbage模型;音素声学模型采用传统的语音识别中的声学模型训练方法,选取数据库,利用基于最大似然估计和最小音素错误区分性训练准则下得到;Garbage模型用于吸收除唤醒词之外的无关语音,使用和训练音素模型同样的数据库,通过计算各音素模型之间的相似性,将各音素分为20类,使用每类音素对应的所有训练数据融合起来,采用最大似然估计准则训练对应的Garbage模型,便得到20类Garbage模型。
3.根据权利要求1所述的一种语音唤醒模块的实现方法,其特征在于:所述方法能够被移植到ARM或DSP通用处理器上运行,应用于车载及家电相关领域。
4.一种车载语音唤醒系统,其特征在于包括:微处理器、权利要求1所述语音唤醒模块、音频转换装置、录音装置、音频处理装置、播音装置,所述语音唤醒模块运行在微处理器中,具体实现过程如下:
第一步,微处理器与音频处理装置互连,控制音频处理装置输出音频信息,而音频处理装置与播音装置互连,将所需要播放音频信息进行功率放大推动喇叭放音,完成音频播放操作;
第二步,录音装置与音频转换装置互连,当用户说出语音唤醒词时,通过录音装置进行语音录入并传给音频转换装置转换,完成语音采集操作;
第三步,音频转换装置对录音装置录入的语音信息进行数据转换,同时将转换后的数据传给微处理器进行语音唤醒模块的运算,完成音频数据转换操作;
第四步,微处理器与音频转换装置互连,对音频转换装置输入的语音信息进行语音唤醒模块的运算,若正确识别出语音唤醒信息,则控制音频处理装置播放语音提示音,完成语音唤醒及提示音播放操作;若识别出错,则继续进行第二步语音采集操作。
CN201210455175.2A 2012-11-13 2012-11-13 一种语音唤醒模块的实现方法及应用 Active CN102999161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210455175.2A CN102999161B (zh) 2012-11-13 2012-11-13 一种语音唤醒模块的实现方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210455175.2A CN102999161B (zh) 2012-11-13 2012-11-13 一种语音唤醒模块的实现方法及应用

Publications (2)

Publication Number Publication Date
CN102999161A CN102999161A (zh) 2013-03-27
CN102999161B true CN102999161B (zh) 2016-03-02

Family

ID=47927817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210455175.2A Active CN102999161B (zh) 2012-11-13 2012-11-13 一种语音唤醒模块的实现方法及应用

Country Status (1)

Country Link
CN (1) CN102999161B (zh)

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
CN103714815A (zh) * 2013-12-09 2014-04-09 何永 语音控制方法及其设备
CN103943105A (zh) * 2014-04-18 2014-07-23 安徽科大讯飞信息科技股份有限公司 一种语音交互方法及系统
CN104282307A (zh) * 2014-09-05 2015-01-14 中兴通讯股份有限公司 唤醒语音控制系统的方法、装置及终端
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN104464723B (zh) * 2014-12-16 2018-03-20 科大讯飞股份有限公司 一种语音交互方法及系统
CN104616653B (zh) * 2015-01-23 2018-02-23 北京云知声信息技术有限公司 唤醒词匹配方法、装置以及语音唤醒方法、装置
CN106161755A (zh) * 2015-04-20 2016-11-23 钰太芯微电子科技(上海)有限公司 一种关键词语音唤醒系统及唤醒方法及移动终端
CN105096939B (zh) * 2015-07-08 2017-07-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN106469554B (zh) * 2015-08-21 2019-11-15 科大讯飞股份有限公司 一种自适应的识别方法及系统
CN105141919A (zh) * 2015-09-01 2015-12-09 武汉同迅智能科技有限公司 一种语音远程控制的监控终端装置
CN106653010B (zh) * 2015-11-03 2020-07-24 络达科技股份有限公司 电子装置及其透过语音辨识唤醒的方法
US9792907B2 (en) * 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
CN105632486B (zh) * 2015-12-23 2019-12-17 北京奇虎科技有限公司 一种智能硬件的语音唤醒方法和装置
CN105654949B (zh) * 2016-01-07 2019-05-07 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN105702253A (zh) * 2016-01-07 2016-06-22 北京云知声信息技术有限公司 一种语音唤醒方法及装置
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
CN105812573A (zh) * 2016-04-28 2016-07-27 努比亚技术有限公司 一种语音处理方法及移动终端
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
CN106297777B (zh) * 2016-08-11 2019-11-22 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN107767861B (zh) * 2016-08-22 2021-07-02 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN107767863B (zh) * 2016-08-22 2021-05-04 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN106094673A (zh) * 2016-08-30 2016-11-09 奇瑞商用车(安徽)有限公司 汽车唤醒词系统及其控制方法
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106847273B (zh) * 2016-12-23 2020-05-05 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN106653022B (zh) * 2016-12-29 2020-06-23 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN108447472B (zh) * 2017-02-16 2022-04-05 腾讯科技(深圳)有限公司 语音唤醒方法及装置
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
CN107220532B (zh) * 2017-04-08 2020-10-23 网易(杭州)网络有限公司 用于通过声音识别用户身份的方法及设备
CN107123417B (zh) * 2017-05-16 2020-06-09 上海交通大学 基于鉴别性训练的定制语音唤醒优化方法及系统
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US20190043295A1 (en) * 2017-08-07 2019-02-07 Microchip Technology Incorporated Voice-Activated Actuation of Automotive Features
CN108122556B (zh) * 2017-08-08 2021-09-24 大众问问(北京)信息科技有限公司 减少驾驶人语音唤醒指令词误触发的方法及装置
CN107591151B (zh) * 2017-08-22 2021-03-16 百度在线网络技术(北京)有限公司 远场语音唤醒方法、装置和终端设备
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN109672775B (zh) * 2017-10-16 2021-10-29 腾讯科技(北京)有限公司 调节唤醒灵敏度的方法、装置及终端
WO2019079962A1 (en) 2017-10-24 2019-05-02 Beijing Didi Infinity Technology And Development Co., Ltd. VOICE RECOGNIZING SYSTEM AND METHOD HAVING DECOUPLING AWAKENING EXPRESSION
CN107895573B (zh) * 2017-11-15 2021-08-24 百度在线网络技术(北京)有限公司 用于识别信息的方法及装置
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019113911A1 (zh) * 2017-12-15 2019-06-20 海尔优家智能科技(北京)有限公司 设备控制方法、云端设备、智能设备、计算机介质及设备
CN108320733B (zh) * 2017-12-18 2022-01-04 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108198548B (zh) * 2018-01-25 2020-11-20 苏州奇梦者网络科技有限公司 一种语音唤醒方法及其系统
CN108039175B (zh) 2018-01-29 2021-03-26 北京百度网讯科技有限公司 语音识别方法、装置及服务器
CN110097870B (zh) * 2018-01-30 2023-05-30 阿里巴巴集团控股有限公司 语音处理方法、装置、设备和存储介质
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
CN108536668B (zh) * 2018-02-26 2022-06-07 科大讯飞股份有限公司 唤醒词评估方法及装置、存储介质、电子设备
CN108597506A (zh) * 2018-03-13 2018-09-28 广州势必可赢网络科技有限公司 一种智能穿戴设备警示方法及智能穿戴设备
CN110390933A (zh) * 2018-04-20 2019-10-29 比亚迪股份有限公司 车载智能语音系统的状态展示方法、装置及车辆展示系统
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
CN108962240B (zh) * 2018-06-14 2021-09-21 百度在线网络技术(北京)有限公司 一种基于耳机的语音控制方法及系统
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
JP7001029B2 (ja) * 2018-09-11 2022-01-19 日本電信電話株式会社 キーワード検出装置、キーワード検出方法、およびプログラム
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
CN109243426A (zh) * 2018-09-19 2019-01-18 易诚博睿(南京)科技有限公司 一种自动化判断语音误唤醒系统及其判断方法
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
CN109102806A (zh) * 2018-09-29 2018-12-28 百度在线网络技术(北京)有限公司 用于语音交互的方法、装置、设备和计算机可读存储介质
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
CN111128134B (zh) * 2018-10-11 2023-06-06 阿里巴巴集团控股有限公司 声学模型训练方法和语音唤醒方法、装置及电子设备
CN111819533B (zh) * 2018-10-11 2022-06-14 华为技术有限公司 一种触发电子设备执行功能的方法及电子设备
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
CN109192210B (zh) * 2018-10-25 2023-09-22 腾讯科技(深圳)有限公司 一种语音识别的方法、唤醒词检测的方法及装置
CN109119078A (zh) * 2018-10-26 2019-01-01 北京石头世纪科技有限公司 自动机器人控制方法、装置、自动机器人和介质
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
CN109448720A (zh) * 2018-12-18 2019-03-08 维拓智能科技(深圳)有限公司 便民服务自助终端及其语音唤醒方法
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN109753665B (zh) * 2019-01-30 2020-10-16 北京声智科技有限公司 唤醒模型的更新方法及装置
CN109878218A (zh) * 2019-01-30 2019-06-14 厦门爱立得科技有限公司 一种带有智能语音控制的打印机及其打印方法
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
CN111862963B (zh) * 2019-04-12 2024-05-10 阿里巴巴集团控股有限公司 语音唤醒方法、装置和设备
CN110033758B (zh) * 2019-04-24 2021-09-24 武汉水象电子科技有限公司 一种基于小训练集优化解码网络的语音唤醒实现方法
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
CN110177317B (zh) * 2019-05-17 2020-12-22 腾讯科技(深圳)有限公司 回声消除方法、装置、计算机可读存储介质和计算机设备
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110473536B (zh) * 2019-08-20 2021-10-15 北京声智科技有限公司 一种唤醒方法、装置和智能设备
CN110600008A (zh) * 2019-09-23 2019-12-20 苏州思必驰信息科技有限公司 语音唤醒的优化方法及系统
CN110727821A (zh) * 2019-10-12 2020-01-24 深圳海翼智新科技有限公司 防止设备被误唤醒的方法、装置、系统和计算机存储介质
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN110989963B (zh) * 2019-11-22 2023-08-01 北京梧桐车联科技有限责任公司 唤醒词推荐方法及装置、存储介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US12387716B2 (en) 2020-06-08 2025-08-12 Sonos, Inc. Wakewordless voice quickstarts
CN111739513B (zh) * 2020-07-22 2020-12-11 江苏清微智能科技有限公司 自动化语音唤醒测试系统及其测试方法
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US12283269B2 (en) 2020-10-16 2025-04-22 Sonos, Inc. Intent inference in audiovisual communication sessions
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112420051A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 设备的确定方法、装置及存储介质
TWI767532B (zh) * 2021-01-22 2022-06-11 賽微科技股份有限公司 喚醒詞辨識訓練系統及其訓練方法
CN113038048B (zh) * 2021-03-02 2022-10-28 海信视像科技股份有限公司 一种远场语音唤醒方法和显示设备
CN113066490B (zh) * 2021-03-16 2022-10-14 海信视像科技股份有限公司 一种唤醒响应的提示方法和显示设备
CN113535913B (zh) * 2021-06-02 2023-12-01 科大讯飞股份有限公司 回答评分方法及装置和电子设备、存储介质
CN115731926A (zh) * 2021-08-30 2023-03-03 佛山市顺德区美的电子科技有限公司 智能设备的控制方法、装置、智能设备和可读存储介质
WO2023056026A1 (en) 2021-09-30 2023-04-06 Sonos, Inc. Enabling and disabling microphones and voice assistants
US12322390B2 (en) 2021-09-30 2025-06-03 Sonos, Inc. Conflict management for wake-word detection processes
US12327549B2 (en) 2022-02-09 2025-06-10 Sonos, Inc. Gatekeeping for voice intent processing
CN115188370B (zh) * 2022-06-27 2025-06-10 北京声智科技有限公司 语音唤醒方法、装置和电子设备
CN115223573A (zh) * 2022-07-15 2022-10-21 北京百度网讯科技有限公司 语音唤醒方法、装置、电子设备以及存储介质
CN115831109A (zh) * 2022-09-28 2023-03-21 科大讯飞股份有限公司 语音唤醒方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1256460A (zh) * 1999-11-19 2000-06-14 清华大学 语音命令控制器
CN101516005A (zh) * 2008-02-23 2009-08-26 华为技术有限公司 一种语音识别频道选择系统、方法及频道转换装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1256460A (zh) * 1999-11-19 2000-06-14 清华大学 语音命令控制器
CN101516005A (zh) * 2008-02-23 2009-08-26 华为技术有限公司 一种语音识别频道选择系统、方法及频道转换装置

Also Published As

Publication number Publication date
CN102999161A (zh) 2013-03-27

Similar Documents

Publication Publication Date Title
CN102999161B (zh) 一种语音唤醒模块的实现方法及应用
CN103021409B (zh) 一种语音启动拍照系统
US10762899B2 (en) Speech recognition method and apparatus based on speaker recognition
CN108962262B (zh) 语音数据处理方法和装置
CN104464723B (zh) 一种语音交互方法及系统
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和系统
US9818407B1 (en) Distributed endpointing for speech recognition
CN111161714B (zh) 一种语音信息处理方法、电子设备及存储介质
CN111161746B (zh) 声纹注册方法及系统
CN105206271A (zh) 智能设备的语音唤醒方法及实现所述方法的系统
CN109979474B (zh) 语音设备及其用户语速修正方法、装置和存储介质
CN109166575A (zh) 智能设备的交互方法、装置、智能设备和存储介质
CN205354646U (zh) 一种应用于车载设备的智能语音识别系统
WO2019037304A1 (zh) 车载系统的控制方法和装置
CN109949808A (zh) 兼容普通话和方言的语音识别家电控制系统和方法
CN204496731U (zh) 一种语音控制听写装置
CN113160854A (zh) 语音交互系统、相关方法、装置及设备
CN110767240A (zh) 儿童口音识别的设备控制方法、设备、存储介质及装置
CN112185425B (zh) 音频信号处理方法、装置、设备及存储介质
CN112951219A (zh) 噪声拒识方法和装置
CN111540357A (zh) 语音处理方法、装置、终端、服务器及存储介质
CN109859752A (zh) 一种语音控制方法、装置、存储介质及语音联控系统
CN110808050A (zh) 语音识别方法及智能设备
CN103886010B (zh) 一种关键词语音检索系统及方法
US12136428B1 (en) Audio watermarking

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant after: Iflytek Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: Anhui USTC iFLYTEK Co., Ltd.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190212

Address after: 511458 X1301-G5145 (Cluster Registration) (JM) No. 106 Fengze East Road, Nansha District, Guangzhou, Guangdong Province

Patentee after: Science and Technology University Information Flying South China Institute of Artificial Intelligence (Guangzhou) Co., Ltd.

Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui

Patentee before: Iflytek Co., Ltd.