CN114863941B - 啸叫抑制方法及装置、存储介质、电子设备 - Google Patents

啸叫抑制方法及装置、存储介质、电子设备

Info

Publication number
CN114863941B
CN114863941B CN202210307288.1A CN202210307288A CN114863941B CN 114863941 B CN114863941 B CN 114863941B CN 202210307288 A CN202210307288 A CN 202210307288A CN 114863941 B CN114863941 B CN 114863941B
Authority
CN
China
Prior art keywords
howling
audio
signal
suppression
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210307288.1A
Other languages
English (en)
Other versions
CN114863941A (zh
Inventor
陈志鹏
阮良
陈功
陈丽
郝一亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zhiqi Technology Co Ltd
Original Assignee
Hangzhou Netease Zhiqi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Zhiqi Technology Co Ltd filed Critical Hangzhou Netease Zhiqi Technology Co Ltd
Priority to CN202210307288.1A priority Critical patent/CN114863941B/zh
Publication of CN114863941A publication Critical patent/CN114863941A/zh
Application granted granted Critical
Publication of CN114863941B publication Critical patent/CN114863941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开的实施方式涉及音频信号处理技术领域,更具体地,本公开的实施方式涉及啸叫抑制方法及装置,存储介质和电子设备。所述方法包括:提取待处理音频信号的音频特征,所述待处理音频信号为所述第一设备通过其第一音频采集模块所采集到的音频信号,所述待处理音频信号为声源所发出的声学信号与所述第二音频播放模块所播放的第二音频信号之叠加;将所述音频特征输入至啸叫检测模型,所述啸叫检测模型输出所述待处理音频信号的啸叫特征参数;将所述啸叫特征参数以及所述音频特征输入至啸叫抑制模型;根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号。本公开的技术方案能够适应存在诸多非线性、不确定性的即时通信的声学环路中,进行啸叫抑制。

Description

啸叫抑制方法及装置、存储介质、电子设备
技术领域
本公开的实施方式涉及音频信号处理技术领域,更具体地,本公开的实施方式涉及啸叫抑制方法及装置,存储介质和电子设备。
背景技术
本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
啸叫产生的本质是反馈系统处于不稳定的状态,系统的稳定性可以通过系统的开环传递函数,利用奈奎斯特稳定性判据进行判断。一个典型的反馈系统中,作为系统的输入,为作为系统的输出,系统的输入R(s)经由前向传递函数G(s)传递至系统的输出C(s),系统的输出C(s)经由系统的反馈传递函数H(s)传递至系统的输入R(s)。故可以推导出,系统的开环传递函数为:H(s)·G(s)。由此,可以根据开环传递函数的奈奎斯特图或者波特图进行系统稳定性的判断。在反馈系统中,当反馈信号和输入信号同相,且反馈环路为正反馈,即对应的开环增益大于1时,系统处于不稳定的状态。
在声学场景中,当形成声反馈闭合回路时容易出现啸叫现象。
发明内容
在诸如会议室、礼堂、KTV等声学场景中,麦克风进行拾音,扬声器进行播放,此时,扬声器播放的信号又被麦克风拾取,从而产生了回路。这些声学场景中,往往由系统本身产生自啸叫,自啸叫表现的声学特征多为单频或者多频的持续性啸叫。上述声学场景中的啸叫具有相对固定、较易识别的特征。
而在即时通信(Real Time Communication,RTC)的声学环路的场景中,由于不同设备内置(build-in)的音频处理性能不同,设备之间的网络传输环境不同,设备位置的变化,设备的频响差异等等因素会对声学环路中音频信号的传输产生不确定性的影响。上述因素的变化和影响也并非是线性的,从而无法对即时通信场景中声学环路定量进行测量传递函数和分析。同时,而这些非线性因素也引起了诸多区别于传统啸叫场景的特征,如啸叫的间断性、多频点、频点移动、频点扩散等。
目前的啸叫抑制技术中,一般采用:
方案一:采用移频移相法、陷波法、自适应滤波法进行啸叫抑制。移频移相法:移频移相法,通过移频移相的方法改变啸叫产生的条件,从而抑制啸叫的产生;陷波法:首先确定啸叫的频点,然后对应频点进行陷波器压制,从而达到啸叫抑制的目的;自适应滤波法:通过自适应滤波动态更新滤波器的系数,实现对啸叫信号的滤波。然而移频移相法、陷波法、自适应滤波法更适用于传统的会议、助听器系统等,啸叫产生的条件相对固定的声学场景中。该些方法对于存在诸多非线性、不确定性的即时通信的声学环路场景,啸叫抑制效果较差。
方案二:首先检测啸叫频点,然后剔除啸叫频点的信号,最后通过神经网络对啸叫频点附近信号进行修复。方案二本质上仍然是通过类似陷波法的方案进行啸叫抑制,其相较于陷波法还提供了信号修复网络。好其相对于传统的陷波法,对音质有所提升,但与陷波法类似,仍然无法在即时通信的声学环路场景中适用。
为此,非常需要一种改进的啸叫抑制方法及装置、存储介质和电子设备,以提供一种能够适应存在诸多非线性、不确定性的即时通信的声学环路中。
在本上下文中,本公开的实施方式期望提供一种啸叫抑制方法和装置、存储介质和电子设备。
根据本公开的一个方面,提供一种啸叫抑制方法,应用于第一设备,所述第一设备用于与第二设备进行即时通信,所述第一设备和所述第二设备归属于同一声学环路,所述第一设备包括第一通信模块、第一音频采集模块和第一音频播放模块,所述第二设备包括第二通信模块、第二音频采集模块和第二音频播放模块,所述方法包括:
提取待处理音频信号的音频特征,所述待处理音频信号为所述第一设备通过其第一音频采集模块所采集到的音频信号,所述待处理音频信号为声源所发出的声学信号与所述第二音频播放模块所播放的第二音频信号之叠加;
将所述音频特征输入至啸叫检测模型,所述啸叫检测模型输出所述待处理音频信号的啸叫特征参数;
将所述啸叫特征参数以及所述音频特征输入至啸叫抑制模型;
根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号。
根据本公开的一个方面,提供一种啸叫抑制装置,应用于第一设备,所述第一设备用于与第二设备进行即时通信,所述第一设备和所述第二设备归属于同一声学环路,所述第一设备包括第一通信模块、第一音频采集模块和第一音频播放模块,所述第二设备包括第二通信模块、第二音频采集模块和第二音频播放模块,所述装置包括:
音频特征提取模块,用于提取待处理音频信号的音频特征,所述待处理音频信号为所述第一设备通过其第一音频采集模块所采集到的音频信号,所述待处理音频信号为声源所发出的声学信号与所述第二音频播放模块所播放的第二音频信号之叠加;
啸叫检测模块,用于将所述音频特征输入至啸叫检测模型,所述啸叫检测模型输出所述待处理音频信号的啸叫特征参数;
啸叫抑制输入模块,用于将所述啸叫特征参数以及所述音频特征输入至啸叫抑制模型;
啸叫抑制输出模块,用于根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号。
根据本公开的一个方面,提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时上述的啸叫抑制方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的啸叫抑制方法。
根据本公开实施方式的啸叫抑制方法,将待处理音频信号的音频特征输入至啸叫检测模型进行检测,获得啸叫特征参数,并基于音频特征和啸叫特征参数进行啸叫抑制。由此,本公开适用于即时通信的声学环路中,以基于啸叫检测模型对即时通信的声学环路的不确定性的啸叫条件产生的复杂的、非固定性的啸叫特征参数进行检测,从而能够基于所检测的啸叫特征参数进行有效的啸叫抑制。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了现有技术中一种常见声学场景中的啸叫信号的图谱;
图2示意性地示出了现有技术中另一种常见声学场景中的啸叫信号的图谱;
图3示意性地示出了根据本公开实施方式的即时通信场景的声学环路中的啸叫信号的语谱图;
图4示意性地示出了根据本公开实施方式的啸叫抑制方法的流程图;
图5示意性地示出了根据本公开实施方式的即时通信场景的声学环路的示意图;
图6示意性地示出了根据本公开实施方式的啸叫检测模型和啸叫抑制模型的级联应用示意图;
图7示意性地示出了根据本公开实施方式的啸叫检测模型的示意图;
图8示意性地示出了根据本公开实施方式的啸叫抑制模型的示意图;
图9示意性地示出了根据本公开实施方式的训练啸叫检测模型的流程图;
图10示意性地示出了根据本公开实施方式的训练啸叫抑制模型的流程图;
图11示意性地示出了根据本公开实施方式的第一设备的第一音频处理模块的模块图;
图12示意性地示出了根据本公开实施方式的啸叫抑制装置的方框图;
图13示出了根据本公开实施方式的存储介质的示意图;以及
图14示意性示出了根据公开实施方式的电子设备的方框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提供一种啸叫抑制方法、啸叫抑制装置、存储介质和电子设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐述本公开的原理和精神。
发明概述
发明人发现,在诸如会议室、礼堂、KTV等声学场景中,麦克风进行拾音,扬声器进行播放,此时,扬声器播放的信号又被麦克风拾取,从而产生了回路。这些声学场景中,往往由系统本身产生自啸叫,自啸叫表现的声学特征多为单频或者多频的持续性啸叫。图1示出上述场景中的多频全啸叫信号的图谱,图1中F11为时域波形图,F12为语谱示意图,F11和F12的横坐标为时间,F11的纵坐标为幅值,F12的纵坐标为频率,且F12的图形亮度表示该频率的能量大小。图2示出上述场景中的具有背景音的单频啸叫信号的图谱,图2中的F21时域波形图,F22为语谱示意图,F21和F22的横坐标为时间,F21的纵坐标为幅值,F22的纵坐标为频率,且F22的图形亮度表示该频率的能量大小。根据图1和图2的示例,上述声学场景中的啸叫具有相对固定、较易识别的特征。
而在即时通信(Real Time Communication,RTC)的声学环路的场景中,由于不同设备内置(build-in)的音频处理性能不同,设备之间的网络传输环境不同,设备位置的变化,设备的频响差异等等因素会对声学环路中音频信号的传输产生不确定性的影响。上述因素的变化和影响也并非是线性的,从而无法对即时通信场景中声学环路定量进行测量传递函数和分析。同时,而这些非线性因素也引起了诸多区别于传统啸叫场景的特征,如啸叫的间断性、多频点、频点移动、频点扩散等。
例如,在设备内置的音频处理会包括降噪处理中,而降噪处理中的噪声追踪可能会将啸叫跟踪为噪声而进行一定程度的消除的,但是由于声学环路依然存在,啸叫仍然会由于外界的激励而再次产生;另一方面,降噪如果无法完全消除啸叫,只是一部分消除,那么音频信号就会产生间断性,忽大忽小的啸叫。同时其他的非线性处理等都会影响系统的相位幅度特性,使得啸叫的频点会产生变化、扩散等现象。此外,由于不同设备的采集、播放的频响差异,本身声学环路的传递函数就不一致,故不同设备产生的啸叫频点、特征也不一样。
由此可见,即时通信的声学环路中所产生的啸叫信号更为复杂,且更具有不确定性。
图3示出上述场景中的具有复杂特征的啸叫信号的图谱,图3中的F31时域波形图,F32为语谱示意图,F31和F32的横坐标为时间,F31的纵坐标为幅值,F32的纵坐标为频率,且F32的图形亮度表示该频率的能量大小。根据图3,上述场景中的啸叫信号相较于图1和图2具有更加复杂的啸叫特征。具体而言,图1中F12示出啸叫为多频,且根据F11其啸叫的能量(幅值)盖过了背景声音,从而F11中能量显示较为单一。图2中F21显示了随时间变化的能量(幅值),从而F21中的啸叫并未盖过其背景声音,同时,F22中频率随时间保持不变的长直线示出为单频啸叫。由此,图1中示出的为多频全啸叫信号,而图2中示出的为单频啸叫。继续参见图3,F31中示出幅值较大的3处表示啸叫覆盖了原本的背景声音,同时,F32中无法如F12和F22中能够明显示出多频啸叫或者单频啸叫,从而图3的场景中,啸叫信号相较于图1和图2具有更加复杂的啸叫特征。
目前的啸叫抑制技术中,一般采用:
方案一:采用移频移相法、陷波法、自适应滤波法进行啸叫抑制。
移频移相法:移频移相法,通过移频移相的方法改变啸叫产生的条件,从而抑制啸叫的产生。移频移相法一方面由于相位、频率的变化同时改变了信号的特征,典型的,说话人的音色会发生改变,导致失真;另外一方面,在即时通信场景,面临着多种非线性,无法通过移频移相覆盖场景,如频率、相位改变多少合适。一般移频移相比较适用于相对固定的场景,通过系统传递函数的分析进行针对性优化,而对于存在诸多非线性、不确定性的即时通信场景,及其啸叫抑制效果往往会失效。
陷波法:首先确定啸叫的频点,然后对应频点进行陷波器压制,从而达到啸叫抑制的目的。陷波法有一个非常重要的前提是需要准确检测出啸叫的频率,而在即时通信场景中啸叫存在间断性、多频点、频点移动、频点扩散等特征,啸叫频点的预测及其困难,使得该方法很难现实落地。陷波法一般适用于啸叫频点固定,连续性啸叫的场景。
自适应滤波法:通过自适应滤波动态更新滤波器的系数,实现对啸叫信号的滤波。自适应滤波法去除了陷波法对于啸叫频点检测的需求,实时进行声反馈信号的估计,但自适应滤波的方法仅适用于线性成分的滤波,在即时通信这种存在诸多非线性因素的场景下很难发挥出好的效果。
由此,移频移相法、陷波法、自适应滤波法更适用于传统的会议、助听器系统等,啸叫产生的条件相对固定的声学场景中。该些方法对于存在诸多非线性、不确定性的即时通信的声学环路场景,啸叫抑制效果较差。
方案二:首先检测啸叫频点,然后剔除啸叫频点的信号,最后通过神经网络对啸叫频点附近信号进行修复。
根据分析,方案二本质上仍然是通过类似陷波法的方案进行啸叫抑制,其相较于陷波法还提供了信号修复网络。好其相对于传统的陷波法,对音质有所提升,但与陷波法类似,仍然无法在即时通信的声学环路场景中适用。
鉴于上述内容,本公开的技术方案在于:在本公开实施方式的啸叫抑制方法中,在即时通信的声学环路中,将待处理音频信号的音频特征输入至啸叫检测模型进行检测,获得啸叫特征参数,并基于音频特征和啸叫特征参数进行啸叫抑制。由于即时通信场景下的声学环路中,产生啸叫信号的成因具有不确定性,相较于会议室、礼堂、KTV等常见的声学场景而言,即时通信场景下更容易出现复杂的、非固定性的啸叫信号,该类啸叫信号难以被检测和抑制。基于此,本公开实施方式中首先通过啸叫检测模型对啸叫信号进行准确检测,相应的啸叫检测模型是经由即时通信场景下更加丰富的啸叫特征参数训练获得的;在此基础上,还通过啸叫抑制模型来学习这些啸叫特征参数对啸叫抑制所产生的影响,从而通过啸叫抑制模型来对待处理的音频信号进行啸叫抑制。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
示例性方法
下面结合图4来描述根据本公开示例性实施方式的啸叫抑制方法。本公开的啸叫抑制方法应用于第一设备,所述第一设备用于与第二设备进行即时通信,所述第一设备和所述第二设备归属于同一声学环路,所述第一设备包括第一通信模块、第一音频采集模块和第一音频播放模块,所述第二设备包括第二通信模块、第二音频采集模块和第二音频播放模块。
参考图4所示,所述啸叫抑制方法可以包括以下步骤:
步骤S110:提取待处理音频信号的音频特征,所述待处理音频信号为所述第一设备通过其第一音频采集模块所采集到的音频信号,所述待处理音频信号为声源所发出的声学信号与所述第二音频播放模块所播放的第二音频信号之叠加;
步骤S120:将所述音频特征输入至啸叫检测模型,所述啸叫检测模型输出所述待处理音频信号的啸叫特征参数;
步骤S130:将所述啸叫特征参数以及所述音频特征输入至啸叫抑制模型;
步骤S140:根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号。
在本公开实施方式的啸叫抑制方法中,在即时通信的声学环路中,将待处理音频信号的音频特征输入至啸叫检测模型进行检测,获得啸叫特征参数,并基于音频特征和啸叫特征参数进行啸叫抑制。由于即时通信场景下的声学环路中,产生啸叫信号的成因具有不确定性,相较于会议室、礼堂、KTV等常见的声学场景而言,即时通信场景下更容易出现复杂的、非固定性的啸叫信号,该类啸叫信号难以被检测和抑制。基于此,本公开实施方式中首先通过啸叫检测模型对啸叫信号进行准确检测,相应的啸叫检测模型是经由即时通信场景下更加丰富的啸叫特征参数训练获得的;在此基础上,还通过啸叫抑制模型来学习这些啸叫特征参数对啸叫抑制所产生的影响,从而通过啸叫抑制模型来对待处理的音频信号进行啸叫抑制。
下面参考图5,图5示意性地示出了根据本公开实施方式的即时通信场景的声学环路的示意图。如图5所示,第一设备10、第二设备20和用户30位于同一物理空间A。物理空间A例如可以是会议室、办公室等。第一设备10包括第一音频采集模块11、第一通信模块12以及第一音频播放模块13,第二设备20包括第二音频采集模块21、第二通信模块22以及第二音频播放模块23。第一设备10和第二设备20进行即时通信。
图5中共示出两个声学环路C1(实线箭头)和C2(虚线箭头),在声学环路C1为基于所述第一音频采集模块11、第一通信模块12、第二通信模块22以及第二音频播放模块23所产生的音频信号传输路径;声学环路C2为基于所述第二音频采集模块21、第二通信模块22、第一通信模块12以及第一音频播放模块13所产生的音频信号传输路径。
以声学环路C1为例,当声源30发出声学信号时,声学信号被第一音频采集模块11采集,经由第一通信模块12,发送至第二通信模块22,第二通信模块22将接收的音频信号发送至第二音频播放模块23进行播放,第二音频播放模块23播放的第二音频信号被第一音频采集模块11采集并与声源30发出的声学信号叠加进入上述声学环路C1完成闭环传输。进一步地,所述第二音频播放模块23位于所述第一音频采集模块11的拾音距离内,且所述第二音频播放模块23的播放音量足以使所述第二音频信号被所述第一音频采集模块11所拾取,由此,音频信号会在该声学环路C1内完成传输。类似地,声学环路C2也按类似的方式完成音频信号的闭环传输。由此,由于第二设备20也可以作为其声学环路C2中的第一设备,从而本公开的啸叫抑制方法也可以应用于第二设备20中。
下面参考图6,图6示意性地示出了根据本公开实施方式的啸叫抑制方法的模型结构图。
如图6所示,在本申请的啸叫抑制方法中,首先对待处理音频信号进行音频特征的提取。提取音频特征后,将音频特征输入至啸叫检测模型M1。将啸叫检测模型M1输出的啸叫特征参数以及前述的音频特征输入至啸叫抑制模型M2中进行啸叫抑制。由于音频特征是从音频信号中提取的特征数据,而特征数据无法进行播放。因此,需要对啸叫抑制模型M2输出的特征进行还原以获得能够播放的经过啸叫抑制的啸叫抑制音频信号。
在本公开示例性实施例中,可以采用短时傅里叶变换(STFT)对待处理音频信号进行特征提取。考虑到即时通信的场景,在短时傅里叶变换中,可以采用不同的采样率,如48kHz/16kHz(音乐模式和语音模式)。进一步地,傅里叶变换的点数(傅里叶变换点数越多频率分辨率越高)可以根据需求(例如音乐场景,48kHz采样率,会需要更多的傅里叶变换的点数;相应的语音场景,16kHz采样率,点数可以减少。也可根据开销和精度的权衡,进一步作出调整)进行选取。在一些实施例中,可以选取512点。待处理音频信号的帧长以及帧移也可结合音频采集模块、音频播放模块、或者其它需要处理待处理音频信号的处理模块进行选取,例如,可以选取帧长20毫秒,帧移10毫秒。所提取的音频特征可以为所述待处理音频信号的频谱特征、bark谱特征、梅尔谱特征、梅尔倒谱特征以及基频特征中的一种或多种。
在本公开示例性实施例中,啸叫抑制模型M2可以直接输出经抑制音频特征。啸叫抑制模型M2输出经抑制音频特征后,可以执行相对于特征提取的逆向操作,对所述经抑制音频特征进行还原,以得到所述啸叫抑制音频信号。由此,可以通过特征还原获得用以进行传输或播放的音频信号。
在本公开示例性实施例中,啸叫抑制模型M2也可以输出啸叫抑制掩膜,所述啸叫抑制掩膜用以表征参考样本信号的音频特征相较于待处理音频信号的音频特征的啸叫抑制频点增益。换言之,啸叫抑制掩膜提供了音频特征各频点处的增益值,音频特征各频点的幅值与增益值相乘,对音频特征进行啸叫抑制。由此,在啸叫抑制模型M2训练时,可以将啸叫样本信号的音频特征作为啸叫抑制模型M2输入,基于参考样本信息的音频特征相较于啸叫样本信号的音频特征的啸叫抑制频点增益,基于啸叫抑制频点增益获得啸叫抑制掩膜,将啸叫抑制掩膜作为啸叫抑制模型M2的输出,从而训练啸叫抑制模型M2来输出能够进行啸叫抑制的啸叫抑制掩膜。由于啸叫抑制掩膜用以表征参考样本信号的音频特征相较于待处理音频信号的音频特征的啸叫抑制频点增益,因此,啸叫抑制掩膜中所包含的信息量小于音频特征,基于啸叫抑制掩膜进行啸叫抑制模型M2的训练,能够提高啸叫抑制模型M2的训练效率。同时,啸叫抑制模型M2对输入的音频特征经过多重计算获得啸叫抑制掩膜的计算量更小,计算效率更高。啸叫抑制模型M2输出啸叫抑制掩膜后,使得所述啸叫抑制掩膜与所述待处理音频信号的音频特征相乘(啸叫抑制掩膜的啸叫抑制频点增益用以调整待处理音频信号的音频特征的各频点的能量,以去除/抑制啸叫),以获得经抑制音频特征;对所述经抑制音频特征执行相对于特征提取的逆向操作,对所述经抑制音频特征进行还原,以得到所述啸叫抑制音频信号。由此,可以通过特征还原获得用以进行传输或播放的音频信号。
下面参见图7,图7示意性地示出了根据本公开实施方式的啸叫检测模型的示意图。
所述啸叫检测模型依次包括输入处理层201、第一中间处理层204以及分类输出层206。所述音频特征赋值于所述输入处理层201,以经由所述输入处理层201输入所述第一中间处理层204。所述第一中间处理层204用以获取所述音频特征的局部特征,并将所述局部特征作为啸叫中间特征。所述分类输出层206用以对所述啸叫中间特征进行分类获得啸叫结果特征,所述啸叫中间特征与所述啸叫结果特征用以作为所述啸叫特征参数输入至所述啸叫抑制模型。
在本公开示例性实施例中,所述啸叫检测模型还依次包括连接于所述输入处理层201和所述中间处理层204之间的主干层202以及循环层203。所述主干层202用以对输入至所述主干层202的数据进行卷积和/或池化处理,以进一步对输入主干层3的数据进行压缩。所述循环层203用以建立所述循环层203的输入数据和所述循环层的输出数据之间的关联关系。由于音频特征是随时间变化的序列特征,从而某一时刻的音频特征的啸叫抑制与相邻时刻的音频特征存在关联,由此,通过循环层203能够实现序列化特征的关联关系的学习,从而提高啸叫抑制的准确性。所述啸叫检测模型还包括连接于所述第一中间处理层204和所述分类输出层206之间的注意力层205,所述注意力层205用以对输入至所述注意力层205的数据进行加权求和。注意力层205中的权重也是啸叫检测模型的训练过程中所要学习的部分,通过啸叫检测模型的训练,学习第一中间处理层204输出的数据对分类输出层206的影响力,从而提高分类输出层206输出的啸叫结果特征的准确性。啸叫检测模型也可以具有其它的结构,本公开并非以此为限制。
在本公开示例性实施例中,正是由于适用于即时通信的声学环路中,音频信号的传播路径的传播条件较为复杂,具有较高的不确定性,为了便于啸叫抑制模型能够获得啸叫信号的更丰富的信息,可以使得啸叫检测模型输出的啸叫特征参数包括啸叫中间特征和啸叫结果特征。其中,啸叫中间特征用于以表示啸叫信号的频谱特征。啸叫结果特征包括啸叫检测结果、啸叫等级、啸叫类型、啸叫连续性、频点移动参数中的一项或多项。由此,一方面通过啸叫中间特征和啸叫结果特征结合,以多维表征啸叫特征,供啸叫抑制模型进行抑制;另一方面,由于不同于常见声学场景,即时通信的声学环路的啸叫信号具有间断性、多频点、频点移动、频点扩散等特点,因此,通过啸叫检测模型对区别于常见声学场景的啸叫信号的特点进行检测,使得啸叫结果特征包括啸叫检测结果、啸叫等级、啸叫类型、啸叫连续性、频点移动参数中的一项或多项,供啸叫抑制模型在训练过程中,能够针对啸叫结果特征调整啸叫抑制模型的模型参数,从而将具有上述啸叫结果特征的啸叫信号从待处理音频信号中去除。
进一步地,所述啸叫检测结果用以指示输入至所述啸叫检测模型的音频特征是否存在啸叫,所述啸叫等级用于指示输入至所述啸叫检测模型的音频特征的啸叫强度,所述啸叫类型包括单频点啸叫、多频点啸叫和扩散性啸叫,所述啸叫连续性包括连续啸叫和间断性啸叫,所述频点移动参数包括频点移动类型参数以及频点移动幅度参数,所述频点移动类型参数用以指示输入至所述啸叫检测模型的音频特征是否存在频点移动,所述频点移动幅度参数用以指示输入至所述啸叫检测模型的音频特征的频点移动的幅度。上述各啸叫结果特征可以为数字标记或者独热向量。由此,从多种不同的特征描述方式对啸叫特征进行描述和向量化表达。
下面参见图8,图8示意性地示出了根据本公开实施方式的啸叫抑制模型的示意图。
所述啸叫抑制模型依次包括编码器214、第二中间处理层215以及解码器216。所述编码器214用以对所述音频特征以及所述啸叫结果特征执行特征编码获得编码特征,所述第二中间处理层215用以对所述编码特征以及所述啸叫中间特征执行特征筛选,所述解码器216用以对经筛选的编码特征执行特征解码。由于啸叫中间特征在啸叫检测模型中已经由中间层处理,因此,无需在啸叫抑制模型中再次进行编码,从而可以将啸叫中间特征输入到啸叫抑制模型的第二中间处理层215中,以利于啸叫抑制模型更好的学习到啸叫特征,在获得更好的抑制效果的同时,避免了对啸叫中间特征的重复处理。
在本公开示例性实施例中,所述第二中间处理层216可以依次包括相连的多个长短时记忆单元以及全连接层,所述长短时记忆单元用以对编码特征执行特征筛选,所述全连接层用以对多个长短时记忆单元的输出进行加权求和。由此,通过多个长短时记忆单元以及全连接层以对啸叫特征和音频特征之间的关系进行有效的学习。
在本公开示例性实施例中,音频特征可以经由卷积层211进行卷积处理输入至编码器214中,由此,保证输入的音频特征的特征尺寸能够适应编码器214。啸叫结果特征可以经由嵌入层212进行高为特征的学习,以输入至编码器214中,由此,保证输入的啸叫结果特征的特征尺寸能够适应编码器214。啸叫中间特征可以经由卷积层213进行卷积,以输入至第二中间处理层216,由此,保证输入的啸叫中间特征的特征尺寸能够适应第二中间处理层216,卷积层217例如可以是逆卷积层,用于将解码器215输出的特征还原至与输入啸叫抑制模型的音频特征一致。
以上仅仅是示意性地示出啸叫抑制模型的一种网络结构,本公开并非以此为限制。
下面参见图9,图9示意性地示出了根据本公开实施方式的训练啸叫检测模型的流程图。图9共示出如下步骤:
步骤S101:获取第一样本信号集合。
在本公开示例性实施例中,所述第一样本信号集合包括多个第一样本信号以及所述第一样本信号的啸叫特性参数。所述啸叫特性参数与所述啸叫结果特征包括相同的参数项。例如,啸叫结果特征包括啸叫检测结果、啸叫等级、啸叫类型、啸叫连续性以及频点移动参数,则啸叫特性参数也包括啸叫检测结果、啸叫等级、啸叫类型、啸叫连续性以及频点移动参数。各参数项的参数值依据具体的音频信号而变化。
所述第一样本信号包括参考样本信号以及啸叫样本信号。所述参考样本信号为播放设备在所述声学环路中所播放的音频信号。具体而言,播放设备是在模型训练过程中,在如图5中声源30的位置处设置播放设备进行参考样本信号播放的播放设备。所述啸叫样本信号为所述第一音频采集模块采集到的、所述播放设备所播放的音频信号与所述第二音频播放模块所播放的第二音频信号之叠加。
步骤S102:提取所述第一样本信号的第一样本音频特征。
具体而言,第一样本信号的提取算法可以与前述的待处理音频信号的音频特征的提取算法相同。
步骤S103:将所述第一样本音频特征作为所述啸叫检测模型的输入,根据所述啸叫检测模型的输出与对应所述啸叫特性参数的差异,对所述啸叫检测模型的模型参数进行调整。
具体而言,通过对所述啸叫检测模型的模型参数进行调整,以使得啸叫检测模型能够输出与对应所述啸叫特性参数一致的啸叫结果特征,从而提高啸叫检测模型的检测性能。
下面参见图10,图10示意性地示出了根据本公开实施方式的训练啸叫抑制模型的流程图。图10共示出如下步骤:
步骤S104:获取第二样本信号集合。
在本公开示例性实施例中,所述第二样本信号集合包括多个第二样本信号对,每一所述第二样本信号对包括啸叫样本信号以及参考样本信号。所述参考样本信号为播放设备在所述声学环路中所播放的音频信号。具体而言,播放设备是在模型训练过程中,在如图5中声源30的位置处设置播放设备进行参考样本信号播放的播放设备。所述啸叫样本信号为所述第一音频采集模块采集到的、所述播放设备所播放的音频信号与所述第二音频播放模块所播放的第二音频信号之叠加。
步骤S105:提取所述第二样本信号集中的啸叫样本信号的第二样本音频特征。
具体而言,啸叫样本信号的提取算法可以与前述的待处理音频信号的音频特征的提取算法相同。
步骤S106:将所述第二样本音频特征输入至所述啸叫检测模型中,获得所述啸叫特征参数。
步骤S107:将所述第二样本音频特征和所述啸叫特征参数输入至所述啸叫抑制模型,根据所述啸叫检测模型的输出与对应的参考样本信号的差异,对所述啸叫抑制模型的模型参数进行调整。
具体而言,通过对所述啸叫抑制模型的模型参数进行调整,以使得啸叫抑制模型能够输出与更接近参考样本信号的经抑制的音频信号,从而提高啸叫抑制模型的检测性能。
在本公开示例性实施例中,所述啸叫检测模型先于所述啸叫抑制模型进行训练。由此,啸叫抑制模型的训练中,能够获得啸叫检测模型输出的准确的啸叫特征参数,以便于提高啸叫抑制模型的训练效率以及啸叫抑制模型的性能。
在本公开示例性实施例中,由于啸叫检测模型和啸叫抑制模型的训练需要没有啸叫信号的参考样本信号,因此,上述第一样本信号集合以及第二样本信号集合需要包含具有啸叫信号的啸叫样本信号以及不具有啸叫信号的参考样本信号。进一步地,第二样本信号集合用于训练啸叫抑制模型,从而其啸叫样本信号和参考样本信号需要是成对的,即使用相同的信号源,在如图5所示的即时通信的声学环路中分别录制啸叫与不啸叫的信号,并进行时间的对齐,以作为成对的啸叫样本信号和参考样本信号。第一样本信号集合中的啸叫样本信号和第二样本信号集合中啸叫样本信号可以是相同的信号,也可以是不同的信号;第一样本信号集合中的和参考样本信号和第二样本信号集合中的参考样本信号可以是相同的信号,也可以是不同的信号。
由于即时通信场景的特殊性,常规的数据集以及信号构造方法很难模拟出真实的啸叫情况,并且目前暂无此类的开源数据集,故上述第一样本信号集合以及第二样本信号集合皆需要进行实际的采集。在一些具体实现中,使得第一样本信号集合中的啸叫样本信号和第二样本信号集合中的啸叫样本信号相同,并且使得第一样本信号集合中的参考样本信号和第二样本信号集合中的参考样本信号相同,以减少样本信号集合的数据采集步骤,提高数据采集效率。
进一步地,考虑到即时通信场景的复杂性,第一样本信号以及第二样本信号集合的采集的方案可以涉及到不同的音频内容、不同的设备、不同的环境以及不同的通信参数等等,由此,提高啸叫抑制算法的鲁棒性。
在本公开示例性实施例中,所述参考样本信号可以基于不同的音频内容生成。所述音频内容包括语音、音乐、环境声、铃声、鸟叫声、口哨声中的一种或多种,以使得参考样本信号覆盖不同的音频内容。
在本公开示例性实施例中,所述第一设备和所述第二设备包括音频处理模块,所述音频处理模块具有音频处理算法,对于不同的啸叫样本信号,所述第一设备以及所述第二设备具有不同的性能和不同的音频处理算法,由此,以使得啸叫样本信号的采集中覆盖不同性能的设备以及具有不同音频处理算法的设备。
在本公开示例性实施例中,对于不同的啸叫样本信号,所述声学环路所在空间区域具有不同的噪声环境,在相同采集条件下,在具有第一噪声环境的空间区域采集的第一音频信号和在具有第二噪声环境的空间区域采集的第二音频信号具有不同的信噪比,所述相同采集条件包括相同的设备、相同的空间区域以及相同的声源。由此,以使得啸叫样本信号的采集中覆盖具有不同信噪比的环境。例如,对于同一会议室,可以使得其具有不同的背景噪声,从而在具有不同的背景噪声的同一会议室采集不同的啸叫样本信号。
在本公开示例性实施例中,对于不同的啸叫样本信号,所述第一设备和所述第二设备之间的音频传输参数不同,所述音频传输参数包括以下中的一项或多项:所述第一设备和所述第二设备之间的相对位置、所述第一设备和所述第二设备之间的网络通信参数、所述第一设备和所述第二设备的实时音量。由此,以使得啸叫样本信号的采集中覆盖具有不同音频传输参数的声学环路。
由此,通过上述参考样本信号和啸叫样本信号的采集以便于覆盖多种不同的即时通信情况,从而提高获得的啸叫检测模型和啸叫抑制模型的鲁棒性。
在本公开示例性实施例中,所述啸叫抑制模型的损失函数为误差损失函数、音频质量损失函数以及对抗损失函数中的任一项。所述啸叫抑制模型的损失函数也可以为误差损失函数、音频质量损失函数以及对抗损失函数中任意多项的加权和。各损失函数尽在模型训练时使用,在利用模型进行啸叫抑制时,无需对损失函数进行计算。
在本公开示例性实施例中,啸叫抑制模型的损失函数包括误差损失函数,所述误差损失函数基于所述啸叫抑制音频信号与参考样本信号之间的误差计算获得。具体而言,误差损失函数可以基于所述啸叫抑制音频信号与参考样本信号之间的MSE(mean-squareerror,均方误差)计算。
在本公开示例性实施例中,所述啸叫抑制模型的损失函数包括音频质量损失函数,所述音频质量损失函数基于所述啸叫抑制音频信号的音频质量与所述参考样本信号的音频质量计算获得。具体而言,可以分别获得啸叫抑制音频信号的平均主观意见分(meanopinion score,MOS)以及参考样本信号的平均主观意见分,并通过所获得的平均主观意见分进行音频质量损失函数的计算。平均主观意见分例如可以通过经训练的音频质量打分网络模型来获得,本公开并非以此为限制。
在本公开示例性实施例中,所述啸叫抑制模型的损失函数包括对抗损失函数,所述对抗损失函数基于判别器作出正确判别的概率计算获得,所述判别器用于将所述啸叫抑制模型的输出结果判别为第一信号或第二信号,所述第一信号表征相应的输出结果为所述啸叫抑制信号,所述第二信号表征相应的输出结果为参考样本信号,所述判别器将所述啸叫抑制模型的输出结果判别为第一信号时,所述判别器作出正确判别。具体而言,对抗损失函数的目的在于,希望判别器能够将啸叫抑制模型的输出结果判别为第二信号,也就是本身不具有啸叫的音频信号。由此,通过啸叫抑制模型和判别器的对抗,使得啸叫抑制模型的输出结果具有更好地抑制效果。
在本公开示例性实施例中,所述啸叫抑制模型可以复用于进行噪声抑制。由此,根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号的步骤还可以包括:对所述啸叫抑制音频信号进行噪声消除,所述噪声为所述音频信号中的环境噪声,所述环境噪声具有固定频率。环境噪声例如是风扇、空调声等具有固定频率的噪声。在一个示意性实施例中,所述啸叫抑制模型可以为深度复卷积循环网络(Deep Complex Convolution RecurrentNetwork,DCCRN)。由于啸叫抑制模型和噪声抑制模型都是为了消除特定的信号,因此,啸叫抑制模型和噪声抑制模型的设计因素大致相似,由此,本公开可以将啸叫抑制模型复用于进行噪声抑制,从而利用一个模型同时进行啸叫抑制和噪声抑制两个任务。为了实现啸叫抑制模型的复用,本公开通过对啸叫抑制模型的样本信号集合进行处理。在本公开实例性实施例中,所述第二样本信号对中的啸叫样本信号可以根据如下步骤获取:将所述第一音频采集模块采集的所述声源所播放的参考样本信号与所述第二音频播放模块所播放的第二音频信号之叠加,作为准啸叫样本信号,所述参考样本信号不具有噪声;将所述准啸叫样本信号与噪声音频信号叠加,生成所述啸叫样本信号。由此,使得训练啸叫抑制模型的第二样本信号对中的啸叫样本信号中具有啸叫和噪声,而参考样本信号中不具有啸叫也不具有噪声,以此,按上述啸叫抑制模型的训练方法,即可使得啸叫抑制模型能够通知进行啸叫抑制和噪声抑制。
下面参见图11,图11示意性地示出了根据本公开实施方式的第一设备的第一音频处理模块的模块图。第一设备可以包括第一音频处理模块15。第一音频处理模块15具有音频处理算法。音频处理算法可以包括声学回声消除算法、噪声抑制算法以及自动增益控制算法中的一项或多项。在图11中,第一音频处理模块15包括回声消除模块151、啸叫抑制模块152、噪声消除模块153以及自动增益模块154。
回声消除模块151用以执行声学回声消除算法,所述声学回声消除算法用于消除所述第一音频采集模块11采集的音频信号中的声学回声,所述声学回声包括所述第一音频播放模块(如图5标号13)播放的音频信号被所述第一音频采集模块11所采集而形成的回声信号。
啸叫抑制模块152用以执行图4中示出的啸叫抑制方法。
噪声消除模块153用以执行噪声抑制算法,所述噪声抑制算法用于抑制所述第一音频采集模块采集的音频信号中噪声,所述噪声为所述第一音频采集模块采集的音频信号的环境噪声,所述环境噪声具有固定频率。当所述啸叫抑制方法中的啸叫抑制模型可以复用于进行噪声抑制时,也可以省略噪声抑制模块153。
自动增益模块154用以执行自动增益控制算法,所述自动增益控制算法用于将所述第一音频采集模块采集11的音频信号的音量调整至设定音量范围之内。
在本公开示例性实施例中,第一设备还可以包括内置音频处理模块14。内置音频处理模块14内置于第一设备中。内置音频处理模块14可以为非线性处理模块,并且由于与设备本身相关,由各厂商定制化,对于即时通信时的音频信号处理并不可控。内置音频处理模块14可以具有开启或关闭开关。内置音频处理模块14也可以执行声学回声消除算法、噪声抑制算法以及自动增益控制算法中的一项或多项。
在本公开示例性实施例中,第一设备的第一音频采集模块11采集采集的音频信号,经由内置音频处理模块14(若开启)处理后,进入第一音频处理模块15的声学回声消除模块151,以对所述待处理音频信号进行声学回声消除。进行声学回声消除后的待处理音频信号进入啸叫抑制模块152进行啸叫抑制。经由啸叫抑制的待处理音频信号进入噪声消除模块153,以采用所述噪声抑制算法对啸叫抑制音频信号进行噪声抑制。经由噪声抑制的待处理音频信号进入自动增益模块154,以采用所述自动增益控制算法对经噪声抑制的音频信号进行自动增益控制。经自动增益控制后的音频信号可以输出至第一通信模块或者直接由第一音频播放模块进行播放。
由此,在第一音频处理模块中,啸叫抑制模块152在声学回声消除模块151进行回声消除之后进行啸叫抑制,以防止回声信号带来的干扰,同时啸叫抑制模块152在噪声消除模块153进行噪声抑制之前进行啸叫抑制,以防止噪声消除模块153对啸叫信号带来进一步的损伤,以免降低啸叫检测的准确率以及啸叫抑制的效果。
以上仅仅是示意性地描述本公开提供的多种实施例,本公开并非以此为限制,各实施例可以单独或者组合来使用。
示例性装置
在介绍了本公开示例性实施方式的啸叫抑制方法之后,接下来,参考图12对本公开示例性实施方式的啸叫抑制装置进行描述。啸叫抑制装置应用于第一设备,所述第一设备用于与第二设备进行即时通信,所述第一设备和所述第二设备归属于同一声学环路,所述第一设备包括第一通信模块、第一音频采集模块和第一音频播放模块,所述第二设备包括第二通信模块、第二音频采集模块和第二音频播放模块。
参考图12所示,本公开示例性实施方式的啸叫抑制装置300可以包括:音频特征提取模块310,啸叫检测模块320,啸叫抑制输入模块330以及啸叫抑制输出模块340。其中,
音频特征提取模块310可以用于提取待处理音频信号的音频特征,所述待处理音频信号为所述第一设备通过其第一音频采集模块所采集到的音频信号,所述待处理音频信号为声源所发出的声学信号与所述第二音频播放模块所播放的第二音频信号之叠加;
啸叫检测模块320可以用于将所述音频特征输入至啸叫检测模型,所述啸叫检测模型输出所述待处理音频信号的啸叫特征参数;
啸叫抑制输入模块330可以用于将所述啸叫特征参数以及所述音频特征输入至啸叫抑制模型;
啸叫抑制输出模块340可以用于根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号。
根据本公开的示例性实施例,所述声学环路为基于所述第一音频采集模块、第一通信模块、第二通信模块以及第二音频播放模块所产生的音频信号传输路径,所述待处理音频信号依次经由所述第一音频采集模块、第一通信模块、第二通信模块、第二音频播放模块以及第一音频采集模块在所述声学环路中完成闭环传输。
根据本公开的示例性实施例,所述第二音频播放模块位于所述第一音频采集模块的拾音距离内,且所述第二音频播放模块的播放音量足以使所述第二音频信号被所述第一音频采集模块所拾取。
根据本公开的示例性实施例,所述音频特征为所述待处理音频信号的频谱特征、bark谱特征、梅尔谱特征、梅尔倒谱特征以及基频特征中的一种。
根据本公开的示例性实施例,所述啸叫检测模型依次包括输入处理层、第一中间处理层以及分类输出层,所述音频特征赋值于所述输入处理层,以经由所述输入处理层输入所述第一中间处理层,所述第一中间处理层用以获取所述音频特征的局部特征,并将所述局部特征作为啸叫中间特征,所述分类输出层用以对所述啸叫中间特征进行分类获得啸叫结果特征,所述啸叫中间特征与所述啸叫结果特征用以作为所述啸叫特征参数输入至所述啸叫抑制模型。
根据本公开的示例性实施例,所述啸叫检测模型还依次包括连接于所述输入处理层和所述中间处理层之间的主干层以及循环层,所述主干层用以对输入至所述主干层的数据进行卷积和/或池化处理,所述循环层用以建立所述循环层的输入数据和所述循环层的输出数据之间的关联关系,所述啸叫检测模型还包括连接于所述第一中间处理层和所述分类输出层之间的注意力层,所述注意力层用以对输入至所述注意力层的数据进行加权求和。
根据本公开的示例性实施例,所述啸叫抑制模型依次包括编码器、第二中间处理层以及解码器,所述编码器用以对所述音频特征以及所述啸叫结果特征执行特征编码获得编码特征,所述第二中间处理层用以对所述编码特征以及所述啸叫中间特征执行特征筛选,所述解码器用以对经筛选的编码特征执行特征解码。
根据本公开的示例性实施例,所述第二中间处理层依次包括相连的多个长短时记忆单元以及全连接层,所述长短时记忆单元用以对编码特征执行特征筛选,所述全连接层用以对多个长短时记忆单元的输出进行加权求和。
根据本公开的示例性实施例,所述啸叫检测模型通过如下步骤训练:
获取第一样本信号集合,所述第一样本信号集合包括多个第一样本信号以及所述第一样本信号的啸叫特性参数,所述啸叫特性参数与所述啸叫结果特征包括相同的参数项,所述第一样本信号包括参考样本信号以及啸叫样本信号,所述参考样本信号为播放设备在所述声学环路中所播放的音频信号,所述啸叫样本信号为所述第一音频采集模块采集到的、所述播放设备所播放的音频信号与所述第二音频播放模块所播放的第二音频信号之叠加;提取所述第一样本信号的第一样本音频特征;将所述第一样本音频特征作为所述啸叫检测模型的输入,根据所述啸叫检测模型的输出与对应所述啸叫特性参数的差异,对所述啸叫检测模型的模型参数进行调整。
根据本公开的示例性实施例,所述啸叫抑制模型通过如下步骤训练:获取第二样本信号集合,所述第二样本信号集合包括多个第二样本信号对,每一所述第二样本信号对包括啸叫样本信号以及参考样本信号,所述参考样本信号为播放设备在所述声学环路中所播放的音频信号,所述啸叫样本信号为所述第一音频采集模块采集到的、所述播放设备所播放的音频信号与所述第二音频播放模块所播放的第二音频信号之叠加;提取所述第二样本信号集中的啸叫样本信号的第二样本音频特征;将所述第二样本音频特征输入至所述啸叫检测模型中,获得所述啸叫特征参数;将所述第二样本音频特征和所述啸叫特征参数输入至所述啸叫抑制模型,根据所述啸叫检测模型的输出与对应的参考样本信号的差异,对所述啸叫抑制模型的模型参数进行调整。
根据本公开的示例性实施例,所述啸叫抑制模型的损失函数包括误差损失函数,所述误差损失函数基于所述啸叫抑制音频信号与参考样本信号之间的误差计算获得。
根据本公开的示例性实施例,所述啸叫抑制模型的损失函数包括音频质量损失函数,所述音频质量损失函数基于所述啸叫抑制音频信号的音频质量与所述参考样本信号的音频质量计算获得。
根据本公开的示例性实施例,所述啸叫抑制模型的损失函数包括对抗损失函数,所述对抗损失函数基于判别器作出正确判别的概率计算获得,所述判别器用于将所述啸叫抑制模型的输出结果判别为第一信号或第二信号,所述第一信号表征相应的输出结果为所述啸叫抑制信号,所述第二信号表征相应的输出结果为参考样本信号,所述判别器将所述啸叫抑制模型的输出结果判别为第一信号时,所述判别器作出正确判别。
根据本公开的示例性实施例,所述啸叫抑制模型的损失函数为误差损失函数、音频质量损失函数以及对抗损失函数的加权和。
根据本公开的示例性实施例,所述啸叫检测模型先于所述啸叫抑制模型进行训练。
根据本公开的示例性实施例,所述啸叫抑制输出模块还包括:第一噪声消除模块,用于对所述啸叫抑制音频信号进行噪声消除,所述噪声为所述音频信号中的环境噪声,所述环境噪声具有固定频率
根据本公开的示例性实施例,所述第二样本信号对中的啸叫样本信号根据如下步骤获取:将所述第一音频采集模块采集的所述声源所播放的参考样本信号与所述第二音频播放模块所播放的第二音频信号之叠加,作为准啸叫样本信号,所述参考样本信号不具有噪声;将所述准啸叫样本信号与噪声音频信号叠加,生成所述啸叫样本信号。
根据本公开的示例性实施例,所述啸叫抑制模型为深度复卷积循环网络。
根据本公开的示例性实施例,所述啸叫结果特征包括啸叫检测结果、啸叫等级、啸叫类型、啸叫连续性、频点移动参数中的一项或多项。
根据本公开的示例性实施例,所述啸叫检测结果用以指示输入至所述啸叫检测模型的音频特征是否存在啸叫,所述啸叫等级用于指示输入至所述啸叫检测模型的音频特征的啸叫强度,所述啸叫类型包括单频点啸叫、多频点啸叫和扩散性啸叫,所述啸叫连续性包括连续啸叫和间断性啸叫,所述频点移动参数包括频点移动类型参数以及频点移动幅度参数,所述频点移动类型参数用以指示输入至所述啸叫检测模型的音频特征是否存在频点移动,所述频点移动幅度参数用以指示输入至所述啸叫检测模型的音频特征的频点移动的幅度。
根据本公开的示例性实施例,所述参考样本信号基于不同的音频内容生成,所述音频内容包括语音、音乐、环境声、铃声、鸟叫声、口哨声中的一种或多种。
根据本公开的示例性实施例,所述第一设备和所述第二设备包括音频处理模块,所述音频处理模块具有音频处理算法,对于不同的啸叫样本信号,所述第一设备以及所述第二设备具有不同的性能和不同的音频处理算法。
根据本公开的示例性实施例,对于不同的啸叫样本信号,所述声学环路所在空间区域具有不同的噪声环境,在相同采集条件下,在具有第一噪声环境的空间区域采集的第一音频信号和在具有第二噪声环境的空间区域采集的第二音频信号具有不同的信噪比,所述相同采集条件包括相同的设备、相同的空间区域以及相同的声源。
根据本公开的示例性实施例,对于不同的啸叫样本信号,所述第一设备和所述第二设备之间的音频传输参数不同,所述音频传输参数包括以下中的一项或多项:所述第一设备和所述第二设备之间的相对位置、所述第一设备和所述第二设备之间的网络通信参数、所述第一设备和所述第二设备的实时音量。
根据本公开的示例性实施例,所述啸叫抑制输出模块包括:第一特征还原模块,用于对所述啸叫抑制模型输出的经抑制音频特征执行相对于特征提取的逆向操作,对所述经抑制音频特征进行还原,以得到所述啸叫抑制音频信号。
根据本公开的示例性实施例,所述啸叫抑制输出模块包括:掩膜获取模块,用于获取所述啸叫抑制模型的输出的啸叫抑制掩膜,所述啸叫抑制掩膜用以表征参考样本信号的音频特征相较于待处理音频信号的音频特征的啸叫抑制频点增益;抑制特征获取模块,用于使得所述啸叫抑制掩膜与所述待处理音频信号的音频特征相乘,以获得经抑制音频特征;第二特征还原模块,用于对所述经抑制音频特征执行相对于特征提取的逆向操作,对所述经抑制音频特征进行还原,以得到所述啸叫抑制音频信号。
根据本公开的示例性实施例,所述第一设备包括音频处理模块,所述音频处理模块具有音频处理算法,所述音频处理算法包括声学回声消除算法、噪声抑制算法以及自动增益控制算法中的一项或多项,其中,所述声学回声消除算法用于消除所述第一音频采集模块采集的音频信号中的声学回声,所述声学回声包括所述第一音频播放模块播放的音频信号被所述第一音频采集模块所采集而形成的回声信号;所述噪声抑制算法用于抑制所述第一音频采集模块采集的音频信号中噪声,所述噪声为所述第一音频采集模块采集的音频信号的环境噪声,所述环境噪声具有固定频率;所述自动增益控制算法用于将所述第一音频采集模块采集的音频信号的音量调整至设定音量范围之内。
根据本公开的示例性实施例,所述音频处理模块还包括:回声消除模块,用于采用所述声学回声消除算法对所述待处理音频信号进行声学回声消除,噪声抑制模块,用于采用所述噪声抑制算法对啸叫抑制音频信号进行噪声抑制;以及自动增益模块,用于采用所述自动增益控制算法对经噪声抑制的音频信号进行自动增益控制。
由于本公开实施方式的啸叫抑制装置的各个功能模块与上述啸叫抑制方法公开实施方式中相同,因此在此不再赘述。
示例性存储介质
在介绍了本公开示例性实施方式的啸叫抑制方法和装置之后,接下来,参考图13对本公开示例性实施方式的存储介质进行说明。
参考图13所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品1000,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性电子设备
在介绍了本公开示例性实施方式的存储介质之后,接下来,参考图14对本公开示例性实施方式的电子设备进行说明。
图14显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图14所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述"示例性方法"部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图4中所示的步骤。
存储单元820可以包括易失性存储单元,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以包括数据总线、地址总线和控制总线。
电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口850进行。电子设备800还包括显示单元840,其连接到输入/输出(I/O)接口850,用于进行显示。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了啸叫抑制装置的若干模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (54)

1.一种啸叫抑制方法,其特征在于,应用于第一设备,所述第一设备用于与第二设备进行即时通信,所述第一设备和所述第二设备归属于同一声学环路,所述第一设备包括第一通信模块、第一音频采集模块和第一音频播放模块,所述第二设备包括第二通信模块、第二音频采集模块和第二音频播放模块,所述方法包括:
提取待处理音频信号的音频特征,所述待处理音频信号为所述第一设备通过其第一音频采集模块所采集到的音频信号,所述待处理音频信号为声源所发出的声学信号与所述第二音频播放模块所播放的第二音频信号之叠加;
将所述音频特征输入至啸叫检测模型,所述啸叫检测模型输出所述待处理音频信号的啸叫特征参数;
将所述啸叫特征参数以及所述音频特征输入至啸叫抑制模型;
根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号;
其中,所述啸叫检测模型依次包括输入处理层、第一中间处理层以及分类输出层,所述音频特征赋值于所述输入处理层,以经由所述输入处理层输入所述第一中间处理层,所述第一中间处理层用以获取所述音频特征的局部特征,并将所述局部特征作为啸叫中间特征,所述分类输出层用以对所述啸叫中间特征进行分类获得啸叫结果特征,所述啸叫中间特征与所述啸叫结果特征用以作为所述啸叫特征参数输入至所述啸叫抑制模型;
所述啸叫抑制模型依次包括编码器、第二中间处理层以及解码器,所述编码器用以对所述音频特征以及所述啸叫结果特征执行特征编码获得编码特征,所述第二中间处理层用以对所述编码特征以及所述啸叫中间特征执行特征筛选,所述解码器用以对经筛选的编码特征执行特征解码。
2.根据权利要求1所述的啸叫抑制方法,其特征在于,所述声学环路为基于所述第一音频采集模块、第一通信模块、第二通信模块以及第二音频播放模块所产生的音频信号传输路径,所述待处理音频信号依次经由所述第一音频采集模块、第一通信模块、第二通信模块、第二音频播放模块以及第一音频采集模块在所述声学环路中完成闭环传输。
3.根据权利要求2所述的啸叫抑制方法,其特征在于,所述第二音频播放模块位于所述第一音频采集模块的拾音距离内,且所述第二音频播放模块的播放音量足以使所述第二音频信号被所述第一音频采集模块所拾取。
4.根据权利要求1所述的啸叫抑制方法,其特征在于,所述音频特征为所述待处理音频信号的bark谱特征、梅尔谱特征、梅尔倒谱特征以及基频特征中的一种。
5.根据权利要求1所述的啸叫抑制方法,其特征在于,所述啸叫检测模型还依次包括连接于所述输入处理层和所述中间处理层之间的主干层以及循环层,所述主干层用以对输入至所述主干层的数据进行卷积和/或池化处理,所述循环层用以建立所述循环层的输入数据和所述循环层的输出数据之间的关联关系,
所述啸叫检测模型还包括连接于所述第一中间处理层和所述分类输出层之间的注意力层,所述注意力层用以对输入至所述注意力层的数据进行加权求和。
6.根据权利要求1所述的啸叫抑制方法,其特征在于,所述第二中间处理层依次包括相连的多个长短时记忆单元以及全连接层,所述长短时记忆单元用以对编码特征执行特征筛选,所述全连接层用以对多个长短时记忆单元的输出进行加权求和。
7.根据权利要求1所述的啸叫抑制方法,其特征在于,所述啸叫检测模型通过如下步骤训练:
获取第一样本信号集合,所述第一样本信号集合包括多个第一样本信号以及所述第一样本信号的啸叫特性参数,所述啸叫特性参数与所述啸叫结果特征包括相同的参数项,所述第一样本信号包括参考样本信号以及啸叫样本信号,所述参考样本信号为播放设备在所述声学环路中所播放的音频信号,所述啸叫样本信号为所述第一音频采集模块采集到的、所述播放设备所播放的音频信号与所述第二音频播放模块所播放的第二音频信号之叠加;
提取所述第一样本信号的第一样本音频特征;
将所述第一样本音频特征作为所述啸叫检测模型的输入,根据所述啸叫检测模型的输出与对应所述啸叫特性参数的差异,对所述啸叫检测模型的模型参数进行调整。
8.根据权利要求1所述的啸叫抑制方法,其特征在于,所述啸叫抑制模型通过如下步骤训练:
获取第二样本信号集合,所述第二样本信号集合包括多个第二样本信号对,每一所述第二样本信号对包括啸叫样本信号以及参考样本信号,所述参考样本信号为播放设备在所述声学环路中所播放的音频信号,所述啸叫样本信号为所述第一音频采集模块采集到的、所述播放设备所播放的音频信号与所述第二音频播放模块所播放的第二音频信号之叠加;
提取所述第二样本信号集中的啸叫样本信号的第二样本音频特征;
将所述第二样本音频特征输入至所述啸叫检测模型中,获得所述啸叫特征参数;
将所述第二样本音频特征和所述啸叫特征参数输入至所述啸叫抑制模型,根据所述啸叫检测模型的输出与对应的参考样本信号的差异,对所述啸叫抑制模型的模型参数进行调整。
9.根据权利要求8所述的啸叫抑制方法,其特征在于,所述啸叫抑制模型的损失函数包括误差损失函数,所述误差损失函数基于所述啸叫抑制音频信号与参考样本信号之间的误差计算获得。
10.根据权利要求9所述的啸叫抑制方法,其特征在于,所述啸叫抑制模型的损失函数包括音频质量损失函数,所述音频质量损失函数基于所述啸叫抑制音频信号的音频质量与所述参考样本信号的音频质量计算获得。
11.根据权利要求9所述的啸叫抑制方法,其特征在于,所述啸叫抑制模型的损失函数包括对抗损失函数,所述对抗损失函数基于判别器作出正确判别的概率计算获得,所述判别器用于将所述啸叫抑制模型的输出结果判别为第一信号或第二信号,所述第一信号表征相应的输出结果为啸叫抑制信号,所述第二信号表征相应的输出结果为参考样本信号,所述判别器将所述啸叫抑制模型的输出结果判别为第一信号时,所述判别器作出正确判别。
12.根据权利要求9所述的啸叫抑制方法,其特征在于,所述啸叫抑制模型的损失函数为误差损失函数、音频质量损失函数以及对抗损失函数的加权和。
13.根据权利要求9所述的啸叫抑制方法,其特征在于,所述啸叫检测模型先于所述啸叫抑制模型进行训练。
14.根据权利要求9所述的啸叫抑制方法,其特征在于,所述根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号还包括:
对所述啸叫抑制音频信号进行噪声消除,所述噪声为所述音频信号中的环境噪声,所述环境噪声具有固定频率。
15.根据权利要求14所述的啸叫抑制方法,其特征在于,所述第二样本信号对中的啸叫样本信号根据如下步骤获取:
将所述第一音频采集模块采集的所述声源所播放的参考样本信号与所述第二音频播放模块所播放的第二音频信号之叠加,作为准啸叫样本信号,所述参考样本信号不具有噪声;
将所述准啸叫样本信号与噪声音频信号叠加,生成所述啸叫样本信号。
16.根据权利要求15所述的啸叫抑制方法,其特征在于,所述啸叫抑制模型为深度复卷积循环网络。
17.根据权利要求5至16任一项所述的啸叫抑制方法,其特征在于,所述啸叫结果特征包括啸叫检测结果、啸叫等级、啸叫类型、啸叫连续性、频点移动参数中的一项或多项。
18.根据权利要求17所述的啸叫抑制方法,其特征在于,所述啸叫检测结果用以指示输入至所述啸叫检测模型的音频特征是否存在啸叫,所述啸叫等级用于指示输入至所述啸叫检测模型的音频特征的啸叫强度,所述啸叫类型包括单频点啸叫、多频点啸叫和扩散性啸叫,所述啸叫连续性包括连续啸叫和间断性啸叫,所述频点移动参数包括频点移动类型参数以及频点移动幅度参数,所述频点移动类型参数用以指示输入至所述啸叫检测模型的音频特征是否存在频点移动,所述频点移动幅度参数用以指示输入至所述啸叫检测模型的音频特征的频点移动的幅度。
19.根据权利要求7至16任一项所述的啸叫抑制方法,其特征在于,所述参考样本信号基于不同的音频内容生成,所述音频内容包括语音、音乐、环境声中的一种或多种。
20.根据权利要求7至16任一项所述的啸叫抑制方法,其特征在于,所述第一设备和所述第二设备包括音频处理模块,所述音频处理模块具有音频处理算法,对于不同的啸叫样本信号,所述第一设备以及所述第二设备具有不同的性能和不同的音频处理算法。
21.根据权利要求7至16任一项所述的啸叫抑制方法,其特征在于,对于不同的啸叫样本信号,所述声学环路所在空间区域具有不同的噪声环境,在相同采集条件下,在具有第一噪声环境的空间区域采集的第一音频信号和在具有第二噪声环境的空间区域采集的第二音频信号具有不同的信噪比,所述相同采集条件包括相同的设备、相同的空间区域以及相同的声源。
22.根据权利要求7至16任一项所述的啸叫抑制方法,其特征在于,对于不同的啸叫样本信号,所述第一设备和所述第二设备之间的音频传输参数不同,所述音频传输参数包括以下中的一项或多项:所述第一设备和所述第二设备之间的相对位置、所述第一设备和所述第二设备之间的网络通信参数、所述第一设备和所述第二设备的实时音量。
23.根据权利要求1至16任一项所述的啸叫抑制方法,其特征在于,所述根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号包括:
对所述啸叫抑制模型输出的经抑制音频特征执行相对于特征提取的逆向操作,对所述经抑制音频特征进行还原,以得到所述啸叫抑制音频信号。
24.根据权利要求1至16任一项所述的啸叫抑制方法,其特征在于,所述根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号包括:
获取所述啸叫抑制模型的输出的啸叫抑制掩膜,所述啸叫抑制掩膜用以表征参考样本信号的音频特征相较于待处理音频信号的音频特征的啸叫抑制频点增益;
使得所述啸叫抑制掩膜与所述待处理音频信号的音频特征相乘,以获得经抑制音频特征;
对所述经抑制音频特征执行相对于特征提取的逆向操作,对所述经抑制音频特征进行还原,以得到所述啸叫抑制音频信号。
25.根据权利要求2至13任一项所述的啸叫抑制方法,其特征在于,所述第一设备包括音频处理模块,所述音频处理模块具有音频处理算法,所述音频处理算法包括声学回声消除算法、噪声抑制算法以及自动增益控制算法中的一项或多项,
其中,所述声学回声消除算法用于消除所述第一音频采集模块采集的音频信号中的声学回声,所述声学回声包括所述第一音频播放模块播放的音频信号被所述第一音频采集模块所采集而形成的回声信号;
所述噪声抑制算法用于抑制所述第一音频采集模块采集的音频信号中噪声,所述噪声为所述第一音频采集模块采集的音频信号的环境噪声,所述环境噪声具有固定频率;
所述自动增益控制算法用于将所述第一音频采集模块采集的音频信号的音量调整至设定音量范围之内。
26.根据权利要求25所述的啸叫抑制方法,其特征在于,
所述提取待处理音频信号的音频特征之前,还包括:
采用所述声学回声消除算法对所述待处理音频信号进行声学回声消除,
所述根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号之后,还包括:
采用所述噪声抑制算法对啸叫抑制音频信号进行噪声抑制;以及
采用所述自动增益控制算法对经噪声抑制的音频信号进行自动增益控制。
27.一种啸叫抑制装置,其特征在于,应用于第一设备,所述第一设备用于与第二设备进行即时通信,所述第一设备和所述第二设备归属于同一声学环路,所述第一设备包括第一通信模块、第一音频采集模块和第一音频播放模块,所述第二设备包括第二通信模块、第二音频采集模块和第二音频播放模块,所述装置包括:
音频特征提取模块,用于提取待处理音频信号的音频特征,所述待处理音频信号为所述第一设备通过其第一音频采集模块所采集到的音频信号,所述待处理音频信号为声源所发出的声学信号与所述第二音频播放模块所播放的第二音频信号之叠加;
啸叫检测模块,用于将所述音频特征输入至啸叫检测模型,所述啸叫检测模型输出所述待处理音频信号的啸叫特征参数;
啸叫抑制输入模块,用于将所述啸叫特征参数以及所述音频特征输入至啸叫抑制模型;
啸叫抑制输出模块,用于根据所述啸叫抑制模型的输出,获得啸叫抑制音频信号;
其中,所述啸叫检测模型依次包括输入处理层、第一中间处理层以及分类输出层,所述音频特征赋值于所述输入处理层,以经由所述输入处理层输入所述第一中间处理层,所述第一中间处理层用以获取所述音频特征的局部特征,并将所述局部特征作为啸叫中间特征,所述分类输出层用以对所述啸叫中间特征进行分类获得啸叫结果特征,所述啸叫中间特征与所述啸叫结果特征用以作为所述啸叫特征参数输入至所述啸叫抑制模型;
所述啸叫抑制模型依次包括编码器、第二中间处理层以及解码器,所述编码器用以对所述音频特征以及所述啸叫结果特征执行特征编码获得编码特征,所述第二中间处理层用以对所述编码特征以及所述啸叫中间特征执行特征筛选,所述解码器用以对经筛选的编码特征执行特征解码。
28.根据权利要求27所述的啸叫抑制装置,其特征在于,所述声学环路为基于所述第一音频采集模块、第一通信模块、第二通信模块以及第二音频播放模块所产生的音频信号传输路径,所述待处理音频信号依次经由所述第一音频采集模块、第一通信模块、第二通信模块、第二音频播放模块以及第一音频采集模块在所述声学环路中完成闭环传输。
29.根据权利要求28所述的啸叫抑制装置,其特征在于,所述第二音频播放模块位于所述第一音频采集模块的拾音距离内,且所述第二音频播放模块的播放音量足以使所述第二音频信号被所述第一音频采集模块所拾取。
30.根据权利要求27所述的啸叫抑制装置,其特征在于,所述音频特征为所述待处理音频信号的bark谱特征、梅尔谱特征、梅尔倒谱特征以及基频特征中的一种。
31.根据权利要求27所述的啸叫抑制装置,其特征在于,所述啸叫检测模型还依次包括连接于所述输入处理层和所述中间处理层之间的主干层以及循环层,所述主干层用以对输入至所述主干层的数据进行卷积和/或池化处理,所述循环层用以建立所述循环层的输入数据和所述循环层的输出数据之间的关联关系,
所述啸叫检测模型还包括连接于所述第一中间处理层和所述分类输出层之间的注意力层,所述注意力层用以对输入至所述注意力层的数据进行加权求和。
32.根据权利要求27所述的啸叫抑制装置,其特征在于,所述第二中间处理层依次包括相连的多个长短时记忆单元以及全连接层,所述长短时记忆单元用以对编码特征执行特征筛选,所述全连接层用以对多个长短时记忆单元的输出进行加权求和。
33.根据权利要求27所述的啸叫抑制装置,其特征在于,所述啸叫检测模型通过如下步骤训练:
获取第一样本信号集合,所述第一样本信号集合包括多个第一样本信号以及所述第一样本信号的啸叫特性参数,所述啸叫特性参数与所述啸叫结果特征包括相同的参数项,所述第一样本信号包括参考样本信号以及啸叫样本信号,所述参考样本信号为播放设备在所述声学环路中所播放的音频信号,所述啸叫样本信号为所述第一音频采集模块采集到的、所述播放设备所播放的音频信号与所述第二音频播放模块所播放的第二音频信号之叠加;
提取所述第一样本信号的第一样本音频特征;
将所述第一样本音频特征作为所述啸叫检测模型的输入,根据所述啸叫检测模型的输出与对应所述啸叫特性参数的差异,对所述啸叫检测模型的模型参数进行调整。
34.根据权利要求27所述的啸叫抑制装置,其特征在于,所述啸叫抑制模型通过如下步骤训练:
获取第二样本信号集合,所述第二样本信号集合包括多个第二样本信号对,每一所述第二样本信号对包括啸叫样本信号以及参考样本信号,所述参考样本信号为播放设备在所述声学环路中所播放的音频信号,所述啸叫样本信号为所述第一音频采集模块采集到的、所述播放设备所播放的音频信号与所述第二音频播放模块所播放的第二音频信号之叠加;
提取所述第二样本信号集中的啸叫样本信号的第二样本音频特征;
将所述第二样本音频特征输入至所述啸叫检测模型中,获得所述啸叫特征参数;
将所述第二样本音频特征和所述啸叫特征参数输入至所述啸叫抑制模型,根据所述啸叫检测模型的输出与对应的参考样本信号的差异,对所述啸叫抑制模型的模型参数进行调整。
35.根据权利要求34所述的啸叫抑制装置,其特征在于,所述啸叫抑制模型的损失函数包括误差损失函数,所述误差损失函数基于所述啸叫抑制音频信号与参考样本信号之间的误差计算获得。
36.根据权利要求34所述的啸叫抑制装置,其特征在于,所述啸叫抑制模型的损失函数包括音频质量损失函数,所述音频质量损失函数基于所述啸叫抑制音频信号的音频质量与所述参考样本信号的音频质量计算获得。
37.根据权利要求34所述的啸叫抑制装置,其特征在于,所述啸叫抑制模型的损失函数包括对抗损失函数,所述对抗损失函数基于判别器作出正确判别的概率计算获得,所述判别器用于将所述啸叫抑制模型的输出结果判别为第一信号或第二信号,所述第一信号表征相应的输出结果为啸叫抑制信号,所述第二信号表征相应的输出结果为参考样本信号,所述判别器将所述啸叫抑制模型的输出结果判别为第一信号时,所述判别器作出正确判别。
38.根据权利要求34所述的啸叫抑制装置,其特征在于,所述啸叫抑制模型的损失函数为误差损失函数、音频质量损失函数以及对抗损失函数的加权和。
39.根据权利要求34所述的啸叫抑制装置,其特征在于,所述啸叫检测模型先于所述啸叫抑制模型进行训练。
40.根据权利要求34所述的啸叫抑制装置,其特征在于,所述啸叫抑制输出模块还包括:
第一噪声消除模块,用于对所述啸叫抑制音频信号进行噪声消除,所述噪声为所述音频信号中的环境噪声,所述环境噪声具有固定频率。
41.根据权利要求40所述的啸叫抑制装置,其特征在于,所述第二样本信号对中的啸叫样本信号根据如下步骤获取:
将所述第一音频采集模块采集的所述声源所播放的参考样本信号与所述第二音频播放模块所播放的第二音频信号之叠加,作为准啸叫样本信号,所述参考样本信号不具有噪声;
将所述准啸叫样本信号与噪声音频信号叠加,生成所述啸叫样本信号。
42.根据权利要求41所述的啸叫抑制装置,其特征在于,所述啸叫抑制模型为深度复卷积循环网络。
43.根据权利要求27至42任一项所述的啸叫抑制装置,其特征在于,所述啸叫结果特征包括啸叫检测结果、啸叫等级、啸叫类型、啸叫连续性、频点移动参数中的一项或多项。
44.根据权利要求43所述的啸叫抑制装置,其特征在于,所述啸叫检测结果用以指示输入至所述啸叫检测模型的音频特征是否存在啸叫,所述啸叫等级用于指示输入至所述啸叫检测模型的音频特征的啸叫强度,所述啸叫类型包括单频点啸叫、多频点啸叫和扩散性啸叫,所述啸叫连续性包括连续啸叫和间断性啸叫,所述频点移动参数包括频点移动类型参数以及频点移动幅度参数,所述频点移动类型参数用以指示输入至所述啸叫检测模型的音频特征是否存在频点移动,所述频点移动幅度参数用以指示输入至所述啸叫检测模型的音频特征的频点移动的幅度。
45.根据权利要求33至42任一项所述的啸叫抑制装置,其特征在于,所述参考样本信号基于不同的音频内容生成,所述音频内容包括语音、音乐、环境声中的一种或多种。
46.根据权利要求33至42任一项所述的啸叫抑制装置,其特征在于,所述第一设备和所述第二设备包括音频处理模块,所述音频处理模块具有音频处理算法,对于不同的啸叫样本信号,所述第一设备以及所述第二设备具有不同的性能和不同的音频处理算法。
47.根据权利要求33至42任一项所述的啸叫抑制装置,其特征在于,对于不同的啸叫样本信号,所述声学环路所在空间区域具有不同的噪声环境,在相同采集条件下,在具有第一噪声环境的空间区域采集的第一音频信号和在具有第二噪声环境的空间区域采集的第二音频信号具有不同的信噪比,所述相同采集条件包括相同的设备、相同的空间区域以及相同的声源。
48.根据权利要求33至42任一项所述的啸叫抑制装置,其特征在于,对于不同的啸叫样本信号,所述第一设备和所述第二设备之间的音频传输参数不同,所述音频传输参数包括以下中的一项或多项:所述第一设备和所述第二设备之间的相对位置、所述第一设备和所述第二设备之间的网络通信参数、所述第一设备和所述第二设备的实时音量。
49.根据权利要求27至42任一项所述的啸叫抑制装置,其特征在于,所述啸叫抑制输出模块包括:
第一特征还原模块,用于对所述啸叫抑制模型输出的经抑制音频特征执行相对于特征提取的逆向操作,对所述经抑制音频特征进行还原,以得到所述啸叫抑制音频信号。
50.根据权利要求27至42任一项所述的啸叫抑制装置,其特征在于,所述啸叫抑制输出模块包括:
掩膜获取模块,用于获取所述啸叫抑制模型的输出的啸叫抑制掩膜,所述啸叫抑制掩膜用以表征参考样本信号的音频特征相较于待处理音频信号的音频特征的啸叫抑制频点增益;
抑制特征获取模块,用于使得所述啸叫抑制掩膜与所述待处理音频信号的音频特征相乘,以获得经抑制音频特征;
第二特征还原模块,用于对所述经抑制音频特征执行相对于特征提取的逆向操作,对所述经抑制音频特征进行还原,以得到所述啸叫抑制音频信号。
51.根据权利要求28至39任一项所述的啸叫抑制装置,其特征在于,所述第一设备包括音频处理模块,所述音频处理模块具有音频处理算法,所述音频处理算法包括声学回声消除算法、噪声抑制算法以及自动增益控制算法中的一项或多项,
其中,所述声学回声消除算法用于消除所述第一音频采集模块采集的音频信号中的声学回声,所述声学回声包括所述第一音频播放模块播放的音频信号被所述第一音频采集模块所采集而形成的回声信号;
所述噪声抑制算法用于抑制所述第一音频采集模块采集的音频信号中噪声,所述噪声为所述第一音频采集模块采集的音频信号的环境噪声,所述环境噪声具有固定频率;
所述自动增益控制算法用于将所述第一音频采集模块采集的音频信号的音量调整至设定音量范围之内。
52.根据权利要求51所述的啸叫抑制装置,其特征在于,所述音频处理模块还包括:
回声消除模块,用于采用所述声学回声消除算法对所述待处理音频信号进行声学回声消除;
噪声抑制模块,用于采用所述噪声抑制算法对啸叫抑制音频信号进行噪声抑制;以及
自动增益模块,用于采用所述自动增益控制算法对经噪声抑制的音频信号进行自动增益控制。
53.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现:
权利要求1~26中任一项所述的啸叫抑制方法。
54.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行:
权利要求1~26中任一项所述的啸叫抑制方法。
CN202210307288.1A 2022-03-25 2022-03-25 啸叫抑制方法及装置、存储介质、电子设备 Active CN114863941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210307288.1A CN114863941B (zh) 2022-03-25 2022-03-25 啸叫抑制方法及装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210307288.1A CN114863941B (zh) 2022-03-25 2022-03-25 啸叫抑制方法及装置、存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN114863941A CN114863941A (zh) 2022-08-05
CN114863941B true CN114863941B (zh) 2026-02-03

Family

ID=82630343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210307288.1A Active CN114863941B (zh) 2022-03-25 2022-03-25 啸叫抑制方法及装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN114863941B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229998B (zh) * 2023-02-02 2025-09-02 北京达佳互联信息技术有限公司 音频信号处理方法、装置、电子设备及存储介质
CN116682407A (zh) * 2023-05-31 2023-09-01 菁音核创科技(厦门)有限公司 实时啸叫检测和自适应抑制的方法、系统和计算机介质
CN118400650B (zh) * 2024-05-14 2025-04-15 广东台德智联科技有限公司 一种麦克风防啸叫方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067837A (zh) * 2021-11-15 2022-02-18 杭州网易智企科技有限公司 啸叫检测方法及装置、介质和计算设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111149370B (zh) * 2017-09-29 2021-10-01 杜比实验室特许公司 会议系统中的啸叫检测
CN109788400B (zh) * 2019-03-06 2020-12-18 哈尔滨工业大学(深圳) 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质
CN111583949A (zh) * 2020-04-10 2020-08-25 南京拓灵智能科技有限公司 啸叫抑制的方法、装置和设备
CN113870885B (zh) * 2021-12-02 2022-02-22 北京百瑞互联技术有限公司 蓝牙音频啸叫检测和抑制方法、装置、介质及设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067837A (zh) * 2021-11-15 2022-02-18 杭州网易智企科技有限公司 啸叫检测方法及装置、介质和计算设备

Also Published As

Publication number Publication date
CN114863941A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN114863941B (zh) 啸叫抑制方法及装置、存储介质、电子设备
Fu et al. MetricGAN-U: Unsupervised speech enhancement/dereverberation based only on noisy/reverberated speech
CN111161752B (zh) 回声消除方法和装置
CN112951259B (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
CN113241085B (zh) 回声消除方法、装置、设备及可读存储介质
US5757937A (en) Acoustic noise suppressor
Luo et al. Real-time single-channel dereverberation and separation with time-domain audio separation network.
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
JP2012155339A (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
US10262677B2 (en) Systems and methods for removing reverberation from audio signals
JP2006215568A (ja) 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体
CN114067837A (zh) 啸叫检测方法及装置、介质和计算设备
CN118314917A (zh) 一种面向智能家居的降噪式mems麦克风降噪优化方法
CN115359804A (zh) 一种基于麦克风阵列的定向音频拾取方法和系统
Chen et al. A neural network-based howling detection method for real-time communication applications
CN117894318A (zh) 音频处理模型的训练方法及装置、存储介质、电子设备
WO2013057659A2 (en) Signal noise attenuation
CN120998219A (zh) 多模态音频SoC主控芯片自适应降噪方法及系统
CN113113046B (zh) 音频处理的性能检测方法、装置、存储介质及电子设备
CN112669877A (zh) 噪声检测及压制方法、装置、终端设备和系统、芯片
CN118486320A (zh) 杂音抑制方法、装置、电子设备及计算机可读存储介质
JP2020190606A (ja) 音声雑音除去装置及びプログラム
Li et al. Joint noise reduction and listening enhancement for full-end speech enhancement
JP4542538B2 (ja) ダブルトーク状態判定方法、その方法を用いた反響消去装置、そのプログラム及びその記録媒体
CN119207456B (zh) 音频降噪方法、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant