RU2343564C2 - Method of voice signal variable-structure system-based adaptive encoding - Google Patents
Method of voice signal variable-structure system-based adaptive encoding Download PDFInfo
- Publication number
- RU2343564C2 RU2343564C2 RU2006143249/09A RU2006143249A RU2343564C2 RU 2343564 C2 RU2343564 C2 RU 2343564C2 RU 2006143249/09 A RU2006143249/09 A RU 2006143249/09A RU 2006143249 A RU2006143249 A RU 2006143249A RU 2343564 C2 RU2343564 C2 RU 2343564C2
- Authority
- RU
- Russia
- Prior art keywords
- segment
- type
- speech signal
- input speech
- speech
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000003044 adaptive effect Effects 0.000 title claims description 3
- 230000007704 transition Effects 0.000 claims abstract description 12
- 230000005540 biological transmission Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 18
- 238000005311 autocorrelation function Methods 0.000 description 8
- 238000013139 quantization Methods 0.000 description 4
- 244000309464 bull Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000001256 tonic effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Предлагаемое изобретение предназначено для кодирования речевых сигналов (PC) на основе системы с переменной структурой, применение которой направленно на сокращение избыточности передаваемой информации.The present invention is intended for encoding speech signals (PC) based on a system with a variable structure, the use of which is aimed at reducing the redundancy of transmitted information.
Известны способы кодирования речевых сигналов на основе линейного предсказания и различными сигналами возбуждения синтезирующего фильтра, с использованием процедуры векторного квантования сигналов возбуждения и параметров, описывающих спектральную огибающую речевого сигнала, например [1, 2].Known methods for encoding speech signals based on linear prediction and various excitation signals of a synthesizing filter using the vector quantization of excitation signals and parameters describing the spectral envelope of a speech signal, for example [1, 2].
Недостатком таких способов являются невысокие возможности в плане адаптации этих алгоритмов к свойствам обрабатываемого PC, что предопределяет недостаточно высокое качество восстановления сигнала на приеме. В данных алгоритмах в процессе кодирования изменяются только параметры кодера, а структура его остается неизменной. Фиксированное структурирование пространства кодируемых параметров и постоянство мощностей подпространств представлений (порядок предсказания для линейного предсказания, размер кодовых книг при векторном квантовании, длина кодируемого вектора), присущие существующим алгоритмам и выражающиеся в фиксированной структуре кодекса, не создают необходимых условий для максимального использования имеющейся априорной информации о речевом сигнале, что препятствует дальнейшей оптимизации кодека.The disadvantage of such methods is the low ability to adapt these algorithms to the properties of the processed PC, which determines the insufficient quality of signal recovery at the reception. In these algorithms, only the encoder parameters are changed during the encoding process, and its structure remains unchanged. The fixed structuring of the space of encoded parameters and the constancy of the powers of the subspaces of representations (the prediction order for linear prediction, the size of code books for vector quantization, the length of the encoded vector) inherent in existing algorithms and expressed in a fixed code structure do not create the necessary conditions for maximizing the use of a priori information about speech signal, which prevents further optimization of the codec.
Известен способ кодирования речевых сигналов на основе линейного предсказания в зависимости от типа обрабатываемого сегмента речевого сигнала [3], где достигается повышение качества синтезируемого сигнала за счет использования классификации обрабатываемых кадров речевого сигнала на два непересекающихся класса: вокализованная и невокализованная речь, и кодирование сегментов, относящихся к разным классам различными методами. К недостаткам данного способа можно отнести небольшое число классов, на которые подразделяется речевой сигнал, адаптивное перераспределение мощностей подпространств представления кодируемых параметров в условиях фиксированной структуры кодирующего устройства, что предопределяет недостаточно высокое качество восстановления сигнала на приеме. При существующих требованиях к представлению речевых сигналов в цифровом виде необходима более тщательная обработка речевого сигнала. В данных условиях способы, основанные на изменении только параметров кодера в соответствии с характеристиками речи, становятся неприемлемыми и не дают достаточного качества при кодировании PC.A known method of encoding speech signals based on linear prediction depending on the type of processed segment of the speech signal [3], where the quality of the synthesized signal is improved by using the classification of the processed frames of the speech signal into two disjoint classes: voiced and unvoiced speech, and coding of segments related to different classes by various methods. The disadvantages of this method include a small number of classes into which the speech signal is subdivided, adaptive redistribution of the power of the subspaces of representation of the encoded parameters under the conditions of a fixed structure of the encoding device, which determines the insufficient quality of signal recovery at the reception. Given the existing requirements for digital representation of speech signals, more careful processing of the speech signal is required. Under these conditions, methods based on changing only the parameters of the encoder in accordance with the characteristics of speech become unacceptable and do not provide sufficient quality when encoding a PC.
Предлагаемый способ преобразования речи решает задачу повышения качества синтезируемого PC без увеличения скорости передачи.The proposed method of speech conversion solves the problem of improving the quality of the synthesized PC without increasing the transmission speed.
Указанный технический результат достигается тем, что в реальном масштабе времени входной речевой сигнал делят по временной оси на сегменты, распознают сегмент входного речевого как пауза, тоновый сегмент, шумовой сегмент первого типа, шумовой сегмент второго типа, переходный сегмент первого типа, переходный сегмент второго типа исходя из следующей процедуры классификации (фиг.1).The specified technical result is achieved in that in real time the input speech signal is divided along the time axis into segments, the input speech segment is recognized as a pause, tone segment, noise segment of the first type, noise segment of the second type, transition segment of the first type, transition segment of the second type based on the following classification procedure (figure 1).
На первом этапе классификации сигнал делится на активные участки и паузы, критерием принятия решения служит соотношение:At the first stage of classification, the signal is divided into active sections and pauses, the criterion for decision making is the ratio:
где N - число отсчетов в обрабатываемом речевом сегменте;where N is the number of samples in the processed speech segment;
si - отсчет речевого сигнала;s i - counting of a speech signal;
P0 - пороговое значение мощностной характеристики, определяемое экспериментальным путем.P 0 is the threshold value of the power characteristic determined experimentally.
В случае выполнения неравенства (1) принимается решение о том, что обрабатываемый сегмент 1 относит к классу пауз 2. В противном случае, принимается решение о принадлежности обрабатываемого сегмента речи к классу активных сегментов 3.In the case of inequality (1), it is decided that the processed segment 1 belongs to the class of pauses 2. Otherwise, a decision is made whether the processed speech segment belongs to the class of active segments 3.
На втором этапе классификации активные сегменты речи 3 делятся на 4 типа сегментов: тоновые 7, шумовые 4, переходные первого типа 5 и переходные второго типа 6. Для такого деления вычисляется параметр тон/шум (ТШ) и частота основного тона (ОТ) Fот на сегменте анализа. Вычисление сигналов ТШ и Fот производится совместно на основе анализа автокорреляционной функции (АКФ) PC и метода Итакуры-Саито. Использование двух методов в совокупности уменьшает вероятность ошибки в классификации сегментов речи. При этом правила принятия решения о типе сегмента формулируются следующим образом.At the second stage of classification, active speech segments 3 are divided into 4 types of segments: tone 7, noise 4, transitional first type 5 and transitional second type 6. For this division, the tone / noise (TS) parameter and the fundamental frequency (OT) F from on the analysis segment. The calculation of the TS and F signals from is carried out jointly based on the analysis of the PC autocorrelation function (ACF) and the Takura-Saito method. Using two methods together reduces the likelihood of errors in the classification of speech segments. In this case, the decision rules on the type of segment are formulated as follows.
К тоновым сегментам 7 относятся сегменты, для которых:Tone segments 7 include segments for which:
- метод анализа АКФ определяет сегмент как тоновой;- ACF analysis method defines the segment as tonal;
- метод Итакуры-Саито определяет сегмент как тоновой.- The Takura-Saito method defines the segment as tonic.
К шумовым сегментам 4 относятся сегменты, для которых:Noise segments 4 include segments for which:
- метод анализа АКФ определяет сегмент как шумовой;- ACF analysis method determines the segment as noise;
- метод Итакуры-Саито определяет сегмент как шумовой.- The Takura-Saito method defines the segment as noise.
К переходным сегментам первого типа 5 относятся сегменты, для которых:The transitional segments of the first type 5 include segments for which:
- метод анализа АКФ определяет сегмент как шумовой;- ACF analysis method determines the segment as noise;
- метод Итакуры-Саито определяет сегмент как тоновой.- The Takura-Saito method defines the segment as tonic.
К переходным сегментам второго типа 6 относятся сегменты, для которых:The transitional segments of the second type 6 include segments for which:
- метод анализа АКФ определяет сегмент как тоновой;- ACF analysis method defines the segment as tonal;
- метод Итакуры-Саито определяет сегмент как шумовой.- The Takura-Saito method defines the segment as noise.
На третьем этапе классификации происходит разделение шумовых сегментов речи 4 по коэффициенту огибающей и мощностной характеристике сигнала (1) на два класса. Правило принятия решения определяется соотношением:At the third stage of classification, the noise segments of speech 4 are divided by the envelope coefficient and the power characteristic of the signal (1) into two classes. The decision rule is determined by the ratio:
где Р - определяется в соответствии с левой частью выражения (1);where P - is determined in accordance with the left side of the expression (1);
α0 - пороговое значение коэффициента сложности кодируемого сегмента, определяемое экспериментальным путем;α 0 - threshold value of the coefficient of complexity of the encoded segment, determined experimentally;
η - коэффициент огибающей кодируемого сигнала, определяемый как:η is the envelope coefficient of the encoded signal, defined as:
Если в результате расчета неравенство (2) выполняется, принимается решение о том, что обрабатываемый сегмент относится к шумовому сегменту первого типа 8, в противном случае - к шумовому сегменту второго типа 9.If, as a result of the calculation, inequality (2) is satisfied, a decision is made that the segment being processed belongs to the noise segment of the first type 8, otherwise, to the noise segment of the second type 9.
Затем кодируют сегмент входного речевого сигнала путем кодирования формы сигнала, если сегмент входного речевого сигнала определен как пауза, шумовой сегмент первого типа или шумовой сегмент второго типа, или находят остатки кратковременных предсказаний входного речевого сигнала и кодируют остатки кратковременных предсказаний с использованием синусоидального аналитического кодирования, если сегмент входного речевого сигнала определен как тоновый сегмент, переходный сегмент первого типа или переходный сегмент второго типа.Then, a segment of the input speech signal is encoded by encoding the waveform if the segment of the input speech signal is defined as a pause, a noise segment of the first type or a noise segment of the second type, or the remnants of short-term predictions of the input speech signal are found and the remnants of short-term predictions are used using sinusoidal analytical coding if a segment of the input speech signal is defined as a tone segment, a transition segment of the first type, or a transition segment of the second type.
Таким образом, в соответствии с полученными статистическими и параметрическими характеристиками выбирается та структура кодирующего устройства (блоки 10 или 11), которая обеспечивает минимум искажений речевого сигнала.Thus, in accordance with the obtained statistical and parametric characteristics, the encoding device structure (blocks 10 or 11) is selected that provides a minimum of distortion of the speech signal.
На чертежах (фиг.1 и 2) представлена сущность предлагаемого решения, где на фиг.1 изображен вариант классификации распознаваемых сегментов речи в соответствии с предлагаемым решением, на фиг.2 - структурная схема устройства кодирования речевых сигналов на основе системы с переменной структурой.In the drawings (Figs. 1 and 2) the essence of the proposed solution is presented, in which Fig. 1 shows a classification of recognizable segments of speech in accordance with the proposed solution, Fig. 2 is a structural diagram of a speech encoding device based on a system with a variable structure.
Предлагаемый способ преобразования речевого сигнала может быть реализован в устройстве кодирования речевых сигналов (фиг.2).The proposed method of converting a speech signal can be implemented in a device for encoding speech signals (figure 2).
Исходный речевой сигнал подается на кодер ИКМ 12, реализующий преобразование аналогового сигнала в цифровую форму согласно рекомендации МСЭ G.711. В блоке формирования и начальной обработки сегмента анализа PC 13 оцифрованный речевой сигнал подвергается сегментированию на одинаковые подкадры, равные периоду квазистационарности. Далее подкадры речевого сигнала последовательно поступают на анализатор речь/пауза 14, выделитель статистических и параметрических характеристик 15, блок формирования субкадров 24 и блок управления структурой и параметрами линейного предсказателя 26. В анализаторе речь/пауза 14 происходит разделение речи на сегменты активности и паузы, при этом сегменты речи, отнесенные к активным, передаются для последующего анализа в блок анализа тон/шум 18, а управляющие сигналы о принятом решении (речь/пауза) с данного блока передаются на выделитель статистических и параметрических характеристик 15 и подсистему управления структурой кодека 17. В блоке 15 реализуется выделение статистических и параметрических характеристик сегмента речевого сигнала при отнесении его к сегментам активной речи. Блок формирования субкадров 14 предназначен для выделения подкадров процедуры векторного квантования 30 на сегменте анализа, результаты процедуры подаются на блок управления структурой векторного квантователя 25 и векторный квантователь 30. В блоке анализа тон/шум 18 осуществляется выделение сигнала тон-шум на сегменте анализа, при отнесении его блоком 14 к сегменту активной речи. При этом в случае выделения сигнала шум управляющий сигнал, несущий информацию о данном решении, поступает на блок 17, в противоположном случае (выделение сигнала тон) управляющий сигнал поступает на блок 19.The original speech signal is supplied to the
В блоках 17 и 19 реализуется подсистема управления структурой кодера, при этом блок 17 управляет структурой кодера в зависимости от классификационных решений, относящих обрабатываемый сегмент речи к паузе и шумовым сегментам, а блок 19 использует информацию с блока 18 об активности и тональности сегмента речи. Информационные сигналы с блока 19 поступают на выделитель частоты ОТ на основе анализа АКФ 20 и выделитель частоты ОТ методом Итакуры-Саито 21. В указанных блоках 20 и 21 осуществляется выделение частоты основного тона на основе анализа автокорреляционной функции сегмента анализа речевого сигнала и с помощью метода Итакуры-Саито соответственно. Результаты расчетов поступают в блок корректировки значения частоты ОТ 22, в котором происходит коррекция значения частоты основного тона для осуществления принятия решений о типе обрабатываемого сегмента речи классификатором речевых кадров 16 и выбора оптимальных режимов функционирования блоком управления структурой и параметрами линейного предсказателя 26 и блоком управления структурой векторного квантователя 25. Таким образом, на входы классификатора 16 поступают информационные сигналы: с выхода выделителя статистических и параметрических характеристик PC 15 и выхода блока корректировки значения частоты ОТ 22. Результаты классификации блоком 16 подаются на подсистему управления кодером 23, определяющую режим кодирования в зависимости от результата классификации сегмента, выходом данного блока являются управляющие сигналы для блока формирования субкадров PC 14, блока управления структурой векторного квантователя 25 и блока управления структурой и параметрами линейного предсказателя 26.In
В соответствии с результатами классификации блоком 25 осуществляется управление работой векторного квантователя 30, а также выбор кодовых книг различной структуры 27, наиболее точно соответствующих кодируемому субкадру речи. Блоком 26 осуществляется управление структурой и параметрами линейного предсказателя. Функционирование линейного предсказателя связано с кодовыми книгами параметров кратковременного линейного предсказателя 31 и кодовыми книгами параметров долговременного линейного предсказания 32, с блоком расчета параметров кратковременного линейного предсказания 28 и блоком расчета параметров долговременного линейного предсказания 29, с блоком кратковременного линейного анализа 33 и блоком долговременного линейного анализа 34, в которых непосредственно реализуются процедуры линейного предсказания на основе параметров линейного предсказания, выбранных из соответствующих кодовых книг и наиболее соответствующих рассчитанным. Также блок 26 взаимодействует с блоком выбора наилучшей структуры и параметров линейного предсказателя 36, который осуществляет выбор наилучшей структуры и параметров линейного предсказателя на основе процедуры анализа через синтез и результатами управляющих воздействий на структуру кодера. Информационные сигналы, полученные в результате векторного квантования (блок 30) и/или линейного предсказания (блок 36), поступают на вход блока формирования выходной последовательности кодера 35, который осуществляет формирование кадра передачи кодирующего устройства.In accordance with the classification results,
Процедура декодирования на приемной стороне заключается в выделении из принятой последовательности кадра передачи информации о типе структуры и параметрах кодированного PC, выборе соответствующей структуры декодера и постановлении PC по принятым сигналу возбуждения и параметрам синтезирующего устройства.The decoding procedure on the receiving side consists in extracting from the received sequence of the transmission frame information about the type of structure and parameters of the encoded PC, selecting the appropriate decoder structure and setting the PC according to the received excitation signal and the parameters of the synthesizing device.
Приведенные сведения показывают, что введение в систему кодирования процедуры классификации речевых сегментов на 6 типов: пауза, тоновый сегмент, шумовой сегмент первого типа, шумовой сегмент второго типа, переходный сегмент первого типа, переходный сегмент второго типа, и кодирование распознанных сегментов входного речевого сигнала различными методами путем изменения структуры системы кодирования позволяет повысить качество синтезируемого PC без увеличения скорости передачи.The above data show that the introduction of the procedure for classifying speech segments into 6 types into the coding system: pause, tone segment, noise segment of the first type, noise segment of the second type, transition segment of the first type, transition segment of the second type, and coding of recognized segments of the input speech signal by different methods by changing the structure of the coding system can improve the quality of the synthesized PC without increasing the transmission speed.
Источники информацииInformation sources
1. Устинов А.А., Тюлегенев А.О., Данилюк В.В. Патент №2152646, кл. 7 G10L 21/00. Способ сжатия и восстановления речевых сигналов. Бюл. №19 от 10.07.2000.1. Ustinov A.A., Tyulegenev A.O., Danilyuk V.V. Patent No. 2152646, cl. 7
2. Костров В.В., Дыранов Ю.В., Фабричный С.Ю. Патент №2166804, кл. 7 G10L 13/02. Способ преобразования речи и устройство для его осуществления. Бюл. №13 от 10.05.2001.2. Kostrov V.V., Dyranov Yu.V., Factory S.Yu. Patent No. 2166804, cl. 7
3. Нисигути М., Иидзима К., Матсумото Д., Омори С. Патент №2233010, кл. 7 G10L 19/06. Способы и устройства для кодирования и декодирования речевых сигналов. Бюл. №20 от 20.07.2004.3. Nishiguchi M., Iijima K., Matsumoto D., Omori S. Patent No. 2233010, class. 7
Claims (1)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| RU2006143249/09A RU2343564C2 (en) | 2006-12-06 | 2006-12-06 | Method of voice signal variable-structure system-based adaptive encoding |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| RU2006143249/09A RU2343564C2 (en) | 2006-12-06 | 2006-12-06 | Method of voice signal variable-structure system-based adaptive encoding |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| RU2006143249A RU2006143249A (en) | 2008-06-20 |
| RU2343564C2 true RU2343564C2 (en) | 2009-01-10 |
Family
ID=40374433
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2006143249/09A RU2343564C2 (en) | 2006-12-06 | 2006-12-06 | Method of voice signal variable-structure system-based adaptive encoding |
Country Status (1)
| Country | Link |
|---|---|
| RU (1) | RU2343564C2 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1993015503A1 (en) * | 1992-01-27 | 1993-08-05 | Telefonaktiebolaget Lm Ericsson | Double mode long term prediction in speech coding |
| RU2166804C2 (en) * | 1999-04-05 | 2001-05-10 | ОАО "НПП "Звукотехника" | Method and device for speech conversion |
| RU2233010C2 (en) * | 1995-10-26 | 2004-07-20 | Сони Корпорейшн | Method and device for coding and decoding voice signals |
-
2006
- 2006-12-06 RU RU2006143249/09A patent/RU2343564C2/en not_active IP Right Cessation
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1993015503A1 (en) * | 1992-01-27 | 1993-08-05 | Telefonaktiebolaget Lm Ericsson | Double mode long term prediction in speech coding |
| RU2233010C2 (en) * | 1995-10-26 | 2004-07-20 | Сони Корпорейшн | Method and device for coding and decoding voice signals |
| RU2166804C2 (en) * | 1999-04-05 | 2001-05-10 | ОАО "НПП "Звукотехника" | Method and device for speech conversion |
Also Published As
| Publication number | Publication date |
|---|---|
| RU2006143249A (en) | 2008-06-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7392179B2 (en) | LPC vector quantization apparatus | |
| EP1222659B1 (en) | Lpc-harmonic vocoder with superframe structure | |
| AU714752B2 (en) | Speech coder | |
| JP5277350B2 (en) | Compression encoding and decoding method, encoder, decoder, and encoding apparatus | |
| KR100798668B1 (en) | Coding Method and Device for Unvoiced Speech | |
| JP2002055699A (en) | Audio encoding device and audio encoding method | |
| JP2006510947A (en) | Robust prediction vector quantization method and apparatus for linear prediction parameters in variable bit rate speech coding | |
| CN1255226A (en) | Speech coding | |
| US7634402B2 (en) | Apparatus for coding of variable bitrate wideband speech and audio signals, and a method thereof | |
| JP3575967B2 (en) | Voice communication system and voice communication method | |
| US6768978B2 (en) | Speech coding/decoding method and apparatus | |
| AU727706B2 (en) | Repetitive sound compression system | |
| EP1597721A2 (en) | 600 bps mixed excitation linear prediction transcoding | |
| WO1997015046A9 (en) | Repetitive sound compression system | |
| JPH0341500A (en) | Low-delay low bit-rate voice coder | |
| KR20040045586A (en) | Apparatus and method for transcoding between CELP type codecs with a different bandwidths | |
| RU2248619C2 (en) | Method and device for converting speech signal by method of linear prediction with adaptive distribution of information resources | |
| RU2343564C2 (en) | Method of voice signal variable-structure system-based adaptive encoding | |
| US8112271B2 (en) | Audio encoding device and audio encoding method | |
| EP1187337A1 (en) | Speech coder, speech processor, and speech processing method | |
| JPWO2000063878A1 (en) | Audio encoding device, audio processing device, and audio processing method | |
| JP3232701B2 (en) | Audio coding method | |
| JP3232728B2 (en) | Audio coding method | |
| AU767779B2 (en) | Repetitive sound compression system | |
| WO2005045808A1 (en) | Harmonic noise weighting in digital speech coders |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20081207 |