JP2022144417A - Hearing support device, hearing support method and hearing support program - Google Patents
Hearing support device, hearing support method and hearing support program Download PDFInfo
- Publication number
- JP2022144417A JP2022144417A JP2021045420A JP2021045420A JP2022144417A JP 2022144417 A JP2022144417 A JP 2022144417A JP 2021045420 A JP2021045420 A JP 2021045420A JP 2021045420 A JP2021045420 A JP 2021045420A JP 2022144417 A JP2022144417 A JP 2022144417A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- text
- speaker
- support device
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000000926 separation method Methods 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims description 14
- 238000004891 communication Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 10
- 238000012790 confirmation Methods 0.000 description 9
- 208000032041 Hearing impaired Diseases 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000004397 blinking Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラムに関するものである。 TECHNICAL FIELD The present invention relates to a listening support device, a listening support method, and a listening support program.
特許文献1には、「複数の話者の映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれる話者からのスピーチセグメントそれぞれとの相関関係を計算し、計算された相関関係に基づき、各話者に対する話者モデルを構築し、構築された話者モデルに基づき、オーディオデータに含まれる音声を発話する話者を特定する、話者ダイアライゼーション方法」について記載されている。
上記技術は、話者の口の形状が含まれている映像を用いて、オーディオデータに含まれる音声の話者を特定することはできるが、口の形状が含まれる映像がない状況、すなわち映像データを用いないオンライン電話会議等の複数人が発話する環境下では、聞き取りの支援を行うことはできない。 The above technology can identify the speaker of the voice included in the audio data using a video containing the shape of the speaker's mouth. It is not possible to support listening in an environment where multiple people speak, such as an online teleconference that does not use data.
本発明の目的は、複数人が発話する状況での聞き取り支援を行う技術を提供することにある。 SUMMARY OF THE INVENTION An object of the present invention is to provide a technique for assisting listening in a situation where a plurality of people are speaking.
本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。本発明の一態様に係る聞き取り支援装置は、複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得部と、いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得部と、前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離部と、前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定部と、前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成部と、を備えることを特徴とする。 The present application includes a plurality of means for solving at least part of the above problems, and examples thereof are as follows. A listening support device according to an aspect of the present invention includes a mixed speech acquisition unit that acquires mixed speech information including utterances of a plurality of speakers from another device, and individual speech information including the utterances by any of the speakers. from a predetermined voice input device, a text of a first utterance obtained by separating the utterance from the mixed voice information, and any of the utterances of the speaker from the individual voice information a speaker separation unit for obtaining a text of the second utterance that specifies the text of the second utterance; a utterance similarity determination unit that determines similarity between the text of the first utterance and the text of the second utterance; A parallel display creation unit for creating a display screen for displaying together a message list in which the text of the first message and the text of the second message are arranged in chronological order.
また例えば、上記の聞き取り支援装置において、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストと表示態様を異ならせるものであってもよい。 Further, for example, in the above-described listening support device, the parallel display creation unit may add the text of the first utterance determined by the utterance similarity determination unit to be similar to any of the texts of the second utterance as the text of the first utterance. The text of the first utterance that is not determined to be similar to any of the texts of the two utterances may be displayed in a different manner.
また例えば、上記の聞き取り支援装置において、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストよりも視認性を低く抑えるものであってもよい。 Further, for example, in the above-described listening support device, the parallel display creation unit may add the text of the first utterance determined by the utterance similarity determination unit to be similar to any of the texts of the second utterance as the text of the first utterance. The visibility may be kept lower than the text of the first utterance that was not determined to be similar to any of the texts of the two utterances.
また例えば、上記の聞き取り支援装置において、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストよりも強調表示するものであってもよい。 Further, for example, in the above-described listening support device, the parallel display creation unit may select the text of the first utterance that is not determined to be similar to any of the texts of the second utterance by the utterance similarity determination unit. The text of the first utterance determined to be similar to any of the text of the second utterance may be highlighted over the text.
また例えば、上記の聞き取り支援装置において、前記混成音声取得部は、前記混成音声情報をリアルタイムに取得し、前記個別音声取得部は、前記個別音声情報をリアルタイムに取得し、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストを表示する際に、前記個別音声情報に係る前記話者とは異なる話者が発話している旨を前記第二の発言のテキストの発言リストに表示するものであってもよい。 Further, for example, in the above listening support device, the mixed speech acquisition unit acquires the mixed speech information in real time, the individual speech acquisition unit acquires the individual speech information in real time, and the parallel display creation unit , when displaying the text of the first utterance that is not determined to be similar to any of the texts of the second utterance by the utterance similarity determination unit, a speaker different from the speaker related to the individual voice information is displayed. may be displayed in the utterance list of the text of the second utterance.
また例えば、上記の聞き取り支援装置において、前記個別音声取得部は、複数の前記個別音声情報を、複数の所定の音声入力装置から取得するものであってもよい。 Further, for example, in the listening support device described above, the individual voice acquisition unit may acquire a plurality of the individual voice information from a plurality of predetermined voice input devices.
また例えば、上記の聞き取り支援装置において、前記発言類似判定部は、前記第一の発言のテキストと略同一時刻の前記第二の発言のテキストとの類似を判定するものであってもよい。 Further, for example, in the above-described listening support device, the utterance similarity determination unit may determine similarity between the text of the first utterance and the text of the second utterance at approximately the same time.
また例えば、上記の聞き取り支援装置において、前記混成音声情報および前記個別音声情報は、同一のオンライン会議の音声であり、前記他の装置は、前記オンライン会議を制御する装置であってもよい。 Further, for example, in the above-described listening support device, the mixed speech information and the individual speech information may be speech of the same online conference, and the other device may be a device controlling the online conference.
また、本発明の別の態様にかかる聞き取り支援方法は、聞き取り支援装置を用いた聞き取り支援方法であって、前記聞き取り支援装置は、処理部を備え、前記処理部は、複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、を実施することを特徴とする。 A listening support method according to another aspect of the present invention is a listening support method using a listening support device, wherein the hearing support device includes a processing unit, and the processing unit includes a plurality of speakers' utterances. a mixed speech acquiring step of acquiring from another device mixed speech information containing the above; an individual speech acquiring step of acquiring individual speech information containing the utterance by any of the speakers from a predetermined speech input device; and the mixed speech a speaker separation step of obtaining a text of a first utterance obtained by separating the utterance from the information and a text of a second utterance specifying the utterance of one of the speakers from the individual voice information; , an utterance similarity determination step of determining similarity between the text of the first utterance and the text of the second utterance, the text of the first utterance, and the text of the second utterance, respectively; and a parallel display creating step of creating a display screen for displaying the utterance list arranged in chronological order.
また、本発明の別の態様にかかる聞き取り支援プログラムは、コンピュータを、聞き取り支援装置として機能させる聞き取り支援プログラムであって、前記コンピュータは、プロセッサを備え、前記プロセッサに、複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、を実施させることを特徴とする。 A listening support program according to another aspect of the present invention is a listening support program that causes a computer to function as a listening support device, wherein the computer includes a processor, and the processor is configured to transmit utterances of a plurality of speakers. a mixed speech acquisition step of acquiring from another device mixed speech information including the above-mentioned speech information; an individual speech acquisition step of acquiring individual speech information including the utterance by one of the speakers from a predetermined speech input device; and the mixed speech information a speaker separation step of obtaining a text of a first utterance obtained by separating said utterance from said individual voice information and a text of a second utterance specifying said utterance of any of said speakers from said individual speech information; an utterance similarity determination step of determining similarity between the text of the first utterance and the text of the second utterance; the text of the first utterance and the text of the second utterance; and a parallel display creation step of creating a display screen for displaying the series of statement lists together.
本発明によると、映像データを用いず複数人が発話する状況での聞き取り支援を行う技術を提供することができる。 According to the present invention, it is possible to provide a technique for assisting listening in a situation where a plurality of people are speaking without using video data.
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。 Problems, configurations, and effects other than those described above will be clarified by the following description of the embodiments.
以下に、本発明の一態様に係る実施形態を適用した聞き取り支援システムとなるリモート会議支援システム1について、図面を参照して説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。また、「Aからなる」、「Aよりなる」、「Aを有する」、「Aを含む」と言うときは、特にその要素のみである旨明示した場合等を除き、それ以外の要素を排除するものでないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。
A remote
以下の説明では、「表示部220」、「ブラウザ部」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のI/O(Input/Output)インターフェースデバイス。I/Oインターフェースデバイスは、I/Oデバイスと聞き取り支援装置100とのうちの少なくとも一つに対するインターフェースデバイスである。聞き取り支援装置100に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
In the following description, "
- One or more I/O (Input/Output) interface devices. The I/O interface device is an interface device for at least one of the I/O device and the
- One or more communication interface devices. The one or more communication interface devices may be one or more of the same type of communication interface device (e.g., one or more NICs (Network Interface Cards)) or two or more different types of communication interface devices (e.g., NIC and It may be an HBA (Host Bus Adapter).
また、以下の説明では、「メモリ」は、一つ以上の記憶デバイスの一例である一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。 Also, in the following description, "memory" refers to one or more memory devices, which are examples of one or more storage devices, and may typically be a main memory device. At least one memory device in the memory may be a volatile memory device or a non-volatile memory device.
また、以下の説明では、「記憶部」または「ストレージ」は、メモリと永続記憶装置のうちメモリかまたは両方であればよい。具体的には、永続記憶装置は例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、NVME(Non-Volatile Memory Express)ドライブ、又は、SCM(Storage Class Memory)でよい。 Also, in the following description, "storage unit" or "storage" may be memory or both of memory and permanent storage. In particular, the permanent storage device may be, for example, a HDD (Hard Disk Drive), an SSD (Solid State Drive), an NVME (Non-Volatile Memory Express) drive, or an SCM (Storage Class Memory).
また、以下の説明では、「処理部」または「プロセッサ」は、一つ以上のプロセッサデバイスでよい。少なくとも一つのプロセッサデバイスは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサデバイスでよいが、GPU(Graphics Processing Unit)のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア記述言語によりゲートアレイの集合体である回路(例えばFPGA(Field-Programmable Gate Array)、CPLD(Complex Programmable Logic Device)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサデバイスでもよい。 Also, in the following description, a "processing unit" or "processor" may be one or more processor devices. The at least one processor device may typically be a microprocessor device such as a CPU (Central Processing Unit), but may be another type of processor device such as a GPU (Graphics Processing Unit). At least one processor device may be single-core or multi-core. At least one processor device may be a processor core. At least one processor device is a circuit (for example, FPGA (Field-Programmable Gate Array), CPLD (Complex Programmable Logic Device) or ASIC (Application A processor device in a broad sense such as Specific Integrated Circuit) may also be used.
また、以下の説明では、「yyy部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路(例えばFPGA又はASIC)によって実現されてもよいし、それらの組合せによって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/又はインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。 In addition, in the following description, the function may be described using the expression “yyy part”, but the function may be realized by executing one or more computer programs by a processor, or may be realized by executing one or more computer programs. It may be realized by the above hardware circuits (for example, FPGA or ASIC), or may be realized by a combination thereof. When a function is realized by executing a program by a processor, the defined processing is performed using a storage device and/or an interface device as appropriate, so the function may be at least part of the processor. good. A process described with a function as the subject may be a process performed by a processor or a device having the processor. Programs may be installed from program sources. The program source may be, for example, a program distribution computer or a computer-readable recording medium (for example, a non-temporary recording medium). The description of each function is an example, and multiple functions may be combined into one function, or one function may be divided into multiple functions.
また、以下の説明では、「プログラム」や「処理部」を主語として処理を説明する場合があるが、プログラムを主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。また、二つ以上のプログラムが一つのプログラムとして実現されてもよいし、一つのプログラムが二つ以上のプログラムとして実現されてもよい。 Further, in the following explanation, the processing may be explained with the subject of "program" or "processing unit", but the processing explained with the program as the subject may be the processing performed by the processor or the device having the processor. . Also, two or more programs may be implemented as one program, and one program may be implemented as two or more programs.
また、以下の説明では、「xxxテーブル」や「yyy部」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のテーブルでもよいし、入力に対する出力を発生するニューラルネットワーク、遺伝的アルゴリズムやランダムフォレストに代表されるような学習モデルでもよい。従って、「xxxテーブル」あるいは「yyy部」を「xxx情報」と言うこともできる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルであってもよい。 In addition, in the following description, expressions such as "xxx table" and "yyy part" may be used to describe information that can be obtained as an output in response to an input, but the information may be a table of any structure. However, it may be a learning model represented by a neural network, a genetic algorithm, or a random forest that generates an output in response to an input. Therefore, the "xxx table" or "yyy part" can also be called "xxx information". Also, in the following description, the configuration of each table is an example, and one table may be divided into two or more tables, or all or part of two or more tables may be one table. may
また、以下の説明では、「リモート会議支援システム」は、一つ以上の物理的な計算機で構成されたシステムでもよいし、物理的な計算リソース群(例えば、クラウド基盤)上に実現されたシステム(例えば、クラウドコンピューティングシステム)でもよい。リモート会議支援システムが表示用情報を「表示する」ことは、計算機が有する表示デバイスに表示用情報を表示することであってもよいし、計算機が表示用計算機に表示用情報を送信することであってもよい(後者の場合は表示用計算機によって表示用情報が表示される)。 Also, in the following description, the "remote conference support system" may be a system configured with one or more physical computers, or a system implemented on a physical computing resource group (for example, cloud infrastructure). (eg, cloud computing system). "Displaying" the display information by the remote conference support system may be displaying the display information on the display device of the computer, or by the computer transmitting the display information to the display computer. (in the latter case the display information is displayed by a display computer).
会話において発話者を認識することは重要である。従来、リモート会議ではユーザーごとに音声入力系統が分けられており、音声入力があったユーザーのアイコンを強調表示させる機能などがある。また、リモート会議でのリアルタイム音声認識処理においては、音声入力系統が完全に分かれている前提で、話者のタグをつけた上でテキストを表示させることができる。 It is important to recognize the speaker in conversation. Conventionally, in remote meetings, the voice input system is divided for each user, and there is a function such as highlighting the icon of the user who has voice input. Also, in real-time speech recognition processing in a remote conference, text can be displayed after tagging the speaker, assuming that the speech input system is completely separate.
特に、聴覚障碍者がリモート会議に参加する場合には、話者が紐づけられた発話を視覚的に読み取れることが重要である。一方で、リアルタイムの音声認識処理においては、音声入力系統がユーザーごとに完全に分けられているものばかりでなく、同一の部屋から複数人が共用のマイクロフォンを用いて参加することもあり、話者識別精度によっては誰の発話かわからないこともある。このような場合であっても、聴覚障碍者は少なくとも話者ではない参加者を推定する等、話者を推定する糸口となる情報を少しでも多く得たい。 In particular, when a hearing-impaired person participates in a remote conference, it is important for the speaker to be able to visually read the associated utterance. On the other hand, in real-time speech recognition processing, not only is the speech input system completely separate for each user, but there are also cases where multiple people from the same room participate using a shared microphone. Depending on the accuracy of identification, it may not be possible to know who is speaking. Even in such a case, the hearing-impaired person would like to obtain as much information as possible, such as estimating the participants who are not the speakers, as much as possible.
つまり、音声入力系統からは一部の話者までしか絞り込めないような場合においても、発話が音声入力系統から話者を特定することができる話者によるものでないことが推定できる場合には、その推定結果または示唆を視覚的に示すことが重要である。 In other words, even in the case where only some speakers can be narrowed down from the voice input system, if it can be estimated that the utterance is not from a speaker whose speakers can be specified from the voice input system, It is important to visually show the estimation results or suggestions.
本実施形態に係る聞き取り支援装置100では、リモート会議装置200が出力する全参加者の発話が混成され得る音声情報を用いて、発話を特定できる音声入力系統を用いている参加者の発話のいずれかと類似/非類似を視覚的に示すことで、聴覚障碍者等の聞き取り支援を行う。
In the
図1は、本実施形態に係るリモート会議支援システムの構成を例示するブロック図である。リモート会議支援システム1では、会議参加者は、典型的には、端末装置(ノートパソコンやタブレット、スマートフォン等の参加者A端末400)を用いてインターネットあるいはイントラネット等のネットワーク40を介して遠隔からリモート会議装置200に接続し、他の参加者と会話によるリモート会議を行う。あるいは、別の参加者は、所定の会議室に配された会議室端末500を用いてリモート会議装置200に接続し、他の参加者と会話によるリモート会議を行う。
FIG. 1 is a block diagram illustrating the configuration of a remote conference support system according to this embodiment. In the remote
参加者A端末400は、マイクロフォンA410が設けられており、参加者Aの発話を集音し、リモート会議装置200にリアルタイムに送信する。参加者Aおよび参加者A端末400は、会議室端末500とは別の場所(例えば、遠隔地等)にあり、参加者Aの発話のみを拾うものとする。会議室端末500は、複数のマイクロフォン(共用マイクロフォン510あるいはマイクロフォンD520)が設けられており、会議室にて同席している参加者B、C、Dの発話を集音し、リモート会議装置200および聞き取り支援装置100にリアルタイムに送信する。なお、マイクロフォンD520は、ピンマイク等であり、参加者Dの発言を専ら集音するものとする。共用マイクロフォン510は、参加者B、参加者Cおよび参加者Dの間で共用され、集音方向の区別を行わないものとする。ただし、これに限られず、集音方向の区別を行うことが可能なマイクロフォンであってもよい。すなわち、参加者Dの発話は、マイクロフォンD520によってほぼ確実に音声入力されるが、共用マイクロフォン510によっては参加者Dの発言の音圧や発話方向に応じ音声入力されない場合もある。
The
リモート会議装置200は、いわゆるオンライン会議システムであり、会議の開催/運営/終了を制御する会議制御部210と、表示制御を行う表示部220と、参加者A端末400、会議室端末500、および聞き取り支援装置100との通信を行う通信部230と、を備える。会議制御部210は、会議の都度、マイクロフォンA410の識別情報(マイクロフォンID)とその利用者である参加者Aを対応付けて記憶する。また、会議制御部210は、会議の都度、マイクロフォンD520の識別情報(マイクロフォンID)とその利用者である参加者Dについても、対応付けて記憶する。なお、会議制御部210は、マイクロフォンA410と、共用マイクロフォン510と、マイクロフォンD520と、から入力された音声を統合し、重複する音声があれば重複を排除する。つまり、参加者B、Cの発言が共用マイクロフォン510およびマイクロフォンD520の両方に入力された場合でも、会議制御部210は、マイクロフォンD520からの入力を排除する。同様に、参加者Dの発言が共用マイクロフォン510およびマイクロフォンD520の両方に入力された場合でも、会議制御部210は、共用マイクロフォン510からの入力を排除する。通信部230は、ネットワーク40、ネットワーク50を介して他の装置との通信制御を行う。また、リモート会議装置200は、聞き取り支援装置100から会議の音声情報の要求を受け付けると、会議の全体会話を混成させた全体会話の音声情報を、ストリーミングあるいは音声ファイルの送信により聞き取り支援装置100に受け渡す。
The
また、リモート会議支援システム1は、参加者の一人以上が閲覧可能な閲覧装置300を備える。閲覧装置300は、独立した端末装置であってもよいし、会議室端末500あるいは参加者A端末400と兼用するものであってもよい。参加者は、閲覧装置300のブラウザ部を介して聞き取り支援装置100に画面情報を要求し、聞き取り支援装置100から全体会話録と、話者別発言とを併記表示する画面を受け取ると、表示する。
The remote
ネットワーク40は、インターネットあるいはイントラネット等のネットワークである。ネットワーク40は、これに限られず、さらに、WAN(Wide Area Network)、携帯電話網等、あるいはこれらが複合した通信網であってもよい。当該ネットワーク40は、携帯電話通信網等の無線通信網上のVPN(Virtual Private Network)等であってもよい。
The
ネットワーク50は、インターネットあるいはイントラネット等のネットワークである。ネットワーク50は、これに限られず、さらに、WAN、携帯電話網等、あるいはこれらが複合した通信網であってもよい。当該ネットワーク50は、携帯電話通信網等の無線通信網上のVPN等であってもよい。また、ネットワーク50は、ネットワーク40と同一のものであってもよい。
The
聞き取り支援装置100は、リモート会議装置200に会議の音声情報の要求を送信し、会議の全体会話を混成させた全体会話の音声情報を、ストリーミングあるいは音声ファイルによりリモート会議装置200から受け取る。そして、聞き取り支援装置100は、閲覧装置300から画面情報の要求を受け付けると、全体会話録と、話者別発言とを併記表示する画面を閲覧装置300に送信する。
The listening
聞き取り支援装置100には、記憶部110と、処理部120と、通信部130と、が含まれる。記憶部110には、マイク利用者記憶部111と、全体会話録記憶部112と、話者別発話記憶部113と、が含まれる。
Listening
図2は、マイク利用者記憶部のデータ構造例を示す図である。マイク利用者記憶部111には、マイクロフォンID111Aと、利用者名111Bと、が対応付けて記憶される。マイクロフォンID111Aは、参加者が会議に利用するマイクロフォンを識別する情報である。利用者名111Bは、マイクロフォンID111Aにより識別されるマイクロフォンを会議で使用する参加者(一人以上。二人以上の場合は共用マイクとなる)を識別する情報である。つまり、マイク利用者記憶部111は、マイクロフォンを利用する参加者を関連付け特定する情報である。
FIG. 2 is a diagram showing an example data structure of a microphone user storage unit. The microphone user storage unit 111 stores a
図3は、全体会話録記憶部のデータ構造例を示す図である。全体会話録記憶部112には、発話識別子112Aと、発話時刻112Bと、発話テキスト112Cと、が対応付けて記憶される。発話識別子112Aは、会議内における発話を識別する情報である。発話時刻112Bは、会議の参加者により発話がなされた日時を特定する情報である。発話テキスト112Cは、会議の参加者による発話をテキスト化した情報である。
FIG. 3 is a diagram showing an example of the data structure of the general conversation record storage unit. The entire conversation
図4は、話者別発話記憶部のデータ構造例を示す図である。話者別発話記憶部113には、利用者113Aと、発話識別子113Bと、発話時刻113Cと、発話テキスト113Dと、マイクロフォンID113Eと、が対応付けて記憶される。利用者113Aは、参加者を識別する情報である。発話識別子113Bは、会議内における発話を識別する情報である。発話時刻113Cは、会議の参加者により発話がなされた日時を特定する情報である。発話テキスト113Dは、会議の参加者による発話をテキスト化した情報である。マイクロフォンID113Eは、参加者が会議に利用したマイクロフォンを識別する情報である。
FIG. 4 is a diagram showing an example data structure of a speaker-specific utterance storage unit. Speaker-specific
図1の説明に戻る。処理部120には、混成音声取得部121と、個別音声取得部122と、話者分離部123と、音響モデリング部124と、言語モデリング部125と、発言類似判定部126と、併記表示作成部127と、が含まれる。
Returning to the description of FIG. The
混成音声取得部121は、複数の話者の発話を含む混成音声情報を他の装置から取得する。具体的には、混成音声取得部121は、リモート会議装置200に会議の混成音声情報を要求し、参加者の発言のすべてを含む全体会話の混成音声情報を取得する。
The mixed speech acquisition unit 121 acquires mixed speech information including utterances of a plurality of speakers from another device. Specifically, the mixed voice acquisition unit 121 requests the
個別音声取得部122は、いずれかの話者による発話を含む個別音声情報を所定の音声入力装置から取得する。具体的には、個別音声取得部122は、共用マイクロフォン510と、マイクロフォンD520と、から個別音声情報を取得する。
The individual
話者分離部123は、混成音声情報から発話を分離して得た第一の発言のテキスト(以降、混成音声テキストともいう)と、個別音声情報から話者のいずれかの発話を特定した第二の発言のテキスト(以降、個別音声テキスト)と、を得る。具体的には、話者分離部123は、音響モデリング部124および言語モデリング部125が作成した音素モデルと言語モデルを用いて、発話をテキスト化した情報を得る。あるいは、話者分離部123は、所定のアルゴリズムを用いて音程および音圧の差、抑揚等に着目して深層学習を行ったニューラルネットワークを構築し、話者ダイアライゼーション処理を行い、環境音、話者別の発話の分離およびそのテキスト化を行うものであってもよい。あるいは、話者分離部123は、図示しない外部のクラウドサービスとしての音声認識サービスを利用して発話をテキスト化した情報を得るものであってもよい。
The
音響モデリング部124は、混成音声情報および個別音声情報から分離した発話を対象として波形の特徴量の類似を発音辞書とパターンマッチ処理し、音素列を推定するための音素モデルを作成する。
言語モデリング部125は、音素列に対し適用して類似する単語や語にあてはめ推論を行ってテキスト化を行うための言語モデルを作成する。
The
発言類似判定部126は、ほぼ同一の時刻において混成音声情報から発話を分離した第一の発言のテキスト(混成音声テキスト)と、個別音声情報から発話を特定した第二の発言のテキスト(個別音声テキスト)と、の類似を判定する。具体的には、発言類似判定部126は、コサイン類似度等を算出してテキスト間距離を算出し、類否を判定する。なお、これに限られず、発言類似判定部126は、テキスト間の類似を判定する公知の各種手段により類似を判定するものであってよい。
The utterance
併記表示作成部127は、混成音声テキストと、個別音声テキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する。例えば、併記表示作成部127は、発言類似判定部126により個別音声テキストのいずれかと類似すると判定された混成音声テキストについては、個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストとは表示態様を異ならせて画面情報を作成する。
The parallel
あるいは、併記表示作成部127は、発言類似判定部126により個別音声テキストのいずれかと類似すると判定された混成音声テキストについては、個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストよりも視認性を低く抑えて(フォントサイズの小型化、文字色の彩度低下等を行い)画面情報を作成する。
Alternatively, the parallel
また、併記表示作成部127は、発言類似判定部126により個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストについては、個別音声テキストのいずれかと類似すると判定された混成音声テキストよりも強調表示(太字化、フォントサイズの大型化、下線表示、点滅表示等)するように画面情報を作成するものであってもよい。
In addition, the parallel
なお、併記表示作成部127は、発言類似判定部126により個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストを表示する際に、個別音声情報に係る話者とは異なる話者が発話している旨を個別音声テキストの発言リストに表示するようにしてもよい。このようにすることで、少なくとも容易に特定可能な話者ではない参加者が話者であることを示すことができる。
Note that, when displaying the mixed voice text that was not determined to be similar to any of the individual voice texts by the utterance
通信部130は、ネットワーク50を介してリモート会議装置200との通信を行う。
The
図5は、聞き取り支援装置のハードウェア構成例を示す図である。聞き取り支援装置100は、いわゆるサーバー装置、ワークステーション、パーソナルコンピューター、スマートフォンあるいはタブレット端末の筐体により実現されるハードウェア構成を備える。聞き取り支援装置100は、プロセッサ101と、メモリ102と、ストレージ103と、通信装置104と、各装置をつなぐバス107と、を備える。リモート会議装置200についても、同様である。また他に、リモート会議装置200は、タッチパネルやキーボード、ディスプレイ等の入出力装置を備える。
FIG. 5 is a diagram showing a hardware configuration example of a listening support device. The listening
プロセッサ101は、例えばCPU(Central Processing Unit)などの演算装置である。
The
メモリ102は、例えばRAM(Random Access Memory)などのメモリ装置である。
The
ストレージ103は、デジタル情報を記憶可能な、いわゆるハードディスク(Hard Disk Drive)やSSD(Solid State Drive)あるいはフラッシュメモリなどの不揮発性記憶装置である。
The
通信装置104は、ネットワークカード等の有線通信装置、あるいは無線通信装置である。
The
上記した聞き取り支援装置100の混成音声取得部121と、個別音声取得部122と、話者分離部123と、音響モデリング部124と、言語モデリング部125と、発言類似判定部126と、併記表示作成部127とは、プロセッサ101に処理を行わせるプログラムによって実現される。このプログラムは、メモリ102、ストレージ103または図示しないROM装置内に記憶され、実行にあたってメモリ102上にロードされ、プロセッサ101により実行される。
Mixed speech acquisition unit 121, individual
また、聞き取り支援装置100の記憶部110は、メモリ102及びストレージ103により実現される。また、通信部130は、通信装置104により実現される。以上が、聞き取り支援装置100のハードウェア構成例である。
Also, the
聞き取り支援装置100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
The configuration of listening
また、各処理部(混成音声取得部121と、個別音声取得部122と、話者分離部123と、音響モデリング部124と、言語モデリング部125と、発言類似判定部126と、併記表示作成部127)は、それぞれの機能を実現する専用のハードウェア(ASIC、GPUなど)により構築されてもよい。また、各処理部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
In addition, each processing unit (mixed speech acquisition unit 121, individual
次に、本実施形態におけるリモート会議支援システム1の動作を説明する。
Next, the operation of the remote
図6は、会議記録フローの例を示す図である。会議記録フローは、例えばリモート会議装置200に対するいずれかの参加者からの操作により開始される。
FIG. 6 is a diagram showing an example of a conference recording flow. A conference recording flow is started, for example, by an operation of one of the participants on the
まず、リモート会議装置200は、会議を開始する(ステップS001)。具体的には、会議制御部210は、リモート会議室を開設し、参加者と利用するマイクロフォンIDの対応付けの入力を参加者から受け付けて、聞き取り支援装置100のマイク利用者記憶部111に格納する。
First, the
会議開始後、共用マイクロフォン510において発話を受け付けた場合には、共用マイクロフォン510は、受け付けた発話Pの音声データを聞き取り支援装置100および会議室端末500に送信する。図示しないが、会議室端末500は、発話Pの音声データをリモート会議装置200に送信する(ステップS002)。そして、リモート会議装置200の会議制御部210は、発話Pを受け付けると、発話Pを全体会話を構成する発話P´として盛り込んだ混成音声情報を作成し、聞き取り支援装置100に送信する(ステップS003)。
After the conference starts, when an utterance is received by the shared
聞き取り支援装置100の混成音声取得部121はリモート会議装置200から全体会話として発話P´を受け付け、個別音声取得部122は共用マイクロフォン510から個別音声の発話Pを発話P´´として受け付ける。
The mixed speech acquisition unit 121 of the listening
そして、聞き取り支援装置100は、発話P´と発話P´´について後述する発話認識処理を行い、話者区別画面と全体会話画面とを含む画面情報を作成し閲覧装置300に送信する(ステップS004)。
Then, listening
閲覧装置300のブラウザ部は、発話P´と、発話P´´とについて、テキスト化した情報を受け付けて、表示する(ステップS005)。
The browser unit of the
参加者A端末400のマイクロフォンA410において発話者Aによる発話を受け付けた場合には、参加者A端末400は、受け付けた発話Qの音声データをリモート会議装置200に送信する(ステップS006)。そして、リモート会議装置200の会議制御部210は、発話Qを受け付けると、発話Qを全体会話を構成する発話Q´として盛り込んだ混成音声情報を作成し、聞き取り支援装置100に送信する(ステップS007)。
When the microphone A410 of the
聞き取り支援装置100の混成音声取得部121はリモート会議装置200から全体会話として発話Q´を受け付ける。
The mixed speech acquisition unit 121 of the listening
そして、聞き取り支援装置100は、発話Q´について後述する発話認識処理を行い、話者区別画面と全体会話画面とを含む画面情報を作成し閲覧装置300に送信する(ステップS008)。
Then, listening
閲覧装置300のブラウザ部は、発話Q´について、テキスト化した情報を受け付けて、表示する(ステップS009)。
The browser unit of the
マイクロフォンD520において発話を受け付けた場合には、マイクロフォンD520は、受け付けた発話Rの音声データを聞き取り支援装置100および会議室端末500に送信する。図示しないが、会議室端末500は、発話Rの音声データをリモート会議装置200に送信する(ステップS010)。そして、リモート会議装置200の会議制御部210は、発話Rを受け付けると、発話Rを全体会話を構成する発話R´として盛り込んだ混成音声情報を作成し、聞き取り支援装置100に送信する(ステップS011)。
When the microphone D520 receives an utterance, the microphone D520 transmits the audio data of the received utterance R to the listening
聞き取り支援装置100の混成音声取得部121はリモート会議装置200から全体会話として発話R´を受け付け、個別音声取得部122はマイクロフォンD520から個別音声の発話Rを発話R´´として受け付ける。
The mixed speech acquisition unit 121 of the listening
そして、聞き取り支援装置100は、発話R´と発話R´´について後述する発話認識処理を行い、話者区別画面と全体会話画面とを含む画面情報を作成し閲覧装置300に送信する(ステップS012)。
Then, listening
閲覧装置300のブラウザ部は、発話R´と、発話R´´とについて、テキスト化した情報を受け付けて、表示する(ステップS013)。
The browser unit of
このような会議記録を会議の終了まで繰り返し実施し、リモート会議装置200は、会議を終了させる(ステップS014)。
Such conference recording is repeated until the conference ends, and the
以上が、会議記録フローである。会議記録フローによれば、会議の開始から終了までの間、会議に参加している参加者と、利用するマイクロフォンからの入力とを対応付けて記録し、閲覧装置300の画面上に全体会話と対比可能に表示することができる。
The above is the conference recording flow. According to the conference recording flow, from the start to the end of the conference, the participants participating in the conference and the input from the microphone used are recorded in association with each other, and the entire conversation is displayed on the screen of the
図7は、発話認識処理フローの例を示す図である。発話認識処理フローは、会議記録フローのステップS004、S008、S012において、聞き取り支援装置100において開始される。
FIG. 7 is a diagram showing an example of a speech recognition processing flow. The speech recognition processing flow is started in listening
まず、混成音声取得部121および個別音声取得部122は、音声データを受信する(ステップS101)。具体的には、混成音声取得部121および個別音声取得部122はそれぞれ、リモート会議装置200から混成音声情報と、共用マイクロフォン510およびマイクロフォンD520から個別音声情報を受信する。
First, the mixed speech acquisition unit 121 and the individual
そして、話者分離部123は、受信した音声データが全体会話であるか否か判定する(ステップS102)。具体的には、話者分離部123は、ステップS101にて受信した音声データについて、混成音声取得部121が取得したものであれば全体会話であると判定し、個別音声取得部122が取得したものであれば全体会話でないと判定する。
Then, the
受信した音声データが全体会話でない場合(ステップS102にて「NO」の場合)には、話者分離部123は、発話元のマイクロフォンIDを特定する(ステップS103)。そして、話者分離部123は、マイク利用者記憶部111を参照して、話者を絞り込む(ステップS104)。具体的には、話者分離部123は、ステップS103において特定したマイクロフォンIDについて対応付けられている利用者を、マイク利用者記憶部111を検索して特定する。
If the received voice data is not a general conversation ("NO" in step S102),
そして、話者分離部123は、受信した音声データから、音声と環境音を分離する(ステップS105)。この処理では、話者分離部123は、音響モデリング部124に、個別音声情報を対象として音素モデルを構築させ、音素モデルを用いて音素列を推定する。
Then, the
そして、話者分離部123は、音素列を音声認識してテキスト化する(ステップS106)。具体的には、話者分離部123は、話者分離部123により推定された音素列について、言語モデルを適用して類似する単語や語にあてはめ推論を行ってテキスト化を行う。
Then, the
そして、併記表示作成部127は、話者ごとにテキストを表示する画面を作成する(ステップS107)。そして、作成した話者区別画面を閲覧装置300に送信する(ステップS108)。
Then, the parallel
受信した音声データが全体会話である場合(ステップS102にて「YES」の場合)には、話者分離部123は、受信した音声データから、音声と環境音を分離する(ステップS109)。この処理では、話者分離部123は、音響モデリング部124に、混成音声情報を対象としてフーリエ変換を行って合成されているサイン波に分離し、各波形の特徴量を特定する。
If the received voice data is a general conversation ("YES" in step S102), the
そして、話者分離部123は、音声について話者ごとに分離する(ステップS110)。具体的には、話者分離部123は、分離した各波形について音響モデリング部124に音素モデルを構築させ、音素モデルを用いて音素列を推定する。
Then, the
そして、話者分離部123は、話者分離に成功したか否か判定する(ステップS111)。具体的には、話者分離部123は、音素モデルの作成に成功した場合には、話者分離に成功したと判定する。
Then, the
話者分離に成功しなかった場合(ステップS111にて「NO」の場合)には、言語モデリング部125は、認識不能の発話であるとして、音声データを「識別不能」等のダミーテキストに置き換える(ステップS112)。そして、併記表示作成部127は、制御をステップS115に進める。
If the speaker separation is not successful ("NO" in step S111), the
話者分離に成功した場合(ステップS111にて「YES」の場合)には、話者分離部123は、音素列を音声認識してテキスト化する(ステップS113)。具体的には、話者分離部123は、音響モデリング部124により構築された音素モデルを用いて音素を推定し、言語モデルを適用して類似する単語や語にあてはめ推論を行ってテキスト化を行う。
If the speaker separation is successful ("YES" in step S111), the
そして、発言類似判定部126は、個別会話テキストと類似しないテキストをマーキングする(ステップS114)。具体的には、発言類似判定部126は、ステップS113にて得た話者ごとのテキストそれぞれについて、ステップS106において得た略同一時刻における個別音声情報のテキストとの類似距離を算出して、類似しない場合には該話者のテキストをマーキングする。
Then, the statement
そして、併記表示作成部127は、マーキングしたテキストを強調表示して画面を作成する(ステップS115)。具体的には、併記表示作成部127は、混成音声テキストと、個別音声テキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する。例えば、併記表示作成部127は、マーキングされなかったテキストをマーキングされたテキストよりも視認性を低く抑えて(フォントサイズの小型化、文字色の彩度低下等を行い)画面情報を作成する。あるいは、マーキングされたテキストをマーキングされなかったテキストよりも強調表示(太字化、フォントサイズの大型化、下線表示、点滅表示等)するように画面情報を作成する。
Then, the parallel
そして、併記表示作成部127は、作成した全体会話画面を閲覧装置300に送信する(ステップS116)。
Then, the parallel
以上が、発話認識処理フローの例である。発話認識処理によれば、個別音声情報についてはテキスト化を行って表示し、混成音声情報についてはテキスト化を行って表示するとともに、個別音声情報と類似するテキストについては類似しないテキストよりも淡く目立たないように並列して表示することができる。このようにすることで、発話者が不明なマイクロフォンによる入力がなされた場合においても、発話者を推定する糸口となる情報を提示することができる。 The above is an example of the speech recognition processing flow. According to the utterance recognition processing, the individual voice information is converted into text and displayed, the mixed voice information is converted into text and displayed, and the text similar to the individual voice information stands out more faintly than the dissimilar text. can be displayed side by side. By doing so, even when an input is made from a microphone whose speaker is unknown, it is possible to present information that serves as a clue for estimating the speaker.
なお、併記表示作成部127は、ステップS115において、発言類似判定部126により個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストを表示する際に、個別音声情報に係る話者とは異なる話者が発話している旨を個別音声テキストの発言リストに表示する画面を作成するようにしてもよい。このようにすることで、少なくとも容易に特定可能な話者ではない参加者が話者であることを示すことができる。
Note that, in step S115, the parallel
図8は、会話確認画面の例を示す図である。会話確認画面600の例は、発話認識処理のステップS108およびステップS116において作成される各画面を話者別発話領域602と全体会話録領域601とにそれぞれ表示させる統合画面の例である。
FIG. 8 is a diagram showing an example of a conversation confirmation screen. An example of
話者別発話領域602には、発話者の特定が可能なマイクロフォンから入力された発話について、発話者と、発話内容のテキストと、発話時刻と、が時系列に示される。なお、話者別発話領域602は、発話者の昇順/降順にソートをして再表示したり、発話時刻の昇順/降順にソートして再表示したりするように指示を受ける入力領域、およびスクロール操作を受け付けるスクロールバーを備えている。
In the speaker-by-
全体会話録領域601には、発話者の特定が可能なマイクロフォンおよび発話者の特定が不可能なマイクロフォンから入力された会議内のすべての発話について、発話内容のテキストが時系列に示される。なお、全体会話録領域601は、話者別発話領域602に表示されているテキストと類似しないテキストが太字協調表示され、発話が不明瞭あるいは分離不能に発話期間が重複する発話がある場合には「認識エラー」のテキストが表示される。このように表示することで、映像データを用いない音声会議の場合であっても、複数人が発話する状況での聞き取りを支援することができる。
In the whole
図9は、会話確認画面の別の例を示す図である。会話確認画面600´は、基本的には会話確認画面600と同様の画面である。相違点としては、会話確認画面600において示した会話録において、話者別発話領域602に表示されているテキストと類似しないテキストが太字協調表示される際に話者別発話領域602に個別音声情報に係る話者とは異なる話者が発話している旨が表示される点である。
FIG. 9 is a diagram showing another example of the conversation confirmation screen. The
このように会話確認画面600´を示すことで、特に聴覚障碍者等は、話者の特定ができない場合であっても、少なくとも話者ではない参加者を推定する等、話者を推定する糸口となる情報を得ることができる。
By showing the
以上が、実施形態に係るリモート会議支援システムの例である。該実施形態に係るリモート会議支援システム1の例によれば、映像データを用いない音声会議の場合であっても、複数人が発話する状況での聞き取りを支援することができる
The above is an example of the remote conference support system according to the embodiment. According to the example of the remote
また、上記実施形態の例は、一般的なリモート会議について説明したものであるが、発話者の顔や口の映像データを得るリモート会議について適用することもできる。この場合には、発話者を特定する情報がさらに多く得られるため、発話者の特定精度をさらに高めることができるといえる。 In addition, although the example of the above embodiment has been described for a general remote conference, it can also be applied to a remote conference for obtaining video data of the speaker's face and mouth. In this case, more information for identifying the speaker can be obtained, so it can be said that accuracy in identifying the speaker can be further improved.
また、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品のような複数の部分に分けられて適用されるようにしてもよい。 Also, the technical elements of the above-described embodiments may be applied singly, or may be applied after being divided into a plurality of parts such as program parts and hardware parts.
以上、本発明について、実施形態を中心に説明した。 The present invention has been described above with a focus on the embodiments.
1・・・リモート会議支援システム、40、50・・・ネットワーク、100・・・聞き取り支援装置、110・・・記憶部、111・・・マイク利用者記憶部、112・・・全体会話録記憶部、113・・・話者別発話記憶部、120・・・処理部、121・・・混成音声取得部、122・・・個別音声取得部、123・・・話者分離部、124・・・音響モデリング部、125・・・言語モデリング部、126・・・発言類似判定部、127・・・併記表示作成部、130・・・通信部、200・・・リモート会議装置、210・・・会議制御部、220・・・表示部、230・・・通信部、300・・・閲覧装置、400・・・
参加者A端末、410・・・マイクロフォン、500・・・会議室端末、510・・・共用マイクロフォン、520・・・マイクロフォンD。
REFERENCE SIGNS
Participant A terminal, 410... microphone, 500... conference room terminal, 510... shared microphone, 520... microphone D.
Claims (10)
いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得部と、
前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離部と、
前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定部と、
前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成部と、
を備えることを特徴とする聞き取り支援装置。 a mixed speech acquisition unit that acquires mixed speech information including utterances of a plurality of speakers from another device;
an individual voice acquisition unit that acquires individual voice information including the utterance by any of the speakers from a predetermined voice input device;
A speaker who obtains a text of a first utterance obtained by separating said utterance from said mixed voice information and a text of a second utterance specifying any of said utterances of said speaker from said individual voice information. a separation unit;
an utterance similarity determination unit that determines similarity between the text of the first utterance and the text of the second utterance;
a parallel display creation unit for creating a display screen for displaying together an utterance list in which the text of the first utterance and the text of the second utterance are arranged in chronological order;
A listening support device comprising:
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストと表示態様を異ならせる、
ことを特徴とする聞き取り支援装置。 The listening support device according to claim 1,
The parallel display creation unit determines that the text of the first utterance determined to be similar to any of the texts of the second utterance by the utterance similarity determination unit is similar to any of the texts of the second utterance. making the display mode different from the text of the first utterance that was not determined;
A listening support device characterized by:
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストよりも視認性を低く抑える、
ことを特徴とする聞き取り支援装置。 The listening support device according to claim 1 or 2,
The parallel display creation unit determines that the text of the first utterance determined to be similar to any of the texts of the second utterance by the utterance similarity determination unit is similar to any of the texts of the second utterance. keeping the visibility lower than the text of the first utterance that was not judged;
A listening support device characterized by:
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストよりも強調表示する、
ことを特徴とする聞き取り支援装置。 The listening support device according to any one of claims 1 to 3,
The side-by-side display creation unit determines that the text of the first utterance that is not determined to be similar to any of the texts of the second utterance by the utterance similarity determination unit is similar to any of the texts of the second utterance. highlighting over the text of the first utterance determined to be
A listening support device characterized by:
前記混成音声取得部は、前記混成音声情報をリアルタイムに取得し、
前記個別音声取得部は、前記個別音声情報をリアルタイムに取得し、
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストを表示する際に、前記個別音声情報に係る前記話者とは異なる話者が発話している旨を前記第二の発言のテキストの発言リストに表示する、
ことを特徴とする聞き取り支援装置。 The listening support device according to any one of claims 1 to 4,
The mixed speech acquisition unit acquires the mixed speech information in real time,
The individual voice acquisition unit acquires the individual voice information in real time,
The parallel display creation unit, when displaying the text of the first utterance that has not been determined to be similar to any of the texts of the second utterance by the utterance similarity determination unit, displays the text of the first utterance related to the individual voice information. displaying in the utterance list of the text of the second utterance that a speaker different from the speaker is uttering.
A listening support device characterized by:
前記個別音声取得部は、複数の前記個別音声情報を、複数の所定の音声入力装置から取得する、
ことを特徴とする聞き取り支援装置。 The listening support device according to any one of claims 1 to 5,
The individual voice acquisition unit acquires the plurality of individual voice information from a plurality of predetermined voice input devices,
A listening support device characterized by:
前記発言類似判定部は、前記第一の発言のテキストと略同一時刻の前記第二の発言のテキストとの類似を判定する、
ことを特徴とする聞き取り支援装置。 The listening support device according to any one of claims 1 to 6,
The utterance similarity determination unit determines similarity between the text of the first utterance and the text of the second utterance at substantially the same time.
A listening support device characterized by:
前記混成音声情報および前記個別音声情報は、同一のオンライン会議の音声であり、前記他の装置は、前記オンライン会議を制御する装置である、
ことを特徴とする聞き取り支援装置。 The listening support device according to any one of claims 1 to 7,
The mixed audio information and the individual audio information are audio of the same online conference, and the other device is a device that controls the online conference.
A listening support device characterized by:
前記聞き取り支援装置は、処理部を備え、
前記処理部は、
複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、
いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、
前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、
を実施することを特徴とする聞き取り支援方法。 A listening support method using a hearing support device,
The listening support device includes a processing unit,
The processing unit is
a mixed speech obtaining step of obtaining mixed speech information including utterances of multiple speakers from another device;
an individual voice acquisition step of acquiring individual voice information including the utterance by any of the speakers from a predetermined voice input device;
A speaker who obtains a text of a first utterance obtained by separating said utterance from said mixed voice information and a text of a second utterance specifying any of said utterances of said speaker from said individual voice information. a separation step;
an utterance similarity determination step of determining similarity between the text of the first utterance and the text of the second utterance;
a parallel display creating step of creating a display screen for displaying together an utterance list in which the text of the first utterance and the text of the second utterance are arranged in chronological order;
A hearing assistance method characterized by carrying out.
前記コンピュータは、プロセッサを備え、
前記プロセッサに、
複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、
いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、
前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、
を実施させることを特徴とする聞き取り支援プログラム。 A listening support program that causes a computer to function as a listening support device,
The computer comprises a processor,
to the processor;
a mixed speech obtaining step of obtaining mixed speech information including utterances of multiple speakers from another device;
an individual voice acquisition step of acquiring individual voice information including the utterance by any of the speakers from a predetermined voice input device;
A speaker who obtains a text of a first utterance obtained by separating said utterance from said mixed voice information and a text of a second utterance specifying any of said utterances of said speaker from said individual voice information. a separation step;
an utterance similarity determination step of determining similarity between the text of the first utterance and the text of the second utterance;
a parallel display creating step of creating a display screen for displaying together an utterance list in which the text of the first utterance and the text of the second utterance are arranged in chronological order;
A listening support program characterized by implementing
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021045420A JP2022144417A (en) | 2021-03-19 | 2021-03-19 | Hearing support device, hearing support method and hearing support program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021045420A JP2022144417A (en) | 2021-03-19 | 2021-03-19 | Hearing support device, hearing support method and hearing support program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2022144417A true JP2022144417A (en) | 2022-10-03 |
Family
ID=83455150
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021045420A Pending JP2022144417A (en) | 2021-03-19 | 2021-03-19 | Hearing support device, hearing support method and hearing support program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2022144417A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115938386A (en) * | 2022-12-28 | 2023-04-07 | 思必驰科技股份有限公司 | Voice separation method and system based on multi-speaker voice detection and electronic equipment |
-
2021
- 2021-03-19 JP JP2021045420A patent/JP2022144417A/en active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115938386A (en) * | 2022-12-28 | 2023-04-07 | 思必驰科技股份有限公司 | Voice separation method and system based on multi-speaker voice detection and electronic equipment |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112075075B (en) | Method and computerized intelligent assistant for facilitating teleconferencing | |
| JP6714607B2 (en) | Method, computer program and computer system for summarizing speech | |
| CN108399923B (en) | More human hairs call the turn spokesman's recognition methods and device | |
| US10706873B2 (en) | Real-time speaker state analytics platform | |
| JP6042015B1 (en) | Online interview evaluation apparatus, method and program | |
| JP4466666B2 (en) | Minutes creation method, apparatus and program thereof | |
| US20170270930A1 (en) | Voice tallying system | |
| CN110600013B (en) | Non-parallel corpus voice conversion data augmentation model training method and device | |
| JP7526846B2 (en) | voice recognition | |
| US20120179465A1 (en) | Real time generation of audio content summaries | |
| JP6172417B1 (en) | Language learning system and language learning program | |
| JP2008225068A (en) | Minutes creation method, its device and its program | |
| Goto et al. | Face2Speech: Towards Multi-Speaker Text-to-Speech Synthesis Using an Embedding Vector Predicted from a Face Image. | |
| TW201214413A (en) | Modification of speech quality in conversations over voice channels | |
| US20220231873A1 (en) | System for facilitating comprehensive multilingual virtual or real-time meeting with real-time translation | |
| JP2013205842A (en) | Voice interactive system using prominence | |
| JP5196199B2 (en) | Keyword display system, keyword display method, and program | |
| CN107910004A (en) | Speech translation processing method and device | |
| JP2020140169A (en) | Speaker determination device, speaker determination method, and speaker determination device control program | |
| JP2010109898A (en) | Photographing control apparatus, photographing control method and program | |
| CN109616116B (en) | Communication system and communication method thereof | |
| JP2022144417A (en) | Hearing support device, hearing support method and hearing support program | |
| CN118588088A (en) | Intelligent conference speech recognition method and computer device | |
| WO2021134592A1 (en) | Speech processing method, apparatus and device, and storage medium | |
| JP2013182353A (en) | Voice character converting operation support device, voice character conversion system, voice character converting operation support method and program |