JP7299587B2 - Information processing device, speech recognition system and speech recognition program - Google Patents

Information processing device, speech recognition system and speech recognition program Download PDF

Info

Publication number
JP7299587B2
JP7299587B2 JP2019019139A JP2019019139A JP7299587B2 JP 7299587 B2 JP7299587 B2 JP 7299587B2 JP 2019019139 A JP2019019139 A JP 2019019139A JP 2019019139 A JP2019019139 A JP 2019019139A JP 7299587 B2 JP7299587 B2 JP 7299587B2
Authority
JP
Japan
Prior art keywords
recognition
lip
recognition model
image data
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019019139A
Other languages
Japanese (ja)
Other versions
JP2020126492A (en
Inventor
悠斗 後藤
将樹 能勢
悟 速水
哲嗣 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Tokai National Higher Education and Research System NUC
Original Assignee
Ricoh Co Ltd
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd, Tokai National Higher Education and Research System NUC filed Critical Ricoh Co Ltd
Priority to JP2019019139A priority Critical patent/JP7299587B2/en
Publication of JP2020126492A publication Critical patent/JP2020126492A/en
Application granted granted Critical
Publication of JP7299587B2 publication Critical patent/JP7299587B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理装置、発話認識システム及び音声認識プログラムに関する。 The present invention relates to an information processing device, an utterance recognition system, and a speech recognition program.

近年の音声認識システムでは、音声情報を補完するために、画像情報を使って発話者の口唇の動きから発話内容を認識する機械読唇技術(リップリーディング)が既に知られている。 In recent speech recognition systems, a machine lip-reading technology (lip reading) is already known, which uses image information to recognize the contents of speech from the movement of the lips of the speaker in order to complement the speech information.

また、音声認識に画像情報を用いる技術の1つとして、広角撮影装置で撮像された顔画像を平面正則画像に変換し、参加者と広角撮影装置との距離に応じて、口唇領域を抽出する際の倍率を設定する技術が知られている。 In addition, as one technology that uses image information for speech recognition, face images captured by a wide-angle camera are converted into planar regular images, and the lip region is extracted according to the distance between the participant and the wide-angle camera. Techniques for setting the actual magnification are known.

会議等では、話者が着席する位置や姿勢、話者の動き等によって、撮像装置と話者との距離が変化する。そのため、音声情報の補間として入力される画像情報では、話者の口唇領域の大きさが常に一定である保証はなく、認識器へ入力される画像情報の解像度にばらつきが生じ、発話内容の認識の精度を向上させることが困難であった。 In a conference or the like, the distance between the imaging device and the speaker changes depending on the position and posture of the speaker, the movement of the speaker, and the like. For this reason, image information input as interpolation of speech information does not guarantee that the size of the speaker's lip region is always constant. It was difficult to improve the accuracy of

開示の技術は、発話内容の認識精度を向上させることを目的とする。 An object of the technology disclosed herein is to improve the recognition accuracy of speech content.

開示の技術は、撮像装置によって撮像された動画データが入力される入力部と、前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する口唇領域抽出部と、前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する認識モデル選択部と、選択された認識モデルを用いて前記人物の発話内容を認識する発話認識部と、前記発話内容の認識結果を出力する出力部と、前記撮像装置と前記人物との距離を異ならせて前記人物を撮像した動画データから抽出された口唇領域画像データを用いて学習させた複数の認識モデルが格納された記憶部と、前記撮像装置と前記人物との距離に応じて、前記複数の認識モデルの中から、発話内容の認識に使用する認識モデルを選択する認識モデル選択部と、を有し、前記認識モデル選択部は、前記連続した口唇画像の横幅の画素数の平均値が所定値未満である場合、発話内容の認識不可とし、前記連続した口唇画像の横幅の画素数の平均値が前記所定値以上であり、且つ、前記所定値より大きい値である第一の値未満である場合に、前記複数の認識モデルの中から、遠距離用の認識モデルを選択し、前記連続した口唇画像の横幅の画素数の平均値が前記第一の値以上であり、且つ、前記第一の値よりも大きい値である第二の値未満である場合に、前記複数の認識モデルの中から、中距離用の認識モデルを選択し、前記連続した口唇画像の横幅の画素数の平均値が前記第二の値以上である場合に、前記複数の認識モデルの中から、近距離用の認識モデルを選択する情報処理装置である。


The technology disclosed recognizes an input unit to which moving image data captured by an imaging device is input, and an image of each frame included in the moving image data. and a lip region extracting unit for extracting lip region image data indicating the lip region image data, and selects a recognition model to be used for recognizing the utterance content of the person from among a plurality of recognition models based on the attribute information given to the lip region image data. an utterance recognition unit for recognizing the speech content of the person using the selected recognition model; an output unit for outputting a recognition result of the speech content; and a distance between the imaging device and the person. A storage unit that stores a plurality of recognition models trained using lip region image data extracted from video data of the person captured with different values, and a distance between the imaging device and the person, a recognition model selection unit that selects a recognition model to be used for recognizing speech content from among the plurality of recognition models , wherein the recognition model selection unit averages the number of horizontal pixels of the consecutive lip images. If the value is less than a predetermined value, the content of the utterance cannot be recognized, and the average value of the number of pixels in the horizontal width of the consecutive lip images is equal to or greater than the predetermined value, and is greater than the predetermined value. if the value is less than the first value, a long-distance recognition model is selected from the plurality of recognition models, and the average value of the number of horizontal pixels of the continuous lip images is equal to or greater than the first value; , if it is less than a second value that is larger than the first value, a recognition model for middle distance is selected from the plurality of recognition models, and pixels of the horizontal width of the continuous lip image are selected. The information processing apparatus selects a short-distance recognition model from among the plurality of recognition models when the average value of the numbers is equal to or greater than the second value.


発話内容の認識精度を向上させることができる。 It is possible to improve the recognition accuracy of the speech content.

第一の実施形態の発話認識システムについて説明する図である。BRIEF DESCRIPTION OF THE DRAWINGS It is a figure explaining the speech recognition system of 1st embodiment. 第一の実施形態の情報処理装置のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the information processing apparatus of 1st embodiment. 第一の実施形態の情報処理装置の機能を説明する図である。3 is a diagram illustrating functions of the information processing apparatus according to the first embodiment; FIG. 第一の実施形態の情報処理装置の処理を説明する第一のフローチャートである。4 is a first flowchart for explaining processing of the information processing device of the first embodiment; 第一の実施形態の情報処理装置の処理を説明する第二のフローチャートである。9 is a second flowchart for explaining processing of the information processing device of the first embodiment; 第一の実施形態の口唇画像を説明する図である。It is a figure explaining the lip image of 1st embodiment. 第一の実施形態の認識モデルの選択について説明する図である。FIG. 4 is a diagram illustrating selection of a recognition model according to the first embodiment; FIG. 第一の実施形態の認識モデルについて説明する第一の図である。FIG. 4 is a first diagram for explaining a recognition model of the first embodiment; FIG. 第一の実施形態の認識モデルについて説明する第二の図である。FIG. 11 is a second diagram for explaining the recognition model of the first embodiment; 第二の実施形態の情報処理装置の機能を説明する図である。It is a figure explaining the function of the information processing apparatus of 2nd embodiment. 第二の実施形態の情報処理装置の処理を説明する第一のフローチャートである。FIG. 11 is a first flowchart for explaining processing of the information processing device of the second embodiment; FIG. 第二の実施形態の認識モデルについて説明する第一の図である。FIG. 11 is a first diagram illustrating a recognition model of the second embodiment; FIG. 第二の実施形態の認識モデルについて説明する第二の図である。FIG. 11 is a second diagram for explaining the recognition model of the second embodiment; 第三の実施形態の認識モデルの選択について説明する図である。FIG. 12 is a diagram illustrating selection of a recognition model according to the third embodiment; FIG.

(第一の実施形態)
以下に図面を参照して、第一の実施形態について説明する。図1は、第一の実施形態の発話認識システムについて説明する図である。
(First embodiment)
A first embodiment will be described below with reference to the drawings. FIG. 1 is a diagram explaining the speech recognition system of the first embodiment.

本実施形態の発話認識システム100は、情報処理装置200と、撮像装置300とを有する。発話認識システム100において、情報処理装置200と撮像装置300とは、有線又は無線にて接続されている。 The speech recognition system 100 of this embodiment has an information processing device 200 and an imaging device 300 . In the speech recognition system 100, the information processing device 200 and the imaging device 300 are connected by wire or wirelessly.

図1では、3名の参加者A、B、Cによる会議が開催されており、参加者A、B、Cのそれぞれの発話内容を発話認識システム100によって認識する例を示している。 FIG. 1 shows an example in which three participants A, B, and C are holding a conference, and the speech recognition system 100 recognizes the speech contents of the participants A, B, and C, respectively.

情報処理装置200は、発話内容の認識を始めとする、システムの基本制御を行う。尚、情報処理装置200は、例えば、ネットワークやインターネットに接続されており、ネットワーク上のサーバや、インターネット上のクラウドサーバへ、撮像装置300が撮像したが画像データを送信しても良い。この場合、情報処理装置200は、サーバやクラウドサーバにおいて行われた発話内容の認識結果を受信しても良い。 The information processing device 200 performs basic control of the system, including recognition of speech content. The information processing apparatus 200 may be connected to a network or the Internet, for example, and may transmit image data captured by the imaging apparatus 300 to a server on the network or a cloud server on the Internet. In this case, the information processing apparatus 200 may receive the recognition result of the utterance content performed by the server or the cloud server.

本実施形態の情報処理装置200は、参加者の発話内容の認識結果を、表示装置400に表示させることで、発話内容を可視化する。また、本実施形態の情報処理装置200は、発話内容の認識結果をテキストデータとして保持し、任意のタイミングで、テキストデータを議事録として出力しても良い。任意のタイミングとは、例えば、会議が終了したとき等である。 The information processing apparatus 200 of this embodiment visualizes the speech content by displaying the recognition result of the speech content of the participant on the display device 400 . Further, the information processing apparatus 200 of the present embodiment may hold the recognition result of the utterance content as text data, and output the text data as minutes at an arbitrary timing. The arbitrary timing is, for example, when the conference ends.

表示装置400は、例えば、電子黒板であっても良いし、ディスプレイであっても良い。また、図1の例では、表示装置400は発話認識システム100に含まれるものとしたが、これに限定されず、表示装置400は、発話認識システム100に含まれていなくても良い。 The display device 400 may be, for example, an electronic blackboard or a display. Further, in the example of FIG. 1, the display device 400 is included in the speech recognition system 100, but the present invention is not limited to this, and the display device 400 may not be included in the speech recognition system 100. FIG.

本実施形態の発話認識システム100では、参加者の音声認識に、撮像装置300と参加者との距離に応じた認識モデル(認識器)を用いる。 In the speech recognition system 100 of this embodiment, a recognition model (recognizer) corresponding to the distance between the imaging device 300 and the participant is used to recognize the speech of the participant.

この認識モデルは、予め様々な距離で撮像された、解像度の異なる話者の口唇領域の画像データを用いて、距離毎に学習したものであり情報処理装置200が有していてもよい。 This recognition model is learned for each distance using image data of a speaker's lip area having different resolutions, which are imaged at various distances in advance, and may be included in the information processing apparatus 200 .

本実施形態の情報処理装置200は、参加者と撮像装置300との距離に応じた認識モデルを用いることで、その距離における発話内容の認識精度を向上させることができる。 The information processing apparatus 200 of the present embodiment uses a recognition model according to the distance between the participant and the imaging device 300, thereby improving the recognition accuracy of the utterance content at that distance.

図2は、第一の実施形態の情報処理装置のハードウェア構成の一例を示す図である。本実施形態の情報処理装置200は、それぞれバスBで相互に接続されている入力装置21、出力装置22、ドライブ装置23、補助記憶装置24、メモリ装置25、演算処理装置26及びインターフェース装置27を含む。 FIG. 2 is a diagram illustrating an example of the hardware configuration of the information processing apparatus according to the first embodiment; The information processing device 200 of this embodiment includes an input device 21, an output device 22, a drive device 23, an auxiliary storage device 24, a memory device 25, an arithmetic processing device 26, and an interface device 27, which are connected to each other via a bus B. include.

入力装置21は、各種の情報の入力を行うための装置であり、例えば、キーボードやポインティングデバイス等により実現される。また、入力装置21は、撮像装置300が撮像した画像データを入力させるインターフェース等であっても良い。 The input device 21 is a device for inputting various kinds of information, and is realized by, for example, a keyboard or pointing device. Also, the input device 21 may be an interface or the like for inputting image data captured by the imaging device 300 .

出力装置22は、各種の情報の出力を行うためものであり、例えばディスプレイ等であっても良いし、表示装置400に情報を出力するためのインターフェースであっても良い。インターフェース装置27は、LANカード等を含み、ネットワークに接続する為に用いられる。 The output device 22 is for outputting various kinds of information, and may be, for example, a display or an interface for outputting information to the display device 400 . The interface device 27 includes a LAN card and the like, and is used for connecting to a network.

本実施形態の発話認識プログラムは、情報処理装置200を制御する各種プログラムの少なくとも一部である。発話認識プログラムは、例えば、記憶媒体28の配布やネットワークからのダウンロード等によって提供される。発話認識プログラムを記録した記憶媒体28は、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記憶媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記憶媒体を用いることができる。 The speech recognition program of this embodiment is at least part of various programs that control the information processing apparatus 200 . The speech recognition program is provided, for example, by distributing the storage medium 28 or downloading from a network. The storage medium 28 in which the speech recognition program is recorded is a storage medium for optically, electrically or magnetically recording information such as a CD-ROM, a flexible disk, a magneto-optical disk, etc.; Various types of storage media can be used, such as a semiconductor memory that electrically records .

また、発話認識プログラムは、発話認識プログラムを記録した記憶媒体28がドライブ装置23にセットされると、記憶媒体28からドライブ装置23を介して補助記憶装置24にインストールされる。ネットワークからダウンロードされた発話認識プログラムは、インターフェース装置27を介して補助記憶装置24にインストールされる。 Further, the speech recognition program is installed in the auxiliary storage device 24 from the storage medium 28 via the drive device 23 when the storage medium 28 recording the speech recognition program is set in the drive device 23 . A speech recognition program downloaded from the network is installed in the auxiliary storage device 24 via the interface device 27 .

補助記憶装置24は、インストールされた発話認識プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置25は、情報処理装置200の起動時に補助記憶装置24から発話認識プログラムを読み出して格納する。そして、演算処理装置26はメモリ装置25に格納された発話認識プログラムに従って、後述するような各種処理を実現している。 The auxiliary storage device 24 stores the installed speech recognition program, as well as necessary files and data. The memory device 25 reads and stores the speech recognition program from the auxiliary storage device 24 when the information processing device 200 is activated. The arithmetic processing unit 26 implements various processes described later in accordance with the speech recognition program stored in the memory unit 25 .

次に、図3を参照して、本実施形態の情報処理装置200の機能について説明する。図3は、第一の実施形態の情報処理装置の機能を説明する図である。 Next, with reference to FIG. 3, functions of the information processing apparatus 200 of this embodiment will be described. FIG. 3 is a diagram illustrating functions of the information processing apparatus according to the first embodiment.

本実施形態の情報処理装置200は、映像入力部210、人物領域認識部211、画像補正部212、顔領域認識部213、口唇領域抽出部214、口唇画素数算出部215、認識モデル選択部216、口唇画素数変換部217、口唇特徴量算出部218、発話内容認識部219、テキスト出力部220を有する。 The information processing apparatus 200 of this embodiment includes a video input unit 210, a person region recognition unit 211, an image correction unit 212, a face region recognition unit 213, a lip region extraction unit 214, a lip pixel number calculation unit 215, and a recognition model selection unit 216. , a lip pixel count conversion unit 217 , a lip feature quantity calculation unit 218 , a speech content recognition unit 219 and a text output unit 220 .

これらの各部は、情報処理装置200の演算処理装置26が、メモリ装置25に格納された発話認識プログラムを読み出して実行することで実現される。 These units are realized by the arithmetic processing device 26 of the information processing device 200 reading and executing the speech recognition program stored in the memory device 25 .

また、情報処理装置200は、記憶部230を有する。記憶部230は、例えば、情報処理装置200のメモリ装置25や補助記憶装置24等によって実現される。 The information processing device 200 also has a storage unit 230 . The storage unit 230 is realized by, for example, the memory device 25 and the auxiliary storage device 24 of the information processing device 200 .

記憶部230には、認識モデル231、232、233が格納されている。認識モデル231は、撮像装置300と話者との距離が近距離とされる場合に用いられる。認識モデル232は、撮像装置300と話者との距離が中距離とされる場合に用いられる。認識モデル233は、撮像装置300と話者との距離が遠距離とされる場合に用いられる。 The storage unit 230 stores recognition models 231 , 232 and 233 . The recognition model 231 is used when the distance between the imaging device 300 and the speaker is short. The recognition model 232 is used when the distance between the imaging device 300 and the speaker is assumed to be a medium distance. The recognition model 233 is used when the distance between the imaging device 300 and the speaker is long.

本実施形態の映像入力部210は、撮像装置300によって撮像された映像データ(動画データ)を取得する。人物領域認識部211は、取得した映像データにおける連続したフレーム画像において、人物がいる領域を認識し、その領域を画像データとして抽出する。以下の説明では、人物領域認識部211によって抽出された画像データを人物領域画像データと呼び、人物領域画像データが示す画像を人物画像と呼ぶ。 The video input unit 210 of this embodiment acquires video data (moving image data) captured by the imaging device 300 . The person area recognition unit 211 recognizes an area in which a person is present in consecutive frame images in the acquired video data, and extracts the area as image data. In the following description, the image data extracted by the person area recognition unit 211 is called person area image data, and the image indicated by the person area image data is called a person image.

画像補正部212は、人物領域画像データが明るすぎたり、暗すぎたりした場合に、明度補正を行う。明度補正方法については既存の一般技術を用いればよい。 The image correction unit 212 performs brightness correction when the person area image data is too bright or too dark. An existing general technique may be used for the brightness correction method.

また、撮像装置300が全天球カメラである場合、2つのレンズによって取得した2枚の超広角画像を結合し、1枚の画像として扱うことが一般的である。その画像がEquirectangular形式であることも一般的であり、その場合、指定された補正位置を中心に遠近補正すれば、歪みのない画像として処理することができる。 Also, when the imaging device 300 is an omnidirectional camera, it is common to combine two ultra-wide-angle images acquired by two lenses and handle them as one image. It is also common for the image to be in the equirectangular format, in which case it can be processed as an image without distortion by performing perspective correction centering on the designated correction position.

本実施形態の画像補正部212は、人物領域認識部211によって認識された座標を中心に遠近補正をすることで、人物領域画像データが示す画像を、人物の領域を歪みのない画像として取得する。 The image correction unit 212 of the present embodiment acquires the image indicated by the person area image data as an image without distortion of the person area by performing perspective correction centering on the coordinates recognized by the person area recognition unit 211. .

顔領域認識部213は画像補正部212によって歪みが補正された人物領域画像データから、人物の顔を認識し、顔領域の画像データを抽出する。以下の説明では、顔領域認識部213によって抽出された画像データを顔画像データと呼び、顔画像データが示す画像を顔画像と呼ぶ。 A face area recognition unit 213 recognizes a person's face from the person area image data whose distortion has been corrected by the image correction unit 212, and extracts image data of the face area. In the following description, the image data extracted by the face area recognition unit 213 is called face image data, and the image represented by the face image data is called a face image.

顔領域認識部213による顔認識のアルゴリズムとしては、Haar-Like特徴量分類器や、HOG特徴量を用いた識別器等、既存の様々な手法があるのでそれらを使用すればよい。 Algorithms for face recognition by the face region recognition unit 213 include various existing methods such as a Haar-Like feature amount classifier and a classifier using an HOG feature amount.

口唇領域抽出部214は、顔画像データから、口唇領域の画像データを抽出する。以下の説明では、口唇領域抽出部214によって抽出された画像データを、口唇領域画像データと呼び、口唇領域画像データが示す画像を口唇画像と呼ぶ。尚、口唇領域画像データには、複数の口唇画像を示すデータであって良い。 A lip region extraction unit 214 extracts image data of the lip region from the face image data. In the following description, the image data extracted by the lip area extraction unit 214 is called lip area image data, and the image represented by the lip area image data is called a lip image. The lip area image data may be data representing a plurality of lip images.

口唇領域抽出部214は、例えば、顔領域認識部213による顔認識に、口唇領域のランドマーク数箇所がわかるような識別器を用いることで、その認識結果から口唇領域画像データを抽出することができる。 For example, the lip region extraction unit 214 can extract lip region image data from the recognition result by using a classifier that can identify several landmarks in the lip region for face recognition by the face region recognition unit 213. can.

本実施形態では、上述した処理をフレーム毎に連続的に実行することで、映像入力部210に入力された映像データから、口唇画像を連続した画像として取得することができる。 In this embodiment, by continuously executing the above-described processing for each frame, lip images can be obtained as continuous images from the video data input to the video input unit 210 .

口唇画素数算出部215は、連続した口唇画像のそれぞれの横幅の画素数の平均値を算出し、この平均値を、口唇領域画像データの属性情報として、口唇領域画像データに付与する。つまり、口唇画素数算出部215は、口唇領域画像データに属性情報を付与する属性付与部として機能する。 The lip pixel count calculation unit 215 calculates the average value of the number of pixels in the horizontal width of each continuous lip image, and assigns this average value to the lip region image data as attribute information of the lip region image data. That is, the lip pixel count calculation unit 215 functions as an attribute adding unit that adds attribute information to the lip region image data.

連続した口唇画像とは、映像データ(動画データ)のフレーム毎の画像から抽出された複数の口唇画像群である。 A continuous lip image is a group of a plurality of lip images extracted from each frame of video data (moving image data).

認識モデル選択部216は、口唇画素数算出部215によって算出された平均値に応じて、記憶部230に格納された認識モデル231、232、233の中から、発話内容の認識に使用する認識モデルを選択する。言い換えれば、認識モデル選択部216は、口唇領域画像データに付与された属性情報に基づき、認識モデルを選択する。 The recognition model selection unit 216 selects a recognition model to be used for recognizing the utterance content from among the recognition models 231, 232, and 233 stored in the storage unit 230 according to the average value calculated by the lip pixel number calculation unit 215. to select. In other words, the recognition model selection unit 216 selects a recognition model based on the attribute information given to the lip area image data.

連続した口唇画像の横幅の画素数の平均値は、撮像装置300と話者(参加者)との間の距離に相当する。したがって、認識モデル選択部216は、撮像装置300と話者(参加者)との間の距離に応じて、認識モデルを選択している。 The average number of pixels in the horizontal width of consecutive lip images corresponds to the distance between the imaging device 300 and the speaker (participant). Therefore, the recognition model selection unit 216 selects a recognition model according to the distance between the imaging device 300 and the speaker (participant).

口唇画素数変換部217は、認識モデル選択部216によって選択された認識モデルに合わせるように、連続した口唇画像の画素数を変換する。 A lip pixel number conversion unit 217 converts the number of pixels of continuous lip images so as to match the recognition model selected by the recognition model selection unit 216 .

口唇特徴量算出部218は、連続する口唇画像から、空間的な情報、及び時間的な情報を特徴量として取得する。具体的には、本実施形態の特徴量は、一定期間の連続した口唇画像の横幅の画素数と縦幅の画像数とが示す画像の8ビットのRGB値とした。 The lip feature amount calculation unit 218 acquires spatial information and temporal information as feature amounts from continuous lip images. Specifically, the feature amount in this embodiment is an 8-bit RGB value of an image indicated by the number of horizontal pixels and the number of vertical images of continuous lip images for a certain period.

発話内容認識部219は、口唇特徴量算出部218が取得した特徴量と、認識モデル選択部216によって選択された認識モデルとに基づき、話者の発話内容を認識する。 The utterance content recognition unit 219 recognizes the utterance content of the speaker based on the feature amount acquired by the lip feature amount calculation unit 218 and the recognition model selected by the recognition model selection unit 216 .

テキスト出力部220は、発話内容認識部219による認識結果をテキストデータとして、表示装置400等に出力する。 The text output unit 220 outputs the result of recognition by the speech content recognition unit 219 as text data to the display device 400 or the like.

尚、図3の例では、認識モデル231、232、233は、情報処理装置200の有する記憶部230に格納されるものとしたが、これに限定されない。認識モデル231、232、233は、情報処理装置200以外の装置に格納されていても良い。 Note that in the example of FIG. 3, the recognition models 231, 232, and 233 are stored in the storage unit 230 of the information processing apparatus 200, but the present invention is not limited to this. The recognition models 231 , 232 and 233 may be stored in a device other than the information processing device 200 .

次に、図4を参照して、第一の実施形態の情報処理装置200の処理について説明する。図4は、第一の実施形態の情報処理装置の処理を説明する第一のフローチャートである。 Next, processing of the information processing apparatus 200 according to the first embodiment will be described with reference to FIG. FIG. 4 is a first flowchart for explaining processing of the information processing apparatus of the first embodiment.

本実施形態の情報処理装置200は、映像入力部210により、撮像装置300が撮像した映像データを取得する(ステップS401)。 The information processing apparatus 200 of the present embodiment acquires video data captured by the imaging device 300 using the video input unit 210 (step S401).

続いて、情報処理装置200は、ステップS403以降の処理をN回繰り返すループを開始する(ステップS402)。 Subsequently, the information processing apparatus 200 starts a loop that repeats the processes after step S403 N times (step S402).

情報処理装置200は、人物領域認識部211により、映像入力部210が取得した映像データから、1フレームの画像データを取得する(ステップS403)。続いて、人物領域認識部211は、1フレームの画像データから、人物がいる領域を認識し、人物領域画像データを抽出する(ステップS404)。 The information processing apparatus 200 acquires image data of one frame from the image data acquired by the image input unit 210 by the human area recognition unit 211 (step S403). Subsequently, the person area recognition unit 211 recognizes an area where a person is present from one frame of image data, and extracts person area image data (step S404).

尚、本実施形態の人物領域認識部211は、人物領域画像データの矩形領域の画像データとして抽出する。また、ここでは説明の簡略化のために1人分の認識処理のみについて説明するが、複数の人物が認識される場合も想定される。その場合、この一連の認識処理、及び抽出処理は人数分逐次的、もしくは並列に処理する。 It should be noted that the person area recognition unit 211 of the present embodiment extracts the image data of the rectangular area of the person area image data. Further, although only the recognition processing for one person will be described here for the sake of simplification of the explanation, it is also assumed that a plurality of persons are recognized. In that case, this series of recognition processing and extraction processing is performed sequentially or in parallel for the number of persons.

続いて、情報処理装置200は、画像補正部212により、人物領域画像データの歪み等を補正する(ステップS405)。続いて、情報処理装置200は、顔領域認識部213により、補正された人物領域画像データから、顔領域を認識し、顔領域画像データを抽出する(ステップS406)。 Subsequently, the information processing apparatus 200 corrects distortion and the like of the person area image data using the image correction unit 212 (step S405). Subsequently, the information processing apparatus 200 recognizes a face area from the corrected person area image data by the face area recognition unit 213, and extracts the face area image data (step S406).

続いて、情報処理装置200は、口唇領域抽出部214により、顔領域画像データから、口唇領域を認識し、口唇領域画像データを抽出する(ステップS407)。続いて、口唇領域抽出部214は、口唇画像データをバッファに追加する(ステップS408)。 Subsequently, the information processing apparatus 200 uses the lip area extraction unit 214 to recognize the lip area from the face area image data and extract lip area image data (step S407). Subsequently, the lip region extraction unit 214 adds the lip image data to the buffer (step S408).

情報処理装置200は、ステップS403からステップS409の処理をN回繰り返す(ステップS409)。 The information processing apparatus 200 repeats the process from step S403 to step S409 N times (step S409).

具体的には、例えば、情報処理装置200は、ステップS403からステップS409の処理を150回程度繰り返す。この場合、例えば、フレームレートが30fpsの場合、4秒分の連続した口唇領域画像データがバッファに格納されることになる。ステップS403からステップS409の処理の詳細は後述する。尚、本実施形態の口唇領域画像データは、複数の連続した口唇画像を示す複数の画像データを含む。 Specifically, for example, the information processing apparatus 200 repeats the processing from step S403 to step S409 about 150 times. In this case, for example, when the frame rate is 30 fps, continuous lip region image data for four seconds is stored in the buffer. The details of the processing from step S403 to step S409 will be described later. Note that the lip region image data of this embodiment includes a plurality of image data representing a plurality of consecutive lip images.

続いて、情報処理装置200は、口唇画素数算出部215により、バッファに格納された連続した口唇画像の横幅の画素数の平均値wを算出し、取得する(ステップS410)。 Subsequently, the information processing apparatus 200 calculates and acquires the average value w of the number of horizontal pixels of the consecutive lip images stored in the buffer by the lip pixel number calculation unit 215 (step S410).

続いて、情報処理装置200は、認識モデル選択部216により、平均値wに応じた認識モデルを選択する処理を行う。 Subsequently, the information processing apparatus 200 performs processing for selecting a recognition model according to the average value w by the recognition model selection unit 216 .

つまり、本実施形態では、連続した口唇画像の横幅の画素数の平均値wは、認識モデル選択部216が認識モデルを選択する際に参照される属性情報である。この平均値wは、連続する口唇画像を示す口唇領域画像データに付与されて保持されても良い。 That is, in the present embodiment, the average value w of the number of pixels in the horizontal width of consecutive lip images is attribute information referred to when the recognition model selection unit 216 selects a recognition model. This average value w may be added to and held in lip region image data representing continuous lip images.

具体的には、情報処理装置200は、認識モデル選択部216により、平均値wが10ピクセル未満であるか否かを判定する(ステップS411)。 Specifically, the information processing apparatus 200 uses the recognition model selection unit 216 to determine whether or not the average value w is less than 10 pixels (step S411).

ステップS411において、平均値wが10ピクセル未満である場合、認識モデル選択部216は、口唇画像が小さすぎるために、認識不可とし、連続した口唇画像を格納したバッファをリセット(ステップS412)して、ステップS402へ戻る。口唇画像が小さすぎる場合とは、話者が撮像装置300から遠すぎる場合である。 In step S411, if the average value w is less than 10 pixels, the recognition model selection unit 216 determines that the lip image is too small to be recognized, and resets the buffer storing consecutive lip images (step S412). , the process returns to step S402. A case where the lip image is too small is a case where the speaker is too far from the imaging device 300 .

ステップS411において、平均値wが10ピクセル未満である場合、認識モデル選択部216は、平均値wが10ピクセル以上25ピクセル未満であるか否かを判定する(ステップS413)。 If the average value w is less than 10 pixels in step S411, the recognition model selection unit 216 determines whether the average value w is greater than or equal to 10 pixels and less than 25 pixels (step S413).

ステップS413において、平均値wが10ピクセル以上25ピクセル未満である場合、認識モデル選択部216は、記憶部230に格納された認識モデルのうち、認識モデル231を設定し(ステップS414)、後述するステップS418へ進む。言い換えれば、認識モデル選択部216は、バッファに格納された連続する口唇画像を示す口唇領域画像データに付与された属性情報である平均値wに応じて、認識モデル231を選択する。 In step S413, if the average value w is 10 pixels or more and less than 25 pixels, the recognition model selection unit 216 sets the recognition model 231 among the recognition models stored in the storage unit 230 (step S414). The process proceeds to step S418. In other words, the recognition model selection unit 216 selects the recognition model 231 according to the average value w, which is the attribute information assigned to the lip area image data representing successive lip images stored in the buffer.

認識モデル231は、口唇領域の大きさが小さく、話者から撮像装置300までの距離が遠いものの、認識可能である場合に選択される、遠距離用の認識モデルである。 The recognition model 231 is a long-distance recognition model that is selected when the lip area is small and the distance from the speaker to the imaging device 300 is long, but recognition is possible.

ステップS413において、平均値wが10ピクセル以上25ピクセル未満でない場合、つまり、平均値wが25ピクセル以上である場合、認識モデル選択部216は、平均値wが25ピクセル以上40ピクセル未満であるか否かを判定する(ステップS415)。 In step S413, if the average value w is not less than 10 pixels or more and less than 25 pixels, that is, if the average value w is 25 pixels or more, the recognition model selection unit 216 determines whether the average value w is 25 pixels or more and less than 40 pixels. It is determined whether or not (step S415).

ステップS415において、平均値wが25ピクセル以上40ピクセル未満である場合、認識モデル選択部216は、記憶部230に格納された認識モデルのうち、認識モデル232を設定し(ステップS416)、後述するステップS418へ進む。 In step S415, if the average value w is greater than or equal to 25 pixels and less than 40 pixels, the recognition model selection unit 216 sets the recognition model 232 among the recognition models stored in the storage unit 230 (step S416). The process proceeds to step S418.

認識モデル232は、口唇領域の大きさが中程度であり、話者から撮像装置300までの距離が中程度である場合に選択される、中距離用の認識モデルである。 The recognition model 232 is a medium-range recognition model that is selected when the size of the lip region is medium and the distance from the speaker to the imaging device 300 is medium.

ステップS415において、平均値wが10ピクセル以上25ピクセル未満でない場合、つまり、平均値wが40ピクセル以上である場合、認識モデル選択部216は、認識モデル233を設定し(ステップS417)、後述するステップS418へ進む。 In step S415, if the average value w is not less than 10 pixels or more and less than 25 pixels, that is, if the average value w is 40 pixels or more, the recognition model selection unit 216 sets the recognition model 233 (step S417), which will be described later. The process proceeds to step S418.

認識モデル233は、口唇領域が大きく、話者から撮像装置300までの距離が近い場合に選択される、近距離用の認識モデルである。 The recognition model 233 is a short-distance recognition model that is selected when the lip region is large and the distance from the speaker to the imaging device 300 is short.

続いて、情報処理装置200は、口唇画素数変換部217により、選択された認識モデルに応じて、バッファに格納された連続する口唇画像をリサイズする(ステップS418)。 Subsequently, the information processing apparatus 200 resizes the continuous lip images stored in the buffer according to the selected recognition model by the lip pixel number conversion unit 217 (step S418).

本実施形態の認識モデル231、232、233は、それぞれが、遠距離画像、中距離画像、近距離画像を使って深層学習によって調整されたネットワークのパラメータである。 Recognition models 231, 232, and 233 of this embodiment are parameters of networks adjusted by deep learning using long-range images, medium-range images, and short-range images, respectively.

遠距離用の認識モデル231へ入力される画像データが示す画像の横幅は10ピクセルである必要がある。同様に、中距離用の認識モデル232へ入力される画像データが示す画像の横幅は30ピクセル、認識モデル233へ入力される画像データが示す画像の横幅は50ピクセルである必要がある。 The horizontal width of the image indicated by the image data input to the long-distance recognition model 231 must be 10 pixels. Similarly, the horizontal width of the image indicated by the image data input to the recognition model 232 for medium distance must be 30 pixels, and the horizontal width of the image indicated by the image data input to the recognition model 233 must be 50 pixels.

本実施形態の口唇画素数変換部217は、口唇画像を示す画像データを、選択された認識モデルに入力できるように、口唇画像のリサイズを行う。具体的には、口唇画素数変換部217は、口唇画像の解像度を変換すれば良い。 The lip pixel number conversion unit 217 of this embodiment resizes the lip image so that the image data representing the lip image can be input to the selected recognition model. Specifically, the lip pixel number converter 217 may convert the resolution of the lip image.

続いて、情報処理装置200は、口唇特徴量算出部218により、口唇画像の特徴量を取得する(ステップS419)。 Subsequently, the information processing apparatus 200 acquires the feature amount of the lip image by the lip feature amount calculation unit 218 (step S419).

続いて、情報処理装置200は、発話内容認識部219により、選択された認識モデルに、リサイズされた口唇画像データと、特徴量とを入力して発話内容の認識を行う(ステップS420)。 Subsequently, the information processing apparatus 200 inputs the resized lip image data and the feature amount to the selected recognition model by the speech content recognition unit 219, and recognizes the speech content (step S420).

続いて、情報処理装置200は、テキスト出力部220により、認識結果をテキストデータとして、表示装置400等に出力し(ステップS421)、バッファをリセットする(ステップS422)。 Subsequently, the information processing device 200 outputs the recognition result as text data to the display device 400 or the like by the text output unit 220 (step S421), and resets the buffer (step S422).

続いて、情報処理装置200は、処理の終了指示を受け付けたか否かを判定する(ステップS423)。ステップS423において、処理の終了指示を受け付けた場合、情報処理装置200は、処理を終了する。ステップS423において、終了指示を受け付けない場合、情報処理装置200は、ステップS402へ戻る。 Subsequently, the information processing apparatus 200 determines whether or not an instruction to end processing has been received (step S423). In step S423, when the processing end instruction is received, the information processing apparatus 200 ends the processing. In step S423, when the end instruction is not accepted, the information processing apparatus 200 returns to step S402.

次に、図5を参照して、図4で示したループ処理について、さらに説明する。図5は、第一の実施形態の情報処理装置の処理を説明する第二のフローチャートである。 Next, the loop processing shown in FIG. 4 will be further described with reference to FIG. FIG. 5 is a second flowchart for explaining processing of the information processing apparatus of the first embodiment.

本実施形態の情報処理装置200は、認識モデルに入力するために必要な口唇画像の枚数をカウントするためのカウンタの値を初期化する(ステップS501)。 The information processing apparatus 200 of the present embodiment initializes the value of a counter for counting the number of lip images necessary for inputting to the recognition model (step S501).

続いて、情報処理装置200は、映像入力部210により、撮像装置300によって撮像された映像データを取得する(ステップS502)。 Subsequently, the information processing device 200 acquires video data captured by the imaging device 300 using the video input unit 210 (step S502).

続いて、情報処理装置200は、人物領域認識部211により、1フレーム分の画像を取得し、画像内の人物を認識する(ステップS503)。 Subsequently, the information processing apparatus 200 acquires an image for one frame and recognizes a person in the image by the human area recognition unit 211 (step S503).

続いて、情報処理装置200は、ステップS503において、人物が認識されたか否かを判定する(ステップS504)。ステップS504において、人物が認識されない場合、人物領域認識部211は、話者最終位置情報の参照可能か否かを判定する(ステップS505)。話者最終位置情報とは、映像データに含まれる何れかの画像において、話者が最後に認識された位置を示す情報である。 Subsequently, in step S503, the information processing apparatus 200 determines whether or not a person has been recognized (step S504). If the person is not recognized in step S504, the person area recognition unit 211 determines whether or not the speaker final position information can be referred to (step S505). The speaker final position information is information indicating the last recognized position of the speaker in any image included in the video data.

ステップS505において、話者最終位置情報が参照できない場合、つまり、話者最終位置情報が初期値であった場合、情報処理装置200は、話者がその周辺にいないものとして、ステップS501へ戻る。 In step S505, if the speaker's final position information cannot be referred to, that is, if the speaker's final position information is the initial value, the information processing apparatus 200 returns to step S501 assuming that the speaker is not in the vicinity.

ステップS505において、話者最終位置情報が参照できる場合、情報処理装置200は、後述するステップS507へ進む。 In step S505, if the speaker final position information can be referred to, the information processing apparatus 200 proceeds to step S507, which will be described later.

ステップS504において、人物が認識された場合、人物領域認識部211は、この人物と対応する話者最終位置情報を更新する(ステップS506)。 If a person is recognized in step S504, the person area recognition unit 211 updates the speaker final position information corresponding to this person (step S506).

続いて、人物領域認識部211は、画像データから、話者最終位置情報に基づき、人物領域を特定し、人物画像を示す人物領域画像データを抽出する(ステップS507)。尚、情報処理装置200は、人物領域画像データを抽出した後に、画像補正部212により補正を行う。 Subsequently, the human area recognition unit 211 identifies a human area from the image data based on the speaker final position information, and extracts human area image data representing the human image (step S507). Note that the information processing apparatus 200 performs correction by the image correction unit 212 after extracting the person area image data.

続いて、情報処理装置200は、顔領域認識部213により、人物領域画像データに対して顔認識を行い(ステップS508)、顔が認識されたか否かを判定する(ステップS509)。 Subsequently, the information processing apparatus 200 performs face recognition on the person area image data by the face area recognition unit 213 (step S508), and determines whether or not the face has been recognized (step S509).

ステップS509において、顔が認識されない場合、顔最終位置情報の参照が可能か否かを判定する(ステップS510)。顔最終位置情報とは、人物画像において、話者の顔が映っている最終位置を示す情報である。ステップS510において、顔最終位置情報が参照できない場合、情報処理装置200は、ステップS501へ戻る。 If the face is not recognized in step S509, it is determined whether or not the final face position information can be referred to (step S510). The face final position information is information indicating the final position where the speaker's face appears in the person image. In step S510, if the final face position information cannot be referred to, the information processing apparatus 200 returns to step S501.

ステップS510において、顔最終位置情報の参照が可能な場合、情報処理装置200は、後述するステップS512へ進む。 In step S510, if the final face position information can be referred to, the information processing apparatus 200 proceeds to step S512, which will be described later.

ステップS509において、顔を認識した場合、顔領域認識部213は、顔最終位置情報に基づき、人物領域画像データから、顔画像を示す顔領域画像データを抽出する(ステップS512)。 When a face is recognized in step S509, the face region recognition unit 213 extracts face region image data representing a face image from the person region image data based on the face final position information (step S512).

続いて、情報処理装置200は、口唇領域抽出部214により、顔領域画像データから、口唇画像を示す口唇領域画像データを抽出する(ステップS513)。続いて、情報処理装置200は、取得済みの現在のフレーム数を数えるために、カウンタの値に1を追加し(ステップS514)、口唇領域画像データをバッファに追加する(ステップS515)。 Subsequently, the information processing apparatus 200 extracts lip area image data representing a lip image from the face area image data by the lip area extraction unit 214 (step S513). Subsequently, the information processing apparatus 200 adds 1 to the counter value to count the current number of acquired frames (step S514), and adds the lip region image data to the buffer (step S515).

続いて、情報処理装置200は、取得済みのフレーム数が、認識モデルに入力するために必要なフレーム数に達したか否かを判定する(ステップS516)。言い換えれば、情報処理装置200は、カウンタの値が、認識モデルに入力するために必要なフレーム数に達したか否かを判定する。尚、図5の例では、認識モデルに入力するために必要なフレーム数を150としが、これに限定されない。 Subsequently, the information processing apparatus 200 determines whether or not the number of acquired frames has reached the number of frames required for inputting to the recognition model (step S516). In other words, the information processing apparatus 200 determines whether or not the value of the counter has reached the number of frames required for inputting to the recognition model. In the example of FIG. 5, the number of frames required to be input to the recognition model is 150, but the number is not limited to this.

ステップS516において、必要なフレーム数に達していない場合、情報処理装置200は、ステップS502へ戻る。 In step S516, if the required number of frames has not been reached, the information processing apparatus 200 returns to step S502.

ステップS516において、必要なフレーム数に達していた場合、情報処理装置200は、次の話者のデータ揃えるために、話者最終位置情報を初期化する(ステップS517)。続いて、情報処理装置200は、顔最終位置情報を初期化して(ステップS518)、一回の発話認識に対する処理を終了する。 In step S516, if the required number of frames has been reached, the information processing apparatus 200 initializes the speaker final position information in order to align the data of the next speaker (step S517). Subsequently, the information processing apparatus 200 initializes the final face position information (step S518), and ends the processing for one speech recognition.

このように、本実施形態では、発話毎に、話者と撮像装置300との距離を示す口唇画像の横幅に応じて、発話認識に用いる認識モデルを選択して発話認識を行うため、読唇による発話認識の精度を向上させることができる。また、本実施形態を、音声情報を用いた発話認識と組み合わせることで、発話認識の精度を向上させることができる。 As described above, in the present embodiment, for each utterance, a recognition model to be used for utterance recognition is selected according to the width of the lip image indicating the distance between the speaker and the imaging device 300, and utterance recognition is performed. Accuracy of speech recognition can be improved. Further, by combining this embodiment with speech recognition using voice information, accuracy of speech recognition can be improved.

次に、図6を参照して、本実施形態の口唇画像について、さらに説明する。図6は、第一の実施形態の口唇画像を説明する図である。 Next, the lip image of this embodiment will be further described with reference to FIG. FIG. 6 is a diagram for explaining the lip image of the first embodiment.

図6に示す画像61は、全天球カメラである撮像装置300によって撮像された画像の一例を示している。この画像61は、Equirectangular形式の歪んだ画像である。 An image 61 shown in FIG. 6 is an example of an image captured by the imaging device 300, which is an omnidirectional camera. This image 61 is a distorted image in equirectangular format.

画像61では、会議の参加者(話者)A、B、Cの3人がテーブルを囲んでおり、撮像装置300から近い位置に参加者A、中程度の位置に参加者B、遠い位置に参加者Cが着席している。 In an image 61, three conference participants (speakers) A, B, and C surround a table. Participant C is seated.

本実施形態では、画像61に対して、人物領域認識部211による人物領域認識処理を行うことで、矩形の人物画像611、612、613を示す人物領域画像データが抽出される。 In this embodiment, human area recognition processing is performed on the image 61 by the human area recognition unit 211 to extract human area image data representing rectangular human images 611 , 612 , and 613 .

ここで、人物画像611、612、613は歪んだ画像であるため、画像補正部212は、人物画像の中心座標を元に遠近補正を行う。この補正によって、歪みのある人物画像611、612、613は、歪のない補正済み人物画像611A、612A、613Aとなる。 Here, since the human images 611, 612, and 613 are distorted images, the image correction unit 212 performs perspective correction based on the central coordinates of the human images. Through this correction, the distorted human images 611, 612, 613 become distortion-free corrected human images 611A, 612A, 613A.

本実施形態では、この補正済み人物画像611A、612A、613Aに対して、顔領域認識部213による顔領域認識処理を行って、顔画像を示す顔領域画像データを抽出し、さらに顔領域画像データに対して、口唇領域抽出部214による口唇領域認識処理を行う。 In the present embodiment, the corrected human images 611A, 612A, and 613A are subjected to face area recognition processing by the face area recognition unit 213 to extract face area image data representing the face image. is subjected to lip region recognition processing by the lip region extraction unit 214 .

その結果、口唇領域抽出部214は、口唇画像621、622、623を示す口唇領域画像データが抽出される。 As a result, the lip area extraction unit 214 extracts lip area image data representing the lip images 621 , 622 , and 623 .

次に、図7を参照して、認識モデル選択部216による認識モデルの選択について説明する。図7は、第一の実施形態の認識モデルの選択について説明する図である。 Next, selection of a recognition model by the recognition model selection unit 216 will be described with reference to FIG. FIG. 7 is a diagram explaining selection of a recognition model according to the first embodiment.

本実施形態では、連続する口唇画像の横幅の画素数の平均値が10ピクセル未満の場合、認識不可として認識モデルの適用範囲外となる。 In the present embodiment, if the average number of pixels in the horizontal width of consecutive lip images is less than 10 pixels, it is determined to be unrecognizable and out of the application range of the recognition model.

また、本実施形態では、連続する口唇画像の横幅の画素数の平均値が10ピクセル以上25ピクセル未満である場合には、認識モデル選択部216は、遠距離用の認識モデル231を選択する。そして、本実施形態では、口唇画素数変換部217により、認識モデル231に入力される口唇領域画像データが示す口唇画像の横幅の画素数の平均値が10ピクセルとなるように縮小する。 Further, in the present embodiment, when the average number of pixels in the horizontal width of consecutive lip images is 10 pixels or more and less than 25 pixels, the recognition model selection unit 216 selects the long-distance recognition model 231 . In this embodiment, the lip pixel number conversion unit 217 reduces the average number of horizontal pixels of the lip image indicated by the lip region image data input to the recognition model 231 to 10 pixels.

尚、人の口唇は横長なので、縦方向の画素数は5ピクセルとしても良い。縦方向の画素数が5ピクセルである場合には、認識モデル231は、10×5ピクセルの画像データを用いて学習されたものである。 Since human lips are horizontally long, the number of pixels in the vertical direction may be 5 pixels. When the number of pixels in the vertical direction is 5 pixels, the recognition model 231 is learned using image data of 10×5 pixels.

また、本実施形態では、認識モデル選択部216は、連続した口唇画像の横幅の画素数の平均値が、25ピクセル以上50ピクセル未満である場合には、中距離用の認識モデル232を選択する。そして、口唇画素数変換部217は、認識モデル232が選択されると、口唇画像を、30×15ピクセルとなるように、拡大、又は、縮小するリサイズを行う。 In addition, in the present embodiment, the recognition model selection unit 216 selects the recognition model 232 for medium distance when the average value of the number of pixels in the horizontal width of consecutive lip images is 25 pixels or more and less than 50 pixels. . Then, when the recognition model 232 is selected, the lip pixel number conversion unit 217 resizes the lip image by enlarging or reducing it to 30×15 pixels.

また、本実施形態では、認識モデル選択部216は、連続した口唇画像の横幅の画素数の平均値が、50ピクセル以上である場合には、近距離用の認識モデル233を選択する。そして、口唇画素数変換部217は、認識モデル233が選択されると、口唇画像を、50×25ピクセルとなるように、拡大、又は、縮小するリサイズを行う。 Further, in this embodiment, the recognition model selection unit 216 selects the recognition model 233 for short distance when the average value of the number of pixels in the horizontal width of consecutive lip images is 50 pixels or more. Then, when the recognition model 233 is selected, the lip pixel number conversion unit 217 resizes the lip image by enlarging or reducing it to 50×25 pixels.

尚、口唇画素数変換部217によるリサイズの方法は、最近傍法、バイリニア補間法、バイキュービック補間法等、既存の手法であって良い。 Note that the resizing method by the lip pixel number conversion unit 217 may be an existing method such as a nearest neighbor method, a bilinear interpolation method, a bicubic interpolation method, or the like.

次に、図8を参照して、本実施形態の認識モデルについて説明する。図8は、第一の実施形態の認識モデルについて説明する第一の図である。 Next, the recognition model of this embodiment will be described with reference to FIG. FIG. 8 is a first diagram explaining the recognition model of the first embodiment.

図8において、縦軸は認識の精度を示し、横軸は入力された連続する口唇画像の横幅の画素数の平均値を示す。 In FIG. 8, the vertical axis indicates the recognition accuracy, and the horizontal axis indicates the average number of horizontal pixels of the input consecutive lip images.

図8では、横幅の画素数の平均値を150ピクセルとした連続した口唇画像を用いて学習した認識モデルに対し、横幅の画素数の平均値が150ピクセル以下の連続した口唇画像を示す口唇領域画像データを入力した場合の認識精度を示している。 FIG. 8 shows a lip region showing continuous lip images with an average width pixel count of 150 pixels or less for a recognition model trained using continuous lip images with an average width pixel count of 150 pixels or less. It shows the recognition accuracy when image data is input.

この結果からわかるように、入力される口唇領域画像データが示す口唇画像の横幅の画素数の平均値が50ピクセル以上の場合は、口唇画像の横幅の画素数の平均値を50ピクセルとして認識した場合と、認識の精度に差がない。 As can be seen from this result, when the average number of pixels in the horizontal width of the lip image indicated by the input lip region image data was 50 pixels or more, the average number of pixels in the horizontal width of the lip image was recognized as 50 pixels. There is no difference in recognition accuracy between

しかし、口唇画像の横幅の画素数の平均値が50ピクセル未満の口唇画像を示す口唇領域画像データを、この認識モデルに入力した場合には、画像データの特徴量が失われ、モデルとのギャップが生じ、認識の精度が下がっていることがわかる。 However, when lip area image data representing a lip image with an average number of pixels in the horizontal width of the lip image of less than 50 pixels is input to this recognition model, the feature amount of the image data is lost and a gap with the model is generated. occurs, and it can be seen that the accuracy of recognition is degraded.

そこで、口唇画像の横幅の画素数の平均値が50ピクセル未満である口唇領域画像データが入力された場合について注目する。 Therefore, attention is focused on the case where lip region image data in which the average number of pixels in the width of the lip image is less than 50 pixels is input.

図9は、第一の実施形態の認識モデルについて説明する第二の図である。図9では、横幅の画素数の平均値が50ピクセル未満の口唇画像を用いて学習した認識モデルに対して、横幅の画素数の平均値が異なる口唇画像を示す口唇領域画像データを入力した場合を示している。 FIG. 9 is a second diagram illustrating the recognition model of the first embodiment. In FIG. 9, when lip region image data representing lip images with different average width pixels is input to a recognition model trained using lip images with an average width pixel count of less than 50 pixels. is shown.

図9では、例えば、横幅の画素数の平均値が25ピクセルの口唇画像を示す口唇領域画像データを入力とする場合には、横幅の画素数の平均値が25ピクセルの口唇画像を用いて学習した認識モデルを使うと、最も認識の精度が高くなる。 In FIG. 9, for example, when inputting lip region image data representing a lip image with an average width pixel count of 25 pixels, learning is performed using a lip image with an average width pixel count of 25 pixels. Recognition accuracy is highest when using a recognition model that has

また、横幅の画素数の平均値が50ピクセル以上の口唇画像を示す口唇領域画像データを入力とする場合には、横幅の画素数の平均値が50ピクセルの口唇画像を用いて学習した認識モデルを使うと、最も認識の精度が高くなる。 When inputting lip region image data representing a lip image with an average number of pixels in the width of 50 pixels or more, a recognition model trained using a lip image with an average number of pixels in the width of 50 pixels is used. will give you the best recognition accuracy.

このように、本実施形態では、発話毎に、撮像装置300と話者との距離に相当する口唇画像の横幅の画素数の平均値に応じて、発話内容の認識に用いる認識モデルを選択することで、例えば、会議の場等のように、話者とカメラとの距離が変化するような状況でも、リアルタイムで行われる発話内容の認識の精度を向上させることができる。 Thus, in this embodiment, for each utterance, the recognition model used for recognizing the utterance content is selected according to the average number of pixels in the width of the lip image corresponding to the distance between the imaging device 300 and the speaker. This makes it possible to improve the accuracy of real-time recognition of utterances even in situations where the distance between the speaker and the camera changes, such as at a meeting.

(第二の実施形態)
以下に図面を参照して、第二の実施形態について説明する。第二の実施形態では、口唇領域画像データを取得する際のフレームレートに応じて認識モデルを選択する点が第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
(Second embodiment)
A second embodiment will be described below with reference to the drawings. The second embodiment differs from the first embodiment in that the recognition model is selected according to the frame rate when obtaining the lip region image data. Therefore, in the following description of the second embodiment, differences from the first embodiment will be described, and those having the same functional configuration as the first embodiment will be described in the first embodiment. The same reference numerals as the used reference numerals are given, and the explanation thereof is omitted.

図10は、第二の実施形態の情報処理装置の機能を説明する図である。 FIG. 10 is a diagram illustrating functions of the information processing apparatus of the second embodiment.

本実施形態の情報処理装置200Aは、映像入力部210、人物領域認識部211、画像補正部212、顔領域認識部213、口唇領域抽出部214、口唇画素数算出部215、認識モデル選択部216A、口唇画素数変換部217、口唇特徴量算出部218、発話内容認識部219、テキスト出力部220に加え、フレームレート算出部221、フレーム補完部222を有する。 The information processing apparatus 200A of this embodiment includes a video input unit 210, a person region recognition unit 211, an image correction unit 212, a face region recognition unit 213, a lip region extraction unit 214, a lip pixel count calculation unit 215, and a recognition model selection unit 216A. , a lip pixel count conversion unit 217 , a lip feature quantity calculation unit 218 , an utterance content recognition unit 219 , a text output unit 220 , a frame rate calculation unit 221 and a frame interpolation unit 222 .

また、本実施形態の情報処理装置200Aは、記憶部230Aを有する。記憶部230Aには、認識モデル241、242、243が格納されている。 Further, the information processing device 200A of this embodiment has a storage unit 230A. Recognition models 241, 242, and 243 are stored in the storage unit 230A.

本実施形態のフレームレート算出部221は、時々刻々と変化するフレームレートの値を算出し、フレームレートを口唇領域画像データの属性情報として、付与する。つまり、フレームレート算出部221は、口唇領域画像データに属性情報を付与する属性付与部として機能する。 The frame rate calculation unit 221 of the present embodiment calculates the value of the frame rate that changes from moment to moment, and assigns the frame rate as attribute information of the lip region image data. In other words, the frame rate calculator 221 functions as an attribute assigning unit that assigns attribute information to the lip region image data.

フレームレートは、撮像装置300が取得する動画において、単位時間あたりに処理させるフレーム数を示し、発話認識システム100の全体の処理負荷や、情報処理装置200Aの仕様等に応じて変化している。 The frame rate indicates the number of frames processed per unit time in the moving image acquired by the imaging device 300, and varies depending on the overall processing load of the speech recognition system 100, the specifications of the information processing device 200A, and the like.

認識モデル選択部216Aは、フレームレート算出部221によって算出されたフレームレートに応じた認識モデルを選択する。言い換えれば、認識モデル選択部216Aは、連続する口唇画像を示す口唇領域画像データに付与された属性情報に基づき、認識モデルを選択する。 216 A of recognition model selection parts select the recognition model according to the frame rate calculated by the frame rate calculation part 221. FIG. In other words, the recognition model selection unit 216A selects a recognition model based on the attribute information given to the lip region image data representing consecutive lip images.

本実施形態のフレーム補完部222は、認識モデル選択部216によって選択された認識モデルに応じてフレームを補完する。フレーム補完部222が行う間引き方法、補完方法は、前のフレームを単純にコピーする、不要な分は除外する等の単純な方法が考えられる。また、フレーム補完部222は、前後フレーム画像のピクセル値の差分から中間値を求め、新たに尤もらしい中間フレームを生成する既存の手法等を用いても良い。 The frame complementing unit 222 of this embodiment complements frames according to the recognition model selected by the recognition model selecting unit 216 . The thinning-out method and the complementing method performed by the frame complementing unit 222 may be simple methods such as simply copying the previous frame or excluding unnecessary frames. Alternatively, the frame complementing unit 222 may use an existing method or the like of obtaining an intermediate value from the difference in pixel values between the previous and subsequent frame images and generating a new plausible intermediate frame.

本実施形態の記憶部230Aに格納された認識モデル241、242、243は、異なるフレームレートで取得された、連続する口唇画像を示す口唇領域画像データを入力として学習された認識モデルである。 The recognition models 241, 242, and 243 stored in the storage unit 230A of the present embodiment are recognition models learned by inputting lip area image data representing continuous lip images acquired at different frame rates.

具体的には、認識モデル241は、高いとされるフレームレートで取得された連続する口唇画像を示す口唇領域画像データを入力として学習された認識モデルである。また、認識モデル242は、中程度とされるフレームレートで取得された連続する口唇画像を示す口唇領域画像データを入力として学習された認識モデルである。また、認識モデル243は、低いとされるフレームレートで取得された連続する口唇画像を示す口唇領域画像データを入力として学習された認識モデルである。 Specifically, the recognition model 241 is a recognition model learned by inputting lip region image data representing continuous lip images acquired at a high frame rate. Further, the recognition model 242 is a recognition model learned by inputting lip area image data representing continuous lip images acquired at a medium frame rate. Also, the recognition model 243 is a recognition model learned by inputting lip region image data representing continuous lip images acquired at a low frame rate.

次に、図11を参照して、本実施形態の情報処理装置200Aの処理について説明する。図11は、第二の実施形態の情報処理装置の処理を説明する第一のフローチャートである。 Next, with reference to FIG. 11, processing of the information processing apparatus 200A of this embodiment will be described. FIG. 11 is a first flowchart for explaining processing of the information processing apparatus of the second embodiment.

本実施形態の情報処理装置200Aは、映像入力部210により、撮像装置300が撮像した映像データを取得する(ステップS1101)。 200 A of information processing apparatuses of this embodiment acquire the image data which the imaging device 300 imaged by the image input part 210 (step S1101).

続いて、情報処理装置200Aは、タイマをスタートさせる(ステップS1102)。本実施形態では、例えば、タイマで4秒間計測するその間に、後述するステップS1103からステップS1110までのループが繰り返された回数によって、フレームレートが算出される。例えば、ループが150回繰り返された場合には、フレームレートは30fpsとなり、ループが50回繰り返された場合には、フレームレートは10fpsとなる。このフレームレートの計算は、後述するステップS1112で行われる。 Subsequently, the information processing device 200A starts a timer (step S1102). In this embodiment, for example, the frame rate is calculated based on the number of times a loop from step S1103 to step S1110, which will be described later, is repeated while the timer measures for 4 seconds. For example, if the loop is repeated 150 times, the frame rate will be 30 fps, and if the loop is repeated 50 times, the frame rate will be 10 fps. This frame rate calculation is performed in step S1112, which will be described later.

図11のステップS1103からステップS1110までの処理は、図4のステップS402からステップS409までの処理と同様であるから、説明を省略する。 Since the processing from step S1103 to step S1110 in FIG. 11 is the same as the processing from step S402 to step S409 in FIG. 4, description thereof is omitted.

ステップS1110に続いて、情報処理装置200Aは、タイマに設定された時間が経過すると、タイマを停止させる(ステップS1111)。 Following step S1110, the information processing apparatus 200A stops the timer when the time set in the timer has elapsed (step S1111).

続いて、情報処理装置200Aは、フレームレート算出部221により、上述したように、タイマが計測した時間内にループが繰り返された回数に基づいてフレームレートを算出し、取得する(ステップS1112)。 Subsequently, the information processing device 200A uses the frame rate calculation unit 221 to calculate and acquire the frame rate based on the number of times the loop is repeated within the time measured by the timer (step S1112).

フレームレート算出部221によって算出されたフレームレートは、認識モデル選択部216Aが認識モデルを選択する際に参照される属性情報であり、口唇領域画像データに付与されて保持される。 The frame rate calculated by the frame rate calculator 221 is attribute information referred to when the recognition model selector 216A selects a recognition model, and is attached to the lip region image data and held.

続いて、情報処理装置200Aは、認識モデル選択部216Aにより、フレームレートが3fps未満であるか否かを判定する(ステップS1113)。 Subsequently, the information processing device 200A determines whether or not the frame rate is less than 3 fps using the recognition model selection unit 216A (step S1113).

ステップS1113において、フレームレートが3fps未満である場合、認識モデル選択部216Aは、このフレームレートでの認識が不可であるものとし、タイマとバッファをリセットし(ステップS1114)、ステップS1101へ戻る。 In step S1113, if the frame rate is less than 3 fps, the recognition model selection unit 216A determines that recognition at this frame rate is impossible, resets the timer and buffer (step S1114), and returns to step S1101.

ステップS1113において、フレームレートが3fps未満でない場合、つまり、フレームレートが3fps以上である場合、認識モデル選択部216Aは、フレームレートが3fps以上5fps未満であるか否かを判定する(ステップS1115)。 In step S1113, if the frame rate is not less than 3 fps, that is, if the frame rate is 3 fps or more, the recognition model selection unit 216A determines whether the frame rate is 3 fps or more and less than 5 fps (step S1115).

ステップS1115において、フレームレートが3fps以上5fps未満である場合、認識モデル選択部216Aは、フレームレートは低いとされるものとして認識モデル243を設定し(ステップS1116)、後述するステップS1120へ進む。 In step S1115, if the frame rate is 3 fps or more and less than 5 fps, the recognition model selection unit 216A sets the recognition model 243 assuming that the frame rate is low (step S1116), and proceeds to step S1120 described later.

ステップS1115において、フレームレートが3fps以上5fps未満でない場合、つまり、フレームレートが5fps以上である場合、認識モデル選択部216Aは、フレームレートが5fps以上10fps未満であるか否かを判定する(ステップS1117)。 In step S1115, if the frame rate is 3 fps or more and not less than 5 fps, that is, if the frame rate is 5 fps or more, the recognition model selection unit 216A determines whether or not the frame rate is 5 fps or more and less than 10 fps (step S1117). ).

ステップS1117において、フレームレートが5fps以上10fps未満である場合、認識モデル選択部216Aは、フレームレートを中程度として認識モデル242を設定し(ステップS1118)、後述するステップS1120へ進む。 In step S1117, when the frame rate is 5 fps or more and less than 10 fps, the recognition model selection unit 216A sets the recognition model 242 with a medium frame rate (step S1118), and proceeds to step S1120 described later.

ステップS1117において、フレームレートが5fps以上10fps未満でない場合、つまり、フレームレートが10fps以上である場合、認識モデル選択部216Aは、フレームレートが高いものとして認識モデル241を設定し(ステップS1119)、後述するステップS1120へ進む。 In step S1117, if the frame rate is not less than 5 fps or more and less than 10 fps, that is, if the frame rate is 10 fps or more, the recognition model selection unit 216A sets the recognition model 241 as having a high frame rate (step S1119). to step S1120.

続いて、情報処理装置200Aは、口唇画素数変換部217により、選択された認識モデルに応じて、バッファに格納された連続する口唇画像をリサイズする(ステップS1120)。 Subsequently, the information processing device 200A resizes the consecutive lip images stored in the buffer according to the selected recognition model by the lip pixel number conversion unit 217 (step S1120).

尚、本実施形態では、口唇画像をリサイズする際の解像度は、選択された認識モデルに関わらず一定であっても良いし、第一の実施形態の処理と組み合わせても良い。 In this embodiment, the resolution when resizing the lip image may be constant regardless of the selected recognition model, or may be combined with the processing of the first embodiment.

続いて、情報処理装置200Aは、フレーム補完部222により、バッファ内の連続した口唇画像を示す口唇領域画像データを、選択された認識モデル及び取得されたフレームレートに応じて補完し(ステップS1121)、ステップS1122へ進む。尚、本実施形態の補完には、画像データを間引く処理も含まれる。 Subsequently, the information processing device 200A causes the frame complementing unit 222 to complement the lip region image data representing continuous lip images in the buffer according to the selected recognition model and the acquired frame rate (step S1121). , the process proceeds to step S1122. Note that the complementing of the present embodiment includes processing for thinning out image data.

図11のステップS1122からステップS1124の処理は、図4のステップS419からイベント421までの処理と同様であるから、説明を省略する。 Since the processing from step S1122 to step S1124 in FIG. 11 is the same as the processing from step S419 to event 421 in FIG. 4, description thereof is omitted.

情報処理装置200Aは、ステップS1124に続いて、タイマとバッファをリセットし(ステップS1125)、処理の終了指示を受け付けたか否かを判定する(ステップS1126)。 Following step S1124, the information processing apparatus 200A resets the timer and the buffer (step S1125), and determines whether or not an instruction to end processing has been received (step S1126).

ステップS1126において、処理の終了指示を受け付けた場合、情報処理装置200Aは、処理を終了する。ステップS1126において、終了指示を受け付けない場合、情報処理装置200Aは、ステップS1101へ戻る。 In step S1126, when the processing end instruction is received, the information processing apparatus 200A ends the processing. In step S1126, if the end instruction is not accepted, the information processing apparatus 200A returns to step S1101.

本実施形態の情報処理装置200Aは、図11の処理を連続的に繰り返すことで、口唇画像を用いて連続的に発話内容を認識する。 The information processing apparatus 200A of the present embodiment continuously repeats the process of FIG. 11, thereby continuously recognizing the utterance content using the lip image.

次に、図12を参照して、本実施形態の認識モデルについて説明する。図12は、第二の実施形態の認識モデルについて説明する第一の図である。 Next, the recognition model of this embodiment will be described with reference to FIG. FIG. 12 is a first diagram for explaining the recognition model of the second embodiment.

図12において、縦軸は認識の精度を示し、横軸は入力された連続する口唇画像を取得したときのフレームレートを示す。 In FIG. 12 , the vertical axis indicates the recognition accuracy, and the horizontal axis indicates the frame rate when acquiring consecutive input lip images.

図12では、フレームレートを30fpsとして取得した、連続した口唇画像を用いて学習した認識モデルに対し、フレームレートが10fps以下である場合の、連続した口唇画像を示す口唇領域画像データを入力した場合の認識精度を示している。 FIG. 12 shows the case where lip area image data representing continuous lip images is input to a recognition model trained using continuous lip images obtained at a frame rate of 30 fps, and the frame rate is 10 fps or less. It shows the recognition accuracy of

図12に示す認識モデルでは、入力される口唇領域画像データのフレームレートが10fps以上である場合は、認識の精度に差がない。 In the recognition model shown in FIG. 12, there is no difference in recognition accuracy when the frame rate of the input lip region image data is 10 fps or higher.

しかし、入力される口唇領域画像データのフレームレートを10fps未満とした場合には、口唇領域画像データの特徴量や時間的情報が失われ、モデルとのギャップが生じ、認識の精度が下がる。 However, if the frame rate of the input lip area image data is set to less than 10 fps, the feature amount and temporal information of the lip area image data are lost, creating a gap with the model and reducing recognition accuracy.

そこで、入力される口唇領域画像データのフレームレートを10fps未満とした場合について注目する。 Therefore, attention will be paid to the case where the frame rate of the input lip region image data is less than 10 fps.

図13は、第二の実施形態の認識モデルについて説明する第二の図である。図13では、入力される口唇領域画像データのフレームレートを10fps未満として学習した認識モデルに対して、フレームレートが異なる口唇領域画像データを入力した場合を示している。 FIG. 13 is a second diagram illustrating the recognition model of the second embodiment. FIG. 13 shows a case where lip region image data with a different frame rate is input to a recognition model trained with the frame rate of input lip region image data set at less than 10 fps.

図13では、例えば、フレームレートが5fpsである口唇領域画像データを入力とする場合には、フレームレートが5fpsである口唇領域画像データを用いて学習した認識モデルを使うと、最も認識の精度が高くなる。 In FIG. 13, for example, when lip region image data with a frame rate of 5 fps is input, the recognition model trained using the lip region image data with a frame rate of 5 fps is used to achieve the highest recognition accuracy. get higher

また、フレームレートが10fps以上の口唇領域画像データを入力とする場合には、フレームレートが10fpsであっても、30fpsであっても、認識の精度に差はない。また、フレームレートが10fpsである口唇領域画像データを用いて学習した認識モデルを使うと、最も認識の精度が高くなることがわかる。したがって、フレームレートが10fps以上の口唇領域画像データを入力とする場合には、フレームレートが10fpsである口唇領域画像データを用いて学習した認識モデルを使えば良い。 Also, when lip region image data with a frame rate of 10 fps or more is input, there is no difference in recognition accuracy whether the frame rate is 10 fps or 30 fps. Also, it can be seen that using a recognition model trained using lip region image data with a frame rate of 10 fps provides the highest recognition accuracy. Therefore, when inputting lip area image data with a frame rate of 10 fps or higher, a recognition model learned using lip area image data with a frame rate of 10 fps may be used.

また、フレームレートが1fps未満の口唇領域画像データを入力とする場合には、極めて認識精度が低いため、本実施形態では、認識不可としている。この場合には、音声情報で発話内容を認識すること等が考えられる。 In addition, in the case of inputting lip region image data with a frame rate of less than 1 fps, the recognition accuracy is extremely low, so recognition is disabled in this embodiment. In this case, it is conceivable to recognize the utterance content from voice information.

このように、本実施形態では、口唇画像を取得する際のフレームレートに応じて、発話内容の認識に用いる認識モデルを選択するため、発話認識システム100の通信の状況に応じて、発話内容の認識の精度を向上させることができる。 As described above, in the present embodiment, since the recognition model used for recognizing the speech content is selected according to the frame rate at which the lip image is acquired, the speech content can be recognized according to the communication status of the speech recognition system 100. Recognition accuracy can be improved.

(第三の実施形態)
以下に図面を参照して、第三の実施形態について説明する。第三の実施形態では、話者の顔の向きに応じて認識モデルを選択する点が第一の実施形態と相違する。以下に図14を参照して、第三の実施形態について説明する。
(Third embodiment)
A third embodiment will be described below with reference to the drawings. The third embodiment differs from the first embodiment in that a recognition model is selected according to the orientation of the speaker's face. A third embodiment will be described below with reference to FIG.

図14は、第三の実施形態の認識モデルの選択について説明する図である。 FIG. 14 is a diagram illustrating selection of a recognition model according to the third embodiment.

話者は、必ずしも撮像装置300の方向を向いて発話するわけではなく、表示装置400や他の話者の方向を見て発話することが多々ある。 The speaker does not necessarily speak while facing the imaging device 300, but often looks at the display device 400 or another speaker and speaks.

その場合、口唇画像は、図14に示す画像141や画像142のように、話者が撮像装置300を向いている場合の画像143と比較して、横幅が狭くなる。この場合には、撮像装置300と話者との距離が離れたことによって、横幅が狭くなるわけではない。 In this case, the lip image has a narrower width than the image 143 when the speaker is facing the imaging device 300, such as the images 141 and 142 shown in FIG. In this case, the horizontal width does not become narrower due to the increased distance between the imaging device 300 and the speaker.

したがって、本実施形態では、例えば、予め、右向き、左向きでの連続した口唇画像を用いて学習した認識モデルを用意し、顔領域認識部213による顔認識の際に、顔の向きを推定し、それぞれの向きに適した認識モデルを選択する。 Therefore, in the present embodiment, for example, a recognition model that has been learned in advance using continuous right-facing and left-facing lip images is prepared in advance, and the face orientation is estimated when the face region recognition unit 213 performs face recognition. Select the appropriate recognition model for each orientation.

本実施形態では、このように、顔の向きに応じて認識モデルを選択することで、認識の精度の低下を抑制することができる。 In this embodiment, by selecting a recognition model according to the orientation of the face in this way, it is possible to suppress deterioration in recognition accuracy.

以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。 Although the present invention has been described above based on each embodiment, the present invention is not limited to the requirements shown in the above embodiments. These points can be changed without impairing the gist of the present invention, and can be determined appropriately according to the application form.

100 発話認識システム
200、200A 情報処理装置
210 映像入力部
211 人物領域認識部
212 画像補正部
213 顔領域認識部
214 口唇領域抽出部
215 口唇画素数算出部
216、216A 認識モデル選択部
217 口唇画素数変換部
218 口唇特徴量算出部
219 発話内容認識部
220 テキスト出力部
221 フレームレート算出部
222 フレーム補完部
230、230A 記憶部
231、232、233、241、242、243 認識モデル
300 撮像装置
400 表示装置
REFERENCE SIGNS LIST 100 speech recognition system 200, 200A information processing device 210 image input unit 211 person region recognition unit 212 image correction unit 213 face region recognition unit 214 lip region extraction unit 215 lip pixel number calculation unit 216, 216A recognition model selection unit 217 lip pixel number Conversion unit 218 Lip feature amount calculation unit 219 Speech content recognition unit 220 Text output unit 221 Frame rate calculation unit 222 Frame interpolation unit 230, 230A Storage unit 231, 232, 233, 241, 242, 243 Recognition model 300 Imaging device 400 Display device

特開2015-019162号公報JP 2015-019162 A

Claims (8)

撮像装置によって撮像された動画データが入力される入力部と、
前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する口唇領域抽出部と、
前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する認識モデル選択部と、
選択された認識モデルを用いて前記人物の発話内容を認識する発話認識部と、
前記発話内容の認識結果を出力する出力部と、
前記撮像装置と前記人物との距離を異ならせて前記人物を撮像した動画データから抽出された口唇領域画像データを用いて学習させた複数の認識モデルが格納された記憶部と、
前記撮像装置と前記人物との距離に応じて、前記複数の認識モデルの中から、発話内容の認識に使用する認識モデルを選択する認識モデル選択部と、を有し、
前記認識モデル選択部は、
前記連続した口唇画像の横幅の画素数の平均値が所定値未満である場合、発話内容の認識不可とし、
前記連続した口唇画像の横幅の画素数の平均値が前記所定値以上であり、且つ、前記所定値より大きい値である第一の値未満である場合に、前記複数の認識モデルの中から、遠距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第一の値以上であり、且つ、前記第一の値よりも大きい値である第二の値未満である場合に、前記複数の認識モデルの中から、中距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第二の値以上である場合に、前記複数の認識モデルの中から、近距離用の認識モデルを選択する情報処理装置。
an input unit into which video data captured by an imaging device is input;
a lip region extracting unit for recognizing a region showing a person's lips from images for each frame included in the moving image data and extracting lip region image data showing continuous lip images of the person;
a recognition model selection unit that selects, from among a plurality of recognition models, a recognition model to be used for recognizing the utterance content of the person based on the attribute information assigned to the lip region image data;
an utterance recognition unit that recognizes the utterance content of the person using the selected recognition model;
an output unit that outputs a recognition result of the utterance content;
a storage unit storing a plurality of recognition models trained using lip region image data extracted from video data of the person captured by varying the distance between the imaging device and the person;
a recognition model selection unit that selects, from among the plurality of recognition models, a recognition model to be used for recognizing utterance content according to the distance between the imaging device and the person ;
The recognition model selection unit
If the average number of pixels in the horizontal width of the consecutive lip images is less than a predetermined value, it is determined that the utterance content cannot be recognized;
When the average number of pixels in the horizontal width of the consecutive lip images is equal to or greater than the predetermined value and is less than a first value that is larger than the predetermined value, from among the plurality of recognition models, Select the recognition model for long distance,
the plurality of recognitions when the average value of the number of pixels in the horizontal width of the consecutive lip images is equal to or greater than the first value and is less than a second value that is greater than the first value; Select a medium-range recognition model from among the models,
An information processing apparatus that selects a short-distance recognition model from among the plurality of recognition models when the average value of the number of pixels in the horizontal width of the consecutive lip images is equal to or greater than the second value.
前記連続した口唇画像の横幅の画素数の平均値を算出する口唇画素数算出部を有し、
前記平均値を前記口唇領域画像データに付与された属性情報とする、請求項1記載の情報処理装置。
a lip pixel count calculation unit that calculates an average value of the number of pixels in the width of the consecutive lip images;
2. The information processing apparatus according to claim 1, wherein said average value is used as attribute information given to said lip region image data.
前記動画データが示す動画におけるフレームレートを算出するフレームレート算出部を有し、
前記フレームレートを前記属性情報とする、請求項1記載の情報処理装置。
Having a frame rate calculation unit for calculating a frame rate in the moving image indicated by the moving image data,
2. The information processing apparatus according to claim 1, wherein said frame rate is said attribute information.
前記複数の認識モデルは、
それぞれについて、異なるフレームレートで取得された、連続する口唇画像を示す口唇領域画像データを入力として学習させたモデルである、請求項3記載の情報処理装置。
The plurality of recognition models are
4. The information processing apparatus according to claim 3, wherein each of the models is learned by inputting lip region image data representing continuous lip images acquired at different frame rates.
前記口唇領域画像データが、選択された認識モデルの入力データとなるように、前記連続した口唇画像の解像度を異なる解像度に変換する口唇画素数変換部を有する、請求項1乃至4の何れか一項に記載の情報処理装置。 5. The lip pixel number converter according to any one of claims 1 to 4, further comprising a lip pixel number conversion unit that converts resolutions of the continuous lip images into different resolutions so that the lip region image data becomes input data for a selected recognition model. The information processing device according to the item. 一定期間の前記連続した口唇画像の横幅の画素数と縦幅の画素数とが示す画像の8ビットのRGB値を特徴量として算出する特徴量算出部を有し、
前記発話認識部は、
選択された認識モデルと、前記特徴量とを用いて前記発話内容を認識する、請求項1乃至5の何れか一項に記載の情報処理装置。
a feature amount calculation unit that calculates, as a feature amount, an 8-bit RGB value of an image indicated by the number of pixels in the horizontal width and the number of pixels in the vertical width of the consecutive lip images for a certain period;
The speech recognition unit is
The information processing apparatus according to any one of claims 1 to 5, wherein the speech content is recognized using the selected recognition model and the feature amount.
撮像装置と、情報処理装置とを有する発話認識システムであって、
前記情報処理装置は、
前記撮像装置によって撮像された動画データが入力される入力部と、
前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する口唇領域抽出部と、
前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する認識モデル選択部と、
選択された認識モデルを用いて前記人物の発話内容を認識する発話認識部と、
前記発話内容の認識結果を出力する出力部と、
前記撮像装置と前記人物との距離を異ならせて前記人物を撮像した動画データから抽出された口唇領域画像データを用いて学習させた複数の認識モデルが格納された記憶部と、
前記撮像装置と前記人物との距離に応じて、前記複数の認識モデルの中から、発話内容の認識に使用する認識モデルを選択する認識モデル選択部と、を有し、
前記認識モデル選択部は、
前記連続した口唇画像の横幅の画素数の平均値が所定値未満である場合、発話内容の認識不可とし、
前記連続した口唇画像の横幅の画素数の平均値が前記所定値以上であり、且つ、前記所定値より大きい値である第一の値未満である場合に、前記複数の認識モデルの中から、遠距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第一の値以上であり、且つ、前記第一の値よりも大きい値である第二の値未満である場合に、前記複数の認識モデルの中から、中距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第二の値以上である場合に、前記複数の認識モデルの中から、近距離用の認識モデルを選択する発話認識システム。
A speech recognition system having an imaging device and an information processing device,
The information processing device is
an input unit into which moving image data captured by the imaging device is input;
a lip region extracting unit for recognizing a region showing a person's lips from images for each frame included in the moving image data and extracting lip region image data showing continuous lip images of the person;
a recognition model selection unit that selects, from among a plurality of recognition models, a recognition model to be used for recognizing the utterance content of the person based on the attribute information assigned to the lip region image data;
an utterance recognition unit that recognizes the utterance content of the person using the selected recognition model;
an output unit that outputs a recognition result of the utterance content;
a storage unit storing a plurality of recognition models trained using lip region image data extracted from video data of the person captured by varying the distance between the imaging device and the person;
a recognition model selection unit that selects, from among the plurality of recognition models, a recognition model to be used for recognizing utterance content according to the distance between the imaging device and the person ;
The recognition model selection unit
If the average number of pixels in the horizontal width of the consecutive lip images is less than a predetermined value, it is determined that the utterance content cannot be recognized;
When the average number of pixels in the horizontal width of the consecutive lip images is equal to or greater than the predetermined value and is less than a first value that is larger than the predetermined value, from among the plurality of recognition models, Select the recognition model for long distance,
the plurality of recognitions when the average value of the number of pixels in the horizontal width of the consecutive lip images is equal to or greater than the first value and is less than a second value that is larger than the first value; Select a medium-range recognition model from among the models,
A speech recognition system for selecting a short-distance recognition model from among the plurality of recognition models when the average value of the number of pixels in the horizontal width of the consecutive lip images is equal to or greater than the second value.
情報処理装置に、
撮像装置によって撮像された動画データを入力する処理と、
前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する処理と、
前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する処理と、
選択された認識モデルを用いて前記人物の発話内容を認識する処理と、
前記発話内容の認識結果を出力する処理と、
記憶部に格納された、前記撮像装置と前記人物との距離を異ならせて前記人物を撮像した動画データから抽出された口唇領域画像データを用いて学習させた複数の認識モデルから、前記撮像装置と前記人物との距離に応じて、発話内容の認識に使用する認識モデルを選択する処理と、を実行させ、
前記認識モデルを選択する処理は、
前記連続した口唇画像の横幅の画素数の平均値が所定値未満である場合、発話内容の認識不可とし、
前記連続した口唇画像の横幅の画素数の平均値が前記所定値以上であり、且つ、前記所定値より大きい値である第一の値未満である場合に、前記複数の認識モデルの中から、遠距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第一の値以上であり、且つ、前記第一の値よりも大きい値である第二の値未満である場合に、前記複数の認識モデルの中から、中距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第二の値以上である場合に、前記複数の認識モデルの中から、近距離用の認識モデルを選択する、発話認識プログラム。
information processing equipment,
a process of inputting video data captured by an imaging device;
a process of recognizing an area showing the lips of a person from images for each frame included in the moving image data, and extracting lip area image data showing continuous lip images of the person;
A process of selecting a recognition model to be used for recognizing the utterance content of the person from among a plurality of recognition models based on the attribute information assigned to the lip region image data;
a process of recognizing the speech content of the person using the selected recognition model;
a process of outputting a recognition result of the utterance content;
The imaging device stores a plurality of recognition models trained using lip region image data extracted from moving image data obtained by imaging the person with different distances between the imaging device and the person stored in a storage unit. and a process of selecting a recognition model to be used for recognizing utterance content according to the distance from the person,
The process of selecting the recognition model includes:
If the average number of pixels in the horizontal width of the consecutive lip images is less than a predetermined value, it is determined that the utterance content cannot be recognized;
When the average number of pixels in the horizontal width of the consecutive lip images is equal to or greater than the predetermined value and is less than a first value that is larger than the predetermined value, from among the plurality of recognition models, Select the recognition model for long distance,
the plurality of recognitions when the average value of the number of pixels in the horizontal width of the consecutive lip images is equal to or greater than the first value and is less than a second value that is greater than the first value; Select a medium-range recognition model from among the models,
A speech recognition program for selecting a short-distance recognition model from among the plurality of recognition models when the average value of the number of horizontal pixels of the continuous lip images is equal to or greater than the second value.
JP2019019139A 2019-02-05 2019-02-05 Information processing device, speech recognition system and speech recognition program Active JP7299587B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019019139A JP7299587B2 (en) 2019-02-05 2019-02-05 Information processing device, speech recognition system and speech recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019019139A JP7299587B2 (en) 2019-02-05 2019-02-05 Information processing device, speech recognition system and speech recognition program

Publications (2)

Publication Number Publication Date
JP2020126492A JP2020126492A (en) 2020-08-20
JP7299587B2 true JP7299587B2 (en) 2023-06-28

Family

ID=72084059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019019139A Active JP7299587B2 (en) 2019-02-05 2019-02-05 Information processing device, speech recognition system and speech recognition program

Country Status (1)

Country Link
JP (1) JP7299587B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7640964B2 (en) 2021-02-19 2025-03-06 株式会社リコー Speech content recognition device, method, and program
KR20230031491A (en) 2021-08-27 2023-03-07 삼성전자주식회사 Electronic device and method for processing speech by classifying speech target

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013191061A1 (en) 2012-06-20 2013-12-27 コニカミノルタ株式会社 Image processing device
JP2015045919A (en) 2013-08-27 2015-03-12 トヨタ自動車株式会社 Image recognition method and robot

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3702978B2 (en) * 1996-12-26 2005-10-05 ソニー株式会社 Recognition device, recognition method, learning device, and learning method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013191061A1 (en) 2012-06-20 2013-12-27 コニカミノルタ株式会社 Image processing device
JP2015045919A (en) 2013-08-27 2015-03-12 トヨタ自動車株式会社 Image recognition method and robot

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jon Barker,外1名,Energetic and Informational Masking Effects in an Audiovisual Speech Recognition System,IEEE Transactions on Audio, Speech, and Language Processing,Volume 17,Issue 3,2009年03月,pp. 446-458
高橋 昌平,外1名,複数画像特徴量を用いた読唇システム オプティカルフロー特徴・形状特徴・離散コサイン変換特徴の統合の検討,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM)[online] ,情報処理学会,2014年02月24日,Vol. 2014-CVIM-191,No. 7

Also Published As

Publication number Publication date
JP2020126492A (en) 2020-08-20

Similar Documents

Publication Publication Date Title
JP6499583B2 (en) Image processing apparatus and image display apparatus
US9710923B2 (en) Information processing system, information processing device, imaging device, and information processing method
US10887548B2 (en) Scaling image of speaker's face based on distance of face and size of display
JP6330036B2 (en) Image processing apparatus and image display apparatus
US9542755B2 (en) Image processor and image processing method
KR20170047167A (en) Method and apparatus for converting an impression of a face in video
JP7388188B2 (en) Speaker recognition system, speaker recognition method, and speaker recognition program
CN104584531A (en) Image processing apparatus and image display apparatus
JP2013122695A (en) Information presentation device, information presentation method, information presentation program, and information transfer system
JP2014106732A (en) Information processor and information processing method
JP2012151848A (en) System and method for switching scene state based on dynamic detection of region of interest
US8675128B2 (en) Image processing method and system with repetitive pattern detection
JP7299587B2 (en) Information processing device, speech recognition system and speech recognition program
JP5068732B2 (en) 3D shape generator
JP6492746B2 (en) Image processing program, image processing apparatus, and image processing method
KR20110063989A (en) Image object detection device and method
WO2018180578A1 (en) Image processing device, imaging device, image processing method, and program
JP2014116716A (en) Tracking device
US20230306698A1 (en) System and method to enhance distant people representation
JP2020126523A (en) Image cutting-out device, image analyzing device, and program
CN113792591A (en) Sound-picture synchronization detection method and device, electronic equipment and storage medium
US9159118B2 (en) Image processing apparatus, image processing system, and non-transitory computer-readable medium
JP2025151939A (en) Image processing device, image processing method, and program
JP5759439B2 (en) Video communication system and video communication method
JP7243821B2 (en) LEARNING DEVICE, CONTROL METHOD AND PROGRAM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211006

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20211006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20211109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230608

R150 Certificate of patent or registration of utility model

Ref document number: 7299587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150