JP4553667B2 - Utterance identification method and password verification device using the same - Google Patents
Utterance identification method and password verification device using the same Download PDFInfo
- Publication number
- JP4553667B2 JP4553667B2 JP2004264506A JP2004264506A JP4553667B2 JP 4553667 B2 JP4553667 B2 JP 4553667B2 JP 2004264506 A JP2004264506 A JP 2004264506A JP 2004264506 A JP2004264506 A JP 2004264506A JP 4553667 B2 JP4553667 B2 JP 4553667B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- password
- data
- content
- change pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、発話者の唇の動きから発話内容を識別する発話識別方法に関し、特に、発話内容の識別誤りを低減する発話識別方法に関する。また、本発明の発話識別方法を用いて発話状態から認識したパスワードと予め登録されたパスワードとを照合するパスワード照合装置に関する。 The present invention relates to an utterance identification method for identifying utterance contents from the movement of a lip of a speaker, and more particularly to an utterance identification method for reducing identification errors of utterance contents. The present invention also relates to a password verification device that verifies a password recognized from an utterance state using a speech identification method of the present invention and a password registered in advance.
唇の動きを利用して発話者の日本語発話内容を識別する従来方法として、次のような識別方法が提案されている(例えば、非特許文献1参照)。
従来方法では、図5に示すように、上唇の基準点をA1、下唇の基準点をA2、唇の左右の基準点をB1とB2、下顎の基準点をA3として唇の横幅W(B1〜B2)、縦幅H(A1〜A2)及び上唇から下顎までの距離HX(A1〜A3)を測定し、発話したときの横幅W、縦幅H及び距離HXの変化状態を算出することにより、発話内容を識別する。例えば、「あ」「い」と続けて発話する場合、「あ」と発話する場合の3つの変数を(W1,H1,HX1)、「い」と発話する場合の3つの変数を(W2,H2,HX2)とすると、2連続母音の発話パターンは、6つの変数(W1,H1,HX1)と(W2,H2,HX2)に関連付けされ、その変化状態を算出して「あ」「い」の連続発話パターンを識別する。
In the conventional method, as shown in FIG. 5, the upper lip reference point is A1, the lower lip reference point is A2, the left and right lip reference points are B1 and B2, and the lower jaw reference point is A3. ~ B2), by measuring the vertical width H (A1 to A2) and the distance HX (A1 to A3) from the upper lip to the lower jaw, and calculating the change state of the horizontal width W, the vertical width H and the distance HX when speaking. Identify the utterance content. For example, when uttering “A” and “I” continuously, three variables when uttering “A” are (W1, H1, HX1), and three variables when uttering “I” are (W2, H2, HX2), the utterance pattern of two consecutive vowels is associated with six variables (W1, H1, HX1) and (W2, H2, HX2). Identify the continuous utterance pattern.
ところで、上述した母音識別方法も含めて従来の発話識別方法は、「あ」、「い」や「1」、「2」等の各発話内容を全て異なるものとして取扱い、発話者の発話を識別する方法を取っている。
しかし、各発話内容を全て異なるものとして取扱って発話内容を識別する従来方法では、例えば5種類の母音の発話の仕方が安定して異なる発話者では発話内容の識別誤り率は低いが、5種類の母音の内のいくつかの発話の仕方が区別し難い発話者では発話内容の識別誤り率は高くなる。このように、従来方法では、識別の誤り率は各発話者の個人差に大きく依存するという問題がある。
By the way, the conventional utterance identification methods including the above-mentioned vowel identification method treat each utterance content such as “A”, “I”, “1”, “2” as different ones, and identify the utterance of the speaker. Are taking the way.
However, in the conventional method for identifying each utterance content by treating each utterance content as different, for example, the utterance content has a low identification error rate in a utterer with a stable manner of utterance of five types of vowels. The utterance content identification error rate is high for a speaker whose utterances are difficult to distinguish. As described above, the conventional method has a problem that the error rate of identification largely depends on the individual difference of each speaker.
本発明は上記問題点に着目してなされたもので、各発話者の発話の仕方に影響されることなく識別誤り率を低減できる発話識別方法を提供することを目的とする。また、この発話識別方法を用いたパスワード照合装置を提供することを目的とする。 The present invention has been made paying attention to the above problems, and an object of the present invention is to provide an utterance identification method capable of reducing the identification error rate without being influenced by how each utterer utters. Another object of the present invention is to provide a password verification apparatus using this utterance identification method.
このため、請求項1の発明の発話識別方法は、発話者の各発話内容に対する少なくとも唇の縦幅と横幅の変化パターンに基づいて、異なる発話内容で前記変化パターンの類似性が高いものは同一グループとし、異なる発話内容で前記変化パターンの類似性が低いものは別グループとして各発話内容をグループに分類し、前記発話者個人の各発話内容を前記グループ分類に基づいて識別する発話識別方法であって、複数個の発話内容をそれぞれ一定回数づつ発話させ、前記複数個の各発話内容に関してそれぞれ一定回数の前記変化パターンを測定し、各発話内容毎に、前記測定データの内から任意の個数のデータを抽出してグループ分類作成用データとし、残りの測定データを評価用データとし、前記抽出した各グループ分類作成用データに基づいて算出した各発話内容の各統計的分布状態に基づいて各発話内容に関して他の発話内容との重なり率を算出し、該算出した重なり率と予め設定した閾値を比較して前記類似性を判定して各発話内容をグループ分けして前記グループ分類を作成し、作成したグループ分類に基づいて前記評価用データの識別を行い識別誤り率を算出し、算出した識別誤り率が予め設定した許容値以下の時に前記作成したグループ分類はOKとしてグループ分類を確定するようにしたことを特徴とする。 For this reason, the utterance identification method according to the first aspect of the present invention is based on at least the lip vertical width and horizontal width change patterns for each utterance content of the speaker, and the same utterance content with high similarity in the change patterns is different. As a group, an utterance identification method that classifies each utterance content as a separate group with different utterance content and low similarity of the change pattern, and identifies each utterance content of the individual speaker based on the group classification A plurality of utterance contents are uttered at a certain number of times, and the change pattern is measured at a certain number of times for each of the plurality of utterance contents, and an arbitrary number of the measurement data is measured for each utterance content. Data is extracted as group classification creation data, and the remaining measurement data is used as evaluation data. Based on the extracted group classification creation data, The overlap rate of each utterance content with the other utterance content is calculated based on each statistical distribution state of each utterance content calculated in the above, and the similarity is determined by comparing the calculated overlap rate with a preset threshold value. The utterance contents are grouped to create the group classification, the evaluation data is identified based on the created group classification, the identification error rate is calculated, and the calculated identification error rate is a preset allowable value. The group classification created as described above is determined as OK in the following cases.
前記発話者の各発話内容は、請求項2のように、前記変化パターンにおける唇の縦幅と横幅の時間的な変化の少ない部分を用いて検出するようにするとよい。
請求項3のように、請求項2の発話内容は、数字である。
Each utterance of the speaker, as in
As in
また、請求項4の本発明のパスワード照合装置は、パスワード登録者が発話したパスワードの発話状態を検出する検出部と、該検出部の検出した発話状態から少なくとも唇の縦幅と横幅の変化パターンを測定する変化パターン測定部と、各パスワード登録者毎の各発話内容に関するグループ分類データを予め登録したデータベースと、前記変化パターン測定部の測定した変化パターンと前記データベースの登録データに基づいて、請求項1又は2に記載の発話識別方法を用いて前記パスワード登録者の発話したパスワードを認識する発話識別部と、該発話識別部が認識したパスワードと予め登録されたパスワードを照合し、一致/不一致の判定出力を発生する照合部とを備えて構成した。
According to a fourth aspect of the present invention, there is provided a password verification device according to the present invention, comprising: a detection unit that detects an utterance state of a password uttered by a password registrant; and a change pattern of at least the vertical and horizontal widths of the lips from the utterance state detected by the detection unit Based on the change pattern measurement unit for measuring the password, the database in which the group classification data regarding each utterance content for each password registrant is registered in advance, the change pattern measured by the change pattern measurement unit, and the registration data in the database The utterance identification unit for recognizing the password uttered by the password registrant using the utterance identification method described in
かかる構成では、検出部がパスワード登録者の発話したパスワードの発話状態を検出すると、変化パターン測定部は、検出された発話状態から例えば唇の縦幅と横幅の変化パターンを測定する。発話識別部は、変化パターン測定部の測定した変化パターンとデータベースの登録データに基づいて本発明の発話識別方法を用いてパスワード登録者の発話したパスワードを認識する。照合部は、発話識別部が認識したパスワードと予め登録されたパスワードを照合して一致/不一致の判定をする。 In such a configuration, when the detection unit detects the utterance state of the password uttered by the password registrant, the change pattern measurement unit measures, for example, the change pattern of the vertical and horizontal widths of the lips from the detected utterance state. The utterance identification unit recognizes the password spoken by the password registrant using the utterance identification method of the present invention based on the change pattern measured by the change pattern measurement unit and the registered data in the database. Matching unit is a determination of match / mismatch by matching previously registered password that speech recognition unit has recognized.
請求項5のように、パスワード登録時に、パスワード登録者に関する前記データベースに登録するグループ分類データに基づいて、登録しようとするパスワードの一致確率を算出して当該登録しようとするパスワードの有効性を判定するようにするとよい。この場合、請求項6のように、前記算出した一致確率が所定の値より高い時は、一致確率が前記所定の値以下となるようパスワードの登録内容の変更を指示するようにするとよい。
As in
以上説明したように本発明の発話識別方法によれば、唇の縦幅と横幅の変化パターンの類似性が高く識別し難い異なる発話内容は同一グループとして識別しないようにしたので、発話の仕方の個人差に影響されることなく発話内容の識別誤りを低減できる。 As described above, according to the utterance identification method of the present invention, different utterance contents that are highly similar to each other and are difficult to identify are not identified as the same group. It is possible to reduce utterance content identification errors without being affected by individual differences.
また、本発明のパスワード照合装置によれば、パスワードの識別誤りを低減できるので、発話状態を検出して登録者の認識を行う認証装置の信頼性を向上できるようになる。 In addition, according to the password verification device of the present invention, it is possible to reduce password identification errors, thereby improving the reliability of the authentication device that detects the utterance state and recognizes the registrant.
以下、本発明に係る発話識別方法の一実施形態について説明する。
本発明の発話識別方法は、発話者個人の各発話内容(五十音や数字等)に対する少なくとも唇の縦幅Wと横幅Hの変化パターンに基づいて、異なる発話内容で変化パターンの類似性が高いものは同一グループとし、異なる発話内容で変化パターンの類似性が低いものは別グループとするように各発話内容をグループに分類する。そして、発話者の各発話内容をグループ分類で選択して識別するものである。尚、本発明における「発話」は、必ずしも音声を伴わなくともよいものとする。
Hereinafter, an embodiment of an utterance identification method according to the present invention will be described.
The utterance identification method according to the present invention is based on the change pattern of at least the vertical width W and the horizontal width H of the lips with respect to each utterance content of the individual utterance (such as Japanese syllabary and numbers). Each utterance content is classified into a group so that higher ones are in the same group, and different utterance content is low in change pattern similarity. Then, each utterance content of the speaker is selected and identified by group classification. The “utterance” in the present invention does not necessarily have to be accompanied by voice.
例えば、5つの数字「1」、「2」、「3」、「4」、「5」について、ある発話者は「1」、「2」、「3」、「4」、「5」を発話した時の唇の変化パターンが安定して異なり、別の発話者は「1」、「2」を発話した時の唇の変化パターンの類似性が高く識別し難く、他の「3」、「4」、「5」を発話した時の唇の変化パターンの類似性は低く識別し易いとする。この場合、ある発話者については、「1」〜「5」はそれぞれ別々のグループとする。また、別の発話者については「1」と「2」を同一グループとし、「3」〜「5」はそれぞれ別々のグループとする。そして、発話者の発話内容が分類したどのグループに属するかを判断して発話内容を識別する。 For example, for five numbers “1”, “2”, “3”, “4”, “5”, a speaker speaks “1”, “2”, “3”, “4”, “5”. The lip change pattern when the utterance is stable is different, and another speaker has a high similarity in the lip change pattern when uttering “1” and “2”, and is difficult to identify. It is assumed that the similarity of the lip change pattern when “4” and “5” are spoken is low and easy to identify. In this case, for a certain speaker, “1” to “5” are different groups. For different speakers, “1” and “2” are in the same group, and “3” to “5” are in separate groups. Then, the utterance content is identified by determining to which group the utterance content of the speaker belongs.
例えばパスワードを「1234」としたとき、「1」、「2」、「3」、「4」、「5」が別グループに分類された発話者の場合は、「1234」と発話したときにパスワード一致と判定される。また、「1」、「2」が同一グループで「3」、「4」、「5」が別グループに分類された発話者の場合は、「1」と「2」は同一グループで同じものとして扱い、「1234」、「2234」、「2134」、「1134」と発話した場合でも、「1」と「2」は識別せずパスワード一致と判定される。 For example, when the password is “1234”, when “1”, “2”, “3”, “4”, “5” are speakers classified into different groups, “1234” is spoken. It is determined that the password matches. Also, in the case of a speaker in which “1” and “2” are the same group and “3”, “4” and “5” are classified into different groups, “1” and “2” are the same group and the same Even if “1234”, “2234”, “2134”, and “1134” are spoken, “1” and “2” are not identified and the passwords are determined to match.
従って、本発明の発話識別方法によれば、各発話者に応じて発話内容をグループに分類し、識別困難な発話内容は同一グループとして無理に識別しないようにしたので、発話時の唇の変化パターンの個人差に影響されることなく発話内容の識別誤りを低減できる。 Therefore, according to the utterance identification method of the present invention, the utterance contents are classified into groups according to each utterer, and the utterance contents that are difficult to identify are not forcibly identified as the same group. It is possible to reduce utterance content identification errors without being influenced by individual differences in patterns.
次に、本発明の発話識別方法において所定の発話内容識別率を達成するグループの作成方法の一実施形態を、図1のフローチャートを参照して説明する。
ステップ1(図中S1で示し、以下同様とする)では、発話者にk通りの発話内容を各々M回発話させ、その時の唇の横幅Wと縦幅Hの変化パターンを測定して発話データとする。
ステップ2では、ステップ1で測定した発話データを登録する。
ステップ3では、後述の発話内容のグループ分類段階で使用する閾値として重なり率Pの初期値を設定する。この場合、重なり率Pの初期値は大きな値に設定し、類似性の高い異なる発話内容でも別グループに分類されるようにする。
Next, an embodiment of a method for creating a group that achieves a predetermined utterance content identification rate in the utterance identification method of the present invention will be described with reference to the flowchart of FIG.
In step 1 (indicated by S1 in the figure, the same shall apply hereinafter), the utterer is caused to utter the k utterance contents M times, and the change pattern of the width W and the height H of the lips at that time is measured to determine the utterance data. And
In
In
ステップ4では、ステップ2で登録したk通りの各発話内容の各M個の発話データから無作為にN個づつサンプリグしてグループ分類の作成用データとする。ここで、残りのN′(M−N)×k個の発話データは、作成したグループ分類の評価用データとする。
ステップ5では、ステップ4で抽出したk通りの各発話内容の各N個の発話データから各発話内容の統計的分布(確率密度)を算出し、各発話内容に関して他の発話内容との統計的分布間の重なり率Qを算出する。
In
In
図2に統計的分布の例を示す。例えば統計的分布間の重なり率Qを算出する発話内容をA,Bとして、図のFA(x)は発話内容Aの統計的分布とし、FB(x)は発話内容Bの統計的分布とする。互いの分布が重なった部分のQab部分は発話内容Aが発話内容Bと誤って識別される確率を示し、他のQba部分は発話内容Bが発話内容Aと誤って識別される確率を示している。このQabとQbaを、重なり率Qとして算出する。 FIG. 2 shows an example of statistical distribution. For example, the utterance contents for calculating the overlap ratio Q between the statistical distributions are A and B, FA (x) in the figure is the statistical distribution of the utterance contents A, and FB (x) is the statistical distribution of the utterance contents B. . The Qab portions where the distributions overlap each other indicate the probability that the utterance content A is erroneously identified as the utterance content B, and the other Qba portions indicate the probability that the utterance content B is erroneously identified as the utterance content A. Yes. Qab and Qba are calculated as the overlapping rate Q.
ステップ6では、ステップ5で算出した重なり率Qとステップ3で設定した重なり率Pを比較し、比較結果に基づいてk通りの各発話内容についてグループ分けする。例えば、図2の例で説明すると、Qab、QbaとPとの大小関係で以下のようにグループ分けする。
In
ステップ7では、ステップ6で作成したグループ分類を用いて、(N′×k)個の評価用データを識別し、識別誤り率を算出する。
ステップ8では、ステップ7で得られた識別誤り率を予め設定した所望の識別誤り率の許容値と比較する。ステップ7で算出した識別誤り率が許容値以下であればステップ6で作成したグループ分類はOKとして、ステップ9に進み、ステップ1で測定したk通りの発話内容に関するグループ分類を確定する。一方、ステップ7で算出した識別誤り率が許容値より大きい場合は、ステップ10に進む。
In
In
ステップ10では、識別誤り率が高かった発話内容について閾値である重なり率Pの設定値を小さくし、類似性の低い発話内容でも同一グループとなるよう、分類するグループ数が減少するようにして、ステップ4以下の処理を繰り返し実行する。このようにして、所望以下の識別誤り率となるようなグループ分類を設定する。
In step 10, the setting value of the overlap rate P, which is a threshold value, is reduced for the utterance content having a high identification error rate, and the number of groups to be classified is decreased so that the utterance content with low similarity is also the same group.
以上のように本発明の発話識別方法は、各発話者毎に発話内容をグループに分類し、発話者個々に設定したグループ分類に基づいて各発話者の発話内容を識別するので、従来のように各発話内容を全て区別して識別しようとする方法に比較して、発話内容の識別誤り率を低減できる。言い換えれば、発話内容の識別率を高めることができる。 As described above, the utterance identification method of the present invention classifies the utterance contents into groups for each utterer, and identifies the utterance contents of each utterer based on the group classification set for each utterer. Compared with the method of distinguishing and identifying all utterance contents, the identification error rate of the utterance contents can be reduced. In other words, the utterance content identification rate can be increased.
次に、前記ステップ1の発話データを測定する際の、唇の横幅Wと縦幅Hの測定方法の一例について、数字発話の例で説明する。
ここでは発話内容が「0(ZERO)」の場合で説明する。
Next, an example of a method for measuring the lateral width W and the vertical width H of the lips when measuring the speech data in
Here, a case where the utterance content is “0 (ZERO)” will be described.
図3は、「0(ZERO)」を発話した場合の、唇の縦幅Hと横幅Wの変化パターンを示す。図中のH(i)は縦幅の変化パターンを示し、W(i)は横幅の変化パターンを示し、D(i)は、縦幅の変化量と横幅の変化量を合せた変化量を示す。尚、i=1,2、・・・とする。ここで、前記H(i)は、発話前の閉唇時の値をH(0)とし、発話した時の測定値をH′(i)すると、H(i)=H′(i)−H(0)である。同様に、前記W(i)は、発話前の閉唇時の値をW(0)とし、発話した時の測定値をW′(i)すると、W(i)=W′(i)−W(0)である。変化量D(i)は、D(i)=((H′(i)−H(i−1))2+(W′(i)−W(i−1))2)1/2である。 FIG. 3 shows a change pattern of the vertical width H and the horizontal width W of the lips when “0 (ZERO)” is spoken. In the figure, H (i) indicates the change pattern of the vertical width, W (i) indicates the change pattern of the horizontal width, and D (i) indicates the change amount of the change amount of the vertical width and the change amount of the horizontal width. Show. Note that i = 1, 2,... Here, H (i) is defined as H (i) = H ′ (i) −, where H (0) is a value at the time of lips before utterance and H ′ (i) is a measured value at the time of utterance. H (0). Similarly, W (i) is W (i) = W ′ (i) −, where W (0) is the value when the lips are closed before speaking and W ′ (i) is the measured value when speaking. W (0). The amount of change D (i) is D (i) = ((H ′ (i) −H (i−1)) 2 + (W ′ (i) −W (i−1)) 2 ) 1/2 . is there.
また、発話前の変化量が小さい部分(図中のa部分)は閉唇状態を示し、次の変化量が小さい部分(図中のb部分)は「0(ZERO)」を発話した時の「ZE」の「E」の発話状態を示し、次の変化量が小さい部分(図中のc部分)は発話「RO」の「O」の発話状態を示す。発話後の変化量が小さい部分(図中のd部分)は閉唇状態を示し、発話の完了を検出するためのものである。 In addition, the portion with a small amount of change before utterance (a portion in the figure) shows a lip closed state, and the next portion with a small amount of change (b portion in the figure) utters “0 (ZERO)”. The utterance state of “E” of “ZE” indicates the utterance state of “O” of the utterance “RO”. A portion with a small amount of change after utterance (“d” portion in the figure) indicates a lip closed state and is for detecting completion of the utterance.
このように、例えば母音「A」、[I]、「U」、[E]、[O]と閉唇状態は、変化量D(i)が少なく発話時の変化パターンが安定している。従って、発話内容「ZERO」の「ZE」と「RO」の各発話データを測定する場合、変化量の少ないb部分とc部分を測定して、「ZE」と「RO」を検出して発話データとする。 As described above, for example, the vowels “A”, [I], “U”, [E], [O] and the lip state have a small change amount D (i) and a stable change pattern at the time of utterance. Therefore, when measuring each utterance data of “ZE” and “RO” of the utterance content “ZERO”, the “b” and “c” portions with a small amount of change are measured, and “ZE” and “RO” are detected and the utterance is detected. Data.
本実施形態のように、各発話内容を発話した時の唇の縦幅Hと横幅Wの測定データとして、例えば母音のような変化量の少ない部分を測定すれば、同じ発話内容に関する発話データのばらつきを低減でき、同一発話者の発話毎のばらつきによる識別誤りを低減できる。また、本実施形態では、唇の縦幅と横幅の変化パターンから発話内容を識別するので、唇周辺だけを含む画像でよく、従来のような下顎の位置も用いる識別方法に比べて識別に必要な画像範囲を狭くできる。このため、従来方法より必要な画像データ量を少なくできる利点がある。 As in this embodiment, when measuring a portion with a small amount of change such as a vowel as the measurement data of the vertical width H and the horizontal width W of the lips when each utterance content is uttered, the utterance data on the same utterance content Variations can be reduced, and identification errors due to variations for each utterance of the same speaker can be reduced. Also, in this embodiment, since the utterance content is identified from the change pattern of the vertical and horizontal widths of the lips, an image including only the periphery of the lips may be used, and it is necessary for identification as compared with the conventional identification method using the position of the lower jaw. The image range can be narrowed. Therefore, there is an advantage that a necessary amount of image data can be reduced as compared with the conventional method.
次に、本発明の発話識別方法を用いた本発明のパスワード照合装置について説明する。
図4は、本発明のパスワード照合装置の一実施形態を示す構成図である。
図4において、本実施形態のパスワード照合装置は、発話者の個人データを入力する入力部1と、発話者を撮像する撮像手段としてのカメラ2と、カメラ2の撮像した画像を処理する画像処理部3と、画像処理部3の画像処理データに基づいて発話内容を識別して入力パスワードを認識する発話識別部4と、予め登録された各発話者の発話登録データを収納するデータベース5と、予め登録された各発話者のパスワードを記憶するメモリ6と、発話識別部4で識別した入力パスワードとメモリ6に記憶された登録パスワードを照合する照合部7とを備えて構成される。
Next, the password verification device of the present invention using the speech identification method of the present invention will be described.
FIG. 4 is a block diagram showing an embodiment of the password verification device of the present invention.
4, the password verification apparatus according to the present embodiment includes an
前記入力部1は、予め登録した発話者の個人情報を認証時に入力するためのものである。
前記カメラ2は、認証を受けようとする発話者の顔画像を撮像して発話状態を検出するものであり、検出部に相当する。
前記画像処理部3は、カメラ2の撮像画像から唇周辺の画像を抽出し、唇の縦幅Hと横幅Wの変化パターンを測定する。従って、変化パターン測定部に相当する。
前記発話識別部4は、入力部1で入力された個人データに該当する登録データをデータベース5から読み出す。また、読み出した登録データと画像処理部3から入力された変化パターンデータとに基づいて、入力された発話内容を前述の発話識別方法を用いて識別して入力パスワードを認識する。
The
The
The
The
前記データベース5は、登録時に前述のグループ分類設定方法に基づいて分類された各発話者毎のグループ分類データを登録データとして各発話者の個人データと対応付けて記憶する。
前記メモリ6は、予め登録された各発話者の登録パスワードを発話者の個人データと対応付けて記憶するものである。
前記照合部7は、入力部1で入力された個人データに該当する登録パスワードをメモリ6から読み出し、発話識別部4で認識された入力パスワードと照合し、一致/不一致の判定出力を発生する。
The
The
The
次に、本実施形態のパスワード照合装置の動作を説明する。
認証を受けようとする発話者は、入力部1で予め登録してある個人データを入力し、カメラ2の前で自身の登録パスワードを発話する。カメラ2は、発話者を撮像し、撮像画像を画像処理部3に送信する。画像処理部3は、入力された画像から唇周辺の画像を抽出し、唇の動きから変化パターンを測定し、測定データを発話識別部4に送信する。発話識別部4は、入力部1から入力された個人データに基づいて認証を受けようとする発話者の発話識別用のグループ分類データをデータベース5から予め読み出しておく。画像処理部3から測定データが入力すると、読み出したグループ分類データに基づいて入力された発話内容を識別し、入力パスワードを認識し、当該認識した入力パスワードを照合部7に送信する。照合部7は、入力部1から入力された個人データに基づいて認証を受けようとする発話者の登録パスワードをメモリ6から予め読み出しておく。発話識別部4から入力パスワードが入力すると、読み出した登録パスワードと照合し、一致していれば認証OKの判定出力を発生し、不一致であれば認証拒否の判定出力を発生する。
Next, the operation of the password verification device of this embodiment will be described.
A speaker who wants to receive authentication inputs personal data registered in advance using the
例えば、登録パスワードとして「1234」を予め登録してある発話者の発話内容の変化パターンが、「1」と「2」が同一グループであり、「3」、「4」は互いに別グループ且つ「1」と「2」のグループとも別グループに分類されているものとする。この場合、発話者が「1234」と発話したときに、発話識別部4が「1234」の他に「1134」、「2134」、「2234」と仮に識別したとしても、「1」と「2」が同一グループであるので照合部7に送信する入力パスワードとしては「(1又は2)(1又は2)34」として照合部7に入力し、一致と判定される。これにより、照合部7における一致判定の確率を高くできる。
For example, in the change pattern of the utterance content of a speaker who has previously registered “1234” as the registration password, “1” and “2” are the same group, “3” and “4” are different groups and “ It is assumed that the groups “1” and “2” are classified into different groups. In this case, when the speaker speaks “1234”, even if the
ところで、本発明のように、各発話内容における唇の動きの変化パターンの類似性の大小でグループ分類して発話内容を識別する方法の場合、各発話者の発話の仕方により、例えばパスワードとしての有効な情報量が異なる。同一グループに分類される発話内容の数が多い発話の仕方をする人は、パスワードとして有効な情報量が低減する。 By the way, in the case of the method of identifying the utterance contents by grouping according to the similarity of the change pattern of the lip movement in each utterance content as in the present invention, depending on the manner of utterance of each utterer, for example, as a password Effective amount of information is different. A person who speaks with a large number of utterance contents classified into the same group reduces the amount of information effective as a password.
具体的に、例えば0〜9の数字で説明すると、{0}、{1,2}、{3}、{4}、{5}、{6}、{7}、{8}、{9}の9種類の数字発話が安定して異なる発話の仕方をする人と、{0,3,4,6}、{1,2}、{5,9}、{7}、{8}の5種類の数字発話が異なる発話の仕方をする人の場合を例とし、0000年01月01日〜9999年12月31日までの10000年間の年月日(3.65×106通り)をパスワードとして選択するものとし、例えば1989年10月25日の数字8桁の並び(19891025)をパスワードに選択したとする。前者の場合は、(19891025)、(19891015)(29891015)(29891025)の4通りが同一として認識され、一致する確率は4/(3.65×106)で約10-6である。一方、後者の場合は、2(年の千の位)×2(年の百の位)×1(年の十の位)×2(年の一の位)×1(月の十の位)×4(月の一の位)×2(日の十の位)×2(日の一の位)=128通りが同一として認識され、一致する確率は128/(3.65×106)で約3.5×10-5となる。即ち、前者の場合は、パスワードとしての有効な情報が9種類であるが、前者に比べてグループ分類数が少ない後者の場合は、パスワードとしての有効な情報は5種類に低減し、任意に入力された8桁の数字とパスワードが一致する確率が高くなる。
Specifically, for example, when described with
従って、上述した本発明の発話識別方法を採用する図4に示すパスワード照合装置の場合、パスワード登録者の発話の仕方を測定して得られるグループ分類データに基づいて、パスワード登録時に登録しようとするパスワードの一致確率を算出してその有効性を判別することが望ましい。また、一致確率を算出した結果、一致確率が所望する所定の一致確率より高い場合には、登録パスワードが所定以下の一致確率となるよう登録しようとするパスワードの登録内容の変更を指示するようにすることが望ましい。 Therefore, in the case of the password verification apparatus shown in FIG. 4 that employs the above-described utterance identification method of the present invention, an attempt is made to register at the time of password registration based on the group classification data obtained by measuring how the password registrant speaks. It is desirable to calculate the password matching probability and determine its validity. In addition, if the match probability is higher than the desired match probability as a result of calculating the match probability, it is instructed to change the registered content of the password to be registered so that the registered password has a match probability equal to or lower than the predetermined value. It is desirable to do.
例えば、0〜9の数字に関して前述したようにグループ分類数が9種類の人に比べて、グループ分類数が5種類の人は、10000年間の内の任意の年月日をパスワードとして登録する場合、任意に入力された8桁の数字とパスワードの一致確率が高くなってしまいパスワードの有効性が低い。このような場合、グループ分類数が5種類の人に対しては、パスワードの登録時に、パスワードの一致確率を低くするために、例えば、年月日に加えて社員番号、電話番号等の登録者の覚え易い数字を追加したパスワードを登録するように案内指示するようにする。こうすることにより、本発明のパスワード照合装置の信頼性を高めることができる。
For example, as described above with respect to the
尚、上記実施形態では、発話時の唇の縦幅と横幅の変化パターンを用いて発話内容のグループ分類を行うようにしたが、唇の縦幅と横幅に加えて上唇から下顎までの距離も用いるようにしてもよいことは言うまでもない。 In the above embodiment, the lip content group classification is performed using the change pattern of the vertical and horizontal width of the lips at the time of speaking, but the distance from the upper lip to the lower jaw is also added to the vertical and horizontal widths of the lips. Needless to say, it may be used.
1 入力部
2 カメラ
3 画像処理部
4 発話識別部
5 データベース
6 メモリ
7 照合部
DESCRIPTION OF
Claims (6)
複数個の発話内容をそれぞれ一定回数づつ発話させ、前記複数個の各発話内容に関してそれぞれ一定回数の前記変化パターンを測定し、各発話内容毎に、前記測定データの内から任意の個数のデータを抽出してグループ分類作成用データとし、残りの測定データを評価用データとし、前記抽出した各グループ分類作成用データに基づいて算出した各発話内容の各統計的分布状態に基づいて各発話内容に関して他の発話内容との重なり率を算出し、該算出した重なり率と予め設定した閾値を比較して前記類似性を判定して各発話内容をグループ分けして前記グループ分類を作成し、作成したグループ分類に基づいて前記評価用データの識別を行い識別誤り率を算出し、算出した識別誤り率が予め設定した許容値以下の時に前記作成したグループ分類はOKとしてグループ分類を確定するようにしたことを特徴とする発話識別方法。 Based on at least the lip height and width change patterns for each utterance content of the speaker, different utterance contents with high similarity of the change patterns are grouped together, and different utterance contents have similarities of the change patterns. low is a speech identification method classified into groups each utterance as a separate group, identifying on the basis of the speech content of the speech individuals in the group classification,
A plurality of utterance contents are uttered at a fixed number of times, the change pattern is measured a fixed number of times for each of the plurality of utterance contents, and an arbitrary number of data from the measurement data is obtained for each utterance content. Extracted into group classification creation data, and the remaining measurement data as evaluation data, with respect to each utterance content based on each statistical distribution state of each utterance content calculated based on each extracted group classification creation data Calculate the overlap rate with other utterance content, compare the calculated overlap rate with a preset threshold value, determine the similarity, group each utterance content, and create the group classification Based on the group classification, the evaluation data is identified to calculate an identification error rate, and the group created when the calculated identification error rate is equal to or less than a preset allowable value Class of speech identification method is characterized in that so as to determine a group classified as OK.
該検出部の検出した発話状態から少なくとも唇の縦幅と横幅の変化パターンを測定する変化パターン測定部と、
各パスワード登録者毎の各発話内容に関するグループ分類データを予め登録したデータベースと、
前記変化パターン測定部の測定した変化パターンと前記データベースの登録データに基づいて、請求項1又は2に記載の発話識別方法を用いて前記パスワード登録者の発話したパスワードを認識する発話識別部と、
該発話識別部が認識したパスワードと予め登録されたパスワードを照合し、一致/不一致の判定出力を発生する照合部と、
を備えて構成したことを特徴とするパスワード照合装置。 A detection unit for detecting the utterance state of the password spoken by the password registrant;
A change pattern measuring unit that measures a change pattern of at least the vertical and horizontal widths of the lips from the utterance state detected by the detection unit;
A database in which group classification data related to each utterance content for each password registrant is registered in advance;
Based on the change pattern measured by the change pattern measurement unit and the registration data of the database, the utterance identification unit that recognizes the password spoken by the password registrant using the utterance identification method according to claim 1 or 2 ,
A collation unit that collates the password recognized by the utterance identification unit with a pre-registered password, and generates a match / mismatch determination output;
A password verification device characterized by comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004264506A JP4553667B2 (en) | 2004-09-10 | 2004-09-10 | Utterance identification method and password verification device using the same |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004264506A JP4553667B2 (en) | 2004-09-10 | 2004-09-10 | Utterance identification method and password verification device using the same |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2006079456A JP2006079456A (en) | 2006-03-23 |
| JP4553667B2 true JP4553667B2 (en) | 2010-09-29 |
Family
ID=36158839
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004264506A Expired - Fee Related JP4553667B2 (en) | 2004-09-10 | 2004-09-10 | Utterance identification method and password verification device using the same |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4553667B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4849630B2 (en) * | 2007-05-15 | 2012-01-11 | 学校法人東海大学 | Utterance content identification device and personal identification device |
| JP2011215942A (en) * | 2010-03-31 | 2011-10-27 | Nec Personal Products Co Ltd | Apparatus, system and method for user authentication, and program |
Family Cites Families (25)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS601675B2 (en) * | 1977-05-18 | 1985-01-16 | 豊道 中野 | Utterance analysis method |
| JPS6419398A (en) * | 1987-07-15 | 1989-01-23 | Mitsubishi Electric Corp | Information input device |
| JPS6419399A (en) * | 1987-07-15 | 1989-01-23 | Mitsubishi Electric Corp | Voice recognition equipment |
| JP2644789B2 (en) * | 1987-12-18 | 1997-08-25 | 富士通株式会社 | Image transmission method |
| US5586215A (en) * | 1992-05-26 | 1996-12-17 | Ricoh Corporation | Neural network acoustic and visual speech recognition system |
| JPH0612483A (en) * | 1992-06-26 | 1994-01-21 | Canon Inc | Voice input method and device |
| JP3254542B2 (en) * | 1994-06-22 | 2002-02-12 | 日本電気エンジニアリング株式会社 | News transmission device for the hearing impaired |
| US5761329A (en) * | 1995-12-15 | 1998-06-02 | Chen; Tsuhan | Method and apparatus employing audio and video data from an individual for authentication purposes |
| JP3710205B2 (en) * | 1996-06-05 | 2005-10-26 | 沖電気工業株式会社 | Voice recognition device |
| JPH1091789A (en) * | 1996-09-11 | 1998-04-10 | Oki Electric Ind Co Ltd | Device for recognizing word |
| JP3798530B2 (en) * | 1997-09-05 | 2006-07-19 | 松下電器産業株式会社 | Speech recognition apparatus and speech recognition method |
| JPH11149296A (en) * | 1997-09-10 | 1999-06-02 | Oki Electric Ind Co Ltd | Word recognition device |
| JP4277329B2 (en) * | 1998-08-19 | 2009-06-10 | 富士ゼロックス株式会社 | Phoneme recognition apparatus and method |
| JP2000181481A (en) * | 1998-10-09 | 2000-06-30 | Sony Corp | Learning device and learning method, recognition device and recognition method, and recording medium |
| JP2000122677A (en) * | 1998-10-09 | 2000-04-28 | Sony Corp | Parameter extraction device and parameter extraction method |
| JP2000311077A (en) * | 1999-04-28 | 2000-11-07 | Fujitsu Ltd | Voice information input device |
| JP2000338987A (en) * | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | Utterance start monitoring device, speaker identification device, voice input system, speaker identification system, and communication system |
| US6813607B1 (en) * | 2000-01-31 | 2004-11-02 | International Business Machines Corporation | Translingual visual speech synthesis |
| JP2002197465A (en) * | 2000-03-31 | 2002-07-12 | Fujitsu Ltd | Automatic mouth shape detection device and automatic word recognition device using it |
| JP2002006884A (en) * | 2000-06-21 | 2002-01-11 | Cyber Sign Japan Inc | Device for authenticating individual and its design method |
| JP2002008034A (en) * | 2000-06-21 | 2002-01-11 | Cyber Sign Japan Inc | Personal authentication device and method, and communication device |
| JP2002304194A (en) * | 2001-02-05 | 2002-10-18 | Masanobu Kujirada | System, method and program for inputting voice and/or mouth shape information |
| JP2002259990A (en) * | 2001-02-28 | 2002-09-13 | Nippon Telegr & Teleph Corp <Ntt> | Character input method and apparatus, character input program, and storage medium storing this program |
| JP2003178306A (en) * | 2001-12-12 | 2003-06-27 | Toshiba Corp | Personal authentication device and personal authentication method |
| JP2005165887A (en) * | 2003-12-05 | 2005-06-23 | Victor Co Of Japan Ltd | Word recognition device |
-
2004
- 2004-09-10 JP JP2004264506A patent/JP4553667B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2006079456A (en) | 2006-03-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20240249728A1 (en) | End-to-end speaker recognition using deep neural network | |
| Bigun et al. | Multimodal biometric authentication using quality signals in mobile communications | |
| US8209174B2 (en) | Speaker verification system | |
| US20060222210A1 (en) | System, method and computer program product for determining whether to accept a subject for enrollment | |
| US20080172230A1 (en) | Voice authentication system | |
| EP0782090A2 (en) | Method and apparatus for parametric signature verification | |
| US20060020460A1 (en) | Voice authentication system | |
| JPS6217240B2 (en) | ||
| KR20190009361A (en) | Identification method and apparatus | |
| US7788101B2 (en) | Adaptation method for inter-person biometrics variability | |
| Fierrez-Aguilar et al. | Kernel-based multimodal biometric verification using quality signals | |
| Camlikaya et al. | Multi-biometric templates using fingerprint and voice | |
| KR101754954B1 (en) | Certification system and method using autograph and voice | |
| CN102222502A (en) | Effective way for voice verification by Chinese text-prompted mode | |
| KR100397916B1 (en) | Fingerprint registration and authentication method | |
| JP4553667B2 (en) | Utterance identification method and password verification device using the same | |
| Varchol et al. | Multimodal biometric authentication using speech and hand geometry fusion | |
| JPH10261083A (en) | Personal identification device and personal identification method | |
| CN1934588B (en) | Pattern recognition system and pattern recognition method | |
| JP2020154061A (en) | Speaker identification device, speaker identification method and program | |
| JP2001350494A (en) | Verification device and verification method | |
| JPH06149980A (en) | Fingerprint dictionary registration processing method | |
| US20230004630A1 (en) | Method and apparatus for authenticating handwritten signature using multiple authentication algorithms | |
| JP2795921B2 (en) | Personal authentication device | |
| EP3537321A1 (en) | System and method of voice-sensory user verification |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070627 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100420 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100427 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100622 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100713 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100713 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130723 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |