JP2026024073A - system - Google Patents
systemInfo
- Publication number
- JP2026024073A JP2026024073A JP2024126394A JP2024126394A JP2026024073A JP 2026024073 A JP2026024073 A JP 2026024073A JP 2024126394 A JP2024126394 A JP 2024126394A JP 2024126394 A JP2024126394 A JP 2024126394A JP 2026024073 A JP2026024073 A JP 2026024073A
- Authority
- JP
- Japan
- Prior art keywords
- data
- user
- server
- character
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
【課題】システムを提供する。
【解決手段】特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、
学習されたデータを非代替性トークン(NFT)として保存する手段と、
利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、
リアルタイムで音声会話を行う手段と、
利用者からの利用料を収受し、収益を関係者間で分配する手段と、
を含むシステム。
【選択図】図1
A system is provided.
[Solution] A means for learning the appearance and personality of a specific character or person using artificial intelligence technology;
A means of storing the learned data as a non-fungible token (NFT);
means for providing an interface for a user to select a conversation partner and converse with;
a means for conducting real-time voice conversations;
A means of collecting fees from users and distributing the revenue among the parties involved;
A system including:
[Selected Figure] Figure 1
Description
本開示の技術は、システムに関する。 The technology disclosed herein relates to a system.
特許文献1には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。 Patent document 1 discloses a persona chatbot control method executed by at least one processor, the method including the steps of receiving a user utterance, adding the user utterance to a prompt including an instruction sentence related to a description of the chatbot's character, encoding the prompt, and inputting the encoded prompt into a language model to generate a chatbot utterance in response to the user utterance.
キャラクターや人物との直接交流には時間的、地理的な制約があり、多くのファンが接触する機会が限られている。また、著名人やキャラクターとのイベントや交流会を開催するには高額なコストと人員が必要となるため、限られた人がしか楽しむことができないという問題がある。さらに、ディープフェイクやなりすましなどの不正使用による風評被害のリスクも存在する。このため、ファンが24時間365日、安全かつ手軽に推しのキャラクターや人物とリアルタイムで交流できる手段が求められている。 Direct interaction with characters and people is limited by time and geographical constraints, limiting opportunities for many fans. Also, hosting events and meet-and-greets with celebrities and characters requires high costs and manpower, meaning only a limited number of people can enjoy them. Furthermore, there is a risk of reputational damage due to fraudulent use such as deepfakes and impersonation. For this reason, there is a demand for a safe and easy way for fans to interact with their favorite characters and people in real time, 24 hours a day, 365 days a year.
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、そのデータを非代替性トークン(NFT)として保存するシステムを提供する。具体的には、利用者が対話相手を選択し、リアルタイムで音声会話を行うインタフェースを提供する手段を有する。また、利用料の収受と収益分配の手段を備えており、学習された人工知能データを使用して、ユーザーの会話内容に基づいて応答を生成し、音声データに変換する機能を含む。これにより、ファンは24時間365日、推しのキャラクターや人物と安全かつ手軽にリアルタイムで交流できる環境を提供することができる。 This invention provides a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, and stores that data as a non-fungible token (NFT). Specifically, it has a means for providing an interface where users can select a conversation partner and engage in real-time voice conversations. It also has a means for collecting usage fees and sharing revenue, and includes a function that uses the learned artificial intelligence data to generate responses based on the content of the user's conversation and convert them into voice data. This provides an environment where fans can safely and easily interact with their favorite characters or people in real time, 24 hours a day, 365 days a year.
「キャラクター」とは、特定の外見や性格を持つ架空の人物、動物、またはその他の創作物であり、物語やメディアに登場する存在である。 A "character" is a fictional person, animal, or other fictional entity with a particular appearance and personality that appears in stories and media.
「人物」とは、実在する人間を指し、特に特定の外見や性格を持つ、著名な個人やアイドルを含む。 "Person" refers to a real person, especially a famous individual or idol with a particular appearance or personality.
「人工知能技術」とは、人間の知的活動をシミュレーションするために使用されるアルゴリズムやソフトウェアの技術である。 "Artificial intelligence technology" refers to algorithms and software technologies used to simulate human intellectual activity.
「学習」とは、データを用いてアルゴリズムを調整し、特定のパターンやルールを見つけるプロセスである。 "Learning" is the process of using data to adjust algorithms and find specific patterns and rules.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を用いてデジタル資産のユニーク性を保証するトークンであり、所有権や伝達性を確立する手段である。 A "non-fungible token (NFT)" is a token that uses blockchain technology to guarantee the uniqueness of digital assets and is a means of establishing ownership and transferability.
「インタフェース」とは、利用者がシステムと相互作用するための画面や操作工具を指す。 "Interface" refers to the screen and operating tools that users use to interact with the system.
「リアルタイム」とは、遅延なく即時に処理や応答が行われる状態を指す。 "Real-time" refers to a state in which processing and responses are carried out immediately without delay.
「音声会話」とは、音声を用いた対話形式のコミュニケーションを指す。 "Voice conversation" refers to interactive communication using voice.
「利用料」とは、サービスの使用に対して支払われる料金である。 "Usage Fee" means the fee paid for use of the Service.
「収益分配」とは、得られた収益を一定の基準に基づいて関係者間で分けることを指す。 "Revenue sharing" refers to the division of revenues among parties based on certain criteria.
「応答」とは、利用者からの入力に対してシステムが生成する反応のことを指す。 "Response" refers to the reaction the system generates in response to input from the user.
以下、添付図面に従って本開示の技術に係るシステムの実施形態の一例について説明する。 Below, an example of an embodiment of a system relating to the technology disclosed herein will be described with reference to the accompanying drawings.
先ず、以下の説明で使用される文言について説明する。 First, let me explain the terminology used in the following explanation.
以下の実施形態において、符号付きのプロセッサ(以下、単に「プロセッサ」と称する)は、1つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、1種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on Graphics Processing Units)、APU(Accelerated Processing Unit)等が挙げられる。 In the following embodiments, a coded processor (hereinafter simply referred to as a "processor") may be a single arithmetic unit or a combination of multiple arithmetic units. Furthermore, a processor may be a single type of arithmetic unit or a combination of multiple types of arithmetic units. Examples of arithmetic units include a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a GPGPU (General-Purpose Computing on Graphics Processing Units), an APU (Accelerated Processing Unit), etc.
以下の実施形態において、符号付きのRAM(Random Access Memory)は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。 In the following embodiments, coded random access memory (RAM) is memory in which information is temporarily stored and is used by the processor as work memory.
以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する1つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ(SSD(Solid State Drive))、磁気ディスク(例えば、ハードディスク)、又は磁気テープ等が挙げられる。 In the following embodiments, the coded storage refers to one or more non-volatile storage devices that store various programs, parameters, etc. Examples of non-volatile storage devices include flash memory (SSD (Solid State Drive)), magnetic disks (e.g., hard disks), and magnetic tapes.
以下の実施形態において、符号付きの通信I/F(Interface)は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信I/Fは、複数のコンピュータ間での通信を司る。通信I/Fに対して適用される通信規格の一例としては、5G(5th Generation Mobile Communication System)、Wi-Fi(登録商標)、又はBluetooth(登録商標)等を含む無線通信規格が挙げられる。 In the following embodiments, a communication I/F (Interface) with a symbol is an interface that includes a communication processor, an antenna, etc. The communication I/F controls communication between multiple computers. Examples of communication standards that can be applied to the communication I/F include wireless communication standards such as 5G (5th Generation Mobile Communication System), Wi-Fi (registered trademark), or Bluetooth (registered trademark).
以下の実施形態において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。 In the following embodiments, "A and/or B" is synonymous with "at least one of A and B." In other words, "A and/or B" means that it may be just A, just B, or a combination of A and B. Furthermore, in this specification, the same concept as "A and/or B" also applies when three or more things are expressed connected by "and/or."
[第1実施形態] [First embodiment]
図1には、第1実施形態に係るデータ処理システム10の構成の一例が示されている。 Figure 1 shows an example of the configuration of a data processing system 10 according to the first embodiment.
図1に示すように、データ処理システム10は、データ処理装置12及びスマートデバイス14を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 1, the data processing system 10 includes a data processing device 12 and a smart device 14. An example of the data processing device 12 is a server.
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).
スマートデバイス14は、コンピュータ36、受付装置38、出力装置40、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、受付装置38、出力装置40、及びカメラ42も、バス52に接続されている。 The smart device 14 includes a computer 36, a reception device 38, an output device 40, a camera 42, and a communication I/F 44. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The reception device 38, output device 40, and camera 42 are also connected to the bus 52.
受付装置38は、タッチパネル38A及びマイクロフォン38B等を備えており、ユーザ入力を受け付ける。タッチパネル38Aは、指示体(例えば、ペン又は指等)の接触を検出することにより、指示体の接触によるユーザ入力を受け付ける。マイクロフォン38Bは、ユーザの音声を検出することにより、音声によるユーザ入力を受け付ける。制御部46Aは、タッチパネル38A及びマイクロフォン38Bによって受け付けたユーザ入力を示すデータをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が、ユーザ入力を示すデータを取得する。 The reception device 38 is equipped with a touch panel 38A, a microphone 38B, etc., and receives user input. The touch panel 38A detects contact with an indicator (e.g., a pen or finger) to receive user input via the indicator. The microphone 38B detects the user's voice to receive user input via voice. The control unit 46A transmits data indicating the user input received by the touch panel 38A and the microphone 38B to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the data indicating the user input.
出力装置40は、ディスプレイ40A及びスピーカ40B等を備えており、データをユーザ20が知覚可能な表現形(例えば、音声及び/又はテキスト)で出力することでデータをユーザ20に対して提示する。ディスプレイ40Aは、プロセッサ46からの指示に従ってテキスト及び画像等の可視情報を表示する。スピーカ40Bは、プロセッサ46からの指示に従って音声を出力する。カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラである。 The output device 40 is equipped with a display 40A and a speaker 40B, and presents data to the user 20 by outputting the data in a form perceptible by the user 20 (e.g., audio and/or text). The display 40A displays visible information such as text and images in accordance with instructions from the processor 46. The speaker 40B outputs audio in accordance with instructions from the processor 46. The camera 42 is a compact digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor.
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54.
図2には、データ処理装置12及びスマートデバイス14の要部機能の一例が示されている。 Figure 2 shows an example of the main functions of the data processing device 12 and smart device 14.
図2に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って特定処理部290として動作することによって実現される。 As shown in FIG. 2, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32. The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as a specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.
スマートデバイス14では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。受付出力プログラム60は、データ処理システム10によって特定処理プログラム56と併用される。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the smart device 14, the processor 46 performs the reception output processing. The storage 50 stores a reception output program 60. The reception output program 60 is used in conjunction with the specific processing program 56 by the data processing system 10. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output processing is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain the specific processing performed by the specific processing unit 290 of the data processing device 12. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、利用者に対して24時間365日リアルタイムで音声会話ができるシステムである。本システムは、以下のように構成される。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. The system is configured as follows:
システムの構成 System Configuration
1. 人工知能技術による学習 1. Learning with AI technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集し、人工知能アルゴリズムを使用してこれらの情報を学習する。 The server collects data on the appearance, personality, and past behavior of specific characters or individuals, and uses artificial intelligence algorithms to learn this information.
学習結果はキャラクターの特定の行動パターンや応答パターンを含み、高精度なモデルとして保存される。 The learning results include the character's specific behavioral and response patterns and are saved as a highly accurate model.
2. NFTとしての保存 2. Save as an NFT
サーバが学習されたAIデータをNFTとして保存し、ブロックチェーン技術を用いてそのユニーク性と所有権を保証する。 The server stores the learned AI data as an NFT, using blockchain technology to guarantee its uniqueness and ownership.
3. インタフェースの提供 3. Providing an interface
端末がユーザに対話相手を選択するためのインタフェースを提供する。利用者はログインし、好きなキャラクターを選択することができる。 The device provides the user with an interface for selecting a conversation partner. Users can log in and select their favorite character.
4. リアルタイム音声会話 4. Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始するための操作を行う。端末がユーザの音声を取得し、それを文字データに変換してサーバに送信する。 The user performs an operation to start a conversation with the selected character. The device captures the user's voice, converts it into text data, and sends it to the server.
サーバが受信した文字データを基に、AIモデルを使用して適切な応答を生成する。この応答は再び音声データに変換され、端末に送信される。 Based on the text data received by the server, an appropriate response is generated using an AI model. This response is then converted back into audio data and sent to the device.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
5. 利用料の収受と収益分配 5. Usage Fee Collection and Revenue Sharing
サーバがユーザからの利用料を収受する。決済処理は端末を通じて行われる。 The server collects usage fees from users. Payment processing is carried out through the terminal.
収益は関係者間で分配される。これには、キャラクターや人物の著作権者、サービス提供者が含まれる。 Revenues will be shared among the parties involved, including copyright holders of characters and people, and service providers.
具体例 Specific examples
1. ユーザがログインし、キャラクターを選択する 1. The user logs in and selects a character.
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力されたデータをサーバに送信し、認証が行われる。認証が成功すると、端末にホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the entered data to the server and authentication is performed. If authentication is successful, the home screen is displayed on the device.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、例えば「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Select Character" button on the home screen and selects, for example, "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは、私はキャラクターA。今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on the AI model. For example, the response generated might be, "Hello, I'm Character A. How's your day?"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザが応答を聞くことができる。 The generated response is converted into audio data and sent to the device. The device plays the audio data, allowing the user to hear the response.
3. 利用料の決済と収益分配 3. Payment of fees and revenue sharing
ユーザが利用料を支払う際、端末が決済情報を取得しサーバに送信する。サーバが決済ゲートウェイにより支払いを処理し、確認後に収益を関係者間で分配する。 When a user pays a usage fee, the terminal captures the payment information and sends it to the server. The server processes the payment using a payment gateway and, after confirmation, distributes the revenue among the parties.
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、またイベント開催や著名人の誘致にかかる高額なコストを削減することもできるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and also reduces the high costs associated with hosting events and inviting celebrities to attend.
以下に、処理の流れについて説明する。 The processing flow is explained below.
ステップ1: Step 1:
ユーザがアプリケーションを開く。ユーザがログイン画面にアクセスし、IDとパスワードを入力するである。 The user opens the application. The user accesses the login screen and enters their ID and password.
ステップ2: Step 2:
端末がユーザの入力を受け取り、IDとパスワード情報をサーバに送信する。通信は暗号化されているである。 The device receives the user's input and sends the ID and password information to the server. The communication is encrypted.
ステップ3: Step 3:
サーバが受信したIDとパスワードをデータベースから確認し、ユーザ認証を行うである。もしIDとパスワードが一致しない場合、エラーメッセージを端末に送信するである。 The server checks the received ID and password against a database and authenticates the user. If the ID and password do not match, an error message is sent to the terminal.
ステップ4: Step 4:
サーバが認証に成功した場合、セッション情報を生成し、端末に送り返すである。端末は受け取ったセッション情報を使用して、ホーム画面を表示するである。 If the server successfully authenticates, it generates session information and sends it back to the device. The device uses the received session information to display the home screen.
ステップ5: Step 5:
ユーザがホーム画面から「キャラクター選択」ボタンを押し、対話相手となるキャラクターを選択するである。 The user presses the "Character Selection" button on the home screen and selects the character they want to interact with.
ステップ6: Step 6:
端末がユーザの選択を受け取り、キャラクターIDをサーバに送信するである。サーバは選択されたキャラクターのAIモデルデータを取得するである。 The device receives the user's selection and sends the character ID to the server. The server then retrieves the AI model data for the selected character.
ステップ7: Step 7:
サーバが取得したAIモデルデータを端末に送信するである。端末は受信したデータをもとに、キャラクターとの会話インタフェースを表示するである。 The server sends the acquired AI model data to the device. The device then displays a conversation interface with the character based on the received data.
ステップ8: Step 8:
ユーザが「会話開始」ボタンを押し、会話を開始するである。ユーザの音声を取得するため、端末のマイクがオンになるである。 The user presses the "Start conversation" button to begin the conversation. The device's microphone is turned on to capture the user's voice.
ステップ9: Step 9:
端末がユーザの音声を録音し、リアルタイムで音声データをテキストデータに変換するである。このテキストデータをサーバに送信するである。 The device records the user's voice and converts the voice data into text data in real time. This text data is then sent to the server.
ステップ10: Step 10:
サーバが受信したテキストデータを解析し、AIモデルを用いて応答を生成するである。例えば、ユーザが「こんにちは、キャラクターA」と言った場合、応答は「こんにちは!今日はどうしたの?」である。 The server analyzes the received text data and generates a response using an AI model. For example, if the user says "Hello, Character A," the response will be "Hello! How's your day?"
ステップ11: Step 11:
サーバが生成した応答テキストを音声データに変換し、端末に送信するである。 The response text generated by the server is converted into audio data and sent to the device.
ステップ12: Step 12:
端末が受信した音声データを再生し、ユーザに応答を提供するである。ユーザはこれを聞いて、続けて質問やコメントをすることができるである。 The device plays back the received audio data and provides a response to the user. The user can then listen to this and ask questions or make comments.
ステップ13: Step 13:
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示するである。ユーザがクレジットカード情報などを入力するである。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will then enter their credit card information, etc.
ステップ14: Step 14:
端末が入力された決済情報をサーバに送信するである。サーバは決済ゲートウェイを通じて決済処理を行うである。 The terminal sends the entered payment information to the server, which then processes the payment through the payment gateway.
ステップ15: Step 15:
サーバが決済の成功または失敗の情報を端末に送信するである。成功した場合、利用権利が更新されるである。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
ステップ16: Step 16:
端末が決済結果をユーザに通知するである。これにより、ユーザは引き続きシステムを使用できるである。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(実施例1) (Example 1)
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Example 1. In the following explanation, the data processing device 12 will be referred to as a "server" and the smart device 14 will be referred to as a "terminal."
従来のキャラクターや人物との対話システムにおいては、リアルタイムでの音声会話を実現することが難しく、利用者に満足のいく体験を提供することができなかった。また、学習された人工知能データのユニーク性や所有権を保証する手段が不足しており、データの改ざんや不正利用のリスクが存在していた。さらに、利用者からの利用料を収受し、関係者間で公正に収益を分配する仕組みも確立されていなかった。このような問題を解決するために、新たな技術が求められている。 In conventional dialogue systems with characters or people, it was difficult to achieve real-time voice conversation, and users were unable to receive a satisfactory experience. Furthermore, there was a lack of means to guarantee the uniqueness and ownership of trained AI data, creating a risk of data tampering or unauthorized use. Furthermore, there was no established mechanism for collecting usage fees from users and distributing revenue fairly among the parties involved. New technology is needed to solve these problems.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、利用者の音声を取得し、音声認識技術を使用してテキストデータに変換する手段と、テキストデータを基にAIモデルを使用して適切な応答を生成し、その応答を音声データに変換する手段と、変換された音声データを利用者端末に送信してリアルタイムで音声会話を行う手段と、利用者からの利用料を収受し、収益を関係者間で分配する手段と、を含む。これにより、リアルタイムでの音声会話を実現し、学習されたデータのユニーク性および所有権を保証し、さらに公正な収益分配を行うことが可能となる。 In this invention, the server includes: means for learning the appearance and personality of a specific character or person using artificial intelligence technology; means for storing the learned data as a non-fungible token (NFT); means for providing an interface for users to select a conversation partner and converse with them; means for acquiring the user's voice and converting it into text data using voice recognition technology; means for generating an appropriate response based on the text data using an AI model and converting the response into voice data; means for transmitting the converted voice data to the user's terminal to conduct voice conversations in real time; and means for collecting usage fees from users and distributing revenue among the parties involved. This enables real-time voice conversations, guarantees the uniqueness and ownership of learned data, and enables fair revenue distribution.
「特定のキャラクターや人物」とは、利用者が対話する際に選択する架空または実在の人物を指し、その外見や性格、行動パターンなどがあらかじめ定義されたものである。 "Specific characters or people" refers to fictional or real people that users select when interacting, whose appearance, personality, behavior patterns, etc. are predefined.
「人工知能技術」とは、機械学習や深層学習モデルを利用して、特定のデータをもとに学習を行い、未知のデータに対しても適切な応答を生成する技術を指す。 "Artificial intelligence technology" refers to technology that uses machine learning and deep learning models to learn from specific data and generate appropriate responses even for unknown data.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を使用して作成されたユニークなデジタル資産で、所有権や真偽が保証されているものである。 A non-fungible token (NFT) is a unique digital asset created using blockchain technology with guaranteed ownership and authenticity.
「インタフェース」とは、利用者がキャラクターや人物を選択し、対話を行うために提供されるユーザーインターフェースを指し、通常はアプリケーションとして提供される。 "Interface" refers to the user interface provided to users to select and interact with characters or people, and is usually provided as an application.
「音声認識技術」とは、利用者の音声をテキストデータに変換する技術で、Google Cloud Speech-to-TextやMicrosoft Azure Speech認識サービスなどがこれに含まれる。 "Speech recognition technology" refers to technology that converts a user's voice into text data, and includes services such as Google Cloud Speech-to-Text and Microsoft Azure Speech Recognition Services.
「AIモデル」とは、収集されたデータをもとに学習されたニューラルネットワークモデルで、特定のキャラクターや人物の応答を生成するために使用されるものである。 An "AI model" is a neural network model trained on collected data and used to generate responses for specific characters or people.
「音声データに変換する」とは、AIモデルが生成したテキスト応答を音声合成技術を用いて音声データに変換することで、利用者が聞き取れる形にすることである。 "Converting into voice data" means using speech synthesis technology to convert the text response generated by the AI model into voice data that users can hear.
「リアルタイムで音声会話を行う」とは、利用者がキャラクターや人物と即時に音声を用いて交互にコミュニケーションを取ることができる形態を指す。 "Real-time voice conversation" refers to a form in which users can instantly communicate back and forth with characters or people using voice.
「利用料を収受する」とは、サービスの利用に対する料金を利用者から収集することであり、オンライン決済システムを用いることが多い。 "Collecting usage fees" means collecting fees from users for using a service, often using an online payment system.
「収益を関係者間で分配する」とは、収集された利用料を、キャラクターや人物の著作権者およびサービス提供者などの権利者に、公正な割合で分配することを指す。 "Distributing revenues among the parties involved" means distributing the collected usage fees in fair proportions to copyright holders of characters and people, service providers, and other rights holders.
発明を実施するための形態 Form for implementing the invention
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、利用者に対して24時間365日リアルタイムで音声会話ができるシステムである。本システムは、以下のように構成される。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. The system is configured as follows:
人工知能技術による学習 Learning using artificial intelligence technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集する。これには例えば、YouTubeやSNSなどからデータを取得するスクリプトを使用する。このデータは、TensorFlowまたはPyTorchの機械学習フレームワークを使用して学習される。データ前処理の過程では、ノイズ除去、トークン化、正規化などを行い、ニューラルネットワークモデルが構築される。学習されたモデルは、精度評価を受けた後、高精度であれば保存される。 The server collects data on the appearance, personality, and past behavior of specific characters or people. For example, it uses scripts that retrieve data from YouTube, social media, etc. This data is trained using the TensorFlow or PyTorch machine learning frameworks. During the data preprocessing process, noise removal, tokenization, normalization, etc. are performed, and a neural network model is built. The trained model is then evaluated for accuracy and saved if it is highly accurate.
NFTとしての保存 Stored as an NFT
サーバが学習されたAIデータをNFTとして保存するため、モデルデータをONNX形式に変換する。次にEthereumやBinance Smart Chainなどのブロックチェーンプラットフォームを使ってNFTを発行し、この過程でモデルのユニークな識別情報とメタデータが組み込まれる。 The server converts the model data into ONNX format to store the trained AI data as an NFT. The NFT is then issued using a blockchain platform such as Ethereum or Binance Smart Chain, which incorporates the model's unique identifier and metadata in the process.
インタフェースの提供 Providing an interface
端末がユーザに対してインタラクティブなユーザインタフェースを提供する。ユーザはReact NativeやFlutterで開発されたアプリケーションを使用してログインを行う。ログイン画面にはユーザ名とパスワードの入力フィールドがあり、ユーザは認証を行う。認証に成功すると、キャラクター選択画面が表示され、ここでユーザは対話したいキャラクターを選択する。 The device provides the user with an interactive user interface. The user logs in using an application developed with React Native or Flutter. The login screen has username and password input fields, and the user authenticates. If authentication is successful, a character selection screen is displayed, where the user selects the character they want to interact with.
リアルタイム音声会話 Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始する。端末がマイクを使用してユーザの音声を取得し、Google Cloud Speech-to-Text APIやMicrosoft Azure Speech認識サービスを使用して音声データをテキストデータに変換する。テキストデータはサーバに送信され、AIモデル(例えばGTP-3やBERT)を使用して適切な応答が生成される。この応答は音声合成エンジン(例えばAmazon PollyやGoogle Text-to-Speech)により音声データに変換され、端末に送信される。端末が音声データを再生し、リアルタイムでの会話が実現される。 The user initiates a conversation with the selected character. The device uses the microphone to capture the user's voice and converts it into text using the Google Cloud Speech-to-Text API or Microsoft Azure Speech Recognition Service. The text is sent to a server, which uses an AI model (e.g., GTP-3 or BERT) to generate an appropriate response. This response is converted into audio data by a speech synthesis engine (e.g., Amazon Polly or Google Text-to-Speech) and sent to the device. The device plays back the audio data, enabling real-time conversation.
利用料の収受と収益分配 Collection of usage fees and revenue sharing
ユーザがサービスを利用する際に支払う利用料は、端末が支払い情報を取得することにより収受される。決済処理はサーバがStripeやPayPalのAPIを使用して行う。収受された利用料は、キャラクターや人物の著作権者およびサービス提供者に公平に分配される。 The usage fee paid by users when using the service is collected by the device acquiring payment information. Payment processing is carried out by the server using the Stripe or PayPal API. The collected usage fee is distributed fairly among the copyright holders of the characters and people and the service provider.
具体例 Specific examples
1. ユーザログインとキャラクター選択 1. User login and character selection
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力データをサーバに送信し、認証が行われる。認証が成功すると、ホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the input data to the server and authentication is performed. If authentication is successful, the home screen is displayed.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Character Selection" button on the home screen and selects "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは、私はキャラクターA。今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on the AI model. For example, the response generated might be, "Hello, I'm Character A. How's your day?"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザが応答を聞くことができる。 The generated response is converted into audio data and sent to the device. The device plays the audio data, allowing the user to hear the response.
プロンプト文の例 Example prompt
「こんにちは、私はキャラクターA。今日はどうしたの?」 "Hello, I'm Character A. How's your day going?"
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、またイベント開催や著名人の誘致にかかる高額なコストを削減することもできるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and also reduces the high costs associated with hosting events and inviting celebrities to attend.
実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.
ステップ1:データ収集 Step 1: Data Collection
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集する。入力として、YouTube動画のリンクやSNSの投稿URLなどが提供される。データはスクレイピング技術やAPIを利用して取得される。出力は、取得されたテキスト、画像、音声データである。 The server collects data on the appearance, personality, and past behavior of specific characters or people. Inputs include links to YouTube videos and URLs of social media posts. The data is obtained using scraping technology and APIs. The output is the obtained text, images, and audio data.
ステップ2:データ前処理 Step 2: Data Preprocessing
サーバが収集したデータを前処理する。入力として、ステップ1で収集された生データが提供される。具体的には、ノイズ除去、テキストのトークン化、正規化などの処理が行われる。例えば、テキストデータから不要な特殊文字を削除し、標準的なフォーマットに変換する。出力は、前処理済みのデータである。 The server preprocesses the collected data. The raw data collected in step 1 is provided as input. Specifically, processes such as noise removal, text tokenization, and normalization are performed. For example, unnecessary special characters are removed from the text data and it is converted into a standard format. The output is the preprocessed data.
ステップ3:モデルの学習 Step 3: Train the model
サーバが前処理されたデータを用いて、人工知能モデル(例えばTensorFlowやPyTorch)を学習させる。入力として、ステップ2で前処理済みのデータが提供される。具体的な動作としては、データをバッチに分割し、GPUを使用してモデルのパラメータを最適化する。出力は、学習済みの高精度モデルである。 The server uses the preprocessed data to train an artificial intelligence model (e.g., TensorFlow or PyTorch). The preprocessed data from step 2 is provided as input. Specifically, the data is divided into batches and the model parameters are optimized using a GPU. The output is a trained, highly accurate model.
ステップ4:モデルの評価と保存 Step 4: Evaluate and save the model
サーバが学習済みのモデルを評価し、保存する。入力として、ステップ3で学習されたモデルと検証データセットが使用される。具体的な動作としては、モデルの精度を検証データを用いて評価し、精度が基準を満たす場合には、モデルを保存する。出力は、評価結果および保存されたモデルである。 The server evaluates and saves the trained model. The model trained in step 3 and the validation dataset are used as input. Specifically, the accuracy of the model is evaluated using the validation data, and if the accuracy meets the criteria, the model is saved. The output is the evaluation results and the saved model.
ステップ5:NFTとしての保存 Step 5: Save as an NFT
サーバが学習済みのAIモデルをNFTとして保存する。入力として、ステップ4で保存されたモデルデータが使用される。具体的には、モデルをONNX形式に変換し、ブロックチェーンプラットフォーム(例えばEthereumやBinance Smart Chain)でNFTを発行する。出力は、NFTとして保存されたモデルデータである。 The server saves the trained AI model as an NFT. The model data saved in step 4 is used as input. Specifically, the model is converted to ONNX format and an NFT is issued on a blockchain platform (e.g., Ethereum or Binance Smart Chain). The output is the model data saved as an NFT.
ステップ6:ユーザ認証とキャラクター選択 Step 6: User authentication and character selection
端末がユーザに対してログイン画面を表示し、認証を行う。入力として、ユーザ名とパスワードが提供される。具体的な動作としては、認証データがサーバに送信され、データベースと照合される。認証が成功すると、キャラクター選択画面が表示される。出力は、選択されたキャラクター情報である。 The device displays a login screen for the user and performs authentication. A username and password are provided as input. The authentication data is sent to the server and checked against a database. If authentication is successful, the character selection screen is displayed. The output is information about the selected character.
ステップ7:音声入力の取得と変換 Step 7: Capture and convert audio input
端末がマイクを使用して、ユーザの音声を取得する。入力として、ユーザの音声データが提供される。具体的な動作として、Google Cloud Speech-to-Text APIを用いて音声をテキストデータに変換する。出力は、テキストデータである。 The device uses a microphone to capture the user's voice. The user's voice data is provided as input. Specifically, the voice is converted into text data using the Google Cloud Speech-to-Text API. The output is text data.
ステップ8:応答生成 Step 8: Generate a response
サーバがテキストデータを受け取り、AIモデルを使用して応答を生成する。入力として、ステップ7で変換されたテキストデータが提供される。具体的には、AIモデル(例えばGPT-3やBERT)がテキストデータを解析し、適切な応答を生成する。出力は、生成された応答のテキストデータである。 The server receives the text data and generates a response using an AI model. The text data converted in step 7 is provided as input. Specifically, the AI model (e.g., GPT-3 or BERT) analyzes the text data and generates an appropriate response. The output is the text data of the generated response.
ステップ9:音声への変換と送信 Step 9: Convert to audio and send
サーバが生成されたテキスト応答を音声データに変換し、端末に送信する。入力として、ステップ8で生成されたテキストデータが提供される。具体的な動作として、Amazon PollyやGoogle Text-to-Speechを用いて音声データに変換する。出力は、音声データである。 The server converts the generated text response into audio data and sends it to the device. The text data generated in step 8 is provided as input. Specifically, it converts it into audio data using Amazon Polly or Google Text-to-Speech. The output is audio data.
ステップ10:リアルタイム音声会話の再生 Step 10: Play real-time audio conversations
端末が音声データを受け取り、スピーカーで再生する。入力として、ステップ9で送信された音声データが提供される。具体的な動作としては、音声データをデコードし、スピーカーで再生することで、ユーザが聞き取れる形にする。出力は、リアルタイムで再生される音声である。 The device receives the audio data and plays it on the speaker. The input is the audio data sent in step 9. Specifically, the device decodes the audio data and plays it on the speaker so that it can be heard by the user. The output is audio played in real time.
ステップ11:利用料の収受と分配 Step 11: Collection and distribution of usage fees
端末が利用料を収受するための支払い情報を取得し、サーバに送信する。入力として、支払い情報が提供される。サーバがStripeやPayPalのAPIを用いて決済を処理し、収益を関係者間で分配する。具体的な動作として、支払い処理の確認後、銀行振込や暗号通貨で分配を行う。出力は、分配された収益である。 The terminal obtains payment information to collect usage fees and sends it to the server. Payment information is provided as input. The server processes the payment using Stripe or PayPal APIs and distributes revenue among the parties involved. Specifically, after confirming the payment process, the revenue is distributed via bank transfer or cryptocurrency. The output is the distributed revenue.
(応用例1) (Application Example 1)
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Application Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
現在、実店舗に訪れた顧客に対して高品質な接客サービスを提供することは、多くの人件費とリソースを必要とする。また、店舗内で特定の商品に関する詳細情報を案内することが困難であるため、顧客の満足度を高めることが難しい。さらに、顧客が自身の好みや関心に基づいて商品を選択できるようなパーソナライズされた案内が求められているが、その実現も複雑である。このような課題を解決するためには、リアルタイムで顧客と対話し、パーソナライズされた案内を提供するシステムが必要である。 Currently, providing high-quality customer service to customers visiting physical stores requires a lot of labor and resources. It is also difficult to provide detailed information about specific products in the store, making it difficult to increase customer satisfaction. Furthermore, while there is a demand for personalized guidance that allows customers to select products based on their preferences and interests, achieving this is complex. To solve these challenges, a system that can interact with customers in real time and provide personalized guidance is needed.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、特定の仮想人物の特徴を機械学習技術によって学習させる手段と、学習された情報を非代替性符号(NFT)として保存する手段と、利用者が対話相手を選択し、会話を行うための操作画面を提供する手段と、リアルタイムで音声通信を行う手段と、利用者からのサービス料金を受け取り、収入を関連する関係者間で分配する手段と、実店舗における顧客と仮想人物の会話を支援する表示装置を用いた案内を行う手段と、利用者が店舗内で商品情報を取得し、キャラクターを通じて支援を受けることができる手段と、を含む。これにより、実店舗における顧客の体験を向上させ、パーソナライズされた高品質な接客サービスを提供することが可能となる。 In this invention, the server includes means for learning the characteristics of a specific virtual character using machine learning technology, means for saving the learned information as a non-fungible character (NFT), means for providing an operation screen on which a user can select a conversation partner and conduct a conversation, means for real-time voice communication, means for receiving service fees from users and distributing revenue among relevant parties, means for providing guidance using a display device that supports conversations between customers and virtual characters in physical stores, and means for users to obtain product information in the store and receive support through the character. This makes it possible to improve the customer experience in physical stores and provide personalized, high-quality customer service.
「特定の仮想人物の特徴」とは、キャラクターや有名人の外見、性格、過去の言動などの情報を含むデータのことである。 "Characteristics of a specific virtual person" refers to data including information such as the appearance, personality, and past words and actions of a character or celebrity.
「機械学習技術」とは、コンピュータがデータから自動的に学習し、予測や分類を行う技術のことである。 "Machine learning technology" is a technology that allows computers to automatically learn from data and make predictions and classifications.
「非代替性符号(NFT)」とは、ブロックチェーン技術を用いて唯一性と所有権を保証されたデジタル資産のことである。 A "Non-Fungible Trading Card (NFT)" is a digital asset whose uniqueness and ownership are guaranteed using blockchain technology.
「操作画面」とは、利用者が対話相手を選択し、会話を行うためのインターフェースを提供するための表示画面のことである。 An "operation screen" is a display screen that provides an interface for users to select a conversation partner and conduct a conversation.
「リアルタイムで音声通信」とは、利用者が選択したキャラクターと即時に音声でやり取りを行う技術のことである。 "Real-time voice communication" refers to technology that allows users to instantly communicate via voice with a character of their choice.
「サービス料金」とは、利用者がサービスの利用対価として支払う金銭のことである。 "Service fee" refers to the amount of money paid by the user in consideration for using the service.
「関連する関係者」とは、キャラクターやシステムの提供者、開発者などの収益分配の対象となる人や団体のことである。 "Related parties" refers to people or organizations that are subject to revenue sharing, such as character or system providers and developers.
「表示装置」とは、実店舗に設置されるディスプレイやスマート眼鏡、ヘッドマウントディスプレイ(HMD)など、情報を表示するためのハードウェアのことである。 "Display devices" refer to hardware for displaying information, such as displays installed in physical stores, smart glasses, and head-mounted displays (HMDs).
「仮想人物の会話を支援する」とは、特定の仮想人物がユーザと音声でやり取りを行い、案内や情報提供を行うことを指す。 "Supporting virtual character conversations" refers to a specific virtual character communicating with the user via voice, providing guidance and information.
「商品情報を取得」とは、店舗内の商品に関する詳細な情報を閲覧または取得することである。 "Get product information" means viewing or obtaining detailed information about products in the store.
「キャラクターを通じて支援を受ける」とは、仮想人物がユーザに対して商品やサービスの案内や説明を行うことを意味する。 "Receiving support through a character" means that a virtual character guides or explains products or services to the user.
この発明を実施するためには、以下のようなシステム構成が必要である。システムは主要なコンポーネントとして、サーバ、端末、およびユーザによって構成される。 To implement this invention, the following system configuration is required. The system consists of a server, a terminal, and a user as its main components.
1. システムのプログラム 1. System Programming
サーバは、特定の仮想人物の特徴を機械学習技術によって学習させるデータベースを構築する。端末は、ユーザが対話相手を選択し、その仮想人物とリアルタイムで音声通信を行うための操作画面を提供する。また、サーバは学習された情報を非代替性符号(NFT)として保存する。 The server builds a database that uses machine learning technology to learn the characteristics of specific virtual characters. The terminal provides an operation screen that allows the user to select a conversation partner and engage in real-time voice communication with that virtual character. The server also stores the learned information as a non-fungible character (NFT).
端末は、利用者が対話相手である仮想人物を選択する際の操作画面を表示し、選択情報をサーバに送信する。利用者がリアルタイムで音声通信を行うとき、端末は利用者の音声をテキスト情報に変換し、そのテキスト情報をサーバに送信する。 The terminal displays an operation screen that allows the user to select a virtual person to interact with, and transmits the selection information to the server. When the user communicates via voice in real time, the terminal converts the user's voice into text information and transmits that text information to the server.
サーバは、受信したテキスト情報を機械学習モデルに供給し、会話に基づく応答を生成する。その生成された応答は、サーバによって音声データに変換され、端末に送信される。端末は音声データを再生し、ユーザに対して仮想人物の応答を提供する。 The server feeds the received text information into a machine learning model to generate a conversation-based response. The generated response is converted into audio data by the server and sent to the device. The device plays the audio data and provides the virtual character's response to the user.
2. 処理の説明 2. Processing Description
サーバは、Pythonなどのプログラミング言語を使用して実装される。機械学習技術としては、NLP(自然言語処理)モデルであるGPT-3などを使用する。また、音声認識にはGoogle Speech Recognition、音声合成にはpyttsx3などのライブラリを利用する。 The server is implemented using programming languages such as Python. Machine learning techniques include the NLP (natural language processing) model GPT-3. Libraries such as Google Speech Recognition are used for voice recognition and pyttsx3 for voice synthesis.
端末には、スマート眼鏡やヘッドマウントディスプレイ(HMD)、マイクロフォンなどのハードウェアが含まれる。端末は、ユーザの音声を認識し、それをサーバに送信する。サーバは音声をテキストに変換し、NLPモデルによって適切な応答を生成する。その後、サーバは応答を音声データに変換し、再び端末に送信する。 The device includes hardware such as smart glasses, a head-mounted display (HMD), and a microphone. The device recognizes the user's voice and sends it to the server. The server converts the voice into text and generates an appropriate response using an NLP model. The server then converts the response into audio data and sends it back to the device.
具体的な例として、ユーザが実店舗に入店し、スマート眼鏡を装着する。ユーザが「おすすめの商品を教えてください」と話しかけると、端末のマイクがユーザの音声を拾い、サーバに送信する。サーバはそのテキストデータを解析し、「GPT-3」を用いて応答を生成する。その応答が「現在、このスマートウォッチがおすすめです。最新モデルでバッテリー寿命が長く、健康管理機能も充実しています」といった形で生成される。 As a specific example, a user enters a physical store and puts on a pair of smart glasses. When the user says, "What products do you recommend?", the device's microphone picks up the user's voice and sends it to the server. The server analyzes the text data and generates a response using GPT-3. The response might be something like, "Currently, we recommend this smartwatch. It's the latest model with a long battery life and comprehensive health management features."
生成された応答は音声データに変換され、端末に送信される。端末はその音声データを再生し、ユーザが仮想人物の声を聞くことができる。 The generated response is converted into audio data and sent to the device. The device then plays the audio data, allowing the user to hear the voice of the virtual character.
3. 具体例とプロンプト文の例 3. Specific examples and prompt sentence examples
実際の使用例として、ユーザがスマート眼鏡を装着し、店舗内でサポートを求めるシチュエーションを考える。例えば、ユーザが「こんにちは、おすすめの商品を教えてください」と発言した場合。 As a practical example, consider a situation where a user wears smart glasses and asks for assistance in a store. For example, the user might say, "Hello, what products do you recommend?"
プロンプト文の例: Example prompt:
顧客の質問:「こんにちは、おすすめの商品を教えてください」 Customer Question: "Hello, what products do you recommend?"
生成AIモデルへのプロンプト文:「顧客はあなたに商品のおすすめを尋ねました。どのように返答しますか?」 Prompt for generative AI model: "A customer asked you for a product recommendation. How would you respond?"
応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the specific processing in Application Example 1 will be explained using Figure 12.
プログラムの処理ステップ Program processing steps
ステップ1: Step 1:
ユーザがスマート眼鏡を装着し、アプリケーションを起動する。入力はスマート眼鏡の初期化データであり、出力はログイン画面の表示である。具体的には、端末がユーザに対してログイン画面を表示し、ユーザがログイン情報を入力する。 The user puts on the smart glasses and launches the application. The input is the smart glasses' initialization data, and the output is the display of a login screen. Specifically, the device displays the login screen to the user, and the user enters their login information.
ステップ2: Step 2:
ユーザがログイン情報を入力し、ログインボタンを押す。入力はログイン情報であり、出力はサーバへの認証リクエストである。端末はユーザの入力情報をサーバに送信し、サーバが認証を行う。 The user enters login information and presses the login button. The input is login information, and the output is an authentication request to the server. The device sends the user's input information to the server, and the server performs authentication.
ステップ3: Step 3:
サーバがユーザのログイン情報を認証し、結果を端末に返す。入力はユーザのログイン情報であり、出力は認証結果である。具体的には、サーバがデータベースを検索し、ログイン情報を確認する。成功の場合、端末にホーム画面を表示する。 The server authenticates the user's login information and returns the result to the device. The input is the user's login information, and the output is the authentication result. Specifically, the server searches the database and confirms the login information. If successful, the home screen is displayed on the device.
ステップ4: Step 4:
ユーザがホーム画面から対話相手のキャラクターを選択する。入力はキャラクター選択情報であり、出力はサーバへの選択情報の送信である。端末は選択されたキャラクター情報をサーバに送信し、サーバが対応する学習データを取得する。 The user selects a character to interact with from the home screen. The input is character selection information, and the output is sending the selection information to the server. The device sends the selected character information to the server, and the server obtains the corresponding learning data.
ステップ5: Step 5:
サーバが選択されたキャラクターの学習データを取得し、端末に送信する。入力はキャラクター選択情報であり、出力は学習データである。サーバは学習データベースから該当データを取り出し、端末に送信する。 The server obtains the learning data for the selected character and sends it to the device. The input is the character selection information, and the output is the learning data. The server retrieves the relevant data from the learning database and sends it to the device.
ステップ6: Step 6:
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって音声を入力する。入力はユーザの音声であり、出力はテキストデータである。端末は音声認識を用いてユーザの音声をテキストに変換し、そのテキストデータをサーバに送信する。 The user presses the "Start conversation" button and speaks into the device's microphone. The input is the user's voice, and the output is text data. The device uses voice recognition to convert the user's voice into text and sends the text data to the server.
ステップ7: Step 7:
サーバがユーザのテキストデータを受信し、生成AIモデルを使用して適切な応答を生成する。入力はユーザのテキストデータであり、出力は生成された応答である。サーバはNLPモデル(例:GPT-3)を使用して応答を生成する。 The server receives the user's text data and generates an appropriate response using a generative AI model. The input is the user's text data and the output is the generated response. The server generates the response using an NLP model (e.g., GPT-3).
ステップ8: Step 8:
サーバが生成した応答を音声データに変換し、端末に送信する。入力は生成された応答であり、出力は音声データである。サーバは音声合成ライブラリ(例:pyttsx3)を使用して音声データを生成し、端末に送信する。 The response generated by the server is converted into audio data and sent to the device. The input is the generated response and the output is audio data. The server uses a speech synthesis library (e.g., pyttsx3) to generate the audio data and send it to the device.
ステップ9: Step 9:
端末がサーバから受信した音声データを再生し、ユーザに聞かせる。入力は音声データであり、出力は音声の再生である。端末は音声データを再生し、ユーザが仮想人物の応答を聞くことができる。 The device plays back the audio data received from the server and lets the user listen. The input is audio data, and the output is audio playback. The device plays back the audio data, allowing the user to hear the virtual character's response.
ステップ10: Step 10:
ユーザがサービスを終了する場合、アプリケーションを終了する操作を行う。入力は終了操作であり、出力はアプリケーションの終了である。端末はアプリケーションを終了し、スマート眼鏡の表示を停止する。 When the user wants to end the service, they perform an operation to end the application. The input is the end operation, and the output is to end the application. The device will end the application and stop displaying the smart glasses.
更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 Furthermore, an emotion engine that estimates the user's emotion may be combined. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、ユーザに対して24時間365日リアルタイムで音声会話ができるシステムである。また、本発明は感情エンジンを組み合わせることで、ユーザの感情を認識し、その感情に基づいた適応的な応答を提供することができる。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. Furthermore, by combining this invention with an emotion engine, it is possible to recognize the user's emotions and provide adaptive responses based on those emotions.
システムの構成 System Configuration
1. 人工知能技術による学習 1. Learning with AI technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集し、人工知能アルゴリズムを使用してこれらの情報を学習する。学習結果はキャラクターの特定の行動パターンや応答パターンを含み、高精度なモデルとして保存される。 The server collects data on the appearance, personality, and past behavior of specific characters or people, and uses an artificial intelligence algorithm to learn this information. The learning results, including the character's specific behavior and response patterns, are saved as a highly accurate model.
2. NFTとしての保存 2. Save as an NFT
サーバが学習されたAIデータをNFTとして保存し、ブロックチェーン技術を用いてそのユニーク性と所有権を保証する。 The server stores the learned AI data as an NFT, using blockchain technology to guarantee its uniqueness and ownership.
3. インタフェースの提供 3. Providing an interface
端末がユーザに対話相手を選択するためのインタフェースを提供する。利用者はログインし、好きなキャラクターを選択することができる。 The device provides the user with an interface for selecting a conversation partner. Users can log in and select their favorite character.
4. リアルタイム音声会話 4. Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始するための操作を行う。端末がユーザの音声を取得し、それを文字データに変換してサーバに送信する。 The user performs an operation to start a conversation with the selected character. The device captures the user's voice, converts it into text data, and sends it to the server.
サーバが受信した文字データを基に、AIモデルを使用して適切な応答を生成する。この応答は再び音声データに変換され、端末に送信される。 Based on the text data received by the server, an appropriate response is generated using an AI model. This response is then converted back into audio data and sent to the device.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
5. 感情エンジンの統合 5. Emotional Engine Integration
サーバがユーザの音声データを利用して感情を解析するための感情エンジンを備えている。感情エンジンは音声データからユーザの感情状態(例えば喜び、悲しみ、怒りなど)を解析する。 The server is equipped with an emotion engine that uses the user's voice data to analyze emotions. The emotion engine analyzes the user's emotional state (e.g., joy, sadness, anger, etc.) from the voice data.
感情解析結果を基に、AIモデルは応答内容を適応的に変更する。例えば、ユーザが悲しそうな声で話す場合、「元気を出して!」というような応答が生成される。 Based on the results of emotion analysis, the AI model adaptively changes the response content. For example, if the user speaks in a sad voice, a response such as "Cheer up!" will be generated.
6. 利用料の収受と収益分配 6. Usage Fee Collection and Revenue Sharing
サーバがユーザからの利用料を収受する。決済処理は端末を通じて行われる。収益は関係者間で分配される。これには、キャラクターや人物の著作権者、サービス提供者が含まれる。 The server collects usage fees from users. Payments are processed through the terminal. Revenues are distributed among the parties involved, including the copyright holders of characters and people, and service providers.
具体例 Specific examples
1. ユーザがログインし、キャラクターを選択する 1. The user logs in and selects a character.
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力されたデータをサーバに送信し、認証が行われる。認証が成功すると、端末にホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the entered data to the server and authentication is performed. If authentication is successful, the home screen is displayed on the device.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、例えば「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Select Character" button on the home screen and selects, for example, "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは!今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on the AI model. For example, the response generated might be, "Hello! How's your day?"
サーバは同時に、音声データを感情エンジンに送信し、ユーザの感情状態を解析する。 At the same time, the server sends the voice data to the emotion engine, which analyzes the user's emotional state.
感情エンジンが感情状態を解析し、その結果をAIモデルにフィードバックする。例えば、ユーザの声が悲しそうであれば、応答内容は「元気を出して!」という励ましのメッセージに変更される。 The emotion engine analyzes the user's emotional state and feeds the results back to the AI model. For example, if the user sounds sad, the response will be changed to an encouraging message such as "Cheer up!"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザに応答を提供する。 The generated response is converted into audio data and sent to the device, which then plays the audio data and provides the response to the user.
3. 利用料の決済と収益分配 3. Payment of fees and revenue sharing
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示する。ユーザがクレジットカード情報などを入力する。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will enter their credit card information, etc.
端末が入力された決済情報をサーバに送信する。サーバが決済ゲートウェイを通じて決済処理を行う。 The terminal sends the entered payment information to the server, which processes the payment through the payment gateway.
サーバが決済の成功または失敗の情報を端末に送信する。成功した場合、利用権利が更新される。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
端末が決済結果をユーザに通知する。これにより、ユーザは引き続きシステムを使用できる。 The terminal will notify the user of the payment result, allowing them to continue using the system.
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、さらにユーザの感情に応じた適切な応答を提供することで、よりパーソナルで親密なコミュニケーションを実現することができるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and by providing appropriate responses based on the user's emotions, it enables more personal and intimate communication.
以下に、処理の流れについて説明する。 The processing flow is explained below.
ステップ1: Step 1:
ユーザがアプリケーションを開く。ユーザがログイン画面にアクセスし、IDとパスワードを入力するである。 The user opens the application. The user accesses the login screen and enters their ID and password.
ステップ2: Step 2:
端末がユーザの入力を受け取り、IDとパスワード情報をサーバに送信する。通信は暗号化されているである。 The device receives the user's input and sends the ID and password information to the server. The communication is encrypted.
ステップ3: Step 3:
サーバが受信したIDとパスワードをデータベースから確認し、ユーザ認証を行うである。もしIDとパスワードが一致しない場合、エラーメッセージを端末に送信するである。 The server checks the received ID and password against a database and authenticates the user. If the ID and password do not match, an error message is sent to the terminal.
ステップ4: Step 4:
サーバが認証に成功した場合、セッション情報を生成し、端末に送り返すである。端末は受け取ったセッション情報を使用して、ホーム画面を表示するである。 If the server successfully authenticates, it generates session information and sends it back to the device. The device uses the received session information to display the home screen.
ステップ5: Step 5:
ユーザがホーム画面から「キャラクター選択」ボタンを押し、対話相手となるキャラクターを選択するである。 The user presses the "Character Selection" button on the home screen and selects the character they want to interact with.
ステップ6: Step 6:
端末がユーザの選択を受け取り、キャラクターIDをサーバに送信するである。サーバは選択されたキャラクターのAIモデルデータを取得するである。 The device receives the user's selection and sends the character ID to the server. The server then retrieves the AI model data for the selected character.
ステップ7: Step 7:
サーバが取得したAIモデルデータを端末に送信するである。端末は受信したデータをもとに、キャラクターとの会話インタフェースを表示するである。 The server sends the acquired AI model data to the device. The device displays a conversation interface with the character based on the received data.
ステップ8: Step 8:
ユーザが「会話開始」ボタンを押し、会話を開始するである。ユーザの音声を取得するため、端末のマイクがオンになるである。 The user presses the "Start conversation" button to begin the conversation. The device's microphone is turned on to capture the user's voice.
ステップ9: Step 9:
端末がユーザの音声を録音し、リアルタイムで音声データをテキストデータに変換するである。このテキストデータをサーバに送信するである。 The device records the user's voice and converts the voice data into text data in real time. This text data is then sent to the server.
ステップ10: Step 10:
サーバが受信したテキストデータを解析し、AIモデルを用いて応答を生成するである。例えば、ユーザが「こんにちは、キャラクターA」と言った場合、応答は「こんにちは!今日はどうしたの?」である。 The server analyzes the received text data and generates a response using an AI model. For example, if the user says "Hello, Character A," the response will be "Hello! How's your day?"
ステップ11: Step 11:
サーバは同時に、ユーザの音声データを感情エンジンに送信し、ユーザの感情状態を解析するである。感情エンジンが音声データを解析し、ユーザの感情状態(喜び、悲しみ、怒りなど)を特定するである。 At the same time, the server sends the user's voice data to the emotion engine, which analyzes the user's emotional state. The emotion engine analyzes the voice data and identifies the user's emotional state (joy, sadness, anger, etc.).
ステップ12: Step 12:
感情エンジンが解析結果をサーバに送り返し、サーバがその結果をもとに応答内容を適応的に変更するである。例えば、ユーザが悲しそうな声で話す場合、応答は「元気を出して!」になるである。 The emotion engine sends the analysis results back to the server, which then adaptively changes the response based on the results. For example, if the user speaks in a sad voice, the response will be "Cheer up!"
ステップ13: Step 13:
サーバが応答テキストを音声データに変換し、端末に送信するである。 The server converts the response text into audio data and sends it to the device.
ステップ14: Step 14:
端末が受信した音声データを再生し、ユーザに応答を提供するである。ユーザはこれを聞いて、続けて質問やコメントをすることができるである。 The device plays back the received audio data and provides a response to the user. The user can then listen to this and ask questions or make comments.
ステップ15: Step 15:
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示するである。ユーザがクレジットカード情報などを入力するである。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will then enter their credit card information, etc.
ステップ16: Step 16:
端末が入力された決済情報をサーバに送信するである。サーバは決済ゲートウェイを通じて決済処理を行うである。 The terminal sends the entered payment information to the server, which then processes the payment through the payment gateway.
ステップ17: Step 17:
サーバが決済の成功または失敗の情報を端末に送信するである。成功した場合、利用権利が更新されるである。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
ステップ18: Step 18:
端末が決済結果をユーザに通知するである。これにより、ユーザは引き続きシステムを使用できるである。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(実施例2) (Example 2)
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Example 2. In the following explanation, the data processing device 12 will be referred to as a "server" and the smart device 14 will be referred to as a "terminal."
従来の人工知能を用いた音声会話システムでは、キャラクターや人物の外見および性格を効率的に学習させ、ユーザとのリアルタイム音声会話を行うことが難しかった。また、ユーザの感情に応じた適応的な応答を提供するための技術も十分に発展していなかったため、ユーザに対して自然でパーソナルなコミュニケーションを実現することができなかった。 With conventional voice conversation systems using artificial intelligence, it was difficult to efficiently learn the appearance and personality of characters or people and conduct real-time voice conversations with users. Furthermore, technology for providing adaptive responses based on the user's emotions was not sufficiently developed, making it impossible to achieve natural, personal communication with users.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者の音声から感情を解析し、解析結果に基づいて応答を適応的に変更する手段と、を含む。これにより、キャラクターや人物の特徴を高精度に学習し、そのデータを安全に保存し、ユーザの感情に応じた柔軟な応答を提供することが可能となる。 In this invention, the server includes means for learning the appearance and personality of a specific character or person using artificial intelligence technology, means for saving the learned data as a non-fungible token (NFT), and means for analyzing emotions from the user's voice and adaptively changing responses based on the analysis results. This makes it possible to learn the characteristics of characters and people with high accuracy, safely store that data, and provide flexible responses that correspond to the user's emotions.
「特定のキャラクターや人物」とは、ユーザが対話相手として選択することができる架空または実在の人物やキャラクターを指す。 "Specific characters or persons" refers to fictional or real people or characters that users can select as their conversation partners.
「人工知能技術」とは、機械学習や深層学習などの技術を用いて、データからパターンを抽出し、予測や分類を行う技術を指す。 "Artificial intelligence technology" refers to technology that uses techniques such as machine learning and deep learning to extract patterns from data and make predictions and classifications.
「学習する手段」とは、データを収集し、そのデータに基づいてAIモデルを生成するプロセスを指す。 "Means of learning" refers to the process of collecting data and generating an AI model based on that data.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を用いてデジタルデータの唯一性と所有権を保証するためのトークンを指す。 A "non-fungible token (NFT)" is a token that uses blockchain technology to guarantee the uniqueness and ownership of digital data.
「インタフェースを提供する手段」とは、ユーザがシステムにアクセスし、操作するための画面やメニューを提供する方法を指す。 "Means of providing an interface" refers to the method of providing screens and menus that allow users to access and operate the system.
「リアルタイムで音声会話を行う手段」とは、ユーザとキャラクターが即時に音声で対話を行うための技術を指す。 "Means for conducting real-time voice conversation" refers to technology that allows users and characters to have instant voice conversations.
「利用者の音声から感情を解析する手段」とは、ユーザの音声データを基に、その感情状態を分析する技術を指す。 "Means for analyzing emotions from a user's voice" refers to technology that analyzes a user's emotional state based on their voice data.
「応答を適応的に変更する手段」とは、感情解析の結果に基づいて、AIの応答内容を変更する方法を指す。 "Means for adaptively changing responses" refers to a method for changing the AI's response content based on the results of emotion analysis.
「利用料を収受し、収益を関係者間で分配する手段」とは、ユーザからサービス利用料を徴収し、得られた収益を関係者に分配する仕組みを指す。 "Means for collecting usage fees and distributing revenue among parties" refers to a system for collecting service usage fees from users and distributing the revenue obtained among parties.
発明を実施するための形態 Form for implementing the invention
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、ユーザに対して24時間365日リアルタイムで音声会話を提供するシステムである。また、感情エンジンを組み合わせることで、ユーザの感情を認識し、その感情に基づいた適応的な応答を提供することができる。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and provides users with real-time voice conversations 24 hours a day, 365 days a year. Furthermore, by combining it with an emotion engine, it is possible to recognize the user's emotions and provide adaptive responses based on those emotions.
システムの概要 System Overview
このシステムは以下の主要なコンポーネントによって構成される: The system consists of the following main components:
1. サーバ 1. Server
2. 端末 2. Device
3. ユーザ 3. User
サーバの役割 Server Role
1. 学習データ収集とAIモデルの生成 1. Training data collection and AI model generation
サーバは特定のキャラクターや人物の外見、性格、過去の行動データを収集する。データには、動画、音声ファイル、テキストデータなどが含まれる。 The server collects data on the appearance, personality, and past behavior of specific characters and people. This data includes video, audio files, text data, etc.
収集したデータはAIアルゴリズム(例えば、TensorFlowやPyTorch)を用いて学習させる。学習の初期段階で、データの前処理(ノイズ除去、テキストの正規化など)を行う。 The collected data is trained using an AI algorithm (e.g., TensorFlow or PyTorch). During the initial training stage, data preprocessing (noise removal, text normalization, etc.) is performed.
完成したモデルをデータベースに保存する。 Save the completed model in the database.
2. NFTとしてのデータ保存 2. Data storage as NFTs
学習したAIデータを非代替性トークン(NFT)として保存する。このプロセスにはブロックチェーン技術(例えば、Ethereum)を用いる。 The learned AI data is stored as a non-fungible token (NFT). This process uses blockchain technology (e.g., Ethereum).
サーバは生成されたNFTをブロックチェーンに登録し、所有者情報を保持する。 The server registers the generated NFT on the blockchain and maintains owner information.
3. 感情分析と応答の適応 3. Sentiment Analysis and Response Adaptation
サーバは感情エンジン(例えば、IBM Watsonの感情認識API)を用いてユーザの音声データを解析する。解析結果を基に、AIモデルは応答内容を適応的に変更する。 The server uses an emotion engine (for example, IBM Watson's emotion recognition API) to analyze the user's voice data. Based on the analysis results, the AI model adaptively changes the response content.
例えば、ユーザが「今日はちょっと気分が落ち込んでいる」と言った場合、感情認識によって「元気を出して!」といった応答が生成される。 For example, if a user says, "I'm feeling a bit down today," emotion recognition can generate a response such as, "Cheer up!"
4. 利用料の収受と収益分配 4. Usage fee collection and revenue sharing
サーバは利用料を収受し、決済処理を管理する。決済は、利用者が端末から入力したクレジットカード情報などを使用して行われる。 The server collects the usage fee and manages the payment process. Payment is made using credit card information entered by the user on the terminal.
収益は関係者(キャラクターの著作権者、サービス提供者など)間で分配される。 Revenues will be distributed among the parties involved (character copyright holders, service providers, etc.).
端末の役割 Device role
1. インタフェースの提供 1. Providing an interface
端末がユーザに対話相手を選択し、会話を行うインタフェースを提供する。ユーザはアプリを立ち上げ、ログイン画面で認証情報を入力しログインする。 The device provides the user with an interface to select a conversation partner and conduct a conversation. The user launches the app, enters their authentication information on the login screen, and logs in.
ログイン後、ユーザは「キャラクター選択」ボタンを押して、好みのキャラクターを選び、そのキャラクターとの会話を開始できる。 After logging in, users can press the "Select Character" button to choose their preferred character and begin a conversation with that character.
2. 音声データの処理 2. Audio data processing
端末はユーザの音声を取得し、Google Speech-to-Textのような音声認識エンジンを利用してテキストデータに変換する。 The device captures the user's voice and converts it into text data using a speech recognition engine such as Google Speech-to-Text.
変換されたテキストデータはサーバに送信され、適切な応答が生成された後に、再び音声データに変換されて端末に送信される。 The converted text data is sent to the server, and after an appropriate response is generated, it is converted back into voice data and sent to the device.
端末が音声データを再生し、リアルタイム会話を実現する。 The device plays the audio data, enabling real-time conversations.
ユーザの役割 User Roles
1. ログインとキャラクター選択 1. Log in and select a character
ユーザはアプリを立ち上げ、ログイン画面で「user123」と「password123」のような認証情報を入力する。 The user launches the app and enters authentication information such as "user123" and "password123" on the login screen.
認証が成功すると、ホーム画面からキャラクターを選択し、選択するキャラクターとの会話を開始する。 Once authentication is successful, select a character from the home screen and begin a conversation with the character you select.
2. 実際の会話の進行 2. Actual conversation progression
ユーザは「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。 The user presses the "Start Conversation" button and speaks into the device's microphone, saying "Hello, Character A."
端末はこの音声をテキストデータに変換し、サーバに送信する。サーバはテキストデータを基にAIモデルで応答を生成し、適応的な返答を送信する。 The device converts this voice into text data and sends it to the server. The server uses an AI model to generate a response based on the text data and sends an adaptive reply.
例えば、「こんにちは!今日はどうしたの?」といった応答や、「元気を出して!」といった適応的なメッセージを受け取ることができる。 For example, you can receive responses such as "Hello! How are you today?" or adaptive messages such as "Cheer up!"
具体例・プロンプト文の例 Examples and prompts
「こんにちは、キャラクターA。今日はどんな日だった?」 "Hello, Character A. How was your day?"
「最近ちょっと落ち込んでいるんだ。励ましてくれる?」 "I've been feeling a bit down lately. Can you cheer me up?"
「今日のニュースについてどう思う?」 "What do you think about today's news?"
これらのプロンプト文を使用することで、ユーザはキャラクターとよりパーソナルかつ自然な会話を楽しむことができる。 By using these prompts, users can enjoy more personal and natural conversations with the characters.
実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.
プログラムの処理の流れ Program processing flow
ステップ1: Step 1:
学習データ収集とAIモデルの生成 Training data collection and AI model generation
サーバが特定のキャラクターや人物の外見、性格、過去の行動データを収集する。この収集に使用されるデータには、テキスト、音声ファイル、画像、動画が含まれる。具体的な動作として、WebスクレイピングやAPI経由でデータベースからデータを取得し、サーバ内に保存する。 The server collects data on the appearance, personality, and past behavior of specific characters or people. The data used for this collection includes text, audio files, images, and videos. Specifically, the data is retrieved from a database via web scraping or API and stored on the server.
入力:キャラクターの外見、性格、過去の言動に関するデータ。 Input: Data about the character's appearance, personality, and past words and actions.
データ加工:ノイズ除去、テキストの正規化、データクリーニング。 Data processing: noise removal, text normalization, data cleaning.
出力:前処理後のクリーンなデータセット。 Output: Clean dataset after preprocessing.
サーバがこれらのデータをAIアルゴリズム(例えば、TensorFlowやPyTorch)を用いてモデルに学習させる。学習後のモデルはキャラクターの行動パターンや応答パターンを反映する。 The server uses an AI algorithm (such as TensorFlow or PyTorch) to train a model using this data. After training, the model reflects the character's behavior and response patterns.
入力:前処理後のクリーンなデータセット。 Input: Clean dataset after preprocessing.
データ演算:機械学習アルゴリズムを適用し、モデルをトレーニングする。 Data computation: Applying machine learning algorithms and training models.
出力:学習済みAIモデル。 Output: Trained AI model.
ステップ2: Step 2:
NFTとしてのデータ保存 Storing data as NFTs
サーバが学習されたAIデータを非代替性トークン(NFT)として保存する。 The server stores the learned AI data as a non-fungible token (NFT).
入力:学習済みAIモデル。 Input: Trained AI model.
データ加工:NFT化のためにブロックチェーン技術(例:Ethereum)を利用してモデルの唯一性と所有権を保証する。 Data processing: Blockchain technology (e.g., Ethereum) is used to ensure the uniqueness and ownership of the model for NFT conversion.
出力:ブロックチェーンに登録されたNFT。 Output: NFT registered on the blockchain.
サーバが生成されたNFTをブロックチェーンに登録し、所有者情報を保持する。具体的な動作として、ブロックチェーンAPIを通じてNFTを登録する。 The server registers the generated NFT on the blockchain and retains owner information. Specifically, the NFT is registered through the blockchain API.
ステップ3: Step 3:
ユーザのログインとキャラクター選択 User login and character selection
ユーザがアプリを起動し、ログイン画面で認証情報(例:「user123」と「password123」)を入力する。 The user launches the app and enters their authentication information (e.g., "user123" and "password123") on the login screen.
端末が入力された認証情報をサーバに送信し、認証を実行する。 The device sends the entered authentication information to the server and performs authentication.
入力:ユーザの認証情報。 Input: User authentication information.
データ演算:データベースと照合し、認証が成功するかどうか判定する。 Data calculation: Compare with the database and determine whether authentication is successful.
出力:認証成功または失敗のステータス。 Output: Authentication success or failure status.
認証が成功すると、端末にホーム画面が表示される。ユーザは「キャラクター選択」ボタンを押し、対話したいキャラクターを選ぶ。 If authentication is successful, the home screen will be displayed on the device. The user presses the "Select Character" button to choose the character they want to interact with.
入力:ユーザが選択したキャラクター情報。 Input: Character information selected by the user.
データ加工:選択されたキャラクターに対応するAIモデルの検索と取得。 Data processing: Search and obtain the AI model corresponding to the selected character.
出力:選択されたキャラクターのAIデータ。 Output: AI data for the selected character.
ステップ4: Step 4:
リアルタイム音声会話の処理 Real-time voice conversation processing
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって話しかける。 The user presses the "Start conversation" button and speaks into the device's microphone.
端末がユーザの音声を取得し、Google Speech-to-Textを利用してテキストデータに変換する。 The device captures the user's voice and converts it into text data using Google Speech-to-Text.
入力:ユーザの音声データ。 Input: User's voice data.
データ加工:音声からテキストへの変換。 Data processing: voice-to-text conversion.
出力:テキストデータ。 Output: Text data.
変換されたテキストデータはサーバに送信され、適切な応答が生成される。 The converted text data is sent to the server, which generates an appropriate response.
入力:ユーザのテキストデータ。 Input: User's text data.
データ演算:AIモデルを使用して適切な応答を生成する。 Data calculations: Use AI models to generate appropriate responses.
出力:生成されたテキスト応答。 Output: The generated text response.
応答は再び音声データに変換され、端末に送信される。 The response is converted back into audio data and sent to the device.
入力:生成されたテキスト応答。 Input: The generated text response.
データ加工:テキストから音声への変換。 Data processing: converting text to audio.
出力:生成された音声データ。 Output: Generated audio data.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
ステップ5: Step 5:
感情分析と応答の適応 Sentiment analysis and response adaptation
サーバがユーザの音声データを感情エンジン(例:IBM Watsonの感情認識API)を用いて解析する。 The server analyzes the user's voice data using an emotion engine (e.g., IBM Watson's emotion recognition API).
入力:ユーザの音声データ。 Input: User's voice data.
データ演算:音声データからユーザの感情状態を解析する。 Data calculation: Analyze the user's emotional state from voice data.
出力:ユーザの感情状態データ。 Output: User's emotional state data.
感情解析の結果を基に、AIモデルが応答内容を適応的に変更する。 Based on the results of emotion analysis, the AI model adaptively changes the response content.
入力:ユーザの感情状態データと生成されたテキスト応答。 Input: User emotional state data and generated text response.
データ演算:応答の内容を感情状態に合わせて変更する。 Data calculation: Change the response content to match the emotional state.
出力:最終的に適応された応答テキスト。 Output: The final adapted response text.
例えば、ユーザの声が悲しそうな場合、応答内容は「元気を出して!」などと変更される。 For example, if the user sounds sad, the response will be changed to something like "Cheer up!"
ステップ6: Step 6:
利用料の収受と決済処理 Collecting usage fees and processing payments
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示する。ユーザがクレジットカード情報などを入力する。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will enter their credit card information, etc.
入力:ユーザの決済情報。 Input: User's payment information.
端末が決済情報をサーバに送信し、サーバが決済ゲートウェイ(例:Stripe)を通じて決済処理を行う。 The terminal sends payment information to the server, which processes the payment through a payment gateway (e.g., Stripe).
データ演算:決済情報を基に決済処理を実行する。 Data calculation: Executes payment processing based on payment information.
出力:決済成功または失敗のステータス。 Output: Payment success or failure status.
サーバが決済の成功または失敗を端末に通知し、成功した場合には利用権利が更新される。 The server notifies the terminal of the success or failure of the payment, and if successful, the usage rights are updated.
端末が決済結果をユーザに通知し、これによりユーザは引き続きシステムを利用できる。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(応用例2) (Application Example 2)
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Application Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
本発明の課題は、特定のキャラクターや人物の外見および性格をリアルタイムで再現しつつ、利用者との対話を通じて感情に応じた適切な応答を提供することができるシステムを提供することである。また、バーチャル店舗においてショッピングアシスタントとしてキャラクターが商品説明やおすすめアイテムの紹介を行うことで、よりパーソナルで親身なショッピング体験を実現することを目指す。 The objective of this invention is to provide a system that can reproduce the appearance and personality of a specific character or person in real time, while providing appropriate responses based on the user's emotions through dialogue with them. Furthermore, the aim is to realize a more personal and sympathetic shopping experience by having characters act as shopping assistants in virtual stores, explaining products and recommending items.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、リアルタイムで音声会話を行う手段と、利用者からの利用料を収受し、収益を関係者間で分配する手段と、感情エンジンを使用して利用者の音声データから感情状態を解析し、その解析結果に基づいた適応的な応答を生成する手段と、生成された応答を音声データに変換し、音声として利用者に提供する手段と、バーチャル店舗でのショッピングアシスタントとしてキャラクターが商品説明やおすすめアイテムの紹介を行う手段と、を含む。これにより、特定のキャラクターとの感情に基づいたリアルタイムな対話およびバーチャル店舗での個別的で親身なショッピングアシスタント体験が可能となる。 In this invention, the server includes: means for learning the appearance and personality of a specific character or person using artificial intelligence technology; means for storing the learned data as a non-fungible token (NFT); means for providing an interface for users to select a conversation partner and converse with them; means for conducting real-time voice conversations; means for collecting usage fees from users and distributing revenue among the parties involved; means for analyzing the emotional state from the user's voice data using an emotion engine and generating an adaptive response based on the analysis results; means for converting the generated response into voice data and providing it to the user as voice; and means for the character to act as a shopping assistant in a virtual store, explaining products and recommending items. This enables real-time, emotion-based dialogue with a specific character and a personalized, sympathetic shopping assistant experience in a virtual store.
「特定のキャラクターや人物」とは、人工知能技術により外見および性格が再現された仮想的な存在である。 "Specific characters or people" are virtual beings whose appearances and personalities are reproduced using artificial intelligence technology.
「人工知能技術」とは、特定のキャラクターや人物の外見および性格を学習し、その情報をもとに応答や行動を生成する技術である。 "Artificial intelligence technology" is a technology that learns the appearance and personality of a specific character or person, and generates responses and actions based on that information.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を用いて特定のデジタル資産を唯一無二のものとして識別し、その所有権を証明する手段である。 A non-fungible token (NFT) is a means of using blockchain technology to uniquely identify a specific digital asset and prove ownership of it.
「インタフェース」とは、利用者が対話相手を選択し、会話を開始するための入力および表示手段を提供する装置またはソフトウェアである。 An "interface" is a device or software that provides input and display means for a user to select a conversation partner and initiate a conversation.
「リアルタイムで音声会話を行う手段」とは、利用者と特定のキャラクターや人物が即時に音声で対話することを可能にする技術である。 "Means for conducting real-time voice conversations" refers to technology that allows users to have instant voice conversations with specific characters or people.
「感情エンジン」とは、利用者の音声データから感情状態を解析し、その解析結果に基づいた応答を生成するためのアルゴリズムおよびシステムである。 An "emotion engine" is an algorithm and system that analyzes a user's emotional state from their voice data and generates a response based on the analysis results.
「適応的な応答」とは、利用者の発言内容および感情状態に応じて変化する応答であり、個別的かつダイナミックに生成されるものである。 An "adaptive response" is a response that changes depending on the user's speech content and emotional state, and is generated individually and dynamically.
「バーチャル店舗」とは、インターネット上に存在する仮想的なショッピング環境であり、ユーザが仮想空間で購買活動を行うことを可能にするプラットフォームである。 A "virtual store" is a virtual shopping environment that exists on the Internet and is a platform that allows users to conduct purchasing activities in a virtual space.
「ショッピングアシスタント」とは、バーチャル店舗内で利用者に対して商品説明やおすすめアイテムの紹介などを行う仮想的なキャラクターまたは人物である。 A "shopping assistant" is a virtual character or person who explains products and recommends items to users in a virtual store.
「収受」とは、利用者からの利用料を受け取ることである。 "Collection" means receiving usage fees from users.
「収益を関係者間で分配する手段」とは、システム運営により得られた収益を、キャラクターの著作権者やサービス提供者など関係者に適切に分配するための仕組みである。 "Means for distributing revenues among parties involved" refers to a mechanism for appropriately distributing revenues earned through system operation to parties involved, such as character copyright holders and service providers.
システムの概要 System Overview
この発明は、特定のキャラクターや人物をリアルタイムで再現し、利用者と音声会話を行うシステムである。主にバーチャル店舗においてショッピングアシスタントとして機能する。このシステムは、サーバ、端末、ユーザの三要素で構成される。 This invention is a system that recreates specific characters or people in real time and engages in voice conversations with users. It primarily functions as a shopping assistant in virtual stores. This system consists of three elements: a server, a terminal, and a user.
プログラム構成および各種技術 Program structure and various technologies
音声認識エンジン Speech recognition engine
サーバは、利用者の音声入力を取得し、音声認識エンジン(Google Speech-to-Text API)を使用して音声をテキストデータに変換する。 The server receives the user's voice input and converts the voice into text data using a speech recognition engine (Google Speech-to-Text API).
感情解析エンジン Sentiment analysis engine
サーバは、取得したテキストデータをIBM Watson Tone Analyzerを用いて感情解析を行う。これにより利用者の感情状態を判断する。 The server performs emotion analysis on the acquired text data using IBM Watson Tone Analyzer, thereby determining the user's emotional state.
対話管理システム Dialogue management system
サーバは、Rasaを用いて利用者の会話内容および感情解析結果に基づいた応答を生成する。 The server uses Rasa to generate responses based on the user's conversation content and sentiment analysis results.
音声合成エンジン Speech synthesis engine
サーバは、生成された応答をGoogle Text-to-Speech APIを使用して音声データに変換し、端末に送信する。 The server converts the generated response into audio data using the Google Text-to-Speech API and sends it to the device.
プログラムの処理 Program processing
1. 音声入力とテキスト変換 1. Voice input and text conversion
ユーザがスマートフォンのマイクに向かって話しかけると、その音声は端末によって取得され、Google Speech-to-Text APIを使用してテキストデータに変換される。 When a user speaks into their smartphone's microphone, the audio is picked up by the device and converted into text data using the Google Speech-to-Text API.
2. 感情解析 2. Emotion analysis
転送されたテキストデータはIBM Watson Tone Analyzerで感情解析が行われ、利用者の感情状態(例:喜び、悲しみ、怒りなど)が解析される。 The transferred text data is subjected to emotion analysis using IBM Watson Tone Analyzer to determine the user's emotional state (e.g., joy, sadness, anger, etc.).
3. 応答生成 3. Response Generation
Rasaを使用して解析結果および会話内容を基に適切な応答を生成する。この応答は利用者の感情に適応したものである。 Rasa is used to generate appropriate responses based on analysis results and conversation content. These responses are adapted to the user's emotions.
4. 音声データへの変換と送信 4. Conversion to audio data and transmission
生成された応答はGoogle Text-to-Speech APIによって音声データに変換され、この音声データが端末へ送信されることでリアルタイムな会話が実現する。 The generated response is converted into audio data using the Google Text-to-Speech API, and this audio data is sent to the device, enabling real-time conversation.
具体例 Specific examples
1. ユーザのログインとキャラクター選択 1. User login and character selection
ユーザはアプリを起動し、「user123」と「password123」を入力してログインする。ログイン後、キャラクター選択画面で「キャラクターA」を選択する。 The user launches the app and logs in by entering "user123" and "password123." After logging in, they select "Character A" on the character selection screen.
プロンプト文の例: Example prompt:
ユーザ:こんにちは、今日は洋服を探しています。 User: Hello, I'm looking for clothes today.
--- ---
アシスタント:こんにちは、どんな洋服を探していますか? Assistant: Hello, what kind of clothes are you looking for?
--- ---
ユーザ:カジュアルなシャツが欲しいです。 User: I'd like a casual shirt.
--- ---
2. 音声入力と解析 2. Voice input and analysis
ユーザが「こんにちは、今日は洋服を探しています」と話すと、音声が取得され、テキストデータに変換される。テキストデータは感情解析のためIBM Watson Tone Analyzerに送られる。 When a user says, "Hello, I'm looking for clothes today," the speech is captured and converted into text data. The text data is sent to IBM Watson Tone Analyzer for sentiment analysis.
3. 応答生成と提供 3. Response generation and delivery
感情解析と会話内容に基づき、Rasaが「こんにちは、どんな洋服を探していますか?」という応答を生成する。この応答はGoogle Text-to-Speech APIで音声に変換され、端末に送信される。 Based on sentiment analysis and the conversation content, Rasa generates a response: "Hello, what kind of clothes are you looking for?" This response is converted into audio using the Google Text-to-Speech API and sent to the device.
4. ショッピングアシスタント機能 4. Shopping Assistant Function
ユーザが「カジュアルなシャツが欲しい」と言うと、アシスタントが「こちらのシャツはいかがですか?流行のデザインで、最近とても人気があります」と提案し、商品説明を行う。ユーザの感情解析結果に基づき、より詳細な商品説明や提案も可能である。 If a user says, "I want a casual shirt," the assistant will suggest, "How about this shirt? It's a trendy design and very popular these days," and explain the product. It is also possible to provide more detailed product descriptions and suggestions based on the results of user sentiment analysis.
これにより、この発明は特定のキャラクターとの感情に基づいたリアルタイムな対話およびバーチャル店舗での個別的で親身なショッピングアシスタント体験を提供することができる。 This allows the invention to provide emotion-based real-time interactions with specific characters and a personalized, immersive shopping assistant experience in virtual stores.
応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.
ステップ1: Step 1:
ユーザがアプリを起動し、ログインする。ユーザはユーザ名とパスワードを入力し、端末がその情報をサーバへ送信する。サーバは認証を行い、成功した場合にはキャラクター選択画面を端末に表示する。 The user launches the app and logs in. The user enters their username and password, and the device sends that information to the server. The server performs authentication, and if successful, displays the character selection screen on the device.
入力:ユーザのユーザ名とパスワード Enter: User's username and password
処理:サーバがユーザ認証を行う Process: The server authenticates the user.
出力:認証成功時にキャラクター選択画面が表示される Output: Upon successful authentication, the character selection screen will be displayed.
ステップ2: Step 2:
ユーザがキャラクターを選択する。ユーザはキャラクター選択画面で特定のキャラクターを選び、端末が選択情報をサーバへ送信する。サーバは選択されたキャラクターのAIモデルをロードし、関連データを端末に送信する。 The user selects a character. The user chooses a specific character on the character selection screen, and the device sends the selection information to the server. The server loads the selected character's AI model and sends the relevant data to the device.
入力:ユーザのキャラクター選択情報 Input: User's character selection information
処理:サーバがAIモデルをロードし、関連データを取得する Processing: The server loads the AI model and retrieves relevant data.
出力:キャラクターの情報が端末に表示される Output: Character information is displayed on the device.
ステップ3: Step 3:
ユーザが会話を開始する。ユーザはスマートフォンのマイクに向かって話しかけ、端末はその音声を取得する。音声認識エンジン(Google Speech-to-Text API)を使用して音声をテキストデータに変換し、そのテキストデータをサーバへ送信する。 The user begins the conversation. They speak into the smartphone's microphone, and the device picks up the audio. The speech is converted into text data using a speech recognition engine (Google Speech-to-Text API), and the text data is sent to the server.
入力:ユーザの音声 Input: User's voice
処理:端末が音声を取得し、テキストデータに変換する Processing: The device captures the audio and converts it into text data.
出力:変換されたテキストデータがサーバに送信される Output: The converted text data is sent to the server.
ステップ4: Step 4:
サーバが感情解析を行う。サーバは取得したテキストデータを感情解析エンジン(IBM Watson Tone Analyzer)に送信し、利用者の感情状態を解析する。解析結果はテキストデータに付加される。 The server performs emotion analysis. The server sends the acquired text data to an emotion analysis engine (IBM Watson Tone Analyzer), which analyzes the user's emotional state. The analysis results are added to the text data.
入力:テキストデータ Input: Text data
処理:サーバが感情解析エンジンを使って感情状態を解析する Processing: The server analyzes the emotional state using an emotion analysis engine.
出力:感情状態が付加されたテキストデータ Output: Text data with emotional states added
ステップ5: Step 5:
サーバが応答を生成する。サーバは対話管理システム(Rasa)を用いて、感情解析結果および会話内容に基づいた応答を生成する。その応答はテキスト形式である。 The server generates a response. The server uses a dialogue management system (Rasa) to generate a response based on the sentiment analysis results and the content of the conversation. The response is in text format.
入力:感情解析結果が付加されたテキストデータ Input: Text data with sentiment analysis results added
処理:サーバが対話管理システムを用いて応答を生成する Processing: The server generates a response using the dialogue management system.
出力:生成された応答テキスト Output: Generated response text
ステップ6: Step 6:
サーバが応答テキストを音声に変換する。生成された応答テキストは、音声合成エンジン(Google Text-to-Speech API)を使用して音声データに変換される。変換された音声データは再び端末へ送信される。 The server converts the response text into speech. The generated response text is converted into audio data using a speech synthesis engine (Google Text-to-Speech API). The converted audio data is then sent back to the device.
入力:生成された応答テキスト Input: Generated response text
処理:サーバが音声合成エンジンを使用して音声データに変換する Processing: The server uses a speech synthesis engine to convert the data into audio.
出力:変換された音声データ Output: Converted audio data
ステップ7: Step 7:
端末が音声データを再生する。端末に送信された音声データは、スピーカーを通じて再生され、ユーザに聞こえるようになる。これにより、利用者とキャラクターのリアルタイム音声会話が成立する。 The device plays the audio data. The audio data sent to the device is played back through the speaker and becomes audible to the user. This allows for real-time audio conversation between the user and the character.
入力:音声データ Input: Audio data
処理:端末が音声データを再生する Processing: The device plays the audio data.
出力:ユーザが応答を聞く Output: User hears response
特定処理部290は、特定処理の結果をスマートデバイス14に送信する。スマートデバイス14では、制御部46Aが、出力装置40に対して特定処理の結果を出力させる。マイクロフォン38Bは、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン38Bによって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the smart device 14. In the smart device 14, the control unit 46A causes the output device 40 to output the results of the specific processing. The microphone 38B acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 38B to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). Examples of data generation model 58 include generative AI such as ChatGPT (Internet search <URL: https://openai.com/blog/chatgpt>) and Gemini (Internet search <URL: https://gemini.google.com/?hl=ja>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as voice data indicating speech, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt, and outputs the inference results in the form of data such as voice data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマートデバイス14によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the smart device 14.
[第2実施形態] [Second embodiment]
図3には、第2実施形態に係るデータ処理システム210の構成の一例が示されている。 Figure 3 shows an example of the configuration of a data processing system 210 according to the second embodiment.
図3に示すように、データ処理システム210は、データ処理装置12及びスマート眼鏡214を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 3, the data processing system 210 includes a data processing device 12 and smart glasses 214. An example of the data processing device 12 is a server.
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).
スマート眼鏡214は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、及びカメラ42も、バス52に接続されている。 The smart glasses 214 include a computer 36, a microphone 238, a speaker 240, a camera 42, and a communication I/F 44. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The microphone 238, speaker 240, and camera 42 are also connected to the bus 52.
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。 The microphone 238 receives instructions and the like from the user 20 by receiving voice uttered by the user 20. The microphone 238 captures the voice uttered by the user 20, converts the captured voice into audio data, and outputs it to the processor 46. The speaker 240 outputs audio in accordance with instructions from the processor 46.
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。 Camera 42 is a small digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor, and captures images of the user 20's surroundings (e.g., an imaging range defined by an angle of view equivalent to the field of vision of a typical healthy person).
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54. The exchange of various information between the processor 46 and the processor 28 using the communication I/Fs 44 and 26 is carried out in a secure manner.
図4には、データ処理装置12及びスマート眼鏡214の要部機能の一例が示されている。図4に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。 Figure 4 shows an example of the main functions of the data processing device 12 and smart glasses 214. As shown in Figure 4, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32.
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。 The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as the specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.
スマート眼鏡214では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the smart glasses 214, the reception output process is performed by the processor 46. A reception output program 60 is stored in the storage 50. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output process is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain the identification process performed by the identification processing unit 290 of the data processing device 12. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、利用者に対して24時間365日リアルタイムで音声会話ができるシステムである。本システムは、以下のように構成される。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. The system is configured as follows:
システムの構成 System Configuration
1. 人工知能技術による学習 1. Learning with AI technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集し、人工知能アルゴリズムを使用してこれらの情報を学習する。 The server collects data on the appearance, personality, and past behavior of specific characters or individuals, and uses artificial intelligence algorithms to learn this information.
学習結果はキャラクターの特定の行動パターンや応答パターンを含み、高精度なモデルとして保存される。 The learning results include the character's specific behavioral and response patterns and are saved as a highly accurate model.
2. NFTとしての保存 2. Save as an NFT
サーバが学習されたAIデータをNFTとして保存し、ブロックチェーン技術を用いてそのユニーク性と所有権を保証する。 The server stores the learned AI data as an NFT, using blockchain technology to guarantee its uniqueness and ownership.
3. インタフェースの提供 3. Providing an interface
端末がユーザに対話相手を選択するためのインタフェースを提供する。利用者はログインし、好きなキャラクターを選択することができる。 The device provides the user with an interface for selecting a conversation partner. Users can log in and select their favorite character.
4. リアルタイム音声会話 4. Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始するための操作を行う。端末がユーザの音声を取得し、それを文字データに変換してサーバに送信する。 The user performs an operation to start a conversation with the selected character. The device captures the user's voice, converts it into text data, and sends it to the server.
サーバが受信した文字データを基に、AIモデルを使用して適切な応答を生成する。この応答は再び音声データに変換され、端末に送信される。 Based on the text data received by the server, an appropriate response is generated using an AI model. This response is then converted back into audio data and sent to the device.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
5. 利用料の収受と収益分配 5. Usage Fee Collection and Revenue Sharing
サーバがユーザからの利用料を収受する。決済処理は端末を通じて行われる。 The server collects the usage fee from the user. Payment processing is carried out through the terminal.
収益は関係者間で分配される。これには、キャラクターや人物の著作権者、サービス提供者が含まれる。 Revenues will be shared among the parties involved, including copyright holders of characters and people, and service providers.
具体例 Specific examples
1. ユーザがログインし、キャラクターを選択する 1. The user logs in and selects a character.
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力されたデータをサーバに送信し、認証が行われる。認証が成功すると、端末にホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the entered data to the server and authentication is performed. If authentication is successful, the home screen is displayed on the device.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、例えば「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Select Character" button on the home screen and selects, for example, "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは、私はキャラクターA。今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on the AI model. For example, the response generated might be, "Hello, I'm Character A. How's your day?"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザが応答を聞くことができる。 The generated response is converted into audio data and sent to the device. The device plays the audio data, allowing the user to hear the response.
3. 利用料の決済と収益分配 3. Payment of fees and revenue sharing
ユーザが利用料を支払う際、端末が決済情報を取得しサーバに送信する。サーバが決済ゲートウェイにより支払いを処理し、確認後に収益を関係者間で分配する。 When a user pays a usage fee, the terminal captures the payment information and sends it to the server. The server processes the payment using a payment gateway and, after confirmation, distributes the revenue among the parties.
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、またイベント開催や著名人の誘致にかかる高額なコストを削減することもできるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and also reduces the high costs associated with hosting events and inviting celebrities to attend.
以下に、処理の流れについて説明する。 The processing flow is explained below.
ステップ1: Step 1:
ユーザがアプリケーションを開く。ユーザがログイン画面にアクセスし、IDとパスワードを入力するである。 The user opens the application. The user accesses the login screen and enters their ID and password.
ステップ2: Step 2:
端末がユーザの入力を受け取り、IDとパスワード情報をサーバに送信する。通信は暗号化されているである。 The device receives the user's input and sends the ID and password information to the server. The communication is encrypted.
ステップ3: Step 3:
サーバが受信したIDとパスワードをデータベースから確認し、ユーザ認証を行うである。もしIDとパスワードが一致しない場合、エラーメッセージを端末に送信するである。 The server checks the received ID and password against a database and authenticates the user. If the ID and password do not match, an error message is sent to the terminal.
ステップ4: Step 4:
サーバが認証に成功した場合、セッション情報を生成し、端末に送り返すである。端末は受け取ったセッション情報を使用して、ホーム画面を表示するである。 If the server successfully authenticates, it generates session information and sends it back to the device. The device uses the received session information to display the home screen.
ステップ5: Step 5:
ユーザがホーム画面から「キャラクター選択」ボタンを押し、対話相手となるキャラクターを選択するである。 The user presses the "Character Selection" button on the home screen and selects the character they want to interact with.
ステップ6: Step 6:
端末がユーザの選択を受け取り、キャラクターIDをサーバに送信するである。サーバは選択されたキャラクターのAIモデルデータを取得するである。 The device receives the user's selection and sends the character ID to the server. The server then retrieves the AI model data for the selected character.
ステップ7: Step 7:
サーバが取得したAIモデルデータを端末に送信するである。端末は受信したデータをもとに、キャラクターとの会話インタフェースを表示するである。 The server sends the acquired AI model data to the device. The device displays a conversation interface with the character based on the received data.
ステップ8: Step 8:
ユーザが「会話開始」ボタンを押し、会話を開始するである。ユーザの音声を取得するため、端末のマイクがオンになるである。 The user presses the "Start conversation" button to begin the conversation. The device's microphone is turned on to capture the user's voice.
ステップ9: Step 9:
端末がユーザの音声を録音し、リアルタイムで音声データをテキストデータに変換するである。このテキストデータをサーバに送信するである。 The device records the user's voice and converts the voice data into text data in real time. This text data is then sent to the server.
ステップ10: Step 10:
サーバが受信したテキストデータを解析し、AIモデルを用いて応答を生成するである。例えば、ユーザが「こんにちは、キャラクターA」と言った場合、応答は「こんにちは!今日はどうしたの?」である。 The server analyzes the received text data and generates a response using an AI model. For example, if the user says "Hello, Character A," the response will be "Hello! How's your day?"
ステップ11: Step 11:
サーバが生成した応答テキストを音声データに変換し、端末に送信するである。 The response text generated by the server is converted into audio data and sent to the device.
ステップ12: Step 12:
端末が受信した音声データを再生し、ユーザに応答を提供するである。ユーザはこれを聞いて、続けて質問やコメントをすることができるである。 The device plays back the received audio data and provides a response to the user. The user can then listen to this and ask questions or make comments.
ステップ13: Step 13:
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示するである。ユーザがクレジットカード情報などを入力するである。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will then enter their credit card information, etc.
ステップ14: Step 14:
端末が入力された決済情報をサーバに送信するである。サーバは決済ゲートウェイを通じて決済処理を行うである。 The terminal sends the entered payment information to the server, which then processes the payment through the payment gateway.
ステップ15: Step 15:
サーバが決済の成功または失敗の情報を端末に送信するである。成功した場合、利用権利が更新されるである。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
ステップ16: Step 16:
端末が決済結果をユーザに通知するである。これにより、ユーザは引き続きシステムを使用できるである。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(実施例1) (Example 1)
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来のキャラクターや人物との対話システムにおいては、リアルタイムでの音声会話を実現することが難しく、利用者に満足のいく体験を提供することができなかった。また、学習された人工知能データのユニーク性や所有権を保証する手段が不足しており、データの改ざんや不正利用のリスクが存在していた。さらに、利用者からの利用料を収受し、関係者間で公正に収益を分配する仕組みも確立されていなかった。このような問題を解決するために、新たな技術が求められている。 In conventional dialogue systems with characters or people, it was difficult to achieve real-time voice conversation, and users were unable to receive a satisfactory experience. Furthermore, there was a lack of means to guarantee the uniqueness and ownership of trained AI data, creating a risk of data tampering or unauthorized use. Furthermore, there was no established mechanism for collecting usage fees from users and distributing revenue fairly among the parties involved. New technology is needed to solve these problems.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、利用者の音声を取得し、音声認識技術を使用してテキストデータに変換する手段と、テキストデータを基にAIモデルを使用して適切な応答を生成し、その応答を音声データに変換する手段と、変換された音声データを利用者端末に送信してリアルタイムで音声会話を行う手段と、利用者からの利用料を収受し、収益を関係者間で分配する手段と、を含む。これにより、リアルタイムでの音声会話を実現し、学習されたデータのユニーク性および所有権を保証し、さらに公正な収益分配を行うことが可能となる。 In this invention, the server includes: means for learning the appearance and personality of a specific character or person using artificial intelligence technology; means for storing the learned data as a non-fungible token (NFT); means for providing an interface for users to select a conversation partner and converse with them; means for acquiring the user's voice and converting it into text data using voice recognition technology; means for generating an appropriate response based on the text data using an AI model and converting the response into voice data; means for transmitting the converted voice data to the user's terminal to conduct voice conversations in real time; and means for collecting usage fees from users and distributing revenue among the parties involved. This enables real-time voice conversations, guarantees the uniqueness and ownership of learned data, and enables fair revenue distribution.
「特定のキャラクターや人物」とは、利用者が対話する際に選択する架空または実在の人物を指し、その外見や性格、行動パターンなどがあらかじめ定義されたものである。 "Specific characters or people" refers to fictional or real people that users select when interacting, whose appearance, personality, behavior patterns, etc. are predefined.
「人工知能技術」とは、機械学習や深層学習モデルを利用して、特定のデータをもとに学習を行い、未知のデータに対しても適切な応答を生成する技術を指す。 "Artificial intelligence technology" refers to technology that uses machine learning and deep learning models to learn from specific data and generate appropriate responses even for unknown data.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を使用して作成されたユニークなデジタル資産で、所有権や真偽が保証されているものである。 A non-fungible token (NFT) is a unique digital asset created using blockchain technology with guaranteed ownership and authenticity.
「インタフェース」とは、利用者がキャラクターや人物を選択し、対話を行うために提供されるユーザーインターフェースを指し、通常はアプリケーションとして提供される。 "Interface" refers to the user interface provided to users to select and interact with characters or people, and is usually provided as an application.
「音声認識技術」とは、利用者の音声をテキストデータに変換する技術で、Google Cloud Speech-to-TextやMicrosoft Azure Speech認識サービスなどがこれに含まれる。 "Speech recognition technology" refers to technology that converts a user's voice into text data, and includes services such as Google Cloud Speech-to-Text and Microsoft Azure Speech Recognition Services.
「AIモデル」とは、収集されたデータをもとに学習されたニューラルネットワークモデルで、特定のキャラクターや人物の応答を生成するために使用されるものである。 An "AI model" is a neural network model trained based on collected data and used to generate the responses of a specific character or person.
「音声データに変換する」とは、AIモデルが生成したテキスト応答を音声合成技術を用いて音声データに変換することで、利用者が聞き取れる形にすることである。 "Converting into voice data" means using speech synthesis technology to convert the text response generated by the AI model into voice data that users can hear.
「リアルタイムで音声会話を行う」とは、利用者がキャラクターや人物と即時に音声を用いて交互にコミュニケーションを取ることができる形態を指す。 "Real-time voice conversation" refers to a form in which users can instantly communicate back and forth with characters or people using voice.
「利用料を収受する」とは、サービスの利用に対する料金を利用者から収集することであり、オンライン決済システムを用いることが多い。 "Collecting usage fees" means collecting fees from users for using a service, often using an online payment system.
「収益を関係者間で分配する」とは、収集された利用料を、キャラクターや人物の著作権者およびサービス提供者などの権利者に、公正な割合で分配することを指す。 "Distributing revenues among the parties involved" means distributing the collected usage fees in fair proportions to copyright holders of characters and people, service providers, and other rights holders.
発明を実施するための形態 Form for implementing the invention
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、利用者に対して24時間365日リアルタイムで音声会話ができるシステムである。本システムは、以下のように構成される。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. The system is configured as follows:
人工知能技術による学習 Learning using artificial intelligence technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集する。これには例えば、YouTubeやSNSなどからデータを取得するスクリプトを使用する。このデータは、TensorFlowまたはPyTorchの機械学習フレームワークを使用して学習される。データ前処理の過程では、ノイズ除去、トークン化、正規化などを行い、ニューラルネットワークモデルが構築される。学習されたモデルは、精度評価を受けた後、高精度であれば保存される。 The server collects data on the appearance, personality, and past behavior of specific characters or people. For example, it uses scripts that retrieve data from YouTube, social media, etc. This data is trained using the TensorFlow or PyTorch machine learning frameworks. During the data preprocessing process, noise removal, tokenization, normalization, etc. are performed, and a neural network model is built. The trained model is then evaluated for accuracy and saved if it is highly accurate.
NFTとしての保存 Stored as an NFT
サーバが学習されたAIデータをNFTとして保存するため、モデルデータをONNX形式に変換する。次にEthereumやBinance Smart Chainなどのブロックチェーンプラットフォームを使ってNFTを発行し、この過程でモデルのユニークな識別情報とメタデータが組み込まれる。 The server converts the model data into ONNX format to store the trained AI data as an NFT. The NFT is then issued using a blockchain platform such as Ethereum or Binance Smart Chain, which incorporates the model's unique identifier and metadata in the process.
インタフェースの提供 Providing an interface
端末がユーザに対してインタラクティブなユーザインタフェースを提供する。ユーザはReact NativeやFlutterで開発されたアプリケーションを使用してログインを行う。ログイン画面にはユーザ名とパスワードの入力フィールドがあり、ユーザは認証を行う。認証に成功すると、キャラクター選択画面が表示され、ここでユーザは対話したいキャラクターを選択する。 The device provides the user with an interactive user interface. The user logs in using an application developed with React Native or Flutter. The login screen has username and password input fields, and the user authenticates. If authentication is successful, a character selection screen is displayed, where the user selects the character they want to interact with.
リアルタイム音声会話 Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始する。端末がマイクを使用してユーザの音声を取得し、Google Cloud Speech-to-Text APIやMicrosoft Azure Speech認識サービスを使用して音声データをテキストデータに変換する。テキストデータはサーバに送信され、AIモデル(例えばGTP-3やBERT)を使用して適切な応答が生成される。この応答は音声合成エンジン(例えばAmazon PollyやGoogle Text-to-Speech)により音声データに変換され、端末に送信される。端末が音声データを再生し、リアルタイムでの会話が実現される。 The user initiates a conversation with the selected character. The device uses the microphone to capture the user's voice and converts it into text using the Google Cloud Speech-to-Text API or Microsoft Azure Speech Recognition Service. The text is sent to a server, which uses an AI model (e.g., GTP-3 or BERT) to generate an appropriate response. This response is converted into audio data by a speech synthesis engine (e.g., Amazon Polly or Google Text-to-Speech) and sent to the device. The device plays back the audio data, enabling real-time conversation.
利用料の収受と収益分配 Collection of usage fees and revenue sharing
ユーザがサービスを利用する際に支払う利用料は、端末が支払い情報を取得することにより収受される。決済処理はサーバがStripeやPayPalのAPIを使用して行う。収受された利用料は、キャラクターや人物の著作権者およびサービス提供者に公平に分配される。 The usage fee paid by users when using the service is collected by the device acquiring payment information. Payment processing is carried out by the server using the Stripe or PayPal API. The collected usage fee is distributed fairly among the copyright holders of the characters and people and the service provider.
具体例 Specific examples
1. ユーザログインとキャラクター選択 1. User login and character selection
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力データをサーバに送信し、認証が行われる。認証が成功すると、ホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the input data to the server and authentication is performed. If authentication is successful, the home screen is displayed.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Character Selection" button on the home screen and selects "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは、私はキャラクターA。今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on the AI model. For example, the response generated might be, "Hello, I'm Character A. How's your day?"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザが応答を聞くことができる。 The generated response is converted into audio data and sent to the device. The device plays the audio data, allowing the user to hear the response.
プロンプト文の例 Example prompt
「こんにちは、私はキャラクターA。今日はどうしたの?」 "Hello, I'm Character A. How's your day going?"
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、またイベント開催や著名人の誘致にかかる高額なコストを削減することもできるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and also reduces the high costs associated with hosting events and inviting celebrities to attend.
実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.
ステップ1:データ収集 Step 1: Data Collection
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集する。入力として、YouTube動画のリンクやSNSの投稿URLなどが提供される。データはスクレイピング技術やAPIを利用して取得される。出力は、取得されたテキスト、画像、音声データである。 The server collects data on the appearance, personality, and past behavior of specific characters or people. Inputs include links to YouTube videos and URLs of social media posts. The data is obtained using scraping technology and APIs. The output is the obtained text, images, and audio data.
ステップ2:データ前処理 Step 2: Data Preprocessing
サーバが収集したデータを前処理する。入力として、ステップ1で収集された生データが提供される。具体的には、ノイズ除去、テキストのトークン化、正規化などの処理が行われる。例えば、テキストデータから不要な特殊文字を削除し、標準的なフォーマットに変換する。出力は、前処理済みのデータである。 The server preprocesses the collected data. The raw data collected in step 1 is provided as input. Specifically, processes such as noise removal, text tokenization, and normalization are performed. For example, unnecessary special characters are removed from the text data and it is converted into a standard format. The output is the preprocessed data.
ステップ3:モデルの学習 Step 3: Train the model
サーバが前処理されたデータを用いて、人工知能モデル(例えばTensorFlowやPyTorch)を学習させる。入力として、ステップ2で前処理済みのデータが提供される。具体的な動作としては、データをバッチに分割し、GPUを使用してモデルのパラメータを最適化する。出力は、学習済みの高精度モデルである。 The server uses the preprocessed data to train an artificial intelligence model (e.g., TensorFlow or PyTorch). The preprocessed data from step 2 is provided as input. Specifically, the data is divided into batches and the model parameters are optimized using a GPU. The output is a trained, highly accurate model.
ステップ4:モデルの評価と保存 Step 4: Evaluate and save the model
サーバが学習済みのモデルを評価し、保存する。入力として、ステップ3で学習されたモデルと検証データセットが使用される。具体的な動作としては、モデルの精度を検証データを用いて評価し、精度が基準を満たす場合には、モデルを保存する。出力は、評価結果および保存されたモデルである。 The server evaluates and saves the trained model. The model trained in step 3 and the validation dataset are used as input. Specifically, the accuracy of the model is evaluated using the validation data, and if the accuracy meets the criteria, the model is saved. The output is the evaluation results and the saved model.
ステップ5:NFTとしての保存 Step 5: Save as an NFT
サーバが学習済みのAIモデルをNFTとして保存する。入力として、ステップ4で保存されたモデルデータが使用される。具体的には、モデルをONNX形式に変換し、ブロックチェーンプラットフォーム(例えばEthereumやBinance Smart Chain)でNFTを発行する。出力は、NFTとして保存されたモデルデータである。 The server saves the trained AI model as an NFT. The model data saved in step 4 is used as input. Specifically, the model is converted to ONNX format and an NFT is issued on a blockchain platform (e.g., Ethereum or Binance Smart Chain). The output is the model data saved as an NFT.
ステップ6:ユーザ認証とキャラクター選択 Step 6: User authentication and character selection
端末がユーザに対してログイン画面を表示し、認証を行う。入力として、ユーザ名とパスワードが提供される。具体的な動作としては、認証データがサーバに送信され、データベースと照合される。認証が成功すると、キャラクター選択画面が表示される。出力は、選択されたキャラクター情報である。 The device displays a login screen for the user and performs authentication. A username and password are provided as input. The authentication data is sent to the server and checked against a database. If authentication is successful, the character selection screen is displayed. The output is information about the selected character.
ステップ7:音声入力の取得と変換 Step 7: Capture and convert audio input
端末がマイクを使用して、ユーザの音声を取得する。入力として、ユーザの音声データが提供される。具体的な動作として、Google Cloud Speech-to-Text APIを用いて音声をテキストデータに変換する。出力は、テキストデータである。 The device uses a microphone to capture the user's voice. The user's voice data is provided as input. Specifically, the voice is converted into text data using the Google Cloud Speech-to-Text API. The output is text data.
ステップ8:応答生成 Step 8: Generate a response
サーバがテキストデータを受け取り、AIモデルを使用して応答を生成する。入力として、ステップ7で変換されたテキストデータが提供される。具体的には、AIモデル(例えばGPT-3やBERT)がテキストデータを解析し、適切な応答を生成する。出力は、生成された応答のテキストデータである。 The server receives the text data and generates a response using an AI model. The text data converted in step 7 is provided as input. Specifically, the AI model (e.g., GPT-3 or BERT) analyzes the text data and generates an appropriate response. The output is the text data of the generated response.
ステップ9:音声への変換と送信 Step 9: Convert to audio and send
サーバが生成されたテキスト応答を音声データに変換し、端末に送信する。入力として、ステップ8で生成されたテキストデータが提供される。具体的な動作として、Amazon PollyやGoogle Text-to-Speechを用いて音声データに変換する。出力は、音声データである。 The server converts the generated text response into audio data and sends it to the device. The text data generated in step 8 is provided as input. Specifically, it converts it into audio data using Amazon Polly or Google Text-to-Speech. The output is audio data.
ステップ10:リアルタイム音声会話の再生 Step 10: Play real-time audio conversations
端末が音声データを受け取り、スピーカーで再生する。入力として、ステップ9で送信された音声データが提供される。具体的な動作としては、音声データをデコードし、スピーカーで再生することで、ユーザが聞き取れる形にする。出力は、リアルタイムで再生される音声である。 The device receives the audio data and plays it on the speaker. The input is the audio data sent in step 9. Specifically, it decodes the audio data and plays it on the speaker so that the user can hear it. The output is audio played in real time.
ステップ11:利用料の収受と分配 Step 11: Collection and distribution of usage fees
端末が利用料を収受するための支払い情報を取得し、サーバに送信する。入力として、支払い情報が提供される。サーバがStripeやPayPalのAPIを用いて決済を処理し、収益を関係者間で分配する。具体的な動作として、支払い処理の確認後、銀行振込や暗号通貨で分配を行う。出力は、分配された収益である。 The terminal obtains payment information to collect usage fees and sends it to the server. Payment information is provided as input. The server processes the payment using Stripe or PayPal APIs and distributes revenue among the parties involved. Specifically, after confirming the payment process, the revenue is distributed via bank transfer or cryptocurrency. The output is the distributed revenue.
(応用例1) (Application Example 1)
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Application Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
現在、実店舗に訪れた顧客に対して高品質な接客サービスを提供することは、多くの人件費とリソースを必要とする。また、店舗内で特定の商品に関する詳細情報を案内することが困難であるため、顧客の満足度を高めることが難しい。さらに、顧客が自身の好みや関心に基づいて商品を選択できるようなパーソナライズされた案内が求められているが、その実現も複雑である。このような課題を解決するためには、リアルタイムで顧客と対話し、パーソナライズされた案内を提供するシステムが必要である。 Currently, providing high-quality customer service to customers visiting physical stores requires a lot of labor and resources. It is also difficult to provide detailed information about specific products in the store, making it difficult to increase customer satisfaction. Furthermore, while there is a demand for personalized guidance that allows customers to select products based on their preferences and interests, achieving this is complex. To solve these challenges, a system that can interact with customers in real time and provide personalized guidance is needed.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、特定の仮想人物の特徴を機械学習技術によって学習させる手段と、学習された情報を非代替性符号(NFT)として保存する手段と、利用者が対話相手を選択し、会話を行うための操作画面を提供する手段と、リアルタイムで音声通信を行う手段と、利用者からのサービス料金を受け取り、収入を関連する関係者間で分配する手段と、実店舗における顧客と仮想人物の会話を支援する表示装置を用いた案内を行う手段と、利用者が店舗内で商品情報を取得し、キャラクターを通じて支援を受けることができる手段と、を含む。これにより、実店舗における顧客の体験を向上させ、パーソナライズされた高品質な接客サービスを提供することが可能となる。 In this invention, the server includes means for learning the characteristics of a specific virtual character using machine learning technology, means for saving the learned information as a non-fungible character (NFT), means for providing an operation screen on which a user can select a conversation partner and conduct a conversation, means for real-time voice communication, means for receiving service fees from users and distributing revenue among relevant parties, means for providing guidance using a display device that supports conversations between customers and virtual characters in physical stores, and means for users to obtain product information in the store and receive support through the character. This makes it possible to improve the customer experience in physical stores and provide personalized, high-quality customer service.
「特定の仮想人物の特徴」とは、キャラクターや有名人の外見、性格、過去の言動などの情報を含むデータのことである。 "Characteristics of a specific virtual person" refers to data including information such as the appearance, personality, and past words and actions of a character or celebrity.
「機械学習技術」とは、コンピュータがデータから自動的に学習し、予測や分類を行う技術のことである。 "Machine learning technology" is a technology that allows computers to automatically learn from data and make predictions and classifications.
「非代替性符号(NFT)」とは、ブロックチェーン技術を用いて唯一性と所有権を保証されたデジタル資産のことである。 A "Non-Fungible Trading Card (NFT)" is a digital asset whose uniqueness and ownership are guaranteed using blockchain technology.
「操作画面」とは、利用者が対話相手を選択し、会話を行うためのインターフェースを提供するための表示画面のことである。 An "operation screen" is a display screen that provides an interface for users to select a conversation partner and conduct a conversation.
「リアルタイムで音声通信」とは、利用者が選択したキャラクターと即時に音声でやり取りを行う技術のことである。 "Real-time voice communication" refers to technology that allows users to instantly communicate via voice with a character of their choice.
「サービス料金」とは、利用者がサービスの利用対価として支払う金銭のことである。 "Service fee" refers to the amount of money paid by the user in consideration for using the service.
「関連する関係者」とは、キャラクターやシステムの提供者、開発者などの収益分配の対象となる人や団体のことである。 "Related parties" refers to people or organizations that are subject to revenue sharing, such as character or system providers and developers.
「表示装置」とは、実店舗に設置されるディスプレイやスマート眼鏡、ヘッドマウントディスプレイ(HMD)など、情報を表示するためのハードウェアのことである。 "Display devices" refer to hardware for displaying information, such as displays installed in physical stores, smart glasses, and head-mounted displays (HMDs).
「仮想人物の会話を支援する」とは、特定の仮想人物がユーザと音声でやり取りを行い、案内や情報提供を行うことを指す。 "Supporting virtual character conversations" refers to a specific virtual character communicating with the user via voice, providing guidance and information.
「商品情報を取得」とは、店舗内の商品に関する詳細な情報を閲覧または取得することである。 "Get product information" means viewing or obtaining detailed information about products in the store.
「キャラクターを通じて支援を受ける」とは、仮想人物がユーザに対して商品やサービスの案内や説明を行うことを意味する。 "Receiving support through a character" means that a virtual character guides or explains products or services to the user.
この発明を実施するためには、以下のようなシステム構成が必要である。システムは主要なコンポーネントとして、サーバ、端末、およびユーザによって構成される。 To implement this invention, the following system configuration is required. The system consists of a server, a terminal, and a user as its main components.
1. システムのプログラム 1. System Programming
サーバは、特定の仮想人物の特徴を機械学習技術によって学習させるデータベースを構築する。端末は、ユーザが対話相手を選択し、その仮想人物とリアルタイムで音声通信を行うための操作画面を提供する。また、サーバは学習された情報を非代替性符号(NFT)として保存する。 The server builds a database that uses machine learning technology to learn the characteristics of specific virtual characters. The terminal provides an operation screen that allows the user to select a conversation partner and engage in real-time voice communication with that virtual character. The server also stores the learned information as a non-fungible character (NFT).
端末は、利用者が対話相手である仮想人物を選択する際の操作画面を表示し、選択情報をサーバに送信する。利用者がリアルタイムで音声通信を行うとき、端末は利用者の音声をテキスト情報に変換し、そのテキスト情報をサーバに送信する。 The terminal displays an operation screen that allows the user to select a virtual person to interact with, and transmits the selection information to the server. When the user communicates via voice in real time, the terminal converts the user's voice into text information and transmits that text information to the server.
サーバは、受信したテキスト情報を機械学習モデルに供給し、会話に基づく応答を生成する。その生成された応答は、サーバによって音声データに変換され、端末に送信される。端末は音声データを再生し、ユーザに対して仮想人物の応答を提供する。 The server feeds the received text information into a machine learning model to generate a response based on the conversation. The generated response is converted into audio data by the server and sent to the device. The device plays the audio data and provides the virtual character's response to the user.
2. 処理の説明 2. Processing Description
サーバは、Pythonなどのプログラミング言語を使用して実装される。機械学習技術としては、NLP(自然言語処理)モデルであるGPT-3などを使用する。また、音声認識にはGoogle Speech Recognition、音声合成にはpyttsx3などのライブラリを利用する。 The server is implemented using programming languages such as Python. Machine learning techniques include the NLP (natural language processing) model GPT-3. Libraries such as Google Speech Recognition are used for voice recognition and pyttsx3 for voice synthesis.
端末には、スマート眼鏡やヘッドマウントディスプレイ(HMD)、マイクロフォンなどのハードウェアが含まれる。端末は、ユーザの音声を認識し、それをサーバに送信する。サーバは音声をテキストに変換し、NLPモデルによって適切な応答を生成する。その後、サーバは応答を音声データに変換し、再び端末に送信する。 The device includes hardware such as smart glasses, a head-mounted display (HMD), and a microphone. The device recognizes the user's voice and sends it to the server. The server converts the voice into text and generates an appropriate response using an NLP model. The server then converts the response into audio data and sends it back to the device.
具体的な例として、ユーザが実店舗に入店し、スマート眼鏡を装着する。ユーザが「おすすめの商品を教えてください」と話しかけると、端末のマイクがユーザの音声を拾い、サーバに送信する。サーバはそのテキストデータを解析し、「GPT-3」を用いて応答を生成する。その応答が「現在、このスマートウォッチがおすすめです。最新モデルでバッテリー寿命が長く、健康管理機能も充実しています」といった形で生成される。 As a specific example, a user enters a physical store and puts on a pair of smart glasses. When the user says, "What products do you recommend?", the device's microphone picks up the user's voice and sends it to the server. The server analyzes the text data and generates a response using GPT-3. The response might be something like, "Currently, we recommend this smartwatch. It's the latest model with a long battery life and comprehensive health management features."
生成された応答は音声データに変換され、端末に送信される。端末はその音声データを再生し、ユーザが仮想人物の声を聞くことができる。 The generated response is converted into audio data and sent to the device. The device then plays the audio data, allowing the user to hear the voice of the virtual character.
3. 具体例とプロンプト文の例 3. Specific examples and prompt sentence examples
実際の使用例として、ユーザがスマート眼鏡を装着し、店舗内でサポートを求めるシチュエーションを考える。例えば、ユーザが「こんにちは、おすすめの商品を教えてください」と発言した場合。 As a practical example, consider a situation where a user wears smart glasses and asks for assistance in a store. For example, the user might say, "Hello, what products do you recommend?"
プロンプト文の例: Example prompt:
顧客の質問:「こんにちは、おすすめの商品を教えてください」 Customer Question: "Hello, what products do you recommend?"
生成AIモデルへのプロンプト文:「顧客はあなたに商品のおすすめを尋ねました。どのように返答しますか?」 Prompt for generative AI model: "A customer asked you for a product recommendation. How would you respond?"
応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the specific processing in Application Example 1 will be explained using Figure 12.
プログラムの処理ステップ Program processing steps
ステップ1: Step 1:
ユーザがスマート眼鏡を装着し、アプリケーションを起動する。入力はスマート眼鏡の初期化データであり、出力はログイン画面の表示である。具体的には、端末がユーザに対してログイン画面を表示し、ユーザがログイン情報を入力する。 The user puts on the smart glasses and launches the application. The input is the smart glasses' initialization data, and the output is the display of a login screen. Specifically, the device displays the login screen to the user, and the user enters their login information.
ステップ2: Step 2:
ユーザがログイン情報を入力し、ログインボタンを押す。入力はログイン情報であり、出力はサーバへの認証リクエストである。端末はユーザの入力情報をサーバに送信し、サーバが認証を行う。 The user enters login information and presses the login button. The input is login information, and the output is an authentication request to the server. The device sends the user's input information to the server, and the server performs authentication.
ステップ3: Step 3:
サーバがユーザのログイン情報を認証し、結果を端末に返す。入力はユーザのログイン情報であり、出力は認証結果である。具体的には、サーバがデータベースを検索し、ログイン情報を確認する。成功の場合、端末にホーム画面を表示する。 The server authenticates the user's login information and returns the result to the device. The input is the user's login information, and the output is the authentication result. Specifically, the server searches the database and confirms the login information. If successful, the home screen is displayed on the device.
ステップ4: Step 4:
ユーザがホーム画面から対話相手のキャラクターを選択する。入力はキャラクター選択情報であり、出力はサーバへの選択情報の送信である。端末は選択されたキャラクター情報をサーバに送信し、サーバが対応する学習データを取得する。 The user selects a character to interact with from the home screen. The input is character selection information, and the output is sending the selection information to the server. The device sends the selected character information to the server, and the server obtains the corresponding learning data.
ステップ5: Step 5:
サーバが選択されたキャラクターの学習データを取得し、端末に送信する。入力はキャラクター選択情報であり、出力は学習データである。サーバは学習データベースから該当データを取り出し、端末に送信する。 The server obtains the learning data for the selected character and sends it to the device. The input is the character selection information, and the output is the learning data. The server retrieves the relevant data from the learning database and sends it to the device.
ステップ6: Step 6:
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって音声を入力する。入力はユーザの音声であり、出力はテキストデータである。端末は音声認識を用いてユーザの音声をテキストに変換し、そのテキストデータをサーバに送信する。 The user presses the "Start conversation" button and speaks into the device's microphone. The input is the user's voice, and the output is text data. The device uses voice recognition to convert the user's voice into text and sends the text data to the server.
ステップ7: Step 7:
サーバがユーザのテキストデータを受信し、生成AIモデルを使用して適切な応答を生成する。入力はユーザのテキストデータであり、出力は生成された応答である。サーバはNLPモデル(例:GPT-3)を使用して応答を生成する。 The server receives the user's text data and generates an appropriate response using a generative AI model. The input is the user's text data and the output is the generated response. The server generates the response using an NLP model (e.g., GPT-3).
ステップ8: Step 8:
サーバが生成した応答を音声データに変換し、端末に送信する。入力は生成された応答であり、出力は音声データである。サーバは音声合成ライブラリ(例:pyttsx3)を使用して音声データを生成し、端末に送信する。 The response generated by the server is converted into audio data and sent to the device. The input is the generated response, and the output is audio data. The server uses a speech synthesis library (e.g., pyttsx3) to generate the audio data and send it to the device.
ステップ9: Step 9:
端末がサーバから受信した音声データを再生し、ユーザに聞かせる。入力は音声データであり、出力は音声の再生である。端末は音声データを再生し、ユーザが仮想人物の応答を聞くことができる。 The device plays back the audio data received from the server and lets the user listen. The input is audio data, and the output is audio playback. The device plays back the audio data, allowing the user to hear the virtual character's response.
ステップ10: Step 10:
ユーザがサービスを終了する場合、アプリケーションを終了する操作を行う。入力は終了操作であり、出力はアプリケーションの終了である。端末はアプリケーションを終了し、スマート眼鏡の表示を停止する。 When the user wants to end the service, they perform an operation to end the application. The input is the end operation, and the output is to end the application. The device will end the application and stop displaying the smart glasses.
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 It is also possible to further combine an emotion engine that estimates the user's emotion. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、ユーザに対して24時間365日リアルタイムで音声会話ができるシステムである。また、本発明は感情エンジンを組み合わせることで、ユーザの感情を認識し、その感情に基づいた適応的な応答を提供することができる。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. Furthermore, by combining this invention with an emotion engine, it is possible to recognize the user's emotions and provide adaptive responses based on those emotions.
システムの構成 System Configuration
1. 人工知能技術による学習 1. Learning with AI technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集し、人工知能アルゴリズムを使用してこれらの情報を学習する。学習結果はキャラクターの特定の行動パターンや応答パターンを含み、高精度なモデルとして保存される。 The server collects data on the appearance, personality, and past behavior of specific characters or people, and uses an artificial intelligence algorithm to learn this information. The learning results, including the character's specific behavior and response patterns, are saved as a highly accurate model.
2. NFTとしての保存 2. Save as an NFT
サーバが学習されたAIデータをNFTとして保存し、ブロックチェーン技術を用いてそのユニーク性と所有権を保証する。 The server stores the learned AI data as an NFT, using blockchain technology to guarantee its uniqueness and ownership.
3. インタフェースの提供 3. Providing an interface
端末がユーザに対話相手を選択するためのインタフェースを提供する。利用者はログインし、好きなキャラクターを選択することができる。 The device provides the user with an interface for selecting a conversation partner. Users can log in and select their favorite character.
4. リアルタイム音声会話 4. Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始するための操作を行う。端末がユーザの音声を取得し、それを文字データに変換してサーバに送信する。 The user performs an operation to start a conversation with the selected character. The device captures the user's voice, converts it into text data, and sends it to the server.
サーバが受信した文字データを基に、AIモデルを使用して適切な応答を生成する。この応答は再び音声データに変換され、端末に送信される。 Based on the text data received by the server, an appropriate response is generated using an AI model. This response is then converted back into audio data and sent to the device.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
5. 感情エンジンの統合 5. Emotional Engine Integration
サーバがユーザの音声データを利用して感情を解析するための感情エンジンを備えている。感情エンジンは音声データからユーザの感情状態(例えば喜び、悲しみ、怒りなど)を解析する。 The server is equipped with an emotion engine that uses the user's voice data to analyze emotions. The emotion engine analyzes the user's emotional state (e.g., joy, sadness, anger, etc.) from the voice data.
感情解析結果を基に、AIモデルは応答内容を適応的に変更する。例えば、ユーザが悲しそうな声で話す場合、「元気を出して!」というような応答が生成される。 Based on the results of emotion analysis, the AI model adaptively changes the response content. For example, if the user speaks in a sad voice, a response such as "Cheer up!" will be generated.
6. 利用料の収受と収益分配 6. Usage Fee Collection and Revenue Sharing
サーバがユーザからの利用料を収受する。決済処理は端末を通じて行われる。収益は関係者間で分配される。これには、キャラクターや人物の著作権者、サービス提供者が含まれる。 The server collects usage fees from users. Payments are processed through the terminal. Revenues are distributed among the parties involved, including the copyright holders of characters and people, and service providers.
具体例 Specific examples
1. ユーザがログインし、キャラクターを選択する 1. The user logs in and selects a character.
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力されたデータをサーバに送信し、認証が行われる。認証が成功すると、端末にホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the entered data to the server and authentication is performed. If authentication is successful, the home screen is displayed on the device.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、例えば「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Select Character" button on the home screen and selects, for example, "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは!今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on an AI model. For example, it might respond with "Hello! How's your day?"
サーバは同時に、音声データを感情エンジンに送信し、ユーザの感情状態を解析する。 At the same time, the server sends the voice data to the emotion engine, which analyzes the user's emotional state.
感情エンジンが感情状態を解析し、その結果をAIモデルにフィードバックする。例えば、ユーザの声が悲しそうであれば、応答内容は「元気を出して!」という励ましのメッセージに変更される。 The emotion engine analyzes the user's emotional state and feeds the results back to the AI model. For example, if the user sounds sad, the response will be changed to an encouraging message such as "Cheer up!"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザに応答を提供する。 The generated response is converted into audio data and sent to the device, which then plays the audio data and provides the response to the user.
3. 利用料の決済と収益分配 3. Payment of fees and revenue sharing
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示する。ユーザがクレジットカード情報などを入力する。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will enter their credit card information, etc.
端末が入力された決済情報をサーバに送信する。サーバが決済ゲートウェイを通じて決済処理を行う。 The terminal sends the entered payment information to the server, which processes the payment through the payment gateway.
サーバが決済の成功または失敗の情報を端末に送信する。成功した場合、利用権利が更新される。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
端末が決済結果をユーザに通知する。これにより、ユーザは引き続きシステムを使用できる。 The terminal will notify the user of the payment result, allowing them to continue using the system.
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、さらにユーザの感情に応じた適切な応答を提供することで、よりパーソナルで親密なコミュニケーションを実現することができるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and by providing appropriate responses based on the user's emotions, it enables more personal and intimate communication.
以下に、処理の流れについて説明する。 The processing flow is explained below.
ステップ1: Step 1:
ユーザがアプリケーションを開く。ユーザがログイン画面にアクセスし、IDとパスワードを入力するである。 The user opens the application. The user accesses the login screen and enters their ID and password.
ステップ2: Step 2:
端末がユーザの入力を受け取り、IDとパスワード情報をサーバに送信する。通信は暗号化されているである。 The device receives the user's input and sends the ID and password information to the server. The communication is encrypted.
ステップ3: Step 3:
サーバが受信したIDとパスワードをデータベースから確認し、ユーザ認証を行うである。もしIDとパスワードが一致しない場合、エラーメッセージを端末に送信するである。 The server checks the received ID and password against a database and authenticates the user. If the ID and password do not match, an error message is sent to the terminal.
ステップ4: Step 4:
サーバが認証に成功した場合、セッション情報を生成し、端末に送り返すである。端末は受け取ったセッション情報を使用して、ホーム画面を表示するである。 If the server successfully authenticates, it generates session information and sends it back to the device. The device uses the received session information to display the home screen.
ステップ5: Step 5:
ユーザがホーム画面から「キャラクター選択」ボタンを押し、対話相手となるキャラクターを選択するである。 The user presses the "Character Selection" button on the home screen and selects the character they want to interact with.
ステップ6: Step 6:
端末がユーザの選択を受け取り、キャラクターIDをサーバに送信するである。サーバは選択されたキャラクターのAIモデルデータを取得するである。 The device receives the user's selection and sends the character ID to the server. The server then retrieves the AI model data for the selected character.
ステップ7: Step 7:
サーバが取得したAIモデルデータを端末に送信するである。端末は受信したデータをもとに、キャラクターとの会話インタフェースを表示するである。 The server sends the acquired AI model data to the device. The device displays a conversation interface with the character based on the received data.
ステップ8: Step 8:
ユーザが「会話開始」ボタンを押し、会話を開始するである。ユーザの音声を取得するため、端末のマイクがオンになるである。 The user presses the "Start conversation" button to begin the conversation. The device's microphone is turned on to capture the user's voice.
ステップ9: Step 9:
端末がユーザの音声を録音し、リアルタイムで音声データをテキストデータに変換するである。このテキストデータをサーバに送信するである。 The device records the user's voice and converts the voice data into text data in real time. This text data is then sent to the server.
ステップ10: Step 10:
サーバが受信したテキストデータを解析し、AIモデルを用いて応答を生成するである。例えば、ユーザが「こんにちは、キャラクターA」と言った場合、応答は「こんにちは!今日はどうしたの?」である。 The server analyzes the received text data and generates a response using an AI model. For example, if the user says "Hello, Character A," the response will be "Hello! How's your day?"
ステップ11: Step 11:
サーバは同時に、ユーザの音声データを感情エンジンに送信し、ユーザの感情状態を解析するである。感情エンジンが音声データを解析し、ユーザの感情状態(喜び、悲しみ、怒りなど)を特定するである。 At the same time, the server sends the user's voice data to the emotion engine, which analyzes the user's emotional state. The emotion engine analyzes the voice data and identifies the user's emotional state (joy, sadness, anger, etc.).
ステップ12: Step 12:
感情エンジンが解析結果をサーバに送り返し、サーバがその結果をもとに応答内容を適応的に変更するである。例えば、ユーザが悲しそうな声で話す場合、応答は「元気を出して!」になるである。 The emotion engine sends the analysis results back to the server, which then adaptively changes the response based on the results. For example, if the user speaks in a sad voice, the response will be "Cheer up!"
ステップ13: Step 13:
サーバが応答テキストを音声データに変換し、端末に送信するである。 The server converts the response text into audio data and sends it to the device.
ステップ14: Step 14:
端末が受信した音声データを再生し、ユーザに応答を提供するである。ユーザはこれを聞いて、続けて質問やコメントをすることができるである。 The device plays back the received audio data and provides a response to the user. The user can then listen to this and ask questions or make comments.
ステップ15: Step 15:
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示するである。ユーザがクレジットカード情報などを入力するである。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will then enter their credit card information, etc.
ステップ16: Step 16:
端末が入力された決済情報をサーバに送信するである。サーバは決済ゲートウェイを通じて決済処理を行うである。 The terminal sends the entered payment information to the server, which then processes the payment through the payment gateway.
ステップ17: Step 17:
サーバが決済の成功または失敗の情報を端末に送信するである。成功した場合、利用権利が更新されるである。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
ステップ18: Step 18:
端末が決済結果をユーザに通知するである。これにより、ユーザは引き続きシステムを使用できるである。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(実施例2) (Example 2)
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の人工知能を用いた音声会話システムでは、キャラクターや人物の外見および性格を効率的に学習させ、ユーザとのリアルタイム音声会話を行うことが難しかった。また、ユーザの感情に応じた適応的な応答を提供するための技術も十分に発展していなかったため、ユーザに対して自然でパーソナルなコミュニケーションを実現することができなかった。 With conventional voice conversation systems using artificial intelligence, it was difficult to efficiently learn the appearance and personality of characters or people and conduct real-time voice conversations with users. Furthermore, technology for providing adaptive responses based on the user's emotions was not sufficiently developed, making it impossible to achieve natural, personal communication with users.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者の音声から感情を解析し、解析結果に基づいて応答を適応的に変更する手段と、を含む。これにより、キャラクターや人物の特徴を高精度に学習し、そのデータを安全に保存し、ユーザの感情に応じた柔軟な応答を提供することが可能となる。 In this invention, the server includes means for learning the appearance and personality of a specific character or person using artificial intelligence technology, means for saving the learned data as a non-fungible token (NFT), and means for analyzing emotions from the user's voice and adaptively changing responses based on the analysis results. This makes it possible to learn the characteristics of characters and people with high accuracy, safely store that data, and provide flexible responses that correspond to the user's emotions.
「特定のキャラクターや人物」とは、ユーザが対話相手として選択することができる架空または実在の人物やキャラクターを指す。 "Specific characters or persons" refers to fictional or real people or characters that users can select as their conversation partners.
「人工知能技術」とは、機械学習や深層学習などの技術を用いて、データからパターンを抽出し、予測や分類を行う技術を指す。 "Artificial intelligence technology" refers to technology that uses techniques such as machine learning and deep learning to extract patterns from data and make predictions and classifications.
「学習する手段」とは、データを収集し、そのデータに基づいてAIモデルを生成するプロセスを指す。 "Means of learning" refers to the process of collecting data and generating an AI model based on that data.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を用いてデジタルデータの唯一性と所有権を保証するためのトークンを指す。 A "non-fungible token (NFT)" is a token that uses blockchain technology to guarantee the uniqueness and ownership of digital data.
「インタフェースを提供する手段」とは、ユーザがシステムにアクセスし、操作するための画面やメニューを提供する方法を指す。 "Means of providing an interface" refers to the method of providing screens and menus that allow users to access and operate the system.
「リアルタイムで音声会話を行う手段」とは、ユーザとキャラクターが即時に音声で対話を行うための技術を指す。 "Means for conducting real-time voice conversation" refers to technology that allows users and characters to have instant voice conversations.
「利用者の音声から感情を解析する手段」とは、ユーザの音声データを基に、その感情状態を分析する技術を指す。 "Means for analyzing emotions from a user's voice" refers to technology that analyzes a user's emotional state based on their voice data.
「応答を適応的に変更する手段」とは、感情解析の結果に基づいて、AIの応答内容を変更する方法を指す。 "Means for adaptively changing responses" refers to a method for changing the AI's response content based on the results of emotion analysis.
「利用料を収受し、収益を関係者間で分配する手段」とは、ユーザからサービス利用料を徴収し、得られた収益を関係者に分配する仕組みを指す。 "Means for collecting usage fees and distributing revenue among parties" refers to a system for collecting service usage fees from users and distributing the revenue obtained among parties.
発明を実施するための形態 Form for implementing the invention
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、ユーザに対して24時間365日リアルタイムで音声会話を提供するシステムである。また、感情エンジンを組み合わせることで、ユーザの感情を認識し、その感情に基づいた適応的な応答を提供することができる。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and provides users with real-time voice conversations 24 hours a day, 365 days a year. Furthermore, by combining it with an emotion engine, it is possible to recognize the user's emotions and provide adaptive responses based on those emotions.
システムの概要 System Overview
このシステムは以下の主要なコンポーネントによって構成される: The system consists of the following main components:
1. サーバ 1. Server
2. 端末 2. Device
3. ユーザ 3. User
サーバの役割 Server Role
1. 学習データ収集とAIモデルの生成 1. Training data collection and AI model generation
サーバは特定のキャラクターや人物の外見、性格、過去の行動データを収集する。データには、動画、音声ファイル、テキストデータなどが含まれる。 The server collects data on the appearance, personality, and past behavior of specific characters and people. This data includes video, audio files, text data, etc.
収集したデータはAIアルゴリズム(例えば、TensorFlowやPyTorch)を用いて学習させる。学習の初期段階で、データの前処理(ノイズ除去、テキストの正規化など)を行う。 The collected data is trained using an AI algorithm (e.g., TensorFlow or PyTorch). During the initial training stage, data preprocessing (noise removal, text normalization, etc.) is performed.
完成したモデルをデータベースに保存する。 Save the completed model in the database.
2. NFTとしてのデータ保存 2. Data storage as NFTs
学習したAIデータを非代替性トークン(NFT)として保存する。このプロセスにはブロックチェーン技術(例えば、Ethereum)を用いる。 The learned AI data is stored as a non-fungible token (NFT). This process uses blockchain technology (e.g., Ethereum).
サーバは生成されたNFTをブロックチェーンに登録し、所有者情報を保持する。 The server registers the generated NFT on the blockchain and maintains owner information.
3. 感情分析と応答の適応 3. Sentiment Analysis and Response Adaptation
サーバは感情エンジン(例えば、IBM Watsonの感情認識API)を用いてユーザの音声データを解析する。解析結果を基に、AIモデルは応答内容を適応的に変更する。 The server uses an emotion engine (for example, IBM Watson's emotion recognition API) to analyze the user's voice data. Based on the analysis results, the AI model adaptively changes the response content.
例えば、ユーザが「今日はちょっと気分が落ち込んでいる」と言った場合、感情認識によって「元気を出して!」といった応答が生成される。 For example, if a user says, "I'm feeling a bit down today," emotion recognition can generate a response such as, "Cheer up!"
4. 利用料の収受と収益分配 4. Usage fee collection and revenue sharing
サーバは利用料を収受し、決済処理を管理する。決済は、利用者が端末から入力したクレジットカード情報などを使用して行われる。 The server collects the usage fee and manages the payment process. Payment is made using credit card information entered by the user on the terminal.
収益は関係者(キャラクターの著作権者、サービス提供者など)間で分配される。 Revenues will be distributed among the parties involved (character copyright holders, service providers, etc.).
端末の役割 Device role
1. インタフェースの提供 1. Providing an interface
端末がユーザに対話相手を選択し、会話を行うインタフェースを提供する。ユーザはアプリを立ち上げ、ログイン画面で認証情報を入力しログインする。 The device provides the user with an interface to select a conversation partner and conduct a conversation. The user launches the app, enters their authentication information on the login screen, and logs in.
ログイン後、ユーザは「キャラクター選択」ボタンを押して、好みのキャラクターを選び、そのキャラクターとの会話を開始できる。 After logging in, users can press the "Select Character" button to choose their preferred character and begin a conversation with that character.
2. 音声データの処理 2. Audio data processing
端末はユーザの音声を取得し、Google Speech-to-Textのような音声認識エンジンを利用してテキストデータに変換する。 The device captures the user's voice and converts it into text data using a speech recognition engine such as Google Speech-to-Text.
変換されたテキストデータはサーバに送信され、適切な応答が生成された後に、再び音声データに変換されて端末に送信される。 The converted text data is sent to the server, and after an appropriate response is generated, it is converted back into voice data and sent to the device.
端末が音声データを再生し、リアルタイム会話を実現する。 The device plays the audio data, enabling real-time conversations.
ユーザの役割 User Roles
1. ログインとキャラクター選択 1. Log in and select a character
ユーザはアプリを立ち上げ、ログイン画面で「user123」と「password123」のような認証情報を入力する。 The user launches the app and enters authentication information such as "user123" and "password123" on the login screen.
認証が成功すると、ホーム画面からキャラクターを選択し、選択するキャラクターとの会話を開始する。 Once authentication is successful, select a character from the home screen and begin a conversation with the character you select.
2. 実際の会話の進行 2. Actual conversation progression
ユーザは「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。 The user presses the "Start Conversation" button and speaks into the device's microphone, saying "Hello, Character A."
端末はこの音声をテキストデータに変換し、サーバに送信する。サーバはテキストデータを基にAIモデルで応答を生成し、適応的な返答を送信する。 The device converts this voice into text data and sends it to the server. The server uses an AI model to generate a response based on the text data and sends an adaptive reply.
例えば、「こんにちは!今日はどうしたの?」といった応答や、「元気を出して!」といった適応的なメッセージを受け取ることができる。 For example, you can receive responses such as "Hello! How are you today?" or adaptive messages such as "Cheer up!"
具体例・プロンプト文の例 Examples and prompts
「こんにちは、キャラクターA。今日はどんな日だった?」 "Hello, Character A. How was your day?"
「最近ちょっと落ち込んでいるんだ。励ましてくれる?」 "I've been feeling a bit down lately. Can you cheer me up?"
「今日のニュースについてどう思う?」 "What do you think about today's news?"
これらのプロンプト文を使用することで、ユーザはキャラクターとよりパーソナルかつ自然な会話を楽しむことができる。 By using these prompts, users can enjoy more personal and natural conversations with the characters.
実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.
プログラムの処理の流れ Program processing flow
ステップ1: Step 1:
学習データ収集とAIモデルの生成 Training data collection and AI model generation
サーバが特定のキャラクターや人物の外見、性格、過去の行動データを収集する。この収集に使用されるデータには、テキスト、音声ファイル、画像、動画が含まれる。具体的な動作として、WebスクレイピングやAPI経由でデータベースからデータを取得し、サーバ内に保存する。 The server collects data on the appearance, personality, and past behavior of specific characters or people. The data used for this collection includes text, audio files, images, and videos. Specifically, the data is retrieved from a database via web scraping or API and stored on the server.
入力:キャラクターの外見、性格、過去の言動に関するデータ。 Input: Data about the character's appearance, personality, and past words and actions.
データ加工:ノイズ除去、テキストの正規化、データクリーニング。 Data processing: noise removal, text normalization, data cleaning.
出力:前処理後のクリーンなデータセット。 Output: Clean dataset after preprocessing.
サーバがこれらのデータをAIアルゴリズム(例えば、TensorFlowやPyTorch)を用いてモデルに学習させる。学習後のモデルはキャラクターの行動パターンや応答パターンを反映する。 The server uses an AI algorithm (such as TensorFlow or PyTorch) to train a model using this data. After training, the model reflects the character's behavior and response patterns.
入力:前処理後のクリーンなデータセット。 Input: Clean dataset after preprocessing.
データ演算:機械学習アルゴリズムを適用し、モデルをトレーニングする。 Data computation: Applying machine learning algorithms and training models.
出力:学習済みAIモデル。 Output: Trained AI model.
ステップ2: Step 2:
NFTとしてのデータ保存 Storing data as NFTs
サーバが学習されたAIデータを非代替性トークン(NFT)として保存する。 The server stores the learned AI data as a non-fungible token (NFT).
入力:学習済みAIモデル。 Input: Trained AI model.
データ加工:NFT化のためにブロックチェーン技術(例:Ethereum)を利用してモデルの唯一性と所有権を保証する。 Data processing: Blockchain technology (e.g., Ethereum) is used to ensure the uniqueness and ownership of the model for NFT conversion.
出力:ブロックチェーンに登録されたNFT。 Output: NFT registered on the blockchain.
サーバが生成されたNFTをブロックチェーンに登録し、所有者情報を保持する。具体的な動作として、ブロックチェーンAPIを通じてNFTを登録する。 The server registers the generated NFT on the blockchain and retains owner information. Specifically, the NFT is registered through the blockchain API.
ステップ3: Step 3:
ユーザのログインとキャラクター選択 User login and character selection
ユーザがアプリを起動し、ログイン画面で認証情報(例:「user123」と「password123」)を入力する。 The user launches the app and enters their authentication information (e.g., "user123" and "password123") on the login screen.
端末が入力された認証情報をサーバに送信し、認証を実行する。 The device sends the entered authentication information to the server and performs authentication.
入力:ユーザの認証情報。 Input: User authentication information.
データ演算:データベースと照合し、認証が成功するかどうか判定する。 Data calculation: Compare with the database and determine whether authentication is successful.
出力:認証成功または失敗のステータス。 Output: Authentication success or failure status.
認証が成功すると、端末にホーム画面が表示される。ユーザは「キャラクター選択」ボタンを押し、対話したいキャラクターを選ぶ。 If authentication is successful, the home screen will be displayed on the device. The user presses the "Select Character" button to choose the character they want to interact with.
入力:ユーザが選択したキャラクター情報。 Input: Character information selected by the user.
データ加工:選択されたキャラクターに対応するAIモデルの検索と取得。 Data processing: Search and obtain the AI model corresponding to the selected character.
出力:選択されたキャラクターのAIデータ。 Output: AI data for the selected character.
ステップ4: Step 4:
リアルタイム音声会話の処理 Real-time voice conversation processing
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって話しかける。 The user presses the "Start conversation" button and speaks into the device's microphone.
端末がユーザの音声を取得し、Google Speech-to-Textを利用してテキストデータに変換する。 The device captures the user's voice and converts it into text data using Google Speech-to-Text.
入力:ユーザの音声データ。 Input: User's voice data.
データ加工:音声からテキストへの変換。 Data processing: voice-to-text conversion.
出力:テキストデータ。 Output: Text data.
変換されたテキストデータはサーバに送信され、適切な応答が生成される。 The converted text data is sent to the server, which generates an appropriate response.
入力:ユーザのテキストデータ。 Input: User's text data.
データ演算:AIモデルを使用して適切な応答を生成する。 Data calculations: Use AI models to generate appropriate responses.
出力:生成されたテキスト応答。 Output: The generated text response.
応答は再び音声データに変換され、端末に送信される。 The response is converted back into audio data and sent to the device.
入力:生成されたテキスト応答。 Input: The generated text response.
データ加工:テキストから音声への変換。 Data processing: converting text to audio.
出力:生成された音声データ。 Output: Generated audio data.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
ステップ5: Step 5:
感情分析と応答の適応 Sentiment analysis and response adaptation
サーバがユーザの音声データを感情エンジン(例:IBM Watsonの感情認識API)を用いて解析する。 The server analyzes the user's voice data using an emotion engine (e.g., IBM Watson's emotion recognition API).
入力:ユーザの音声データ。 Input: User's voice data.
データ演算:音声データからユーザの感情状態を解析する。 Data calculation: Analyze the user's emotional state from voice data.
出力:ユーザの感情状態データ。 Output: User's emotional state data.
感情解析の結果を基に、AIモデルが応答内容を適応的に変更する。 Based on the results of emotion analysis, the AI model adaptively changes the response content.
入力:ユーザの感情状態データと生成されたテキスト応答。 Input: User emotional state data and generated text response.
データ演算:応答の内容を感情状態に合わせて変更する。 Data calculation: Change the response content to match the emotional state.
出力:最終的に適応された応答テキスト。 Output: The final adapted response text.
例えば、ユーザの声が悲しそうな場合、応答内容は「元気を出して!」などと変更される。 For example, if the user sounds sad, the response will be changed to something like "Cheer up!"
ステップ6: Step 6:
利用料の収受と決済処理 Collecting usage fees and processing payments
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示する。ユーザがクレジットカード情報などを入力する。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will enter their credit card information, etc.
入力:ユーザの決済情報。 Input: User's payment information.
端末が決済情報をサーバに送信し、サーバが決済ゲートウェイ(例:Stripe)を通じて決済処理を行う。 The terminal sends payment information to the server, which processes the payment through a payment gateway (e.g., Stripe).
データ演算:決済情報を基に決済処理を実行する。 Data calculation: Executes payment processing based on payment information.
出力:決済成功または失敗のステータス。 Output: Payment success or failure status.
サーバが決済の成功または失敗を端末に通知し、成功した場合には利用権利が更新される。 The server notifies the terminal of the success or failure of the payment, and if successful, the usage rights are updated.
端末が決済結果をユーザに通知し、これによりユーザは引き続きシステムを利用できる。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(応用例2) (Application Example 2)
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Application Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
本発明の課題は、特定のキャラクターや人物の外見および性格をリアルタイムで再現しつつ、利用者との対話を通じて感情に応じた適切な応答を提供することができるシステムを提供することである。また、バーチャル店舗においてショッピングアシスタントとしてキャラクターが商品説明やおすすめアイテムの紹介を行うことで、よりパーソナルで親身なショッピング体験を実現することを目指す。 The objective of this invention is to provide a system that can reproduce the appearance and personality of a specific character or person in real time, while providing appropriate responses based on the user's emotions through dialogue with them. Furthermore, the aim is to realize a more personal and sympathetic shopping experience by having characters act as shopping assistants in virtual stores, explaining products and recommending items.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、リアルタイムで音声会話を行う手段と、利用者からの利用料を収受し、収益を関係者間で分配する手段と、感情エンジンを使用して利用者の音声データから感情状態を解析し、その解析結果に基づいた適応的な応答を生成する手段と、生成された応答を音声データに変換し、音声として利用者に提供する手段と、バーチャル店舗でのショッピングアシスタントとしてキャラクターが商品説明やおすすめアイテムの紹介を行う手段と、を含む。これにより、特定のキャラクターとの感情に基づいたリアルタイムな対話およびバーチャル店舗での個別的で親身なショッピングアシスタント体験が可能となる。 In this invention, the server includes: means for learning the appearance and personality of a specific character or person using artificial intelligence technology; means for storing the learned data as a non-fungible token (NFT); means for providing an interface for users to select a conversation partner and converse with them; means for conducting real-time voice conversations; means for collecting usage fees from users and distributing revenue among the parties involved; means for analyzing the emotional state from the user's voice data using an emotion engine and generating an adaptive response based on the analysis results; means for converting the generated response into voice data and providing it to the user as voice; and means for the character to act as a shopping assistant in a virtual store, explaining products and recommending items. This enables real-time, emotion-based dialogue with a specific character and a personalized, sympathetic shopping assistant experience in a virtual store.
「特定のキャラクターや人物」とは、人工知能技術により外見および性格が再現された仮想的な存在である。 "Specific characters or people" are virtual beings whose appearances and personalities are reproduced using artificial intelligence technology.
「人工知能技術」とは、特定のキャラクターや人物の外見および性格を学習し、その情報をもとに応答や行動を生成する技術である。 "Artificial intelligence technology" is a technology that learns the appearance and personality of a specific character or person, and generates responses and actions based on that information.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を用いて特定のデジタル資産を唯一無二のものとして識別し、その所有権を証明する手段である。 A non-fungible token (NFT) is a means of using blockchain technology to uniquely identify a specific digital asset and prove ownership of it.
「インタフェース」とは、利用者が対話相手を選択し、会話を開始するための入力および表示手段を提供する装置またはソフトウェアである。 An "interface" is a device or software that provides input and display means for a user to select a conversation partner and initiate a conversation.
「リアルタイムで音声会話を行う手段」とは、利用者と特定のキャラクターや人物が即時に音声で対話することを可能にする技術である。 "Means for conducting real-time voice conversations" refers to technology that allows users to have instant voice conversations with specific characters or people.
「感情エンジン」とは、利用者の音声データから感情状態を解析し、その解析結果に基づいた応答を生成するためのアルゴリズムおよびシステムである。 An "emotion engine" is an algorithm and system that analyzes a user's emotional state from their voice data and generates a response based on the analysis results.
「適応的な応答」とは、利用者の発言内容および感情状態に応じて変化する応答であり、個別的かつダイナミックに生成されるものである。 An "adaptive response" is a response that changes depending on the user's speech content and emotional state, and is generated individually and dynamically.
「バーチャル店舗」とは、インターネット上に存在する仮想的なショッピング環境であり、ユーザが仮想空間で購買活動を行うことを可能にするプラットフォームである。 A "virtual store" is a virtual shopping environment that exists on the Internet and is a platform that allows users to conduct purchasing activities in a virtual space.
「ショッピングアシスタント」とは、バーチャル店舗内で利用者に対して商品説明やおすすめアイテムの紹介などを行う仮想的なキャラクターまたは人物である。 A "shopping assistant" is a virtual character or person who explains products and recommends items to users in a virtual store.
「収受」とは、利用者からの利用料を受け取ることである。 "Collection" means receiving usage fees from users.
「収益を関係者間で分配する手段」とは、システム運営により得られた収益を、キャラクターの著作権者やサービス提供者など関係者に適切に分配するための仕組みである。 "Means for distributing revenues among parties involved" refers to a mechanism for appropriately distributing revenues earned through system operation to parties involved, such as character copyright holders and service providers.
システムの概要 System Overview
この発明は、特定のキャラクターや人物をリアルタイムで再現し、利用者と音声会話を行うシステムである。主にバーチャル店舗においてショッピングアシスタントとして機能する。このシステムは、サーバ、端末、ユーザの三要素で構成される。 This invention is a system that recreates specific characters or people in real time and engages in voice conversations with users. It primarily functions as a shopping assistant in virtual stores. This system consists of three elements: a server, a terminal, and a user.
プログラム構成および各種技術 Program structure and various technologies
音声認識エンジン Speech recognition engine
サーバは、利用者の音声入力を取得し、音声認識エンジン(Google Speech-to-Text API)を使用して音声をテキストデータに変換する。 The server receives the user's voice input and converts the voice into text data using a speech recognition engine (Google Speech-to-Text API).
感情解析エンジン Sentiment analysis engine
サーバは、取得したテキストデータをIBM Watson Tone Analyzerを用いて感情解析を行う。これにより利用者の感情状態を判断する。 The server performs emotion analysis on the acquired text data using IBM Watson Tone Analyzer, thereby determining the user's emotional state.
対話管理システム Dialogue management system
サーバは、Rasaを用いて利用者の会話内容および感情解析結果に基づいた応答を生成する。 The server uses Rasa to generate responses based on the user's conversation content and sentiment analysis results.
音声合成エンジン Speech synthesis engine
サーバは、生成された応答をGoogle Text-to-Speech APIを使用して音声データに変換し、端末に送信する。 The server converts the generated response into audio data using the Google Text-to-Speech API and sends it to the device.
プログラムの処理 Program processing
1. 音声入力とテキスト変換 1. Voice input and text conversion
ユーザがスマートフォンのマイクに向かって話しかけると、その音声は端末によって取得され、Google Speech-to-Text APIを使用してテキストデータに変換される。 When a user speaks into their smartphone's microphone, the audio is picked up by the device and converted into text data using the Google Speech-to-Text API.
2. 感情解析 2. Emotion analysis
転送されたテキストデータはIBM Watson Tone Analyzerで感情解析が行われ、利用者の感情状態(例:喜び、悲しみ、怒りなど)が解析される。 The transferred text data is subjected to emotion analysis using IBM Watson Tone Analyzer to determine the user's emotional state (e.g., joy, sadness, anger, etc.).
3. 応答生成 3. Response Generation
Rasaを使用して解析結果および会話内容を基に適切な応答を生成する。この応答は利用者の感情に適応したものである。 Rasa is used to generate appropriate responses based on analysis results and conversation content. These responses are adapted to the user's emotions.
4. 音声データへの変換と送信 4. Conversion to audio data and transmission
生成された応答はGoogle Text-to-Speech APIによって音声データに変換され、この音声データが端末へ送信されることでリアルタイムな会話が実現する。 The generated response is converted into audio data using the Google Text-to-Speech API, and this audio data is sent to the device, enabling real-time conversation.
具体例 Specific examples
1. ユーザのログインとキャラクター選択 1. User login and character selection
ユーザはアプリを起動し、「user123」と「password123」を入力してログインする。ログイン後、キャラクター選択画面で「キャラクターA」を選択する。 The user launches the app and logs in by entering "user123" and "password123." After logging in, they select "Character A" on the character selection screen.
プロンプト文の例: Example prompt:
ユーザ:こんにちは、今日は洋服を探しています。 User: Hello, I'm looking for clothes today.
--- ---
アシスタント:こんにちは、どんな洋服を探していますか? Assistant: Hello, what kind of clothes are you looking for?
--- ---
ユーザ:カジュアルなシャツが欲しいです。 User: I'd like a casual shirt.
--- ---
2. 音声入力と解析 2. Voice input and analysis
ユーザが「こんにちは、今日は洋服を探しています」と話すと、音声が取得され、テキストデータに変換される。テキストデータは感情解析のためIBM Watson Tone Analyzerに送られる。 When a user says, "Hello, I'm looking for clothes today," the speech is captured and converted into text data. The text data is sent to IBM Watson Tone Analyzer for sentiment analysis.
3. 応答生成と提供 3. Response generation and delivery
感情解析と会話内容に基づき、Rasaが「こんにちは、どんな洋服を探していますか?」という応答を生成する。この応答はGoogle Text-to-Speech APIで音声に変換され、端末に送信される。 Based on sentiment analysis and the conversation content, Rasa generates a response: "Hello, what kind of clothes are you looking for?" This response is converted into audio using the Google Text-to-Speech API and sent to the device.
4. ショッピングアシスタント機能 4. Shopping Assistant Function
ユーザが「カジュアルなシャツが欲しい」と言うと、アシスタントが「こちらのシャツはいかがですか?流行のデザインで、最近とても人気があります」と提案し、商品説明を行う。ユーザの感情解析結果に基づき、より詳細な商品説明や提案も可能である。 If a user says, "I want a casual shirt," the assistant will suggest, "How about this shirt? It's a trendy design and very popular these days," and explain the product. It is also possible to provide more detailed product descriptions and suggestions based on the results of user sentiment analysis.
これにより、この発明は特定のキャラクターとの感情に基づいたリアルタイムな対話およびバーチャル店舗での個別的で親身なショッピングアシスタント体験を提供することができる。 This allows the invention to provide emotion-based real-time interactions with specific characters and a personalized, immersive shopping assistant experience in virtual stores.
応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.
ステップ1: Step 1:
ユーザがアプリを起動し、ログインする。ユーザはユーザ名とパスワードを入力し、端末がその情報をサーバへ送信する。サーバは認証を行い、成功した場合にはキャラクター選択画面を端末に表示する。 The user launches the app and logs in. The user enters their username and password, and the device sends that information to the server. The server performs authentication, and if successful, displays the character selection screen on the device.
入力:ユーザのユーザ名とパスワード Enter: User's username and password
処理:サーバがユーザ認証を行う Process: The server authenticates the user.
出力:認証成功時にキャラクター選択画面が表示される Output: Upon successful authentication, the character selection screen will be displayed.
ステップ2: Step 2:
ユーザがキャラクターを選択する。ユーザはキャラクター選択画面で特定のキャラクターを選び、端末が選択情報をサーバへ送信する。サーバは選択されたキャラクターのAIモデルをロードし、関連データを端末に送信する。 The user selects a character. The user chooses a specific character on the character selection screen, and the device sends the selection information to the server. The server loads the selected character's AI model and sends the relevant data to the device.
入力:ユーザのキャラクター選択情報 Input: User's character selection information
処理:サーバがAIモデルをロードし、関連データを取得する Processing: The server loads the AI model and retrieves relevant data.
出力:キャラクターの情報が端末に表示される Output: Character information is displayed on the device.
ステップ3: Step 3:
ユーザが会話を開始する。ユーザはスマートフォンのマイクに向かって話しかけ、端末はその音声を取得する。音声認識エンジン(Google Speech-to-Text API)を使用して音声をテキストデータに変換し、そのテキストデータをサーバへ送信する。 The user begins the conversation. They speak into the smartphone's microphone, and the device picks up the audio. The speech is converted into text data using a speech recognition engine (Google Speech-to-Text API), and the text data is sent to the server.
入力:ユーザの音声 Input: User's voice
処理:端末が音声を取得し、テキストデータに変換する Processing: The device captures the audio and converts it into text data.
出力:変換されたテキストデータがサーバに送信される Output: The converted text data is sent to the server.
ステップ4: Step 4:
サーバが感情解析を行う。サーバは取得したテキストデータを感情解析エンジン(IBM Watson Tone Analyzer)に送信し、利用者の感情状態を解析する。解析結果はテキストデータに付加される。 The server performs emotion analysis. The server sends the acquired text data to an emotion analysis engine (IBM Watson Tone Analyzer), which analyzes the user's emotional state. The analysis results are added to the text data.
入力:テキストデータ Input: Text data
処理:サーバが感情解析エンジンを使って感情状態を解析する Processing: The server uses an emotion analysis engine to analyze the emotional state.
出力:感情状態が付加されたテキストデータ Output: Text data with emotional states added
ステップ5: Step 5:
サーバが応答を生成する。サーバは対話管理システム(Rasa)を用いて、感情解析結果および会話内容に基づいた応答を生成する。その応答はテキスト形式である。 The server generates a response. The server uses a dialogue management system (Rasa) to generate a response based on the sentiment analysis results and the content of the conversation. The response is in text format.
入力:感情解析結果が付加されたテキストデータ Input: Text data with sentiment analysis results added
処理:サーバが対話管理システムを用いて応答を生成する Processing: The server generates a response using the dialogue management system.
出力:生成された応答テキスト Output: Generated response text
ステップ6: Step 6:
サーバが応答テキストを音声に変換する。生成された応答テキストは、音声合成エンジン(Google Text-to-Speech API)を使用して音声データに変換される。変換された音声データは再び端末へ送信される。 The server converts the response text into speech. The generated response text is converted into audio data using a speech synthesis engine (Google Text-to-Speech API). The converted audio data is then sent back to the device.
入力:生成された応答テキスト Input: Generated response text
処理:サーバが音声合成エンジンを使用して音声データに変換する Processing: The server uses a speech synthesis engine to convert the data into audio.
出力:変換された音声データ Output: Converted audio data
ステップ7: Step 7:
端末が音声データを再生する。端末に送信された音声データは、スピーカーを通じて再生され、ユーザに聞こえるようになる。これにより、利用者とキャラクターのリアルタイム音声会話が成立する。 The device plays the audio data. The audio data sent to the device is played back through the speaker and becomes audible to the user. This allows for real-time audio conversation between the user and the character.
入力:音声データ Input: Audio data
処理:端末が音声データを再生する Processing: The device plays the audio data.
出力:ユーザが応答を聞く Output: User hears response
特定処理部290は、特定処理の結果をスマート眼鏡214に送信する。スマート眼鏡214では、制御部46Aが、スピーカ240に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the smart glasses 214. In the smart glasses 214, the control unit 46A causes the speaker 240 to output the results of the specific processing. The microphone 238 acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 238 to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). Examples of data generation model 58 include generative AI such as ChatGPT (Internet search <URL: https://openai.com/blog/chatgpt>) and Gemini (Internet search <URL: https://gemini.google.com/?hl=ja>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as voice data indicating speech, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt, and outputs the inference results in the form of data such as voice data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマート眼鏡214によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the smart glasses 214.
[第3実施形態] [Third embodiment]
図5には、第3実施形態に係るデータ処理システム310の構成の一例が示されている。 Figure 5 shows an example of the configuration of a data processing system 310 according to the third embodiment.
図5に示すように、データ処理システム310は、データ処理装置12及びヘッドセット型端末314を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 5, the data processing system 310 includes a data processing device 12 and a headset terminal 314. An example of the data processing device 12 is a server.
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).
ヘッドセット型端末314は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及びディスプレイ343を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及びディスプレイ343も、バス52に接続されている。 The headset terminal 314 includes a computer 36, a microphone 238, a speaker 240, a camera 42, a communication I/F 44, and a display 343. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The microphone 238, the speaker 240, the camera 42, and the display 343 are also connected to the bus 52.
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。 The microphone 238 receives instructions and the like from the user 20 by receiving voice uttered by the user 20. The microphone 238 captures the voice uttered by the user 20, converts the captured voice into audio data, and outputs it to the processor 46. The speaker 240 outputs audio in accordance with instructions from the processor 46.
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。 Camera 42 is a small digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor, and captures images of the user 20's surroundings (e.g., an imaging range defined by an angle of view equivalent to the field of vision of a typical healthy person).
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54. The exchange of various information between the processor 46 and the processor 28 using the communication I/Fs 44 and 26 is carried out in a secure manner.
図6には、データ処理装置12及びヘッドセット型端末314の要部機能の一例が示されている。図6に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。 Figure 6 shows an example of the main functions of the data processing device 12 and headset terminal 314. As shown in Figure 6, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32.
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。 The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as the specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.
ヘッドセット型端末314では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the headset terminal 314, the reception output process is performed by the processor 46. A reception output program 60 is stored in the storage 50. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output process is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain the identification process performed by the identification processing unit 290 of the data processing device 12. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、利用者に対して24時間365日リアルタイムで音声会話ができるシステムである。本システムは、以下のように構成される。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. The system is configured as follows:
システムの構成 System Configuration
1. 人工知能技術による学習 1. Learning with AI technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集し、人工知能アルゴリズムを使用してこれらの情報を学習する。 The server collects data on the appearance, personality, and past behavior of specific characters or individuals, and uses artificial intelligence algorithms to learn this information.
学習結果はキャラクターの特定の行動パターンや応答パターンを含み、高精度なモデルとして保存される。 The learning results include the character's specific behavioral and response patterns and are saved as a highly accurate model.
2. NFTとしての保存 2. Save as an NFT
サーバが学習されたAIデータをNFTとして保存し、ブロックチェーン技術を用いてそのユニーク性と所有権を保証する。 The server stores the learned AI data as an NFT, using blockchain technology to guarantee its uniqueness and ownership.
3. インタフェースの提供 3. Providing an interface
端末がユーザに対話相手を選択するためのインタフェースを提供する。利用者はログインし、好きなキャラクターを選択することができる。 The device provides the user with an interface for selecting a conversation partner. Users can log in and select their favorite character.
4. リアルタイム音声会話 4. Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始するための操作を行う。端末がユーザの音声を取得し、それを文字データに変換してサーバに送信する。 The user performs an operation to start a conversation with the selected character. The device captures the user's voice, converts it into text data, and sends it to the server.
サーバが受信した文字データを基に、AIモデルを使用して適切な応答を生成する。この応答は再び音声データに変換され、端末に送信される。 Based on the text data received by the server, an appropriate response is generated using an AI model. This response is then converted back into audio data and sent to the device.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
5. 利用料の収受と収益分配 5. Usage Fee Collection and Revenue Sharing
サーバがユーザからの利用料を収受する。決済処理は端末を通じて行われる。 The server collects the usage fee from the user. Payment processing is carried out through the terminal.
収益は関係者間で分配される。これには、キャラクターや人物の著作権者、サービス提供者が含まれる。 Revenues will be shared among the parties involved, including copyright holders of characters and people, and service providers.
具体例 Specific examples
1. ユーザがログインし、キャラクターを選択する 1. The user logs in and selects a character.
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力されたデータをサーバに送信し、認証が行われる。認証が成功すると、端末にホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the entered data to the server and authentication is performed. If authentication is successful, the home screen is displayed on the device.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、例えば「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Select Character" button on the home screen and selects, for example, "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは、私はキャラクターA。今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on the AI model. For example, the response generated might be, "Hello, I'm Character A. How's your day?"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザが応答を聞くことができる。 The generated response is converted into audio data and sent to the device. The device plays the audio data, allowing the user to hear the response.
3. 利用料の決済と収益分配 3. Payment of fees and revenue sharing
ユーザが利用料を支払う際、端末が決済情報を取得しサーバに送信する。サーバが決済ゲートウェイにより支払いを処理し、確認後に収益を関係者間で分配する。 When a user pays a usage fee, the terminal captures the payment information and sends it to the server. The server processes the payment using a payment gateway and, after confirmation, distributes the revenue among the parties.
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、またイベント開催や著名人の誘致にかかる高額なコストを削減することもできるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and also reduces the high costs associated with hosting events and inviting celebrities to attend.
以下に、処理の流れについて説明する。 The processing flow is explained below.
ステップ1: Step 1:
ユーザがアプリケーションを開く。ユーザがログイン画面にアクセスし、IDとパスワードを入力するである。 The user opens the application. The user accesses the login screen and enters their ID and password.
ステップ2: Step 2:
端末がユーザの入力を受け取り、IDとパスワード情報をサーバに送信する。通信は暗号化されているである。 The device receives the user's input and sends the ID and password information to the server. The communication is encrypted.
ステップ3: Step 3:
サーバが受信したIDとパスワードをデータベースから確認し、ユーザ認証を行うである。もしIDとパスワードが一致しない場合、エラーメッセージを端末に送信するである。 The server checks the received ID and password against a database and authenticates the user. If the ID and password do not match, an error message is sent to the terminal.
ステップ4: Step 4:
サーバが認証に成功した場合、セッション情報を生成し、端末に送り返すである。端末は受け取ったセッション情報を使用して、ホーム画面を表示するである。 If the server successfully authenticates, it generates session information and sends it back to the device. The device uses the received session information to display the home screen.
ステップ5: Step 5:
ユーザがホーム画面から「キャラクター選択」ボタンを押し、対話相手となるキャラクターを選択するである。 The user presses the "Character Selection" button on the home screen and selects the character they want to interact with.
ステップ6: Step 6:
端末がユーザの選択を受け取り、キャラクターIDをサーバに送信するである。サーバは選択されたキャラクターのAIモデルデータを取得するである。 The device receives the user's selection and sends the character ID to the server. The server then retrieves the AI model data for the selected character.
ステップ7: Step 7:
サーバが取得したAIモデルデータを端末に送信するである。端末は受信したデータをもとに、キャラクターとの会話インタフェースを表示するである。 The server sends the acquired AI model data to the device. The device then displays a conversation interface with the character based on the received data.
ステップ8: Step 8:
ユーザが「会話開始」ボタンを押し、会話を開始するである。ユーザの音声を取得するため、端末のマイクがオンになるである。 The user presses the "Start conversation" button to begin the conversation. The device's microphone is turned on to capture the user's voice.
ステップ9: Step 9:
端末がユーザの音声を録音し、リアルタイムで音声データをテキストデータに変換するである。このテキストデータをサーバに送信するである。 The device records the user's voice and converts the voice data into text data in real time. This text data is then sent to the server.
ステップ10: Step 10:
サーバが受信したテキストデータを解析し、AIモデルを用いて応答を生成するである。例えば、ユーザが「こんにちは、キャラクターA」と言った場合、応答は「こんにちは!今日はどうしたの?」である。 The server analyzes the received text data and generates a response using an AI model. For example, if the user says "Hello, Character A," the response will be "Hello! How's your day?"
ステップ11: Step 11:
サーバが生成した応答テキストを音声データに変換し、端末に送信するである。 The response text generated by the server is converted into audio data and sent to the device.
ステップ12: Step 12:
端末が受信した音声データを再生し、ユーザに応答を提供するである。ユーザはこれを聞いて、続けて質問やコメントをすることができるである。 The device plays back the received audio data and provides a response to the user. The user can then listen to this and ask questions or make comments.
ステップ13: Step 13:
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示するである。ユーザがクレジットカード情報などを入力するである。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will then enter their credit card information, etc.
ステップ14: Step 14:
端末が入力された決済情報をサーバに送信するである。サーバは決済ゲートウェイを通じて決済処理を行うである。 The terminal sends the entered payment information to the server, which then processes the payment through the payment gateway.
ステップ15: Step 15:
サーバが決済の成功または失敗の情報を端末に送信するである。成功した場合、利用権利が更新されるである。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
ステップ16: Step 16:
端末が決済結果をユーザに通知するである。これにより、ユーザは引き続きシステムを使用できるである。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(実施例1) (Example 1)
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, Example 1 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来のキャラクターや人物との対話システムにおいては、リアルタイムでの音声会話を実現することが難しく、利用者に満足のいく体験を提供することができなかった。また、学習された人工知能データのユニーク性や所有権を保証する手段が不足しており、データの改ざんや不正利用のリスクが存在していた。さらに、利用者からの利用料を収受し、関係者間で公正に収益を分配する仕組みも確立されていなかった。このような問題を解決するために、新たな技術が求められている。 In conventional dialogue systems with characters or people, it was difficult to achieve real-time voice conversation, and users were unable to receive a satisfactory experience. Furthermore, there was a lack of means to guarantee the uniqueness and ownership of trained AI data, creating a risk of data tampering or unauthorized use. Furthermore, there was no established mechanism for collecting usage fees from users and distributing revenue fairly among the parties involved. New technology is needed to solve these problems.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、利用者の音声を取得し、音声認識技術を使用してテキストデータに変換する手段と、テキストデータを基にAIモデルを使用して適切な応答を生成し、その応答を音声データに変換する手段と、変換された音声データを利用者端末に送信してリアルタイムで音声会話を行う手段と、利用者からの利用料を収受し、収益を関係者間で分配する手段と、を含む。これにより、リアルタイムでの音声会話を実現し、学習されたデータのユニーク性および所有権を保証し、さらに公正な収益分配を行うことが可能となる。 In this invention, the server includes: means for learning the appearance and personality of a specific character or person using artificial intelligence technology; means for storing the learned data as a non-fungible token (NFT); means for providing an interface for users to select a conversation partner and converse with them; means for acquiring the user's voice and converting it into text data using voice recognition technology; means for generating an appropriate response based on the text data using an AI model and converting the response into voice data; means for transmitting the converted voice data to the user's terminal to conduct voice conversations in real time; and means for collecting usage fees from users and distributing revenue among the parties involved. This enables real-time voice conversations, guarantees the uniqueness and ownership of learned data, and enables fair revenue distribution.
「特定のキャラクターや人物」とは、利用者が対話する際に選択する架空または実在の人物を指し、その外見や性格、行動パターンなどがあらかじめ定義されたものである。 "Specific characters or people" refers to fictional or real people that users select when interacting, whose appearance, personality, behavior patterns, etc. are predefined.
「人工知能技術」とは、機械学習や深層学習モデルを利用して、特定のデータをもとに学習を行い、未知のデータに対しても適切な応答を生成する技術を指す。 "Artificial intelligence technology" refers to technology that uses machine learning and deep learning models to learn from specific data and generate appropriate responses even for unknown data.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を使用して作成されたユニークなデジタル資産で、所有権や真偽が保証されているものである。 A non-fungible token (NFT) is a unique digital asset created using blockchain technology with guaranteed ownership and authenticity.
「インタフェース」とは、利用者がキャラクターや人物を選択し、対話を行うために提供されるユーザーインターフェースを指し、通常はアプリケーションとして提供される。 "Interface" refers to the user interface provided to users to select and interact with characters or people, and is usually provided as an application.
「音声認識技術」とは、利用者の音声をテキストデータに変換する技術で、Google Cloud Speech-to-TextやMicrosoft Azure Speech認識サービスなどがこれに含まれる。 "Speech recognition technology" refers to technology that converts a user's voice into text data, and includes services such as Google Cloud Speech-to-Text and Microsoft Azure Speech Recognition Services.
「AIモデル」とは、収集されたデータをもとに学習されたニューラルネットワークモデルで、特定のキャラクターや人物の応答を生成するために使用されるものである。 An "AI model" is a neural network model trained based on collected data and used to generate the responses of a specific character or person.
「音声データに変換する」とは、AIモデルが生成したテキスト応答を音声合成技術を用いて音声データに変換することで、利用者が聞き取れる形にすることである。 "Converting into voice data" means using speech synthesis technology to convert the text response generated by the AI model into voice data that users can hear.
「リアルタイムで音声会話を行う」とは、利用者がキャラクターや人物と即時に音声を用いて交互にコミュニケーションを取ることができる形態を指す。 "Real-time voice conversation" refers to a form in which users can instantly communicate back and forth with characters or people using voice.
「利用料を収受する」とは、サービスの利用に対する料金を利用者から収集することであり、オンライン決済システムを用いることが多い。 "Collecting usage fees" means collecting fees from users for using a service, often using an online payment system.
「収益を関係者間で分配する」とは、収集された利用料を、キャラクターや人物の著作権者およびサービス提供者などの権利者に、公正な割合で分配することを指す。 "Distributing revenues among the parties involved" means distributing the collected usage fees in fair proportions to copyright holders of characters and people, service providers, and other rights holders.
発明を実施するための形態 Form for implementing the invention
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、利用者に対して24時間365日リアルタイムで音声会話ができるシステムである。本システムは、以下のように構成される。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. The system is configured as follows:
人工知能技術による学習 Learning using artificial intelligence technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集する。これには例えば、YouTubeやSNSなどからデータを取得するスクリプトを使用する。このデータは、TensorFlowまたはPyTorchの機械学習フレームワークを使用して学習される。データ前処理の過程では、ノイズ除去、トークン化、正規化などを行い、ニューラルネットワークモデルが構築される。学習されたモデルは、精度評価を受けた後、高精度であれば保存される。 The server collects data on the appearance, personality, and past behavior of specific characters or people. For example, it uses scripts that retrieve data from YouTube, social media, etc. This data is trained using the TensorFlow or PyTorch machine learning frameworks. During the data preprocessing process, noise removal, tokenization, normalization, etc. are performed, and a neural network model is built. The trained model is then evaluated for accuracy and saved if it is highly accurate.
NFTとしての保存 Stored as an NFT
サーバが学習されたAIデータをNFTとして保存するため、モデルデータをONNX形式に変換する。次にEthereumやBinance Smart Chainなどのブロックチェーンプラットフォームを使ってNFTを発行し、この過程でモデルのユニークな識別情報とメタデータが組み込まれる。 The server converts the model data into ONNX format to store the trained AI data as an NFT. The NFT is then issued using a blockchain platform such as Ethereum or Binance Smart Chain, which incorporates the model's unique identifier and metadata in the process.
インタフェースの提供 Providing an interface
端末がユーザに対してインタラクティブなユーザインタフェースを提供する。ユーザはReact NativeやFlutterで開発されたアプリケーションを使用してログインを行う。ログイン画面にはユーザ名とパスワードの入力フィールドがあり、ユーザは認証を行う。認証に成功すると、キャラクター選択画面が表示され、ここでユーザは対話したいキャラクターを選択する。 The device provides the user with an interactive user interface. The user logs in using an application developed with React Native or Flutter. The login screen has username and password input fields, and the user authenticates. If authentication is successful, a character selection screen is displayed, where the user selects the character they want to interact with.
リアルタイム音声会話 Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始する。端末がマイクを使用してユーザの音声を取得し、Google Cloud Speech-to-Text APIやMicrosoft Azure Speech認識サービスを使用して音声データをテキストデータに変換する。テキストデータはサーバに送信され、AIモデル(例えばGTP-3やBERT)を使用して適切な応答が生成される。この応答は音声合成エンジン(例えばAmazon PollyやGoogle Text-to-Speech)により音声データに変換され、端末に送信される。端末が音声データを再生し、リアルタイムでの会話が実現される。 The user initiates a conversation with the selected character. The device uses the microphone to capture the user's voice and converts it into text using the Google Cloud Speech-to-Text API or Microsoft Azure Speech Recognition Service. The text is sent to a server, which uses an AI model (e.g., GTP-3 or BERT) to generate an appropriate response. This response is converted into audio data by a speech synthesis engine (e.g., Amazon Polly or Google Text-to-Speech) and sent to the device. The device plays back the audio data, enabling real-time conversation.
利用料の収受と収益分配 Collection of usage fees and revenue sharing
ユーザがサービスを利用する際に支払う利用料は、端末が支払い情報を取得することにより収受される。決済処理はサーバがStripeやPayPalのAPIを使用して行う。収受された利用料は、キャラクターや人物の著作権者およびサービス提供者に公平に分配される。 The usage fee paid by users when using the service is collected by the device acquiring payment information. Payment processing is carried out by the server using the Stripe or PayPal API. The collected usage fee is distributed fairly among the copyright holders of the characters and people and the service provider.
具体例 Specific examples
1. ユーザログインとキャラクター選択 1. User login and character selection
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力データをサーバに送信し、認証が行われる。認証が成功すると、ホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the input data to the server and authentication is performed. If authentication is successful, the home screen is displayed.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Character Selection" button on the home screen and selects "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは、私はキャラクターA。今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on the AI model. For example, the response generated might be, "Hello, I'm Character A. How's your day?"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザが応答を聞くことができる。 The generated response is converted into audio data and sent to the device. The device plays the audio data, allowing the user to hear the response.
プロンプト文の例 Example prompt
「こんにちは、私はキャラクターA。今日はどうしたの?」 "Hello, I'm Character A. How's your day going?"
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、またイベント開催や著名人の誘致にかかる高額なコストを削減することもできるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and also reduces the high costs associated with hosting events and inviting celebrities to attend.
実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.
ステップ1:データ収集 Step 1: Data Collection
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集する。入力として、YouTube動画のリンクやSNSの投稿URLなどが提供される。データはスクレイピング技術やAPIを利用して取得される。出力は、取得されたテキスト、画像、音声データである。 The server collects data on the appearance, personality, and past behavior of specific characters or people. Inputs include links to YouTube videos and URLs of social media posts. The data is obtained using scraping technology and APIs. The output is the obtained text, images, and audio data.
ステップ2:データ前処理 Step 2: Data Preprocessing
サーバが収集したデータを前処理する。入力として、ステップ1で収集された生データが提供される。具体的には、ノイズ除去、テキストのトークン化、正規化などの処理が行われる。例えば、テキストデータから不要な特殊文字を削除し、標準的なフォーマットに変換する。出力は、前処理済みのデータである。 The server preprocesses the collected data. The raw data collected in step 1 is provided as input. Specifically, processes such as noise removal, text tokenization, and normalization are performed. For example, unnecessary special characters are removed from the text data and it is converted into a standard format. The output is the preprocessed data.
ステップ3:モデルの学習 Step 3: Train the model
サーバが前処理されたデータを用いて、人工知能モデル(例えばTensorFlowやPyTorch)を学習させる。入力として、ステップ2で前処理済みのデータが提供される。具体的な動作としては、データをバッチに分割し、GPUを使用してモデルのパラメータを最適化する。出力は、学習済みの高精度モデルである。 The server uses the preprocessed data to train an artificial intelligence model (e.g., TensorFlow or PyTorch). The preprocessed data from step 2 is provided as input. Specifically, the data is divided into batches and the model parameters are optimized using a GPU. The output is a trained, highly accurate model.
ステップ4:モデルの評価と保存 Step 4: Evaluate and save the model
サーバが学習済みのモデルを評価し、保存する。入力として、ステップ3で学習されたモデルと検証データセットが使用される。具体的な動作としては、モデルの精度を検証データを用いて評価し、精度が基準を満たす場合には、モデルを保存する。出力は、評価結果および保存されたモデルである。 The server evaluates and saves the trained model. The model trained in step 3 and the validation dataset are used as input. Specifically, the accuracy of the model is evaluated using the validation data, and if the accuracy meets the criteria, the model is saved. The output is the evaluation results and the saved model.
ステップ5:NFTとしての保存 Step 5: Save as an NFT
サーバが学習済みのAIモデルをNFTとして保存する。入力として、ステップ4で保存されたモデルデータが使用される。具体的には、モデルをONNX形式に変換し、ブロックチェーンプラットフォーム(例えばEthereumやBinance Smart Chain)でNFTを発行する。出力は、NFTとして保存されたモデルデータである。 The server saves the trained AI model as an NFT. The model data saved in step 4 is used as input. Specifically, the model is converted to ONNX format and an NFT is issued on a blockchain platform (e.g., Ethereum or Binance Smart Chain). The output is the model data saved as an NFT.
ステップ6:ユーザ認証とキャラクター選択 Step 6: User authentication and character selection
端末がユーザに対してログイン画面を表示し、認証を行う。入力として、ユーザ名とパスワードが提供される。具体的な動作としては、認証データがサーバに送信され、データベースと照合される。認証が成功すると、キャラクター選択画面が表示される。出力は、選択されたキャラクター情報である。 The device displays a login screen for the user and performs authentication. A username and password are provided as input. The authentication data is sent to the server and checked against a database. If authentication is successful, the character selection screen is displayed. The output is information about the selected character.
ステップ7:音声入力の取得と変換 Step 7: Capture and convert audio input
端末がマイクを使用して、ユーザの音声を取得する。入力として、ユーザの音声データが提供される。具体的な動作として、Google Cloud Speech-to-Text APIを用いて音声をテキストデータに変換する。出力は、テキストデータである。 The device uses a microphone to capture the user's voice. The user's voice data is provided as input. Specifically, the voice is converted into text data using the Google Cloud Speech-to-Text API. The output is text data.
ステップ8:応答生成 Step 8: Generate a response
サーバがテキストデータを受け取り、AIモデルを使用して応答を生成する。入力として、ステップ7で変換されたテキストデータが提供される。具体的には、AIモデル(例えばGPT-3やBERT)がテキストデータを解析し、適切な応答を生成する。出力は、生成された応答のテキストデータである。 The server receives the text data and generates a response using an AI model. The text data converted in step 7 is provided as input. Specifically, the AI model (e.g., GPT-3 or BERT) analyzes the text data and generates an appropriate response. The output is the text data of the generated response.
ステップ9:音声への変換と送信 Step 9: Convert to audio and send
サーバが生成されたテキスト応答を音声データに変換し、端末に送信する。入力として、ステップ8で生成されたテキストデータが提供される。具体的な動作として、Amazon PollyやGoogle Text-to-Speechを用いて音声データに変換する。出力は、音声データである。 The server converts the generated text response into audio data and sends it to the device. The text data generated in step 8 is provided as input. Specifically, it converts it into audio data using Amazon Polly or Google Text-to-Speech. The output is audio data.
ステップ10:リアルタイム音声会話の再生 Step 10: Play real-time audio conversations
端末が音声データを受け取り、スピーカーで再生する。入力として、ステップ9で送信された音声データが提供される。具体的な動作としては、音声データをデコードし、スピーカーで再生することで、ユーザが聞き取れる形にする。出力は、リアルタイムで再生される音声である。 The device receives the audio data and plays it on the speaker. The input is the audio data sent in step 9. Specifically, it decodes the audio data and plays it on the speaker so that the user can hear it. The output is audio played in real time.
ステップ11:利用料の収受と分配 Step 11: Collection and distribution of usage fees
端末が利用料を収受するための支払い情報を取得し、サーバに送信する。入力として、支払い情報が提供される。サーバがStripeやPayPalのAPIを用いて決済を処理し、収益を関係者間で分配する。具体的な動作として、支払い処理の確認後、銀行振込や暗号通貨で分配を行う。出力は、分配された収益である。 The terminal obtains payment information to collect usage fees and sends it to the server. Payment information is provided as input. The server processes the payment using Stripe or PayPal APIs and distributes revenue among the parties involved. Specifically, after confirming the payment process, the revenue is distributed via bank transfer or cryptocurrency. The output is the distributed revenue.
(応用例1) (Application Example 1)
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Application Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
現在、実店舗に訪れた顧客に対して高品質な接客サービスを提供することは、多くの人件費とリソースを必要とする。また、店舗内で特定の商品に関する詳細情報を案内することが困難であるため、顧客の満足度を高めることが難しい。さらに、顧客が自身の好みや関心に基づいて商品を選択できるようなパーソナライズされた案内が求められているが、その実現も複雑である。このような課題を解決するためには、リアルタイムで顧客と対話し、パーソナライズされた案内を提供するシステムが必要である。 Currently, providing high-quality customer service to customers visiting physical stores requires a lot of labor and resources. It is also difficult to provide detailed information about specific products in the store, making it difficult to increase customer satisfaction. Furthermore, while there is a demand for personalized guidance that allows customers to select products based on their preferences and interests, achieving this is complex. To solve these challenges, a system that can interact with customers in real time and provide personalized guidance is needed.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、特定の仮想人物の特徴を機械学習技術によって学習させる手段と、学習された情報を非代替性符号(NFT)として保存する手段と、利用者が対話相手を選択し、会話を行うための操作画面を提供する手段と、リアルタイムで音声通信を行う手段と、利用者からのサービス料金を受け取り、収入を関連する関係者間で分配する手段と、実店舗における顧客と仮想人物の会話を支援する表示装置を用いた案内を行う手段と、利用者が店舗内で商品情報を取得し、キャラクターを通じて支援を受けることができる手段と、を含む。これにより、実店舗における顧客の体験を向上させ、パーソナライズされた高品質な接客サービスを提供することが可能となる。 In this invention, the server includes means for learning the characteristics of a specific virtual character using machine learning technology, means for saving the learned information as a non-fungible character (NFT), means for providing an operation screen on which a user can select a conversation partner and conduct a conversation, means for real-time voice communication, means for receiving service fees from users and distributing revenue among relevant parties, means for providing guidance using a display device that supports conversations between customers and virtual characters in physical stores, and means for users to obtain product information in the store and receive support through the character. This makes it possible to improve the customer experience in physical stores and provide personalized, high-quality customer service.
「特定の仮想人物の特徴」とは、キャラクターや有名人の外見、性格、過去の言動などの情報を含むデータのことである。 "Characteristics of a specific virtual person" refers to data including information such as the appearance, personality, and past words and actions of a character or celebrity.
「機械学習技術」とは、コンピュータがデータから自動的に学習し、予測や分類を行う技術のことである。 "Machine learning technology" is a technology that allows computers to automatically learn from data and make predictions and classifications.
「非代替性符号(NFT)」とは、ブロックチェーン技術を用いて唯一性と所有権を保証されたデジタル資産のことである。 A "Non-Fungible Trading Card (NFT)" is a digital asset whose uniqueness and ownership are guaranteed using blockchain technology.
「操作画面」とは、利用者が対話相手を選択し、会話を行うためのインターフェースを提供するための表示画面のことである。 An "operation screen" is a display screen that provides an interface for users to select a conversation partner and conduct a conversation.
「リアルタイムで音声通信」とは、利用者が選択したキャラクターと即時に音声でやり取りを行う技術のことである。 "Real-time voice communication" refers to technology that allows users to instantly communicate via voice with a character of their choice.
「サービス料金」とは、利用者がサービスの利用対価として支払う金銭のことである。 "Service fee" refers to the amount of money paid by the user in consideration for using the service.
「関連する関係者」とは、キャラクターやシステムの提供者、開発者などの収益分配の対象となる人や団体のことである。 "Related parties" refers to people or organizations that are subject to revenue sharing, such as character or system providers and developers.
「表示装置」とは、実店舗に設置されるディスプレイやスマート眼鏡、ヘッドマウントディスプレイ(HMD)など、情報を表示するためのハードウェアのことである。 "Display devices" refer to hardware for displaying information, such as displays installed in physical stores, smart glasses, and head-mounted displays (HMDs).
「仮想人物の会話を支援する」とは、特定の仮想人物がユーザと音声でやり取りを行い、案内や情報提供を行うことを指す。 "Supporting virtual character conversations" refers to a specific virtual character communicating with the user via voice, providing guidance and information.
「商品情報を取得」とは、店舗内の商品に関する詳細な情報を閲覧または取得することである。 "Get product information" means viewing or obtaining detailed information about products in the store.
「キャラクターを通じて支援を受ける」とは、仮想人物がユーザに対して商品やサービスの案内や説明を行うことを意味する。 "Receiving support through a character" means that a virtual character guides or explains products or services to the user.
この発明を実施するためには、以下のようなシステム構成が必要である。システムは主要なコンポーネントとして、サーバ、端末、およびユーザによって構成される。 To implement this invention, the following system configuration is required. The system consists of a server, a terminal, and a user as its main components.
1. システムのプログラム 1. System Programming
サーバは、特定の仮想人物の特徴を機械学習技術によって学習させるデータベースを構築する。端末は、ユーザが対話相手を選択し、その仮想人物とリアルタイムで音声通信を行うための操作画面を提供する。また、サーバは学習された情報を非代替性符号(NFT)として保存する。 The server builds a database that uses machine learning technology to learn the characteristics of specific virtual characters. The terminal provides an operation screen that allows the user to select a conversation partner and engage in real-time voice communication with that virtual character. The server also stores the learned information as a non-fungible character (NFT).
端末は、利用者が対話相手である仮想人物を選択する際の操作画面を表示し、選択情報をサーバに送信する。利用者がリアルタイムで音声通信を行うとき、端末は利用者の音声をテキスト情報に変換し、そのテキスト情報をサーバに送信する。 The terminal displays an operation screen that allows the user to select a virtual person to interact with, and transmits the selection information to the server. When the user communicates via voice in real time, the terminal converts the user's voice into text information and transmits that text information to the server.
サーバは、受信したテキスト情報を機械学習モデルに供給し、会話に基づく応答を生成する。その生成された応答は、サーバによって音声データに変換され、端末に送信される。端末は音声データを再生し、ユーザに対して仮想人物の応答を提供する。 The server feeds the received text information into a machine learning model to generate a response based on the conversation. The generated response is converted into audio data by the server and sent to the device. The device plays the audio data and provides the virtual character's response to the user.
2. 処理の説明 2. Processing Description
サーバは、Pythonなどのプログラミング言語を使用して実装される。機械学習技術としては、NLP(自然言語処理)モデルであるGPT-3などを使用する。また、音声認識にはGoogle Speech Recognition、音声合成にはpyttsx3などのライブラリを利用する。 The server is implemented using programming languages such as Python. Machine learning techniques include the NLP (natural language processing) model GPT-3. Libraries such as Google Speech Recognition are used for voice recognition and pyttsx3 for voice synthesis.
端末には、スマート眼鏡やヘッドマウントディスプレイ(HMD)、マイクロフォンなどのハードウェアが含まれる。端末は、ユーザの音声を認識し、それをサーバに送信する。サーバは音声をテキストに変換し、NLPモデルによって適切な応答を生成する。その後、サーバは応答を音声データに変換し、再び端末に送信する。 The device includes hardware such as smart glasses, a head-mounted display (HMD), and a microphone. The device recognizes the user's voice and sends it to the server. The server converts the voice into text and generates an appropriate response using an NLP model. The server then converts the response into audio data and sends it back to the device.
具体的な例として、ユーザが実店舗に入店し、スマート眼鏡を装着する。ユーザが「おすすめの商品を教えてください」と話しかけると、端末のマイクがユーザの音声を拾い、サーバに送信する。サーバはそのテキストデータを解析し、「GPT-3」を用いて応答を生成する。その応答が「現在、このスマートウォッチがおすすめです。最新モデルでバッテリー寿命が長く、健康管理機能も充実しています」といった形で生成される。 As a specific example, a user enters a physical store and puts on a pair of smart glasses. When the user says, "What products do you recommend?", the device's microphone picks up the user's voice and sends it to the server. The server analyzes the text data and generates a response using GPT-3. The response might be something like, "Currently, we recommend this smartwatch. It's the latest model with a long battery life and comprehensive health management features."
生成された応答は音声データに変換され、端末に送信される。端末はその音声データを再生し、ユーザが仮想人物の声を聞くことができる。 The generated response is converted into audio data and sent to the device. The device then plays the audio data, allowing the user to hear the voice of the virtual character.
3. 具体例とプロンプト文の例 3. Specific examples and prompt sentence examples
実際の使用例として、ユーザがスマート眼鏡を装着し、店舗内でサポートを求めるシチュエーションを考える。例えば、ユーザが「こんにちは、おすすめの商品を教えてください」と発言した場合。 As a practical example, consider a situation where a user wears smart glasses and asks for assistance in a store. For example, the user might say, "Hello, what products do you recommend?"
プロンプト文の例: Example prompt:
顧客の質問:「こんにちは、おすすめの商品を教えてください」 Customer Question: "Hello, what products do you recommend?"
生成AIモデルへのプロンプト文:「顧客はあなたに商品のおすすめを尋ねました。どのように返答しますか?」 Prompt for generative AI model: "A customer asked you for a product recommendation. How would you respond?"
応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the specific processing in Application Example 1 will be explained using Figure 12.
プログラムの処理ステップ Program processing steps
ステップ1: Step 1:
ユーザがスマート眼鏡を装着し、アプリケーションを起動する。入力はスマート眼鏡の初期化データであり、出力はログイン画面の表示である。具体的には、端末がユーザに対してログイン画面を表示し、ユーザがログイン情報を入力する。 The user puts on the smart glasses and launches the application. The input is the smart glasses' initialization data, and the output is the display of a login screen. Specifically, the device displays the login screen to the user, and the user enters their login information.
ステップ2: Step 2:
ユーザがログイン情報を入力し、ログインボタンを押す。入力はログイン情報であり、出力はサーバへの認証リクエストである。端末はユーザの入力情報をサーバに送信し、サーバが認証を行う。 The user enters login information and presses the login button. The input is login information, and the output is an authentication request to the server. The device sends the user's input information to the server, and the server performs authentication.
ステップ3: Step 3:
サーバがユーザのログイン情報を認証し、結果を端末に返す。入力はユーザのログイン情報であり、出力は認証結果である。具体的には、サーバがデータベースを検索し、ログイン情報を確認する。成功の場合、端末にホーム画面を表示する。 The server authenticates the user's login information and returns the result to the device. The input is the user's login information, and the output is the authentication result. Specifically, the server searches the database and confirms the login information. If successful, the home screen is displayed on the device.
ステップ4: Step 4:
ユーザがホーム画面から対話相手のキャラクターを選択する。入力はキャラクター選択情報であり、出力はサーバへの選択情報の送信である。端末は選択されたキャラクター情報をサーバに送信し、サーバが対応する学習データを取得する。 The user selects a character to interact with from the home screen. The input is character selection information, and the output is sending the selection information to the server. The device sends the selected character information to the server, and the server obtains the corresponding learning data.
ステップ5: Step 5:
サーバが選択されたキャラクターの学習データを取得し、端末に送信する。入力はキャラクター選択情報であり、出力は学習データである。サーバは学習データベースから該当データを取り出し、端末に送信する。 The server obtains the learning data for the selected character and sends it to the device. The input is the character selection information, and the output is the learning data. The server retrieves the relevant data from the learning database and sends it to the device.
ステップ6: Step 6:
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって音声を入力する。入力はユーザの音声であり、出力はテキストデータである。端末は音声認識を用いてユーザの音声をテキストに変換し、そのテキストデータをサーバに送信する。 The user presses the "Start conversation" button and speaks into the device's microphone. The input is the user's voice, and the output is text data. The device uses voice recognition to convert the user's voice into text and sends the text data to the server.
ステップ7: Step 7:
サーバがユーザのテキストデータを受信し、生成AIモデルを使用して適切な応答を生成する。入力はユーザのテキストデータであり、出力は生成された応答である。サーバはNLPモデル(例:GPT-3)を使用して応答を生成する。 The server receives the user's text data and generates an appropriate response using a generative AI model. The input is the user's text data and the output is the generated response. The server generates the response using an NLP model (e.g., GPT-3).
ステップ8: Step 8:
サーバが生成した応答を音声データに変換し、端末に送信する。入力は生成された応答であり、出力は音声データである。サーバは音声合成ライブラリ(例:pyttsx3)を使用して音声データを生成し、端末に送信する。 The response generated by the server is converted into audio data and sent to the device. The input is the generated response, and the output is audio data. The server uses a speech synthesis library (e.g., pyttsx3) to generate the audio data and send it to the device.
ステップ9: Step 9:
端末がサーバから受信した音声データを再生し、ユーザに聞かせる。入力は音声データであり、出力は音声の再生である。端末は音声データを再生し、ユーザが仮想人物の応答を聞くことができる。 The device plays back the audio data received from the server and lets the user listen. The input is audio data, and the output is audio playback. The device plays back the audio data, allowing the user to hear the virtual character's response.
ステップ10: Step 10:
ユーザがサービスを終了する場合、アプリケーションを終了する操作を行う。入力は終了操作であり、出力はアプリケーションの終了である。端末はアプリケーションを終了し、スマート眼鏡の表示を停止する。 When the user wants to end the service, they perform an operation to end the application. The input is the end operation, and the output is to end the application. The device will end the application and stop displaying the smart glasses.
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 It is also possible to further combine an emotion engine that estimates the user's emotion. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、ユーザに対して24時間365日リアルタイムで音声会話ができるシステムである。また、本発明は感情エンジンを組み合わせることで、ユーザの感情を認識し、その感情に基づいた適応的な応答を提供することができる。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. Furthermore, by combining this invention with an emotion engine, it is possible to recognize the user's emotions and provide adaptive responses based on those emotions.
システムの構成 System Configuration
1. 人工知能技術による学習 1. Learning with AI technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集し、人工知能アルゴリズムを使用してこれらの情報を学習する。学習結果はキャラクターの特定の行動パターンや応答パターンを含み、高精度なモデルとして保存される。 The server collects data on the appearance, personality, and past behavior of specific characters or people, and uses an artificial intelligence algorithm to learn this information. The learning results, including the character's specific behavior and response patterns, are saved as a highly accurate model.
2. NFTとしての保存 2. Save as an NFT
サーバが学習されたAIデータをNFTとして保存し、ブロックチェーン技術を用いてそのユニーク性と所有権を保証する。 The server stores the learned AI data as an NFT, using blockchain technology to guarantee its uniqueness and ownership.
3. インタフェースの提供 3. Providing an interface
端末がユーザに対話相手を選択するためのインタフェースを提供する。利用者はログインし、好きなキャラクターを選択することができる。 The device provides the user with an interface for selecting a conversation partner. Users can log in and select their favorite character.
4. リアルタイム音声会話 4. Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始するための操作を行う。端末がユーザの音声を取得し、それを文字データに変換してサーバに送信する。 The user performs an operation to start a conversation with the selected character. The device captures the user's voice, converts it into text data, and sends it to the server.
サーバが受信した文字データを基に、AIモデルを使用して適切な応答を生成する。この応答は再び音声データに変換され、端末に送信される。 Based on the text data received by the server, an appropriate response is generated using an AI model. This response is then converted back into audio data and sent to the device.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
5. 感情エンジンの統合 5. Emotional Engine Integration
サーバがユーザの音声データを利用して感情を解析するための感情エンジンを備えている。感情エンジンは音声データからユーザの感情状態(例えば喜び、悲しみ、怒りなど)を解析する。 The server is equipped with an emotion engine that uses the user's voice data to analyze emotions. The emotion engine analyzes the user's emotional state (e.g., joy, sadness, anger, etc.) from the voice data.
感情解析結果を基に、AIモデルは応答内容を適応的に変更する。例えば、ユーザが悲しそうな声で話す場合、「元気を出して!」というような応答が生成される。 Based on the results of emotion analysis, the AI model adaptively changes the response content. For example, if the user speaks in a sad voice, a response such as "Cheer up!" will be generated.
6. 利用料の収受と収益分配 6. Usage Fee Collection and Revenue Sharing
サーバがユーザからの利用料を収受する。決済処理は端末を通じて行われる。収益は関係者間で分配される。これには、キャラクターや人物の著作権者、サービス提供者が含まれる。 The server collects usage fees from users. Payments are processed through the terminal. Revenues are distributed among the parties involved, including the copyright holders of characters and people, and service providers.
具体例 Specific examples
1. ユーザがログインし、キャラクターを選択する 1. The user logs in and selects a character.
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力されたデータをサーバに送信し、認証が行われる。認証が成功すると、端末にホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the entered data to the server and authentication is performed. If authentication is successful, the home screen is displayed on the device.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、例えば「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Select Character" button on the home screen and selects, for example, "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは!今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on an AI model. For example, it might respond with "Hello! How's your day?"
サーバは同時に、音声データを感情エンジンに送信し、ユーザの感情状態を解析する。 At the same time, the server sends the voice data to the emotion engine, which analyzes the user's emotional state.
感情エンジンが感情状態を解析し、その結果をAIモデルにフィードバックする。例えば、ユーザの声が悲しそうであれば、応答内容は「元気を出して!」という励ましのメッセージに変更される。 The emotion engine analyzes the user's emotional state and feeds the results back to the AI model. For example, if the user sounds sad, the response will be changed to an encouraging message such as "Cheer up!"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザに応答を提供する。 The generated response is converted into audio data and sent to the device, which then plays the audio data and provides the response to the user.
3. 利用料の決済と収益分配 3. Payment of fees and revenue sharing
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示する。ユーザがクレジットカード情報などを入力する。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will enter their credit card information, etc.
端末が入力された決済情報をサーバに送信する。サーバが決済ゲートウェイを通じて決済処理を行う。 The terminal sends the entered payment information to the server, which processes the payment through the payment gateway.
サーバが決済の成功または失敗の情報を端末に送信する。成功した場合、利用権利が更新される。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
端末が決済結果をユーザに通知する。これにより、ユーザは引き続きシステムを使用できる。 The terminal will notify the user of the payment result, allowing them to continue using the system.
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、さらにユーザの感情に応じた適切な応答を提供することで、よりパーソナルで親密なコミュニケーションを実現することができるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and by providing appropriate responses based on the user's emotions, it enables more personal and intimate communication.
以下に、処理の流れについて説明する。 The processing flow is explained below.
ステップ1: Step 1:
ユーザがアプリケーションを開く。ユーザがログイン画面にアクセスし、IDとパスワードを入力するである。 The user opens the application. The user accesses the login screen and enters their ID and password.
ステップ2: Step 2:
端末がユーザの入力を受け取り、IDとパスワード情報をサーバに送信する。通信は暗号化されているである。 The device receives the user's input and sends the ID and password information to the server. The communication is encrypted.
ステップ3: Step 3:
サーバが受信したIDとパスワードをデータベースから確認し、ユーザ認証を行うである。もしIDとパスワードが一致しない場合、エラーメッセージを端末に送信するである。 The server checks the received ID and password against a database and authenticates the user. If the ID and password do not match, an error message is sent to the terminal.
ステップ4: Step 4:
サーバが認証に成功した場合、セッション情報を生成し、端末に送り返すである。端末は受け取ったセッション情報を使用して、ホーム画面を表示するである。 If the server successfully authenticates, it generates session information and sends it back to the device. The device uses the received session information to display the home screen.
ステップ5: Step 5:
ユーザがホーム画面から「キャラクター選択」ボタンを押し、対話相手となるキャラクターを選択するである。 The user presses the "Character Selection" button on the home screen and selects the character they want to interact with.
ステップ6: Step 6:
端末がユーザの選択を受け取り、キャラクターIDをサーバに送信するである。サーバは選択されたキャラクターのAIモデルデータを取得するである。 The device receives the user's selection and sends the character ID to the server. The server then retrieves the AI model data for the selected character.
ステップ7: Step 7:
サーバが取得したAIモデルデータを端末に送信するである。端末は受信したデータをもとに、キャラクターとの会話インタフェースを表示するである。 The server sends the acquired AI model data to the device. The device displays a conversation interface with the character based on the received data.
ステップ8: Step 8:
ユーザが「会話開始」ボタンを押し、会話を開始するである。ユーザの音声を取得するため、端末のマイクがオンになるである。 The user presses the "Start conversation" button to begin the conversation. The device's microphone is turned on to capture the user's voice.
ステップ9: Step 9:
端末がユーザの音声を録音し、リアルタイムで音声データをテキストデータに変換するである。このテキストデータをサーバに送信するである。 The device records the user's voice and converts the voice data into text data in real time. This text data is then sent to the server.
ステップ10: Step 10:
サーバが受信したテキストデータを解析し、AIモデルを用いて応答を生成するである。例えば、ユーザが「こんにちは、キャラクターA」と言った場合、応答は「こんにちは!今日はどうしたの?」である。 The server analyzes the received text data and generates a response using an AI model. For example, if the user says "Hello, Character A," the response will be "Hello! How's your day?"
ステップ11: Step 11:
サーバは同時に、ユーザの音声データを感情エンジンに送信し、ユーザの感情状態を解析するである。感情エンジンが音声データを解析し、ユーザの感情状態(喜び、悲しみ、怒りなど)を特定するである。 At the same time, the server sends the user's voice data to the emotion engine, which analyzes the user's emotional state. The emotion engine analyzes the voice data and identifies the user's emotional state (joy, sadness, anger, etc.).
ステップ12: Step 12:
感情エンジンが解析結果をサーバに送り返し、サーバがその結果をもとに応答内容を適応的に変更するである。例えば、ユーザが悲しそうな声で話す場合、応答は「元気を出して!」になるである。 The emotion engine sends the analysis results back to the server, which then adaptively changes the response based on the results. For example, if the user speaks in a sad voice, the response will be "Cheer up!"
ステップ13: Step 13:
サーバが応答テキストを音声データに変換し、端末に送信するである。 The server converts the response text into audio data and sends it to the device.
ステップ14: Step 14:
端末が受信した音声データを再生し、ユーザに応答を提供するである。ユーザはこれを聞いて、続けて質問やコメントをすることができるである。 The device plays back the received audio data and provides a response to the user. The user can then listen to this and ask questions or make comments.
ステップ15: Step 15:
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示するである。ユーザがクレジットカード情報などを入力するである。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will then enter their credit card information, etc.
ステップ16: Step 16:
端末が入力された決済情報をサーバに送信するである。サーバは決済ゲートウェイを通じて決済処理を行うである。 The terminal sends the entered payment information to the server, which then processes the payment through the payment gateway.
ステップ17: Step 17:
サーバが決済の成功または失敗の情報を端末に送信するである。成功した場合、利用権利が更新されるである。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
ステップ18: Step 18:
端末が決済結果をユーザに通知するである。これにより、ユーザは引き続きシステムを使用できるである。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(実施例2) (Example 2)
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, Example 2 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の人工知能を用いた音声会話システムでは、キャラクターや人物の外見および性格を効率的に学習させ、ユーザとのリアルタイム音声会話を行うことが難しかった。また、ユーザの感情に応じた適応的な応答を提供するための技術も十分に発展していなかったため、ユーザに対して自然でパーソナルなコミュニケーションを実現することができなかった。 With conventional voice conversation systems using artificial intelligence, it was difficult to efficiently learn the appearance and personality of characters or people and conduct real-time voice conversations with users. Furthermore, technology for providing adaptive responses based on the user's emotions was not sufficiently developed, making it impossible to achieve natural, personal communication with users.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者の音声から感情を解析し、解析結果に基づいて応答を適応的に変更する手段と、を含む。これにより、キャラクターや人物の特徴を高精度に学習し、そのデータを安全に保存し、ユーザの感情に応じた柔軟な応答を提供することが可能となる。 In this invention, the server includes means for learning the appearance and personality of a specific character or person using artificial intelligence technology, means for saving the learned data as a non-fungible token (NFT), and means for analyzing emotions from the user's voice and adaptively changing responses based on the analysis results. This makes it possible to learn the characteristics of characters and people with high accuracy, safely store that data, and provide flexible responses that correspond to the user's emotions.
「特定のキャラクターや人物」とは、ユーザが対話相手として選択することができる架空または実在の人物やキャラクターを指す。 "Specific characters or persons" refers to fictional or real people or characters that users can select as their conversation partners.
「人工知能技術」とは、機械学習や深層学習などの技術を用いて、データからパターンを抽出し、予測や分類を行う技術を指す。 "Artificial intelligence technology" refers to technology that uses techniques such as machine learning and deep learning to extract patterns from data and make predictions and classifications.
「学習する手段」とは、データを収集し、そのデータに基づいてAIモデルを生成するプロセスを指す。 "Means of learning" refers to the process of collecting data and generating an AI model based on that data.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を用いてデジタルデータの唯一性と所有権を保証するためのトークンを指す。 A "non-fungible token (NFT)" is a token that uses blockchain technology to guarantee the uniqueness and ownership of digital data.
「インタフェースを提供する手段」とは、ユーザがシステムにアクセスし、操作するための画面やメニューを提供する方法を指す。 "Means of providing an interface" refers to the method of providing screens and menus that allow users to access and operate the system.
「リアルタイムで音声会話を行う手段」とは、ユーザとキャラクターが即時に音声で対話を行うための技術を指す。 "Means for conducting real-time voice conversation" refers to technology that allows users and characters to have instant voice conversations.
「利用者の音声から感情を解析する手段」とは、ユーザの音声データを基に、その感情状態を分析する技術を指す。 "Means for analyzing emotions from a user's voice" refers to technology that analyzes a user's emotional state based on their voice data.
「応答を適応的に変更する手段」とは、感情解析の結果に基づいて、AIの応答内容を変更する方法を指す。 "Means for adaptively changing responses" refers to a method for changing the AI's response content based on the results of emotion analysis.
「利用料を収受し、収益を関係者間で分配する手段」とは、ユーザからサービス利用料を徴収し、得られた収益を関係者に分配する仕組みを指す。 "Means for collecting usage fees and distributing revenue among parties" refers to a system for collecting service usage fees from users and distributing the revenue obtained among parties.
発明を実施するための形態 Form for implementing the invention
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、ユーザに対して24時間365日リアルタイムで音声会話を提供するシステムである。また、感情エンジンを組み合わせることで、ユーザの感情を認識し、その感情に基づいた適応的な応答を提供することができる。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and provides users with real-time voice conversations 24 hours a day, 365 days a year. Furthermore, by combining it with an emotion engine, it is possible to recognize the user's emotions and provide adaptive responses based on those emotions.
システムの概要 System Overview
このシステムは以下の主要なコンポーネントによって構成される: The system consists of the following main components:
1. サーバ 1. Server
2. 端末 2. Device
3. ユーザ 3. User
サーバの役割 Server Role
1. 学習データ収集とAIモデルの生成 1. Training data collection and AI model generation
サーバは特定のキャラクターや人物の外見、性格、過去の行動データを収集する。データには、動画、音声ファイル、テキストデータなどが含まれる。 The server collects data on the appearance, personality, and past behavior of specific characters and people. This data includes video, audio files, text data, etc.
収集したデータはAIアルゴリズム(例えば、TensorFlowやPyTorch)を用いて学習させる。学習の初期段階で、データの前処理(ノイズ除去、テキストの正規化など)を行う。 The collected data is trained using an AI algorithm (e.g., TensorFlow or PyTorch). During the initial training stage, data preprocessing (noise removal, text normalization, etc.) is performed.
完成したモデルをデータベースに保存する。 Save the completed model in the database.
2. NFTとしてのデータ保存 2. Data storage as NFTs
学習したAIデータを非代替性トークン(NFT)として保存する。このプロセスにはブロックチェーン技術(例えば、Ethereum)を用いる。 The learned AI data is stored as a non-fungible token (NFT). This process uses blockchain technology (e.g., Ethereum).
サーバは生成されたNFTをブロックチェーンに登録し、所有者情報を保持する。 The server registers the generated NFT on the blockchain and maintains owner information.
3. 感情分析と応答の適応 3. Sentiment Analysis and Response Adaptation
サーバは感情エンジン(例えば、IBM Watsonの感情認識API)を用いてユーザの音声データを解析する。解析結果を基に、AIモデルは応答内容を適応的に変更する。 The server uses an emotion engine (for example, IBM Watson's emotion recognition API) to analyze the user's voice data. Based on the analysis results, the AI model adaptively changes the response content.
例えば、ユーザが「今日はちょっと気分が落ち込んでいる」と言った場合、感情認識によって「元気を出して!」といった応答が生成される。 For example, if a user says, "I'm feeling a bit down today," emotion recognition can generate a response such as, "Cheer up!"
4. 利用料の収受と収益分配 4. Usage fee collection and revenue sharing
サーバは利用料を収受し、決済処理を管理する。決済は、利用者が端末から入力したクレジットカード情報などを使用して行われる。 The server collects the usage fee and manages the payment process. Payment is made using credit card information entered by the user on the terminal.
収益は関係者(キャラクターの著作権者、サービス提供者など)間で分配される。 Revenues will be distributed among the parties involved (character copyright holders, service providers, etc.).
端末の役割 Device role
1. インタフェースの提供 1. Providing an interface
端末がユーザに対話相手を選択し、会話を行うインタフェースを提供する。ユーザはアプリを立ち上げ、ログイン画面で認証情報を入力しログインする。 The device provides the user with an interface to select a conversation partner and conduct a conversation. The user launches the app, enters their authentication information on the login screen, and logs in.
ログイン後、ユーザは「キャラクター選択」ボタンを押して、好みのキャラクターを選び、そのキャラクターとの会話を開始できる。 After logging in, users can press the "Select Character" button to choose their preferred character and begin a conversation with that character.
2. 音声データの処理 2. Audio data processing
端末はユーザの音声を取得し、Google Speech-to-Textのような音声認識エンジンを利用してテキストデータに変換する。 The device captures the user's voice and converts it into text data using a speech recognition engine such as Google Speech-to-Text.
変換されたテキストデータはサーバに送信され、適切な応答が生成された後に、再び音声データに変換されて端末に送信される。 The converted text data is sent to the server, and after an appropriate response is generated, it is converted back into voice data and sent to the device.
端末が音声データを再生し、リアルタイム会話を実現する。 The device plays the audio data, enabling real-time conversations.
ユーザの役割 User Roles
1. ログインとキャラクター選択 1. Log in and select a character
ユーザはアプリを立ち上げ、ログイン画面で「user123」と「password123」のような認証情報を入力する。 The user launches the app and enters authentication information such as "user123" and "password123" on the login screen.
認証が成功すると、ホーム画面からキャラクターを選択し、選択するキャラクターとの会話を開始する。 Once authentication is successful, select a character from the home screen and begin a conversation with the character you select.
2. 実際の会話の進行 2. Actual conversation progression
ユーザは「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。 The user presses the "Start Conversation" button and speaks into the device's microphone, saying "Hello, Character A."
端末はこの音声をテキストデータに変換し、サーバに送信する。サーバはテキストデータを基にAIモデルで応答を生成し、適応的な返答を送信する。 The device converts this voice into text data and sends it to the server. The server uses an AI model to generate a response based on the text data and sends an adaptive reply.
例えば、「こんにちは!今日はどうしたの?」といった応答や、「元気を出して!」といった適応的なメッセージを受け取ることができる。 For example, you can receive responses such as "Hello! How are you today?" or adaptive messages such as "Cheer up!"
具体例・プロンプト文の例 Examples and prompts
「こんにちは、キャラクターA。今日はどんな日だった?」 "Hello, Character A. How was your day?"
「最近ちょっと落ち込んでいるんだ。励ましてくれる?」 "I've been feeling a bit down lately. Can you cheer me up?"
「今日のニュースについてどう思う?」 "What do you think about today's news?"
これらのプロンプト文を使用することで、ユーザはキャラクターとよりパーソナルかつ自然な会話を楽しむことができる。 By using these prompts, users can enjoy more personal and natural conversations with the characters.
実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.
プログラムの処理の流れ Program processing flow
ステップ1: Step 1:
学習データ収集とAIモデルの生成 Training data collection and AI model generation
サーバが特定のキャラクターや人物の外見、性格、過去の行動データを収集する。この収集に使用されるデータには、テキスト、音声ファイル、画像、動画が含まれる。具体的な動作として、WebスクレイピングやAPI経由でデータベースからデータを取得し、サーバ内に保存する。 The server collects data on the appearance, personality, and past behavior of specific characters or people. The data used for this collection includes text, audio files, images, and videos. Specifically, the data is retrieved from a database via web scraping or API and stored on the server.
入力:キャラクターの外見、性格、過去の言動に関するデータ。 Input: Data about the character's appearance, personality, and past words and actions.
データ加工:ノイズ除去、テキストの正規化、データクリーニング。 Data processing: noise removal, text normalization, data cleaning.
出力:前処理後のクリーンなデータセット。 Output: Clean dataset after preprocessing.
サーバがこれらのデータをAIアルゴリズム(例えば、TensorFlowやPyTorch)を用いてモデルに学習させる。学習後のモデルはキャラクターの行動パターンや応答パターンを反映する。 The server uses an AI algorithm (such as TensorFlow or PyTorch) to train a model using this data. The trained model then reflects the character's behavior and response patterns.
入力:前処理後のクリーンなデータセット。 Input: Clean dataset after preprocessing.
データ演算:機械学習アルゴリズムを適用し、モデルをトレーニングする。 Data computation: Applying machine learning algorithms and training models.
出力:学習済みAIモデル。 Output: Trained AI model.
ステップ2: Step 2:
NFTとしてのデータ保存 Storing data as NFTs
サーバが学習されたAIデータを非代替性トークン(NFT)として保存する。 The server stores the learned AI data as a non-fungible token (NFT).
入力:学習済みAIモデル。 Input: Trained AI model.
データ加工:NFT化のためにブロックチェーン技術(例:Ethereum)を利用してモデルの唯一性と所有権を保証する。 Data processing: Blockchain technology (e.g., Ethereum) is used to ensure the uniqueness and ownership of the model for NFT conversion.
出力:ブロックチェーンに登録されたNFT。 Output: NFT registered on the blockchain.
サーバが生成されたNFTをブロックチェーンに登録し、所有者情報を保持する。具体的な動作として、ブロックチェーンAPIを通じてNFTを登録する。 The server registers the generated NFT on the blockchain and retains owner information. Specifically, the NFT is registered through the blockchain API.
ステップ3: Step 3:
ユーザのログインとキャラクター選択 User login and character selection
ユーザがアプリを起動し、ログイン画面で認証情報(例:「user123」と「password123」)を入力する。 The user launches the app and enters their authentication information (e.g., "user123" and "password123") on the login screen.
端末が入力された認証情報をサーバに送信し、認証を実行する。 The device sends the entered authentication information to the server and performs authentication.
入力:ユーザの認証情報。 Input: User authentication information.
データ演算:データベースと照合し、認証が成功するかどうか判定する。 Data calculation: Compare with the database and determine whether authentication is successful.
出力:認証成功または失敗のステータス。 Output: Authentication success or failure status.
認証が成功すると、端末にホーム画面が表示される。ユーザは「キャラクター選択」ボタンを押し、対話したいキャラクターを選ぶ。 If authentication is successful, the home screen will be displayed on the device. The user presses the "Select Character" button to choose the character they want to interact with.
入力:ユーザが選択したキャラクター情報。 Input: Character information selected by the user.
データ加工:選択されたキャラクターに対応するAIモデルの検索と取得。 Data processing: Search and obtain the AI model corresponding to the selected character.
出力:選択されたキャラクターのAIデータ。 Output: AI data for the selected character.
ステップ4: Step 4:
リアルタイム音声会話の処理 Real-time voice conversation processing
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって話しかける。 The user presses the "Start conversation" button and speaks into the device's microphone.
端末がユーザの音声を取得し、Google Speech-to-Textを利用してテキストデータに変換する。 The device captures the user's voice and converts it into text data using Google Speech-to-Text.
入力:ユーザの音声データ。 Input: User's voice data.
データ加工:音声からテキストへの変換。 Data processing: voice-to-text conversion.
出力:テキストデータ。 Output: Text data.
変換されたテキストデータはサーバに送信され、適切な応答が生成される。 The converted text data is sent to the server, which generates an appropriate response.
入力:ユーザのテキストデータ。 Input: User's text data.
データ演算:AIモデルを使用して適切な応答を生成する。 Data calculations: Use AI models to generate appropriate responses.
出力:生成されたテキスト応答。 Output: The generated text response.
応答は再び音声データに変換され、端末に送信される。 The response is converted back into audio data and sent to the device.
入力:生成されたテキスト応答。 Input: The generated text response.
データ加工:テキストから音声への変換。 Data processing: converting text to audio.
出力:生成された音声データ。 Output: Generated audio data.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
ステップ5: Step 5:
感情分析と応答の適応 Sentiment analysis and response adaptation
サーバがユーザの音声データを感情エンジン(例:IBM Watsonの感情認識API)を用いて解析する。 The server analyzes the user's voice data using an emotion engine (e.g., IBM Watson's emotion recognition API).
入力:ユーザの音声データ。 Input: User's voice data.
データ演算:音声データからユーザの感情状態を解析する。 Data calculation: Analyze the user's emotional state from voice data.
出力:ユーザの感情状態データ。 Output: User's emotional state data.
感情解析の結果を基に、AIモデルが応答内容を適応的に変更する。 Based on the results of emotion analysis, the AI model adaptively changes the response content.
入力:ユーザの感情状態データと生成されたテキスト応答。 Input: User emotional state data and generated text response.
データ演算:応答の内容を感情状態に合わせて変更する。 Data calculation: Change the response content to match the emotional state.
出力:最終的に適応された応答テキスト。 Output: The final adapted response text.
例えば、ユーザの声が悲しそうな場合、応答内容は「元気を出して!」などと変更される。 For example, if the user sounds sad, the response will be changed to something like "Cheer up!"
ステップ6: Step 6:
利用料の収受と決済処理 Collecting usage fees and processing payments
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示する。ユーザがクレジットカード情報などを入力する。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will enter their credit card information, etc.
入力:ユーザの決済情報。 Input: User's payment information.
端末が決済情報をサーバに送信し、サーバが決済ゲートウェイ(例:Stripe)を通じて決済処理を行う。 The terminal sends payment information to the server, which processes the payment through a payment gateway (e.g., Stripe).
データ演算:決済情報を基に決済処理を実行する。 Data calculation: Executes payment processing based on payment information.
出力:決済成功または失敗のステータス。 Output: Payment success or failure status.
サーバが決済の成功または失敗を端末に通知し、成功した場合には利用権利が更新される。 The server notifies the terminal of the success or failure of the payment, and if successful, the usage rights are updated.
端末が決済結果をユーザに通知し、これによりユーザは引き続きシステムを利用できる。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(応用例2) (Application Example 2)
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Application Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
本発明の課題は、特定のキャラクターや人物の外見および性格をリアルタイムで再現しつつ、利用者との対話を通じて感情に応じた適切な応答を提供することができるシステムを提供することである。また、バーチャル店舗においてショッピングアシスタントとしてキャラクターが商品説明やおすすめアイテムの紹介を行うことで、よりパーソナルで親身なショッピング体験を実現することを目指す。 The objective of this invention is to provide a system that can reproduce the appearance and personality of a specific character or person in real time, while providing appropriate responses based on the user's emotions through dialogue with them. Furthermore, the aim is to realize a more personal and sympathetic shopping experience by having characters act as shopping assistants in virtual stores, explaining products and recommending items.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、リアルタイムで音声会話を行う手段と、利用者からの利用料を収受し、収益を関係者間で分配する手段と、感情エンジンを使用して利用者の音声データから感情状態を解析し、その解析結果に基づいた適応的な応答を生成する手段と、生成された応答を音声データに変換し、音声として利用者に提供する手段と、バーチャル店舗でのショッピングアシスタントとしてキャラクターが商品説明やおすすめアイテムの紹介を行う手段と、を含む。これにより、特定のキャラクターとの感情に基づいたリアルタイムな対話およびバーチャル店舗での個別的で親身なショッピングアシスタント体験が可能となる。 In this invention, the server includes: means for learning the appearance and personality of a specific character or person using artificial intelligence technology; means for storing the learned data as a non-fungible token (NFT); means for providing an interface for users to select a conversation partner and converse with them; means for conducting real-time voice conversations; means for collecting usage fees from users and distributing revenue among the parties involved; means for analyzing the emotional state from the user's voice data using an emotion engine and generating an adaptive response based on the analysis results; means for converting the generated response into voice data and providing it to the user as voice; and means for the character to act as a shopping assistant in a virtual store, explaining products and recommending items. This enables real-time, emotion-based dialogue with a specific character and a personalized, sympathetic shopping assistant experience in a virtual store.
「特定のキャラクターや人物」とは、人工知能技術により外見および性格が再現された仮想的な存在である。 "Specific characters or people" are virtual beings whose appearances and personalities are reproduced using artificial intelligence technology.
「人工知能技術」とは、特定のキャラクターや人物の外見および性格を学習し、その情報をもとに応答や行動を生成する技術である。 "Artificial intelligence technology" is a technology that learns the appearance and personality of a specific character or person, and generates responses and actions based on that information.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を用いて特定のデジタル資産を唯一無二のものとして識別し、その所有権を証明する手段である。 A non-fungible token (NFT) is a means of using blockchain technology to uniquely identify a specific digital asset and prove ownership of it.
「インタフェース」とは、利用者が対話相手を選択し、会話を開始するための入力および表示手段を提供する装置またはソフトウェアである。 An "interface" is a device or software that provides input and display means for a user to select a conversation partner and initiate a conversation.
「リアルタイムで音声会話を行う手段」とは、利用者と特定のキャラクターや人物が即時に音声で対話することを可能にする技術である。 "Means for conducting real-time voice conversations" refers to technology that allows users to have instant voice conversations with specific characters or people.
「感情エンジン」とは、利用者の音声データから感情状態を解析し、その解析結果に基づいた応答を生成するためのアルゴリズムおよびシステムである。 An "emotion engine" is an algorithm and system that analyzes a user's emotional state from their voice data and generates a response based on the analysis results.
「適応的な応答」とは、利用者の発言内容および感情状態に応じて変化する応答であり、個別的かつダイナミックに生成されるものである。 An "adaptive response" is a response that changes depending on the user's speech content and emotional state, and is generated individually and dynamically.
「バーチャル店舗」とは、インターネット上に存在する仮想的なショッピング環境であり、ユーザが仮想空間で購買活動を行うことを可能にするプラットフォームである。 A "virtual store" is a virtual shopping environment that exists on the Internet and is a platform that allows users to conduct purchasing activities in a virtual space.
「ショッピングアシスタント」とは、バーチャル店舗内で利用者に対して商品説明やおすすめアイテムの紹介などを行う仮想的なキャラクターまたは人物である。 A "shopping assistant" is a virtual character or person who explains products and recommends items to users in a virtual store.
「収受」とは、利用者からの利用料を受け取ることである。 "Collection" means receiving usage fees from users.
「収益を関係者間で分配する手段」とは、システム運営により得られた収益を、キャラクターの著作権者やサービス提供者など関係者に適切に分配するための仕組みである。 "Means for distributing revenues among parties involved" refers to a mechanism for appropriately distributing revenues earned through system operation to parties involved, such as character copyright holders and service providers.
システムの概要 System Overview
この発明は、特定のキャラクターや人物をリアルタイムで再現し、利用者と音声会話を行うシステムである。主にバーチャル店舗においてショッピングアシスタントとして機能する。このシステムは、サーバ、端末、ユーザの三要素で構成される。 This invention is a system that recreates specific characters or people in real time and engages in voice conversations with users. It primarily functions as a shopping assistant in virtual stores. This system consists of three elements: a server, a terminal, and a user.
プログラム構成および各種技術 Program structure and various technologies
音声認識エンジン Speech recognition engine
サーバは、利用者の音声入力を取得し、音声認識エンジン(Google Speech-to-Text API)を使用して音声をテキストデータに変換する。 The server receives the user's voice input and converts the voice into text data using a speech recognition engine (Google Speech-to-Text API).
感情解析エンジン Sentiment analysis engine
サーバは、取得したテキストデータをIBM Watson Tone Analyzerを用いて感情解析を行う。これにより利用者の感情状態を判断する。 The server performs emotion analysis on the acquired text data using IBM Watson Tone Analyzer, thereby determining the user's emotional state.
対話管理システム Dialogue management system
サーバは、Rasaを用いて利用者の会話内容および感情解析結果に基づいた応答を生成する。 The server uses Rasa to generate responses based on the user's conversation content and sentiment analysis results.
音声合成エンジン Speech synthesis engine
サーバは、生成された応答をGoogle Text-to-Speech APIを使用して音声データに変換し、端末に送信する。 The server converts the generated response into audio data using the Google Text-to-Speech API and sends it to the device.
プログラムの処理 Program processing
1. 音声入力とテキスト変換 1. Voice input and text conversion
ユーザがスマートフォンのマイクに向かって話しかけると、その音声は端末によって取得され、Google Speech-to-Text APIを使用してテキストデータに変換される。 When a user speaks into their smartphone's microphone, the audio is picked up by the device and converted into text data using the Google Speech-to-Text API.
2. 感情解析 2. Emotion analysis
転送されたテキストデータはIBM Watson Tone Analyzerで感情解析が行われ、利用者の感情状態(例:喜び、悲しみ、怒りなど)が解析される。 The transferred text data is subjected to emotion analysis using IBM Watson Tone Analyzer to determine the user's emotional state (e.g., joy, sadness, anger, etc.).
3. 応答生成 3. Response Generation
Rasaを使用して解析結果および会話内容を基に適切な応答を生成する。この応答は利用者の感情に適応したものである。 Rasa is used to generate appropriate responses based on analysis results and conversation content. These responses are adapted to the user's emotions.
4. 音声データへの変換と送信 4. Conversion to audio data and transmission
生成された応答はGoogle Text-to-Speech APIによって音声データに変換され、この音声データが端末へ送信されることでリアルタイムな会話が実現する。 The generated response is converted into audio data using the Google Text-to-Speech API, and this audio data is sent to the device, enabling real-time conversation.
具体例 Specific examples
1. ユーザのログインとキャラクター選択 1. User login and character selection
ユーザはアプリを起動し、「user123」と「password123」を入力してログインする。ログイン後、キャラクター選択画面で「キャラクターA」を選択する。 The user launches the app and logs in by entering "user123" and "password123." After logging in, they select "Character A" on the character selection screen.
プロンプト文の例: Example prompt:
ユーザ:こんにちは、今日は洋服を探しています。 User: Hello, I'm looking for clothes today.
--- ---
アシスタント:こんにちは、どんな洋服を探していますか? Assistant: Hello, what kind of clothes are you looking for?
--- ---
ユーザ:カジュアルなシャツが欲しいです。 User: I'd like a casual shirt.
--- ---
2. 音声入力と解析 2. Voice input and analysis
ユーザが「こんにちは、今日は洋服を探しています」と話すと、音声が取得され、テキストデータに変換される。テキストデータは感情解析のためIBM Watson Tone Analyzerに送られる。 When a user says, "Hello, I'm looking for clothes today," the speech is captured and converted into text data. The text data is sent to IBM Watson Tone Analyzer for sentiment analysis.
3. 応答生成と提供 3. Response generation and delivery
感情解析と会話内容に基づき、Rasaが「こんにちは、どんな洋服を探していますか?」という応答を生成する。この応答はGoogle Text-to-Speech APIで音声に変換され、端末に送信される。 Based on sentiment analysis and the conversation content, Rasa generates a response: "Hello, what kind of clothes are you looking for?" This response is converted into audio using the Google Text-to-Speech API and sent to the device.
4. ショッピングアシスタント機能 4. Shopping Assistant Function
ユーザが「カジュアルなシャツが欲しい」と言うと、アシスタントが「こちらのシャツはいかがですか?流行のデザインで、最近とても人気があります」と提案し、商品説明を行う。ユーザの感情解析結果に基づき、より詳細な商品説明や提案も可能である。 If a user says, "I want a casual shirt," the assistant will suggest, "How about this shirt? It's a trendy design and very popular these days," and explain the product. It is also possible to provide more detailed product descriptions and suggestions based on the results of user sentiment analysis.
これにより、この発明は特定のキャラクターとの感情に基づいたリアルタイムな対話およびバーチャル店舗での個別的で親身なショッピングアシスタント体験を提供することができる。 This allows the invention to provide emotion-based real-time interactions with specific characters and a personalized, immersive shopping assistant experience in virtual stores.
応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.
ステップ1: Step 1:
ユーザがアプリを起動し、ログインする。ユーザはユーザ名とパスワードを入力し、端末がその情報をサーバへ送信する。サーバは認証を行い、成功した場合にはキャラクター選択画面を端末に表示する。 The user launches the app and logs in. The user enters their username and password, and the device sends that information to the server. The server performs authentication, and if successful, displays the character selection screen on the device.
入力:ユーザのユーザ名とパスワード Enter: User's username and password
処理:サーバがユーザ認証を行う Process: The server authenticates the user.
出力:認証成功時にキャラクター選択画面が表示される Output: Upon successful authentication, the character selection screen will be displayed.
ステップ2: Step 2:
ユーザがキャラクターを選択する。ユーザはキャラクター選択画面で特定のキャラクターを選び、端末が選択情報をサーバへ送信する。サーバは選択されたキャラクターのAIモデルをロードし、関連データを端末に送信する。 The user selects a character. The user chooses a specific character on the character selection screen, and the device sends the selection information to the server. The server loads the selected character's AI model and sends the relevant data to the device.
入力:ユーザのキャラクター選択情報 Input: User's character selection information
処理:サーバがAIモデルをロードし、関連データを取得する Processing: The server loads the AI model and retrieves relevant data.
出力:キャラクターの情報が端末に表示される Output: Character information is displayed on the device.
ステップ3: Step 3:
ユーザが会話を開始する。ユーザはスマートフォンのマイクに向かって話しかけ、端末はその音声を取得する。音声認識エンジン(Google Speech-to-Text API)を使用して音声をテキストデータに変換し、そのテキストデータをサーバへ送信する。 The user begins the conversation. They speak into the smartphone's microphone, and the device picks up the audio. The speech is converted into text data using a speech recognition engine (Google Speech-to-Text API), and the text data is sent to the server.
入力:ユーザの音声 Input: User's voice
処理:端末が音声を取得し、テキストデータに変換する Processing: The device captures the audio and converts it into text data.
出力:変換されたテキストデータがサーバに送信される Output: The converted text data is sent to the server.
ステップ4: Step 4:
サーバが感情解析を行う。サーバは取得したテキストデータを感情解析エンジン(IBM Watson Tone Analyzer)に送信し、利用者の感情状態を解析する。解析結果はテキストデータに付加される。 The server performs emotion analysis. The server sends the acquired text data to an emotion analysis engine (IBM Watson Tone Analyzer), which analyzes the user's emotional state. The analysis results are added to the text data.
入力:テキストデータ Input: Text data
処理:サーバが感情解析エンジンを使って感情状態を解析する Processing: The server uses an emotion analysis engine to analyze the emotional state.
出力:感情状態が付加されたテキストデータ Output: Text data with emotional states added
ステップ5: Step 5:
サーバが応答を生成する。サーバは対話管理システム(Rasa)を用いて、感情解析結果および会話内容に基づいた応答を生成する。その応答はテキスト形式である。 The server generates a response. The server uses a dialogue management system (Rasa) to generate a response based on the sentiment analysis results and the content of the conversation. The response is in text format.
入力:感情解析結果が付加されたテキストデータ Input: Text data with sentiment analysis results added
処理:サーバが対話管理システムを用いて応答を生成する Processing: The server generates a response using the dialogue management system.
出力:生成された応答テキスト Output: Generated response text
ステップ6: Step 6:
サーバが応答テキストを音声に変換する。生成された応答テキストは、音声合成エンジン(Google Text-to-Speech API)を使用して音声データに変換される。変換された音声データは再び端末へ送信される。 The server converts the response text into speech. The generated response text is converted into audio data using a speech synthesis engine (Google Text-to-Speech API). The converted audio data is then sent back to the device.
入力:生成された応答テキスト Input: Generated response text
処理:サーバが音声合成エンジンを使用して音声データに変換する Processing: The server uses a speech synthesis engine to convert the data into voice data.
出力:変換された音声データ Output: Converted audio data
ステップ7: Step 7:
端末が音声データを再生する。端末に送信された音声データは、スピーカーを通じて再生され、ユーザに聞こえるようになる。これにより、利用者とキャラクターのリアルタイム音声会話が成立する。 The device plays the audio data. The audio data sent to the device is played back through the speaker and becomes audible to the user. This allows for real-time audio conversation between the user and the character.
入力:音声データ Input: Audio data
処理:端末が音声データを再生する Process: The device plays the audio data.
出力:ユーザが応答を聞く Output: User hears response
特定処理部290は、特定処理の結果をヘッドセット型端末314に送信する。ヘッドセット型端末314では、制御部46Aが、スピーカ240及びディスプレイ343に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the headset terminal 314. In the headset terminal 314, the control unit 46A causes the speaker 240 and display 343 to output the results of the specific processing. The microphone 238 acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 238 to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). Examples of data generation model 58 include generative AI such as ChatGPT (Internet search <URL: https://openai.com/blog/chatgpt>) and Gemini (Internet search <URL: https://gemini.google.com/?hl=ja>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as voice data indicating speech, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt, and outputs the inference results in the form of data such as voice data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ヘッドセット型端末314によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the headset-type terminal 314.
[第4実施形態] [Fourth embodiment]
図7には、第4実施形態に係るデータ処理システム410の構成の一例が示されている。 Figure 7 shows an example of the configuration of a data processing system 410 according to the fourth embodiment.
図7に示すように、データ処理システム410は、データ処理装置12及びロボット414を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 7, the data processing system 410 includes a data processing device 12 and a robot 414. An example of the data processing device 12 is a server.
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).
ロボット414は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及び制御対象443を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及び制御対象443も、バス52に接続されている。 The robot 414 includes a computer 36, a microphone 238, a speaker 240, a camera 42, a communication I/F 44, and a control target 443. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The microphone 238, speaker 240, camera 42, and control target 443 are also connected to the bus 52.
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。 The microphone 238 receives instructions and the like from the user 20 by receiving voice uttered by the user 20. The microphone 238 captures the voice uttered by the user 20, converts the captured voice into audio data, and outputs it to the processor 46. The speaker 240 outputs audio in accordance with instructions from the processor 46.
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。 Camera 42 is a small digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor, and captures images of the user 20's surroundings (e.g., an imaging range defined by an angle of view equivalent to the field of vision of a typical healthy person).
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54. The exchange of various information between the processor 46 and the processor 28 using the communication I/Fs 44 and 26 is carried out in a secure manner.
制御対象443は、表示装置、目部のLED、並びに、腕、手及び足等を駆動するモータ等を含む。ロボット414の姿勢や仕草は、腕、手及び足等のモータを制御することにより制御される。ロボット414の感情の一部は、これらのモータを制御することにより表現できる。また、ロボット414の目部のLEDの発光状態を制御することによっても、ロボット414の表情を表現できる。 The control object 443 includes a display device, LEDs in the eyes, and motors that drive the arms, hands, and feet. The posture and gestures of the robot 414 are controlled by controlling the motors of the arms, hands, and feet. Some of the emotions of the robot 414 can be expressed by controlling these motors. In addition, the facial expressions of the robot 414 can also be expressed by controlling the light emission state of the LEDs in the eyes of the robot 414.
図8には、データ処理装置12及びロボット414の要部機能の一例が示されている。図8に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。 Figure 8 shows an example of the main functions of the data processing device 12 and the robot 414. As shown in Figure 8, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32.
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。 The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as the specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.
ロボット414では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the robot 414, the reception output process is performed by the processor 46. A reception output program 60 is stored in the storage 50. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output process is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain the specific processing performed by the specific processing unit 290 of the data processing device 12. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、利用者に対して24時間365日リアルタイムで音声会話ができるシステムである。本システムは、以下のように構成される。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. The system is configured as follows:
システムの構成 System Configuration
1. 人工知能技術による学習 1. Learning with AI technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集し、人工知能アルゴリズムを使用してこれらの情報を学習する。 The server collects data on the appearance, personality, and past behavior of specific characters or individuals, and uses artificial intelligence algorithms to learn this information.
学習結果はキャラクターの特定の行動パターンや応答パターンを含み、高精度なモデルとして保存される。 The learning results include the character's specific behavioral and response patterns and are saved as a highly accurate model.
2. NFTとしての保存 2. Save as an NFT
サーバが学習されたAIデータをNFTとして保存し、ブロックチェーン技術を用いてそのユニーク性と所有権を保証する。 The server stores the learned AI data as an NFT, using blockchain technology to guarantee its uniqueness and ownership.
3. インタフェースの提供 3. Providing an interface
端末がユーザに対話相手を選択するためのインタフェースを提供する。利用者はログインし、好きなキャラクターを選択することができる。 The device provides the user with an interface for selecting a conversation partner. Users can log in and select their favorite character.
4. リアルタイム音声会話 4. Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始するための操作を行う。端末がユーザの音声を取得し、それを文字データに変換してサーバに送信する。 The user performs an operation to start a conversation with the selected character. The device captures the user's voice, converts it into text data, and sends it to the server.
サーバが受信した文字データを基に、AIモデルを使用して適切な応答を生成する。この応答は再び音声データに変換され、端末に送信される。 Based on the text data received by the server, an appropriate response is generated using an AI model. This response is then converted back into audio data and sent to the device.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
5. 利用料の収受と収益分配 5. Usage Fee Collection and Revenue Sharing
サーバがユーザからの利用料を収受する。決済処理は端末を通じて行われる。 The server collects usage fees from users. Payment processing is carried out through the terminal.
収益は関係者間で分配される。これには、キャラクターや人物の著作権者、サービス提供者が含まれる。 Revenues will be shared among the parties involved, including copyright holders of characters and people, and service providers.
具体例 Specific examples
1. ユーザがログインし、キャラクターを選択する 1. The user logs in and selects a character.
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力されたデータをサーバに送信し、認証が行われる。認証が成功すると、端末にホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the entered data to the server and authentication is performed. If authentication is successful, the home screen is displayed on the device.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、例えば「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Select Character" button on the home screen and selects, for example, "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは、私はキャラクターA。今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on the AI model. For example, the response generated might be, "Hello, I'm Character A. How's your day?"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザが応答を聞くことができる。 The generated response is converted into audio data and sent to the device. The device plays the audio data, allowing the user to hear the response.
3. 利用料の決済と収益分配 3. Payment of fees and revenue sharing
ユーザが利用料を支払う際、端末が決済情報を取得しサーバに送信する。サーバが決済ゲートウェイにより支払いを処理し、確認後に収益を関係者間で分配する。 When a user pays a usage fee, the terminal captures the payment information and sends it to the server. The server processes the payment using a payment gateway and, after confirmation, distributes the revenue among the parties.
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、またイベント開催や著名人の誘致にかかる高額なコストを削減することもできるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and also reduces the high costs associated with hosting events and inviting celebrities to attend.
以下に、処理の流れについて説明する。 The processing flow is explained below.
ステップ1: Step 1:
ユーザがアプリケーションを開く。ユーザがログイン画面にアクセスし、IDとパスワードを入力するである。 The user opens the application. The user accesses the login screen and enters their ID and password.
ステップ2: Step 2:
端末がユーザの入力を受け取り、IDとパスワード情報をサーバに送信する。通信は暗号化されているである。 The device receives the user's input and sends the ID and password information to the server. The communication is encrypted.
ステップ3: Step 3:
サーバが受信したIDとパスワードをデータベースから確認し、ユーザ認証を行うである。もしIDとパスワードが一致しない場合、エラーメッセージを端末に送信するである。 The server checks the received ID and password against a database and authenticates the user. If the ID and password do not match, an error message is sent to the terminal.
ステップ4: Step 4:
サーバが認証に成功した場合、セッション情報を生成し、端末に送り返すである。端末は受け取ったセッション情報を使用して、ホーム画面を表示するである。 If the server successfully authenticates, it generates session information and sends it back to the device. The device uses the received session information to display the home screen.
ステップ5: Step 5:
ユーザがホーム画面から「キャラクター選択」ボタンを押し、対話相手となるキャラクターを選択するである。 The user presses the "Character Selection" button on the home screen and selects the character they want to interact with.
ステップ6: Step 6:
端末がユーザの選択を受け取り、キャラクターIDをサーバに送信するである。サーバは選択されたキャラクターのAIモデルデータを取得するである。 The device receives the user's selection and sends the character ID to the server. The server then retrieves the AI model data for the selected character.
ステップ7: Step 7:
サーバが取得したAIモデルデータを端末に送信するである。端末は受信したデータをもとに、キャラクターとの会話インタフェースを表示するである。 The server sends the acquired AI model data to the device. The device then displays a conversation interface with the character based on the received data.
ステップ8: Step 8:
ユーザが「会話開始」ボタンを押し、会話を開始するである。ユーザの音声を取得するため、端末のマイクがオンになるである。 The user presses the "Start conversation" button to begin the conversation. The device's microphone is turned on to capture the user's voice.
ステップ9: Step 9:
端末がユーザの音声を録音し、リアルタイムで音声データをテキストデータに変換するである。このテキストデータをサーバに送信するである。 The device records the user's voice and converts the voice data into text data in real time. This text data is then sent to the server.
ステップ10: Step 10:
サーバが受信したテキストデータを解析し、AIモデルを用いて応答を生成するである。例えば、ユーザが「こんにちは、キャラクターA」と言った場合、応答は「こんにちは!今日はどうしたの?」である。 The server analyzes the received text data and generates a response using an AI model. For example, if the user says "Hello, Character A," the response will be "Hello! How's your day?"
ステップ11: Step 11:
サーバが生成した応答テキストを音声データに変換し、端末に送信するである。 The response text generated by the server is converted into audio data and sent to the device.
ステップ12: Step 12:
端末が受信した音声データを再生し、ユーザに応答を提供するである。ユーザはこれを聞いて、続けて質問やコメントをすることができるである。 The device plays back the received audio data and provides a response to the user. The user can then listen to this and ask questions or make comments.
ステップ13: Step 13:
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示するである。ユーザがクレジットカード情報などを入力するである。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will then enter their credit card information, etc.
ステップ14: Step 14:
端末が入力された決済情報をサーバに送信するである。サーバは決済ゲートウェイを通じて決済処理を行うである。 The terminal sends the entered payment information to the server, which then processes the payment through the payment gateway.
ステップ15: Step 15:
サーバが決済の成功または失敗の情報を端末に送信するである。成功した場合、利用権利が更新されるである。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
ステップ16: Step 16:
端末が決済結果をユーザに通知するである。これにより、ユーザは引き続きシステムを使用できるである。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(実施例1) (Example 1)
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, Example 1 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来のキャラクターや人物との対話システムにおいては、リアルタイムでの音声会話を実現することが難しく、利用者に満足のいく体験を提供することができなかった。また、学習された人工知能データのユニーク性や所有権を保証する手段が不足しており、データの改ざんや不正利用のリスクが存在していた。さらに、利用者からの利用料を収受し、関係者間で公正に収益を分配する仕組みも確立されていなかった。このような問題を解決するために、新たな技術が求められている。 In conventional dialogue systems with characters or people, it was difficult to achieve real-time voice conversation, and users were unable to receive a satisfactory experience. Furthermore, there was a lack of means to guarantee the uniqueness and ownership of trained AI data, creating a risk of data tampering or unauthorized use. Furthermore, there was no established mechanism for collecting usage fees from users and distributing revenue fairly among the parties involved. New technology is needed to solve these problems.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、利用者の音声を取得し、音声認識技術を使用してテキストデータに変換する手段と、テキストデータを基にAIモデルを使用して適切な応答を生成し、その応答を音声データに変換する手段と、変換された音声データを利用者端末に送信してリアルタイムで音声会話を行う手段と、利用者からの利用料を収受し、収益を関係者間で分配する手段と、を含む。これにより、リアルタイムでの音声会話を実現し、学習されたデータのユニーク性および所有権を保証し、さらに公正な収益分配を行うことが可能となる。 In this invention, the server includes: means for learning the appearance and personality of a specific character or person using artificial intelligence technology; means for storing the learned data as a non-fungible token (NFT); means for providing an interface for users to select a conversation partner and converse with them; means for acquiring the user's voice and converting it into text data using voice recognition technology; means for generating an appropriate response based on the text data using an AI model and converting the response into voice data; means for transmitting the converted voice data to the user's terminal to conduct voice conversations in real time; and means for collecting usage fees from users and distributing revenue among the parties involved. This enables real-time voice conversations, guarantees the uniqueness and ownership of learned data, and enables fair revenue distribution.
「特定のキャラクターや人物」とは、利用者が対話する際に選択する架空または実在の人物を指し、その外見や性格、行動パターンなどがあらかじめ定義されたものである。 "Specific characters or people" refers to fictional or real people that users select when interacting, whose appearance, personality, behavior patterns, etc. are predefined.
「人工知能技術」とは、機械学習や深層学習モデルを利用して、特定のデータをもとに学習を行い、未知のデータに対しても適切な応答を生成する技術を指す。 "Artificial intelligence technology" refers to technology that uses machine learning and deep learning models to learn from specific data and generate appropriate responses even for unknown data.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を使用して作成されたユニークなデジタル資産で、所有権や真偽が保証されているものである。 A non-fungible token (NFT) is a unique digital asset created using blockchain technology with guaranteed ownership and authenticity.
「インタフェース」とは、利用者がキャラクターや人物を選択し、対話を行うために提供されるユーザーインターフェースを指し、通常はアプリケーションとして提供される。 "Interface" refers to the user interface provided to users to select and interact with characters or people, and is usually provided as an application.
「音声認識技術」とは、利用者の音声をテキストデータに変換する技術で、Google Cloud Speech-to-TextやMicrosoft Azure Speech認識サービスなどがこれに含まれる。 "Speech recognition technology" refers to technology that converts a user's voice into text data, and includes services such as Google Cloud Speech-to-Text and Microsoft Azure Speech Recognition Services.
「AIモデル」とは、収集されたデータをもとに学習されたニューラルネットワークモデルで、特定のキャラクターや人物の応答を生成するために使用されるものである。 An "AI model" is a neural network model trained based on collected data and used to generate the responses of a specific character or person.
「音声データに変換する」とは、AIモデルが生成したテキスト応答を音声合成技術を用いて音声データに変換することで、利用者が聞き取れる形にすることである。 "Converting into voice data" means using speech synthesis technology to convert the text response generated by the AI model into voice data that users can hear.
「リアルタイムで音声会話を行う」とは、利用者がキャラクターや人物と即時に音声を用いて交互にコミュニケーションを取ることができる形態を指す。 "Real-time voice conversation" refers to a form in which users can instantly communicate back and forth with characters or people using voice.
「利用料を収受する」とは、サービスの利用に対する料金を利用者から収集することであり、オンライン決済システムを用いることが多い。 "Collecting usage fees" means collecting fees from users for using a service, often using an online payment system.
「収益を関係者間で分配する」とは、収集された利用料を、キャラクターや人物の著作権者およびサービス提供者などの権利者に、公正な割合で分配することを指す。 "Distributing revenues among the parties involved" means distributing the collected usage fees in fair proportions to copyright holders of characters and people, service providers, and other rights holders.
発明を実施するための形態 Form for implementing the invention
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、利用者に対して24時間365日リアルタイムで音声会話ができるシステムである。本システムは、以下のように構成される。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. The system is configured as follows:
人工知能技術による学習 Learning using artificial intelligence technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集する。これには例えば、YouTubeやSNSなどからデータを取得するスクリプトを使用する。このデータは、TensorFlowまたはPyTorchの機械学習フレームワークを使用して学習される。データ前処理の過程では、ノイズ除去、トークン化、正規化などを行い、ニューラルネットワークモデルが構築される。学習されたモデルは、精度評価を受けた後、高精度であれば保存される。 The server collects data on the appearance, personality, and past behavior of specific characters or people. For example, it uses scripts that retrieve data from YouTube, social media, etc. This data is trained using the TensorFlow or PyTorch machine learning frameworks. During the data preprocessing process, noise removal, tokenization, normalization, etc. are performed, and a neural network model is built. The trained model is then evaluated for accuracy and saved if it is highly accurate.
NFTとしての保存 Stored as an NFT
サーバが学習されたAIデータをNFTとして保存するため、モデルデータをONNX形式に変換する。次にEthereumやBinance Smart Chainなどのブロックチェーンプラットフォームを使ってNFTを発行し、この過程でモデルのユニークな識別情報とメタデータが組み込まれる。 The server converts the model data into ONNX format to store the trained AI data as an NFT. The NFT is then issued using a blockchain platform such as Ethereum or Binance Smart Chain, which incorporates the model's unique identifier and metadata in the process.
インタフェースの提供 Providing an interface
端末がユーザに対してインタラクティブなユーザインタフェースを提供する。ユーザはReact NativeやFlutterで開発されたアプリケーションを使用してログインを行う。ログイン画面にはユーザ名とパスワードの入力フィールドがあり、ユーザは認証を行う。認証に成功すると、キャラクター選択画面が表示され、ここでユーザは対話したいキャラクターを選択する。 The device provides the user with an interactive user interface. The user logs in using an application developed with React Native or Flutter. The login screen has username and password input fields, and the user authenticates. If authentication is successful, a character selection screen is displayed, where the user selects the character they want to interact with.
リアルタイム音声会話 Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始する。端末がマイクを使用してユーザの音声を取得し、Google Cloud Speech-to-Text APIやMicrosoft Azure Speech認識サービスを使用して音声データをテキストデータに変換する。テキストデータはサーバに送信され、AIモデル(例えばGTP-3やBERT)を使用して適切な応答が生成される。この応答は音声合成エンジン(例えばAmazon PollyやGoogle Text-to-Speech)により音声データに変換され、端末に送信される。端末が音声データを再生し、リアルタイムでの会話が実現される。 The user initiates a conversation with the selected character. The device uses the microphone to capture the user's voice and converts it into text using the Google Cloud Speech-to-Text API or Microsoft Azure Speech Recognition Service. The text is sent to a server, which uses an AI model (e.g., GTP-3 or BERT) to generate an appropriate response. This response is converted into audio data by a speech synthesis engine (e.g., Amazon Polly or Google Text-to-Speech) and sent to the device. The device plays back the audio data, enabling real-time conversation.
利用料の収受と収益分配 Collection of usage fees and revenue sharing
ユーザがサービスを利用する際に支払う利用料は、端末が支払い情報を取得することにより収受される。決済処理はサーバがStripeやPayPalのAPIを使用して行う。収受された利用料は、キャラクターや人物の著作権者およびサービス提供者に公平に分配される。 The usage fee paid by users when using the service is collected by the device acquiring payment information. Payment processing is carried out by the server using the Stripe or PayPal API. The collected usage fee is distributed fairly among the copyright holders of the characters and people and the service provider.
具体例 Specific examples
1. ユーザログインとキャラクター選択 1. User login and character selection
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力データをサーバに送信し、認証が行われる。認証が成功すると、ホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the input data to the server and authentication is performed. If authentication is successful, the home screen is displayed.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Character Selection" button on the home screen and selects "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは、私はキャラクターA。今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on the AI model. For example, the response generated might be, "Hello, I'm Character A. How's your day?"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザが応答を聞くことができる。 The generated response is converted into audio data and sent to the device. The device plays the audio data, allowing the user to hear the response.
プロンプト文の例 Example prompt
「こんにちは、私はキャラクターA。今日はどうしたの?」 "Hello, I'm Character A. How's your day going?"
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、またイベント開催や著名人の誘致にかかる高額なコストを削減することもできるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and also reduces the high costs associated with hosting events and inviting celebrities to attend.
実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.
ステップ1:データ収集 Step 1: Data Collection
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集する。入力として、YouTube動画のリンクやSNSの投稿URLなどが提供される。データはスクレイピング技術やAPIを利用して取得される。出力は、取得されたテキスト、画像、音声データである。 The server collects data on the appearance, personality, and past behavior of specific characters or people. Inputs include links to YouTube videos and URLs of social media posts. The data is obtained using scraping technology and APIs. The output is the obtained text, images, and audio data.
ステップ2:データ前処理 Step 2: Data Preprocessing
サーバが収集したデータを前処理する。入力として、ステップ1で収集された生データが提供される。具体的には、ノイズ除去、テキストのトークン化、正規化などの処理が行われる。例えば、テキストデータから不要な特殊文字を削除し、標準的なフォーマットに変換する。出力は、前処理済みのデータである。 The server preprocesses the collected data. The raw data collected in step 1 is provided as input. Specifically, processes such as noise removal, text tokenization, and normalization are performed. For example, unnecessary special characters are removed from the text data and it is converted into a standard format. The output is the preprocessed data.
ステップ3:モデルの学習 Step 3: Train the model
サーバが前処理されたデータを用いて、人工知能モデル(例えばTensorFlowやPyTorch)を学習させる。入力として、ステップ2で前処理済みのデータが提供される。具体的な動作としては、データをバッチに分割し、GPUを使用してモデルのパラメータを最適化する。出力は、学習済みの高精度モデルである。 The server uses the preprocessed data to train an artificial intelligence model (e.g., TensorFlow or PyTorch). The preprocessed data from step 2 is provided as input. Specifically, the data is divided into batches and the model parameters are optimized using a GPU. The output is a trained, highly accurate model.
ステップ4:モデルの評価と保存 Step 4: Evaluate and save the model
サーバが学習済みのモデルを評価し、保存する。入力として、ステップ3で学習されたモデルと検証データセットが使用される。具体的な動作としては、モデルの精度を検証データを用いて評価し、精度が基準を満たす場合には、モデルを保存する。出力は、評価結果および保存されたモデルである。 The server evaluates and saves the trained model. The model trained in step 3 and the validation dataset are used as input. Specifically, the accuracy of the model is evaluated using the validation data, and if the accuracy meets the criteria, the model is saved. The output is the evaluation results and the saved model.
ステップ5:NFTとしての保存 Step 5: Save as an NFT
サーバが学習済みのAIモデルをNFTとして保存する。入力として、ステップ4で保存されたモデルデータが使用される。具体的には、モデルをONNX形式に変換し、ブロックチェーンプラットフォーム(例えばEthereumやBinance Smart Chain)でNFTを発行する。出力は、NFTとして保存されたモデルデータである。 The server saves the trained AI model as an NFT. The model data saved in step 4 is used as input. Specifically, the model is converted to ONNX format and an NFT is issued on a blockchain platform (e.g., Ethereum or Binance Smart Chain). The output is the model data saved as an NFT.
ステップ6:ユーザ認証とキャラクター選択 Step 6: User authentication and character selection
端末がユーザに対してログイン画面を表示し、認証を行う。入力として、ユーザ名とパスワードが提供される。具体的な動作としては、認証データがサーバに送信され、データベースと照合される。認証が成功すると、キャラクター選択画面が表示される。出力は、選択されたキャラクター情報である。 The device displays a login screen for the user and performs authentication. A username and password are provided as input. The authentication data is sent to the server and checked against a database. If authentication is successful, the character selection screen is displayed. The output is information about the selected character.
ステップ7:音声入力の取得と変換 Step 7: Capture and convert audio input
端末がマイクを使用して、ユーザの音声を取得する。入力として、ユーザの音声データが提供される。具体的な動作として、Google Cloud Speech-to-Text APIを用いて音声をテキストデータに変換する。出力は、テキストデータである。 The device uses a microphone to capture the user's voice. The user's voice data is provided as input. Specifically, the voice is converted into text data using the Google Cloud Speech-to-Text API. The output is text data.
ステップ8:応答生成 Step 8: Generate a response
サーバがテキストデータを受け取り、AIモデルを使用して応答を生成する。入力として、ステップ7で変換されたテキストデータが提供される。具体的には、AIモデル(例えばGPT-3やBERT)がテキストデータを解析し、適切な応答を生成する。出力は、生成された応答のテキストデータである。 The server receives the text data and generates a response using an AI model. The text data converted in step 7 is provided as input. Specifically, the AI model (e.g., GPT-3 or BERT) analyzes the text data and generates an appropriate response. The output is the text data of the generated response.
ステップ9:音声への変換と送信 Step 9: Convert to audio and send
サーバが生成されたテキスト応答を音声データに変換し、端末に送信する。入力として、ステップ8で生成されたテキストデータが提供される。具体的な動作として、Amazon PollyやGoogle Text-to-Speechを用いて音声データに変換する。出力は、音声データである。 The server converts the generated text response into audio data and sends it to the device. The text data generated in step 8 is provided as input. Specifically, it converts it into audio data using Amazon Polly or Google Text-to-Speech. The output is audio data.
ステップ10:リアルタイム音声会話の再生 Step 10: Play real-time audio conversations
端末が音声データを受け取り、スピーカーで再生する。入力として、ステップ9で送信された音声データが提供される。具体的な動作としては、音声データをデコードし、スピーカーで再生することで、ユーザが聞き取れる形にする。出力は、リアルタイムで再生される音声である。 The device receives the audio data and plays it on the speaker. The input is the audio data sent in step 9. Specifically, it decodes the audio data and plays it on the speaker so that the user can hear it. The output is audio played in real time.
ステップ11:利用料の収受と分配 Step 11: Collection and distribution of usage fees
端末が利用料を収受するための支払い情報を取得し、サーバに送信する。入力として、支払い情報が提供される。サーバがStripeやPayPalのAPIを用いて決済を処理し、収益を関係者間で分配する。具体的な動作として、支払い処理の確認後、銀行振込や暗号通貨で分配を行う。出力は、分配された収益である。 The terminal obtains payment information to collect usage fees and sends it to the server. Payment information is provided as input. The server processes the payment using Stripe or PayPal APIs and distributes revenue among the parties involved. Specifically, after confirming the payment process, the revenue is distributed via bank transfer or cryptocurrency. The output is the distributed revenue.
(応用例1) (Application Example 1)
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain Application Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
現在、実店舗に訪れた顧客に対して高品質な接客サービスを提供することは、多くの人件費とリソースを必要とする。また、店舗内で特定の商品に関する詳細情報を案内することが困難であるため、顧客の満足度を高めることが難しい。さらに、顧客が自身の好みや関心に基づいて商品を選択できるようなパーソナライズされた案内が求められているが、その実現も複雑である。このような課題を解決するためには、リアルタイムで顧客と対話し、パーソナライズされた案内を提供するシステムが必要である。 Currently, providing high-quality customer service to customers visiting physical stores requires a lot of labor and resources. It is also difficult to provide detailed information about specific products in the store, making it difficult to increase customer satisfaction. Furthermore, while there is a demand for personalized guidance that allows customers to select products based on their preferences and interests, achieving this is complex. To solve these challenges, a system that can interact with customers in real time and provide personalized guidance is needed.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、特定の仮想人物の特徴を機械学習技術によって学習させる手段と、学習された情報を非代替性符号(NFT)として保存する手段と、利用者が対話相手を選択し、会話を行うための操作画面を提供する手段と、リアルタイムで音声通信を行う手段と、利用者からのサービス料金を受け取り、収入を関連する関係者間で分配する手段と、実店舗における顧客と仮想人物の会話を支援する表示装置を用いた案内を行う手段と、利用者が店舗内で商品情報を取得し、キャラクターを通じて支援を受けることができる手段と、を含む。これにより、実店舗における顧客の体験を向上させ、パーソナライズされた高品質な接客サービスを提供することが可能となる。 In this invention, the server includes means for learning the characteristics of a specific virtual character using machine learning technology, means for saving the learned information as a non-fungible character (NFT), means for providing an operation screen on which a user can select a conversation partner and conduct a conversation, means for real-time voice communication, means for receiving service fees from users and distributing revenue among relevant parties, means for providing guidance using a display device that supports conversations between customers and virtual characters in physical stores, and means for users to obtain product information in the store and receive support through the character. This makes it possible to improve the customer experience in physical stores and provide personalized, high-quality customer service.
「特定の仮想人物の特徴」とは、キャラクターや有名人の外見、性格、過去の言動などの情報を含むデータのことである。 "Characteristics of a specific virtual person" refers to data including information such as the appearance, personality, and past words and actions of a character or celebrity.
「機械学習技術」とは、コンピュータがデータから自動的に学習し、予測や分類を行う技術のことである。 "Machine learning technology" is a technology that allows computers to automatically learn from data and make predictions and classifications.
「非代替性符号(NFT)」とは、ブロックチェーン技術を用いて唯一性と所有権を保証されたデジタル資産のことである。 A "Non-Fungible Trading Card (NFT)" is a digital asset whose uniqueness and ownership are guaranteed using blockchain technology.
「操作画面」とは、利用者が対話相手を選択し、会話を行うためのインターフェースを提供するための表示画面のことである。 An "operation screen" is a display screen that provides an interface for users to select a conversation partner and conduct a conversation.
「リアルタイムで音声通信」とは、利用者が選択したキャラクターと即時に音声でやり取りを行う技術のことである。 "Real-time voice communication" refers to technology that allows users to instantly communicate via voice with a character of their choice.
「サービス料金」とは、利用者がサービスの利用対価として支払う金銭のことである。 "Service fee" refers to the amount of money paid by the user in consideration for using the service.
「関連する関係者」とは、キャラクターやシステムの提供者、開発者などの収益分配の対象となる人や団体のことである。 "Related parties" refers to people or organizations that are subject to revenue sharing, such as character or system providers and developers.
「表示装置」とは、実店舗に設置されるディスプレイやスマート眼鏡、ヘッドマウントディスプレイ(HMD)など、情報を表示するためのハードウェアのことである。 "Display devices" refer to hardware for displaying information, such as displays installed in physical stores, smart glasses, and head-mounted displays (HMDs).
「仮想人物の会話を支援する」とは、特定の仮想人物がユーザと音声でやり取りを行い、案内や情報提供を行うことを指す。 "Supporting virtual character conversations" refers to a specific virtual character communicating with the user via voice, providing guidance and information.
「商品情報を取得」とは、店舗内の商品に関する詳細な情報を閲覧または取得することである。 "Get product information" means viewing or obtaining detailed information about products in the store.
「キャラクターを通じて支援を受ける」とは、仮想人物がユーザに対して商品やサービスの案内や説明を行うことを意味する。 "Receiving support through a character" means that a virtual character guides or explains products or services to the user.
この発明を実施するためには、以下のようなシステム構成が必要である。システムは主要なコンポーネントとして、サーバ、端末、およびユーザによって構成される。 To implement this invention, the following system configuration is required. The system consists of a server, a terminal, and a user as its main components.
1. システムのプログラム 1. System Programming
サーバは、特定の仮想人物の特徴を機械学習技術によって学習させるデータベースを構築する。端末は、ユーザが対話相手を選択し、その仮想人物とリアルタイムで音声通信を行うための操作画面を提供する。また、サーバは学習された情報を非代替性符号(NFT)として保存する。 The server builds a database that uses machine learning technology to learn the characteristics of specific virtual characters. The terminal provides an operation screen that allows the user to select a conversation partner and engage in real-time voice communication with that virtual character. The server also stores the learned information as a non-fungible character (NFT).
端末は、利用者が対話相手である仮想人物を選択する際の操作画面を表示し、選択情報をサーバに送信する。利用者がリアルタイムで音声通信を行うとき、端末は利用者の音声をテキスト情報に変換し、そのテキスト情報をサーバに送信する。 The terminal displays an operation screen that allows the user to select a virtual person to interact with, and transmits the selection information to the server. When the user communicates via voice in real time, the terminal converts the user's voice into text information and transmits that text information to the server.
サーバは、受信したテキスト情報を機械学習モデルに供給し、会話に基づく応答を生成する。その生成された応答は、サーバによって音声データに変換され、端末に送信される。端末は音声データを再生し、ユーザに対して仮想人物の応答を提供する。 The server feeds the received text information into a machine learning model to generate a response based on the conversation. The generated response is converted into audio data by the server and sent to the device. The device plays the audio data and provides the virtual character's response to the user.
2. 処理の説明 2. Processing Description
サーバは、Pythonなどのプログラミング言語を使用して実装される。機械学習技術としては、NLP(自然言語処理)モデルであるGPT-3などを使用する。また、音声認識にはGoogle Speech Recognition、音声合成にはpyttsx3などのライブラリを利用する。 The server is implemented using programming languages such as Python. Machine learning techniques include the NLP (natural language processing) model GPT-3. Libraries such as Google Speech Recognition are used for voice recognition and pyttsx3 for voice synthesis.
端末には、スマート眼鏡やヘッドマウントディスプレイ(HMD)、マイクロフォンなどのハードウェアが含まれる。端末は、ユーザの音声を認識し、それをサーバに送信する。サーバは音声をテキストに変換し、NLPモデルによって適切な応答を生成する。その後、サーバは応答を音声データに変換し、再び端末に送信する。 The device includes hardware such as smart glasses, a head-mounted display (HMD), and a microphone. The device recognizes the user's voice and sends it to the server. The server converts the voice into text and generates an appropriate response using an NLP model. The server then converts the response into audio data and sends it back to the device.
具体的な例として、ユーザが実店舗に入店し、スマート眼鏡を装着する。ユーザが「おすすめの商品を教えてください」と話しかけると、端末のマイクがユーザの音声を拾い、サーバに送信する。サーバはそのテキストデータを解析し、「GPT-3」を用いて応答を生成する。その応答が「現在、このスマートウォッチがおすすめです。最新モデルでバッテリー寿命が長く、健康管理機能も充実しています」といった形で生成される。 As a specific example, a user enters a physical store and puts on a pair of smart glasses. When the user says, "What products do you recommend?", the device's microphone picks up the user's voice and sends it to the server. The server analyzes the text data and generates a response using GPT-3. The response might be something like, "Currently, we recommend this smartwatch. It's the latest model with a long battery life and comprehensive health management features."
生成された応答は音声データに変換され、端末に送信される。端末はその音声データを再生し、ユーザが仮想人物の声を聞くことができる。 The generated response is converted into audio data and sent to the device. The device then plays the audio data, allowing the user to hear the voice of the virtual character.
3. 具体例とプロンプト文の例 3. Specific examples and prompt sentence examples
実際の使用例として、ユーザがスマート眼鏡を装着し、店舗内でサポートを求めるシチュエーションを考える。例えば、ユーザが「こんにちは、おすすめの商品を教えてください」と発言した場合。 As a practical example, consider a situation where a user wears smart glasses and asks for assistance in a store. For example, the user might say, "Hello, what products do you recommend?"
プロンプト文の例: Example prompt:
顧客の質問:「こんにちは、おすすめの商品を教えてください」 Customer Question: "Hello, what products do you recommend?"
生成AIモデルへのプロンプト文:「顧客はあなたに商品のおすすめを尋ねました。どのように返答しますか?」 Prompt for generative AI model: "A customer asked you for a product recommendation. How would you respond?"
応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the specific processing in Application Example 1 will be explained using Figure 12.
プログラムの処理ステップ Program processing steps
ステップ1: Step 1:
ユーザがスマート眼鏡を装着し、アプリケーションを起動する。入力はスマート眼鏡の初期化データであり、出力はログイン画面の表示である。具体的には、端末がユーザに対してログイン画面を表示し、ユーザがログイン情報を入力する。 The user puts on the smart glasses and launches the application. The input is the smart glasses' initialization data, and the output is the display of a login screen. Specifically, the device displays the login screen to the user, and the user enters their login information.
ステップ2: Step 2:
ユーザがログイン情報を入力し、ログインボタンを押す。入力はログイン情報であり、出力はサーバへの認証リクエストである。端末はユーザの入力情報をサーバに送信し、サーバが認証を行う。 The user enters login information and presses the login button. The input is login information, and the output is an authentication request to the server. The device sends the user's input information to the server, and the server performs authentication.
ステップ3: Step 3:
サーバがユーザのログイン情報を認証し、結果を端末に返す。入力はユーザのログイン情報であり、出力は認証結果である。具体的には、サーバがデータベースを検索し、ログイン情報を確認する。成功の場合、端末にホーム画面を表示する。 The server authenticates the user's login information and returns the result to the device. The input is the user's login information, and the output is the authentication result. Specifically, the server searches the database and confirms the login information. If successful, the home screen is displayed on the device.
ステップ4: Step 4:
ユーザがホーム画面から対話相手のキャラクターを選択する。入力はキャラクター選択情報であり、出力はサーバへの選択情報の送信である。端末は選択されたキャラクター情報をサーバに送信し、サーバが対応する学習データを取得する。 The user selects a character to interact with from the home screen. The input is character selection information, and the output is sending the selection information to the server. The device sends the selected character information to the server, and the server obtains the corresponding learning data.
ステップ5: Step 5:
サーバが選択されたキャラクターの学習データを取得し、端末に送信する。入力はキャラクター選択情報であり、出力は学習データである。サーバは学習データベースから該当データを取り出し、端末に送信する。 The server obtains the learning data for the selected character and sends it to the device. The input is the character selection information, and the output is the learning data. The server retrieves the relevant data from the learning database and sends it to the device.
ステップ6: Step 6:
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって音声を入力する。入力はユーザの音声であり、出力はテキストデータである。端末は音声認識を用いてユーザの音声をテキストに変換し、そのテキストデータをサーバに送信する。 The user presses the "Start conversation" button and speaks into the device's microphone. The input is the user's voice, and the output is text data. The device uses voice recognition to convert the user's voice into text and sends the text data to the server.
ステップ7: Step 7:
サーバがユーザのテキストデータを受信し、生成AIモデルを使用して適切な応答を生成する。入力はユーザのテキストデータであり、出力は生成された応答である。サーバはNLPモデル(例:GPT-3)を使用して応答を生成する。 The server receives the user's text data and generates an appropriate response using a generative AI model. The input is the user's text data and the output is the generated response. The server generates the response using an NLP model (e.g., GPT-3).
ステップ8: Step 8:
サーバが生成した応答を音声データに変換し、端末に送信する。入力は生成された応答であり、出力は音声データである。サーバは音声合成ライブラリ(例:pyttsx3)を使用して音声データを生成し、端末に送信する。 The response generated by the server is converted into audio data and sent to the device. The input is the generated response, and the output is audio data. The server uses a speech synthesis library (e.g., pyttsx3) to generate the audio data and send it to the device.
ステップ9: Step 9:
端末がサーバから受信した音声データを再生し、ユーザに聞かせる。入力は音声データであり、出力は音声の再生である。端末は音声データを再生し、ユーザが仮想人物の応答を聞くことができる。 The device plays back the audio data received from the server and lets the user listen. The input is audio data, and the output is audio playback. The device plays back the audio data, allowing the user to hear the virtual character's response.
ステップ10: Step 10:
ユーザがサービスを終了する場合、アプリケーションを終了する操作を行う。入力は終了操作であり、出力はアプリケーションの終了である。端末はアプリケーションを終了し、スマート眼鏡の表示を停止する。 When the user wants to end the service, they perform an operation to end the application. The input is the end operation, and the output is to end the application. The device will end the application and stop displaying the smart glasses.
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 It is also possible to further combine an emotion engine that estimates the user's emotion. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、ユーザに対して24時間365日リアルタイムで音声会話ができるシステムである。また、本発明は感情エンジンを組み合わせることで、ユーザの感情を認識し、その感情に基づいた適応的な応答を提供することができる。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and enables real-time voice conversations with users 24 hours a day, 365 days a year. Furthermore, by combining this invention with an emotion engine, it is possible to recognize the user's emotions and provide adaptive responses based on those emotions.
システムの構成 System Configuration
1. 人工知能技術による学習 1. Learning with AI technology
サーバが特定のキャラクターや人物の外見、性格、過去の言動データを収集し、人工知能アルゴリズムを使用してこれらの情報を学習する。学習結果はキャラクターの特定の行動パターンや応答パターンを含み、高精度なモデルとして保存される。 The server collects data on the appearance, personality, and past behavior of specific characters or people, and uses an artificial intelligence algorithm to learn this information. The learning results, including the character's specific behavior and response patterns, are saved as a highly accurate model.
2. NFTとしての保存 2. Save as an NFT
サーバが学習されたAIデータをNFTとして保存し、ブロックチェーン技術を用いてそのユニーク性と所有権を保証する。 The server stores the learned AI data as an NFT, using blockchain technology to guarantee its uniqueness and ownership.
3. インタフェースの提供 3. Providing an interface
端末がユーザに対話相手を選択するためのインタフェースを提供する。利用者はログインし、好きなキャラクターを選択することができる。 The device provides the user with an interface for selecting a conversation partner. Users can log in and select their favorite character.
4. リアルタイム音声会話 4. Real-time voice conversation
ユーザが選択したキャラクターとの会話を開始するための操作を行う。端末がユーザの音声を取得し、それを文字データに変換してサーバに送信する。 The user performs an operation to start a conversation with the selected character. The device captures the user's voice, converts it into text data, and sends it to the server.
サーバが受信した文字データを基に、AIモデルを使用して適切な応答を生成する。この応答は再び音声データに変換され、端末に送信される。 Based on the text data received by the server, an appropriate response is generated using an AI model. This response is then converted back into audio data and sent to the device.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
5. 感情エンジンの統合 5. Emotional Engine Integration
サーバがユーザの音声データを利用して感情を解析するための感情エンジンを備えている。感情エンジンは音声データからユーザの感情状態(例えば喜び、悲しみ、怒りなど)を解析する。 The server is equipped with an emotion engine that uses the user's voice data to analyze emotions. The emotion engine analyzes the user's emotional state (e.g., joy, sadness, anger, etc.) from the voice data.
感情解析結果を基に、AIモデルは応答内容を適応的に変更する。例えば、ユーザが悲しそうな声で話す場合、「元気を出して!」というような応答が生成される。 Based on the results of emotion analysis, the AI model adaptively changes the response content. For example, if the user speaks in a sad voice, a response such as "Cheer up!" will be generated.
6. 利用料の収受と収益分配 6. Usage Fee Collection and Revenue Sharing
サーバがユーザからの利用料を収受する。決済処理は端末を通じて行われる。収益は関係者間で分配される。これには、キャラクターや人物の著作権者、サービス提供者が含まれる。 The server collects usage fees from users. Payments are processed through the terminal. Revenues are distributed among the parties involved, including the copyright holders of characters and people, and service providers.
具体例 Specific examples
1. ユーザがログインし、キャラクターを選択する 1. The user logs in and selects a character.
ユーザがアプリを開き、ログイン画面で「user123」と「password123」を入力してログインする。端末が入力されたデータをサーバに送信し、認証が行われる。認証が成功すると、端末にホーム画面が表示される。 The user opens the app and logs in by entering "user123" and "password123" on the login screen. The device sends the entered data to the server and authentication is performed. If authentication is successful, the home screen is displayed on the device.
ユーザがホーム画面から「キャラクター選択」ボタンを押し、例えば「キャラクターA」を選択する。端末が選択されたキャラクター情報をサーバに送信し、サーバが対応するAIデータを取得して端末に送信する。 The user presses the "Select Character" button on the home screen and selects, for example, "Character A." The device sends the selected character information to the server, and the server retrieves the corresponding AI data and sends it to the device.
2. 実際の会話の開始と進行 2. Initiating and conducting actual conversations
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。端末が音声をテキストに変換し、サーバに送信する。 The user presses the "Start Conversation" button and speaks "Hello, Character A" into the device's microphone. The device converts the speech into text and sends it to the server.
サーバがテキストデータを解析し、AIモデルを基に適切な応答を生成する。例えば、「こんにちは!今日はどうしたの?」という応答が生成される。 The server analyzes the text data and generates an appropriate response based on an AI model. For example, it might respond with "Hello! How's your day?"
サーバは同時に、音声データを感情エンジンに送信し、ユーザの感情状態を解析する。 At the same time, the server sends the voice data to the emotion engine, which analyzes the user's emotional state.
感情エンジンが感情状態を解析し、その結果をAIモデルにフィードバックする。例えば、ユーザの声が悲しそうであれば、応答内容は「元気を出して!」という励ましのメッセージに変更される。 The emotion engine analyzes the user's emotional state and feeds the results back to the AI model. For example, if the user sounds sad, the response will be changed to an encouraging message such as "Cheer up!"
生成された応答は音声データに変換され、端末に送信される。端末が音声データを再生し、ユーザに応答を提供する。 The generated response is converted into audio data and sent to the device, which then plays the audio data and provides the response to the user.
3. 利用料の決済と収益分配 3. Payment of fees and revenue sharing
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示する。ユーザがクレジットカード情報などを入力する。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will enter their credit card information, etc.
端末が入力された決済情報をサーバに送信する。サーバが決済ゲートウェイを通じて決済処理を行う。 The terminal sends the entered payment information to the server, which processes the payment through the payment gateway.
サーバが決済の成功または失敗の情報を端末に送信する。成功した場合、利用権利が更新される。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
端末が決済結果をユーザに通知する。これにより、ユーザは引き続きシステムを使用できる。 The terminal will notify the user of the payment result, allowing them to continue using the system.
これにより、本システムはファンが24時間365日、自身の好きなキャラクターや人物と安全かつ手軽に交流を楽しむことができ、さらにユーザの感情に応じた適切な応答を提供することで、よりパーソナルで親密なコミュニケーションを実現することができるのである。 This system allows fans to safely and easily interact with their favorite characters and people 24 hours a day, 365 days a year, and by providing appropriate responses based on the user's emotions, it enables more personal and intimate communication.
以下に、処理の流れについて説明する。 The processing flow is explained below.
ステップ1: Step 1:
ユーザがアプリケーションを開く。ユーザがログイン画面にアクセスし、IDとパスワードを入力するである。 The user opens the application. The user accesses the login screen and enters their ID and password.
ステップ2: Step 2:
端末がユーザの入力を受け取り、IDとパスワード情報をサーバに送信する。通信は暗号化されているである。 The device receives the user's input and sends the ID and password information to the server. The communication is encrypted.
ステップ3: Step 3:
サーバが受信したIDとパスワードをデータベースから確認し、ユーザ認証を行うである。もしIDとパスワードが一致しない場合、エラーメッセージを端末に送信するである。 The server checks the received ID and password against a database and authenticates the user. If the ID and password do not match, an error message is sent to the terminal.
ステップ4: Step 4:
サーバが認証に成功した場合、セッション情報を生成し、端末に送り返すである。端末は受け取ったセッション情報を使用して、ホーム画面を表示するである。 If the server successfully authenticates, it generates session information and sends it back to the device. The device uses the received session information to display the home screen.
ステップ5: Step 5:
ユーザがホーム画面から「キャラクター選択」ボタンを押し、対話相手となるキャラクターを選択するである。 The user presses the "Character Selection" button on the home screen and selects the character they want to interact with.
ステップ6: Step 6:
端末がユーザの選択を受け取り、キャラクターIDをサーバに送信するである。サーバは選択されたキャラクターのAIモデルデータを取得するである。 The device receives the user's selection and sends the character ID to the server. The server then retrieves the AI model data for the selected character.
ステップ7: Step 7:
サーバが取得したAIモデルデータを端末に送信するである。端末は受信したデータをもとに、キャラクターとの会話インタフェースを表示するである。 The server sends the acquired AI model data to the device. The device displays a conversation interface with the character based on the received data.
ステップ8: Step 8:
ユーザが「会話開始」ボタンを押し、会話を開始するである。ユーザの音声を取得するため、端末のマイクがオンになるである。 The user presses the "Start conversation" button to begin the conversation. The device's microphone is turned on to capture the user's voice.
ステップ9: Step 9:
端末がユーザの音声を録音し、リアルタイムで音声データをテキストデータに変換するである。このテキストデータをサーバに送信するである。 The device records the user's voice and converts the voice data into text data in real time. This text data is then sent to the server.
ステップ10: Step 10:
サーバが受信したテキストデータを解析し、AIモデルを用いて応答を生成するである。例えば、ユーザが「こんにちは、キャラクターA」と言った場合、応答は「こんにちは!今日はどうしたの?」である。 The server analyzes the received text data and generates a response using an AI model. For example, if the user says "Hello, Character A," the response will be "Hello! How's your day?"
ステップ11: Step 11:
サーバは同時に、ユーザの音声データを感情エンジンに送信し、ユーザの感情状態を解析するである。感情エンジンが音声データを解析し、ユーザの感情状態(喜び、悲しみ、怒りなど)を特定するである。 At the same time, the server sends the user's voice data to the emotion engine, which analyzes the user's emotional state. The emotion engine analyzes the voice data and identifies the user's emotional state (joy, sadness, anger, etc.).
ステップ12: Step 12:
感情エンジンが解析結果をサーバに送り返し、サーバがその結果をもとに応答内容を適応的に変更するである。例えば、ユーザが悲しそうな声で話す場合、応答は「元気を出して!」になるである。 The emotion engine sends the analysis results back to the server, which then adaptively changes the response based on the results. For example, if the user speaks in a sad voice, the response will be "Cheer up!"
ステップ13: Step 13:
サーバが応答テキストを音声データに変換し、端末に送信するである。 The server converts the response text into audio data and sends it to the device.
ステップ14: Step 14:
端末が受信した音声データを再生し、ユーザに応答を提供するである。ユーザはこれを聞いて、続けて質問やコメントをすることができるである。 The device plays back the received audio data and provides a response to the user. The user can then listen to this and ask questions or make comments.
ステップ15: Step 15:
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示するである。ユーザがクレジットカード情報などを入力するである。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will then enter their credit card information, etc.
ステップ16: Step 16:
端末が入力された決済情報をサーバに送信するである。サーバは決済ゲートウェイを通じて決済処理を行うである。 The terminal sends the entered payment information to the server, which then processes the payment through the payment gateway.
ステップ17: Step 17:
サーバが決済の成功または失敗の情報を端末に送信するである。成功した場合、利用権利が更新されるである。 The server sends information about the success or failure of the payment to the terminal. If successful, the usage rights are updated.
ステップ18: Step 18:
端末が決済結果をユーザに通知するである。これにより、ユーザは引き続きシステムを使用できるである。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(実施例2) (Example 2)
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, Example 2 will be described. In the following description, the data processing device 12 will be referred to as a "server" and the robot 414 will be referred to as a "terminal."
従来の人工知能を用いた音声会話システムでは、キャラクターや人物の外見および性格を効率的に学習させ、ユーザとのリアルタイム音声会話を行うことが難しかった。また、ユーザの感情に応じた適応的な応答を提供するための技術も十分に発展していなかったため、ユーザに対して自然でパーソナルなコミュニケーションを実現することができなかった。 With conventional voice conversation systems using artificial intelligence, it was difficult to efficiently learn the appearance and personality of characters or people and conduct real-time voice conversations with users. Furthermore, technology for providing adaptive responses based on the user's emotions was not sufficiently developed, making it impossible to achieve natural, personal communication with users.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者の音声から感情を解析し、解析結果に基づいて応答を適応的に変更する手段と、を含む。これにより、キャラクターや人物の特徴を高精度に学習し、そのデータを安全に保存し、ユーザの感情に応じた柔軟な応答を提供することが可能となる。 In this invention, the server includes means for learning the appearance and personality of a specific character or person using artificial intelligence technology, means for saving the learned data as a non-fungible token (NFT), and means for analyzing emotions from the user's voice and adaptively changing responses based on the analysis results. This makes it possible to learn the characteristics of characters and people with high accuracy, safely store that data, and provide flexible responses that correspond to the user's emotions.
「特定のキャラクターや人物」とは、ユーザが対話相手として選択することができる架空または実在の人物やキャラクターを指す。 "Specific characters or persons" refers to fictional or real people or characters that users can select as their conversation partners.
「人工知能技術」とは、機械学習や深層学習などの技術を用いて、データからパターンを抽出し、予測や分類を行う技術を指す。 "Artificial intelligence technology" refers to technology that uses techniques such as machine learning and deep learning to extract patterns from data and make predictions and classifications.
「学習する手段」とは、データを収集し、そのデータに基づいてAIモデルを生成するプロセスを指す。 "Means of learning" refers to the process of collecting data and generating an AI model based on that data.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を用いてデジタルデータの唯一性と所有権を保証するためのトークンを指す。 A "non-fungible token (NFT)" is a token that uses blockchain technology to guarantee the uniqueness and ownership of digital data.
「インタフェースを提供する手段」とは、ユーザがシステムにアクセスし、操作するための画面やメニューを提供する方法を指す。 "Means of providing an interface" refers to the method of providing screens and menus that allow users to access and operate the system.
「リアルタイムで音声会話を行う手段」とは、ユーザとキャラクターが即時に音声で対話を行うための技術を指す。 "Means for conducting real-time voice conversation" refers to technology that allows users and characters to have instant voice conversations.
「利用者の音声から感情を解析する手段」とは、ユーザの音声データを基に、その感情状態を分析する技術を指す。 "Means for analyzing emotions from a user's voice" refers to technology that analyzes a user's emotional state based on their voice data.
「応答を適応的に変更する手段」とは、感情解析の結果に基づいて、AIの応答内容を変更する方法を指す。 "Means for adaptively changing responses" refers to a method for changing the AI's response content based on the results of emotion analysis.
「利用料を収受し、収益を関係者間で分配する手段」とは、ユーザからサービス利用料を徴収し、得られた収益を関係者に分配する仕組みを指す。 "Means for collecting usage fees and distributing revenue among parties" refers to a system for collecting service usage fees from users and distributing the revenue obtained among parties.
発明を実施するための形態 Form for implementing the invention
本発明は、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させ、その学習データを非代替性トークン(NFT)として保存し、ユーザに対して24時間365日リアルタイムで音声会話を提供するシステムである。また、感情エンジンを組み合わせることで、ユーザの感情を認識し、その感情に基づいた適応的な応答を提供することができる。 This invention is a system that uses artificial intelligence technology to learn the appearance and personality of specific characters or people, stores that learning data as non-fungible tokens (NFTs), and provides users with real-time voice conversations 24 hours a day, 365 days a year. Furthermore, by combining it with an emotion engine, it is possible to recognize the user's emotions and provide adaptive responses based on those emotions.
システムの概要 System Overview
このシステムは以下の主要なコンポーネントによって構成される: The system consists of the following main components:
1. サーバ 1. Server
2. 端末 2. Device
3. ユーザ 3. User
サーバの役割 Server Role
1. 学習データ収集とAIモデルの生成 1. Training data collection and AI model generation
サーバは特定のキャラクターや人物の外見、性格、過去の行動データを収集する。データには、動画、音声ファイル、テキストデータなどが含まれる。 The server collects data on the appearance, personality, and past behavior of specific characters and people. This data includes video, audio files, text data, etc.
収集したデータはAIアルゴリズム(例えば、TensorFlowやPyTorch)を用いて学習させる。学習の初期段階で、データの前処理(ノイズ除去、テキストの正規化など)を行う。 The collected data is trained using an AI algorithm (e.g., TensorFlow or PyTorch). During the initial training stage, data preprocessing (noise removal, text normalization, etc.) is performed.
完成したモデルをデータベースに保存する。 Save the completed model in the database.
2. NFTとしてのデータ保存 2. Data storage as NFTs
学習したAIデータを非代替性トークン(NFT)として保存する。このプロセスにはブロックチェーン技術(例えば、Ethereum)を用いる。 The learned AI data is stored as a non-fungible token (NFT). This process uses blockchain technology (e.g., Ethereum).
サーバは生成されたNFTをブロックチェーンに登録し、所有者情報を保持する。 The server registers the generated NFT on the blockchain and maintains owner information.
3. 感情分析と応答の適応 3. Sentiment Analysis and Response Adaptation
サーバは感情エンジン(例えば、IBM Watsonの感情認識API)を用いてユーザの音声データを解析する。解析結果を基に、AIモデルは応答内容を適応的に変更する。 The server uses an emotion engine (for example, IBM Watson's emotion recognition API) to analyze the user's voice data. Based on the analysis results, the AI model adaptively changes the response content.
例えば、ユーザが「今日はちょっと気分が落ち込んでいる」と言った場合、感情認識によって「元気を出して!」といった応答が生成される。 For example, if a user says, "I'm feeling a bit down today," emotion recognition can generate a response such as, "Cheer up!"
4. 利用料の収受と収益分配 4. Usage fee collection and revenue sharing
サーバは利用料を収受し、決済処理を管理する。決済は、利用者が端末から入力したクレジットカード情報などを使用して行われる。 The server collects the usage fee and manages the payment process. Payment is made using credit card information entered by the user on the terminal.
収益は関係者(キャラクターの著作権者、サービス提供者など)間で分配される。 Revenues will be distributed among the parties involved (character copyright holders, service providers, etc.).
端末の役割 Device role
1. インタフェースの提供 1. Providing an interface
端末がユーザに対話相手を選択し、会話を行うインタフェースを提供する。ユーザはアプリを立ち上げ、ログイン画面で認証情報を入力しログインする。 The device provides the user with an interface to select a conversation partner and conduct a conversation. The user launches the app, enters their authentication information on the login screen, and logs in.
ログイン後、ユーザは「キャラクター選択」ボタンを押して、好みのキャラクターを選び、そのキャラクターとの会話を開始できる。 After logging in, users can press the "Select Character" button to choose their preferred character and begin a conversation with that character.
2. 音声データの処理 2. Audio data processing
端末はユーザの音声を取得し、Google Speech-to-Textのような音声認識エンジンを利用してテキストデータに変換する。 The device captures the user's voice and converts it into text data using a speech recognition engine such as Google Speech-to-Text.
変換されたテキストデータはサーバに送信され、適切な応答が生成された後に、再び音声データに変換されて端末に送信される。 The converted text data is sent to the server, and after an appropriate response is generated, it is converted back into voice data and sent to the device.
端末が音声データを再生し、リアルタイム会話を実現する。 The device plays the audio data, enabling real-time conversations.
ユーザの役割 User Roles
1. ログインとキャラクター選択 1. Log in and select a character
ユーザはアプリを立ち上げ、ログイン画面で「user123」と「password123」のような認証情報を入力する。 The user launches the app and enters authentication information such as "user123" and "password123" on the login screen.
認証が成功すると、ホーム画面からキャラクターを選択し、選択するキャラクターとの会話を開始する。 Once authentication is successful, select a character from the home screen and begin a conversation with the character you select.
2. 実際の会話の進行 2. Actual conversation progression
ユーザは「会話開始」ボタンを押し、端末のマイクに向かって「こんにちは、キャラクターA」と話す。 The user presses the "Start Conversation" button and speaks into the device's microphone, saying "Hello, Character A."
端末はこの音声をテキストデータに変換し、サーバに送信する。サーバはテキストデータを基にAIモデルで応答を生成し、適応的な返答を送信する。 The device converts this voice into text data and sends it to the server. The server uses an AI model to generate a response based on the text data and sends an adaptive reply.
例えば、「こんにちは!今日はどうしたの?」といった応答や、「元気を出して!」といった適応的なメッセージを受け取ることができる。 For example, you can receive responses such as "Hello! How are you today?" or adaptive messages such as "Cheer up!"
具体例・プロンプト文の例 Examples and prompts
「こんにちは、キャラクターA。今日はどんな日だった?」 "Hello, Character A. How was your day?"
「最近ちょっと落ち込んでいるんだ。励ましてくれる?」 "I've been feeling a bit down lately. Can you cheer me up?"
「今日のニュースについてどう思う?」 "What do you think about today's news?"
これらのプロンプト文を使用することで、ユーザはキャラクターとよりパーソナルかつ自然な会話を楽しむことができる。 By using these prompts, users can enjoy more personal and natural conversations with the characters.
実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.
プログラムの処理の流れ Program processing flow
ステップ1: Step 1:
学習データ収集とAIモデルの生成 Training data collection and AI model generation
サーバが特定のキャラクターや人物の外見、性格、過去の行動データを収集する。この収集に使用されるデータには、テキスト、音声ファイル、画像、動画が含まれる。具体的な動作として、WebスクレイピングやAPI経由でデータベースからデータを取得し、サーバ内に保存する。 The server collects data on the appearance, personality, and past behavior of specific characters or people. The data used for this collection includes text, audio files, images, and videos. Specifically, the data is retrieved from a database via web scraping or API and stored on the server.
入力:キャラクターの外見、性格、過去の言動に関するデータ。 Input: Data about the character's appearance, personality, and past words and actions.
データ加工:ノイズ除去、テキストの正規化、データクリーニング。 Data processing: noise removal, text normalization, data cleaning.
出力:前処理後のクリーンなデータセット。 Output: Clean dataset after preprocessing.
サーバがこれらのデータをAIアルゴリズム(例えば、TensorFlowやPyTorch)を用いてモデルに学習させる。学習後のモデルはキャラクターの行動パターンや応答パターンを反映する。 The server uses an AI algorithm (such as TensorFlow or PyTorch) to train a model using this data. The trained model then reflects the character's behavior and response patterns.
入力:前処理後のクリーンなデータセット。 Input: Clean dataset after preprocessing.
データ演算:機械学習アルゴリズムを適用し、モデルをトレーニングする。 Data computation: Applying machine learning algorithms and training models.
出力:学習済みAIモデル。 Output: Trained AI model.
ステップ2: Step 2:
NFTとしてのデータ保存 Storing data as NFTs
サーバが学習されたAIデータを非代替性トークン(NFT)として保存する。 The server stores the learned AI data as a non-fungible token (NFT).
入力:学習済みAIモデル。 Input: Trained AI model.
データ加工:NFT化のためにブロックチェーン技術(例:Ethereum)を利用してモデルの唯一性と所有権を保証する。 Data processing: Blockchain technology (e.g., Ethereum) is used to ensure the uniqueness and ownership of the model for NFT conversion.
出力:ブロックチェーンに登録されたNFT。 Output: NFT registered on the blockchain.
サーバが生成されたNFTをブロックチェーンに登録し、所有者情報を保持する。具体的な動作として、ブロックチェーンAPIを通じてNFTを登録する。 The server registers the generated NFT on the blockchain and retains owner information. Specifically, the NFT is registered through the blockchain API.
ステップ3: Step 3:
ユーザのログインとキャラクター選択 User login and character selection
ユーザがアプリを起動し、ログイン画面で認証情報(例:「user123」と「password123」)を入力する。 The user launches the app and enters their authentication information (e.g., "user123" and "password123") on the login screen.
端末が入力された認証情報をサーバに送信し、認証を実行する。 The device sends the entered authentication information to the server and performs authentication.
入力:ユーザの認証情報。 Input: User authentication information.
データ演算:データベースと照合し、認証が成功するかどうか判定する。 Data calculation: Compare with the database and determine whether authentication is successful.
出力:認証成功または失敗のステータス。 Output: Authentication success or failure status.
認証が成功すると、端末にホーム画面が表示される。ユーザは「キャラクター選択」ボタンを押し、対話したいキャラクターを選ぶ。 If authentication is successful, the home screen will be displayed on the device. The user presses the "Select Character" button to choose the character they want to interact with.
入力:ユーザが選択したキャラクター情報。 Input: Character information selected by the user.
データ加工:選択されたキャラクターに対応するAIモデルの検索と取得。 Data processing: Search and obtain the AI model corresponding to the selected character.
出力:選択されたキャラクターのAIデータ。 Output: AI data for the selected character.
ステップ4: Step 4:
リアルタイム音声会話の処理 Real-time voice conversation processing
ユーザが「会話開始」ボタンを押し、端末のマイクに向かって話しかける。 The user presses the "Start conversation" button and speaks into the device's microphone.
端末がユーザの音声を取得し、Google Speech-to-Textを利用してテキストデータに変換する。 The device captures the user's voice and converts it into text data using Google Speech-to-Text.
入力:ユーザの音声データ。 Input: User's voice data.
データ加工:音声からテキストへの変換。 Data processing: voice-to-text conversion.
出力:テキストデータ。 Output: Text data.
変換されたテキストデータはサーバに送信され、適切な応答が生成される。 The converted text data is sent to the server, which generates an appropriate response.
入力:ユーザのテキストデータ。 Input: User's text data.
データ演算:AIモデルを使用して適切な応答を生成する。 Data calculations: Use AI models to generate appropriate responses.
出力:生成されたテキスト応答。 Output: The generated text response.
応答は再び音声データに変換され、端末に送信される。 The response is converted back into audio data and sent to the device.
入力:生成されたテキスト応答。 Input: The generated text response.
データ加工:テキストから音声への変換。 Data processing: converting text to audio.
出力:生成された音声データ。 Output: Generated audio data.
端末が音声データを再生し、リアルタイムで会話が行われる。 The device plays the audio data and the conversation takes place in real time.
ステップ5: Step 5:
感情分析と応答の適応 Sentiment analysis and response adaptation
サーバがユーザの音声データを感情エンジン(例:IBM Watsonの感情認識API)を用いて解析する。 The server analyzes the user's voice data using an emotion engine (e.g., IBM Watson's emotion recognition API).
入力:ユーザの音声データ。 Input: User's voice data.
データ演算:音声データからユーザの感情状態を解析する。 Data calculation: Analyze the user's emotional state from voice data.
出力:ユーザの感情状態データ。 Output: User's emotional state data.
感情解析の結果を基に、AIモデルが応答内容を適応的に変更する。 Based on the results of emotion analysis, the AI model adaptively changes the response content.
入力:ユーザの感情状態データと生成されたテキスト応答。 Input: User emotional state data and generated text response.
データ演算:応答の内容を感情状態に合わせて変更する。 Data calculation: Change the response content to match the emotional state.
出力:最終的に適応された応答テキスト。 Output: The final adapted response text.
例えば、ユーザの声が悲しそうな場合、応答内容は「元気を出して!」などと変更される。 For example, if the user sounds sad, the response will be changed to something like "Cheer up!"
ステップ6: Step 6:
利用料の収受と決済処理 Collecting usage fees and processing payments
ユーザが利用料を支払う必要がある場合、端末が決済画面を表示する。ユーザがクレジットカード情報などを入力する。 If the user needs to pay a usage fee, the terminal will display a payment screen. The user will enter their credit card information, etc.
入力:ユーザの決済情報。 Input: User's payment information.
端末が決済情報をサーバに送信し、サーバが決済ゲートウェイ(例:Stripe)を通じて決済処理を行う。 The terminal sends payment information to the server, which processes the payment through a payment gateway (e.g., Stripe).
データ演算:決済情報を基に決済処理を実行する。 Data calculation: Executes payment processing based on payment information.
出力:決済成功または失敗のステータス。 Output: Payment success or failure status.
サーバが決済の成功または失敗を端末に通知し、成功した場合には利用権利が更新される。 The server notifies the terminal of the success or failure of the payment, and if successful, the usage rights are updated.
端末が決済結果をユーザに通知し、これによりユーザは引き続きシステムを利用できる。 The terminal will notify the user of the payment result, allowing them to continue using the system.
(応用例2) (Application Example 2)
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain Application Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
本発明の課題は、特定のキャラクターや人物の外見および性格をリアルタイムで再現しつつ、利用者との対話を通じて感情に応じた適切な応答を提供することができるシステムを提供することである。また、バーチャル店舗においてショッピングアシスタントとしてキャラクターが商品説明やおすすめアイテムの紹介を行うことで、よりパーソナルで親身なショッピング体験を実現することを目指す。 The objective of this invention is to provide a system that can reproduce the appearance and personality of a specific character or person in real time, while providing appropriate responses based on the user's emotions through dialogue with them. Furthermore, the aim is to realize a more personal and sympathetic shopping experience by having characters act as shopping assistants in virtual stores, explaining products and recommending items.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、学習されたデータを非代替性トークン(NFT)として保存する手段と、利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、リアルタイムで音声会話を行う手段と、利用者からの利用料を収受し、収益を関係者間で分配する手段と、感情エンジンを使用して利用者の音声データから感情状態を解析し、その解析結果に基づいた適応的な応答を生成する手段と、生成された応答を音声データに変換し、音声として利用者に提供する手段と、バーチャル店舗でのショッピングアシスタントとしてキャラクターが商品説明やおすすめアイテムの紹介を行う手段と、を含む。これにより、特定のキャラクターとの感情に基づいたリアルタイムな対話およびバーチャル店舗での個別的で親身なショッピングアシスタント体験が可能となる。 In this invention, the server includes: means for learning the appearance and personality of a specific character or person using artificial intelligence technology; means for storing the learned data as a non-fungible token (NFT); means for providing an interface for users to select a conversation partner and converse with them; means for conducting real-time voice conversations; means for collecting usage fees from users and distributing revenue among the parties involved; means for analyzing the emotional state from the user's voice data using an emotion engine and generating an adaptive response based on the analysis results; means for converting the generated response into voice data and providing it to the user as voice; and means for the character to act as a shopping assistant in a virtual store, explaining products and recommending items. This enables real-time, emotion-based dialogue with a specific character and a personalized, sympathetic shopping assistant experience in a virtual store.
「特定のキャラクターや人物」とは、人工知能技術により外見および性格が再現された仮想的な存在である。 "Specific characters or people" are virtual beings whose appearances and personalities are reproduced using artificial intelligence technology.
「人工知能技術」とは、特定のキャラクターや人物の外見および性格を学習し、その情報をもとに応答や行動を生成する技術である。 "Artificial intelligence technology" is a technology that learns the appearance and personality of a specific character or person, and generates responses and actions based on that information.
「非代替性トークン(NFT)」とは、ブロックチェーン技術を用いて特定のデジタル資産を唯一無二のものとして識別し、その所有権を証明する手段である。 A non-fungible token (NFT) is a means of using blockchain technology to uniquely identify a specific digital asset and prove ownership of it.
「インタフェース」とは、利用者が対話相手を選択し、会話を開始するための入力および表示手段を提供する装置またはソフトウェアである。 An "interface" is a device or software that provides input and display means for a user to select a conversation partner and initiate a conversation.
「リアルタイムで音声会話を行う手段」とは、利用者と特定のキャラクターや人物が即時に音声で対話することを可能にする技術である。 "Means for conducting real-time voice conversations" refers to technology that allows users to have instant voice conversations with specific characters or people.
「感情エンジン」とは、利用者の音声データから感情状態を解析し、その解析結果に基づいた応答を生成するためのアルゴリズムおよびシステムである。 An "emotion engine" is an algorithm and system that analyzes a user's emotional state from their voice data and generates a response based on the analysis results.
「適応的な応答」とは、利用者の発言内容および感情状態に応じて変化する応答であり、個別的かつダイナミックに生成されるものである。 An "adaptive response" is a response that changes depending on the user's speech content and emotional state, and is generated individually and dynamically.
「バーチャル店舗」とは、インターネット上に存在する仮想的なショッピング環境であり、ユーザが仮想空間で購買活動を行うことを可能にするプラットフォームである。 A "virtual store" is a virtual shopping environment that exists on the Internet and is a platform that allows users to conduct purchasing activities in a virtual space.
「ショッピングアシスタント」とは、バーチャル店舗内で利用者に対して商品説明やおすすめアイテムの紹介などを行う仮想的なキャラクターまたは人物である。 A "shopping assistant" is a virtual character or person who explains products and recommends items to users in a virtual store.
「収受」とは、利用者からの利用料を受け取ることである。 "Collection" means receiving usage fees from users.
「収益を関係者間で分配する手段」とは、システム運営により得られた収益を、キャラクターの著作権者やサービス提供者など関係者に適切に分配するための仕組みである。 "Means for distributing revenues among parties involved" refers to a mechanism for appropriately distributing revenues earned through system operation to parties involved, such as character copyright holders and service providers.
システムの概要 System Overview
この発明は、特定のキャラクターや人物をリアルタイムで再現し、利用者と音声会話を行うシステムである。主にバーチャル店舗においてショッピングアシスタントとして機能する。このシステムは、サーバ、端末、ユーザの三要素で構成される。 This invention is a system that recreates specific characters or people in real time and engages in voice conversations with users. It primarily functions as a shopping assistant in virtual stores. This system consists of three elements: a server, a terminal, and a user.
プログラム構成および各種技術 Program structure and various technologies
音声認識エンジン Speech recognition engine
サーバは、利用者の音声入力を取得し、音声認識エンジン(Google Speech-to-Text API)を使用して音声をテキストデータに変換する。 The server receives the user's voice input and converts the voice into text data using a speech recognition engine (Google Speech-to-Text API).
感情解析エンジン Sentiment analysis engine
サーバは、取得したテキストデータをIBM Watson Tone Analyzerを用いて感情解析を行う。これにより利用者の感情状態を判断する。 The server performs emotion analysis on the acquired text data using IBM Watson Tone Analyzer, thereby determining the user's emotional state.
対話管理システム Dialogue management system
サーバは、Rasaを用いて利用者の会話内容および感情解析結果に基づいた応答を生成する。 The server uses Rasa to generate responses based on the user's conversation content and sentiment analysis results.
音声合成エンジン Speech synthesis engine
サーバは、生成された応答をGoogle Text-to-Speech APIを使用して音声データに変換し、端末に送信する。 The server converts the generated response into audio data using the Google Text-to-Speech API and sends it to the device.
プログラムの処理 Program processing
1. 音声入力とテキスト変換 1. Voice input and text conversion
ユーザがスマートフォンのマイクに向かって話しかけると、その音声は端末によって取得され、Google Speech-to-Text APIを使用してテキストデータに変換される。 When a user speaks into their smartphone's microphone, the audio is picked up by the device and converted into text data using the Google Speech-to-Text API.
2. 感情解析 2. Emotion analysis
転送されたテキストデータはIBM Watson Tone Analyzerで感情解析が行われ、利用者の感情状態(例:喜び、悲しみ、怒りなど)が解析される。 The transferred text data is subjected to emotion analysis using IBM Watson Tone Analyzer to determine the user's emotional state (e.g., joy, sadness, anger, etc.).
3. 応答生成 3. Response Generation
Rasaを使用して解析結果および会話内容を基に適切な応答を生成する。この応答は利用者の感情に適応したものである。 Rasa is used to generate appropriate responses based on analysis results and conversation content. These responses are adapted to the user's emotions.
4. 音声データへの変換と送信 4. Conversion to audio data and transmission
生成された応答はGoogle Text-to-Speech APIによって音声データに変換され、この音声データが端末へ送信されることでリアルタイムな会話が実現する。 The generated response is converted into audio data using the Google Text-to-Speech API, and this audio data is sent to the device, enabling real-time conversation.
具体例 Specific examples
1. ユーザのログインとキャラクター選択 1. User login and character selection
ユーザはアプリを起動し、「user123」と「password123」を入力してログインする。ログイン後、キャラクター選択画面で「キャラクターA」を選択する。 The user launches the app and logs in by entering "user123" and "password123." After logging in, they select "Character A" on the character selection screen.
プロンプト文の例: Example prompt:
ユーザ:こんにちは、今日は洋服を探しています。 User: Hello, I'm looking for clothes today.
--- ---
アシスタント:こんにちは、どんな洋服を探していますか? Assistant: Hello, what kind of clothes are you looking for?
--- ---
ユーザ:カジュアルなシャツが欲しいです。 User: I'd like a casual shirt.
--- ---
2. 音声入力と解析 2. Voice input and analysis
ユーザが「こんにちは、今日は洋服を探しています」と話すと、音声が取得され、テキストデータに変換される。テキストデータは感情解析のためIBM Watson Tone Analyzerに送られる。 When a user says, "Hello, I'm looking for clothes today," the speech is captured and converted into text data. The text data is sent to IBM Watson Tone Analyzer for sentiment analysis.
3. 応答生成と提供 3. Response generation and delivery
感情解析と会話内容に基づき、Rasaが「こんにちは、どんな洋服を探していますか?」という応答を生成する。この応答はGoogle Text-to-Speech APIで音声に変換され、端末に送信される。 Based on sentiment analysis and the conversation content, Rasa generates a response: "Hello, what kind of clothes are you looking for?" This response is converted into audio using the Google Text-to-Speech API and sent to the device.
4. ショッピングアシスタント機能 4. Shopping Assistant Function
ユーザが「カジュアルなシャツが欲しい」と言うと、アシスタントが「こちらのシャツはいかがですか?流行のデザインで、最近とても人気があります」と提案し、商品説明を行う。ユーザの感情解析結果に基づき、より詳細な商品説明や提案も可能である。 If a user says, "I want a casual shirt," the assistant will suggest, "How about this shirt? It's a trendy design and very popular these days," and explain the product. It is also possible to provide more detailed product descriptions and suggestions based on the results of user sentiment analysis.
これにより、この発明は特定のキャラクターとの感情に基づいたリアルタイムな対話およびバーチャル店舗での個別的で親身なショッピングアシスタント体験を提供することができる。 This allows the invention to provide emotion-based real-time interactions with specific characters and a personalized, immersive shopping assistant experience in virtual stores.
応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.
ステップ1: Step 1:
ユーザがアプリを起動し、ログインする。ユーザはユーザ名とパスワードを入力し、端末がその情報をサーバへ送信する。サーバは認証を行い、成功した場合にはキャラクター選択画面を端末に表示する。 The user launches the app and logs in. The user enters their username and password, and the device sends that information to the server. The server performs authentication, and if successful, displays the character selection screen on the device.
入力:ユーザのユーザ名とパスワード Enter: User's username and password
処理:サーバがユーザ認証を行う Process: The server authenticates the user.
出力:認証成功時にキャラクター選択画面が表示される Output: Upon successful authentication, the character selection screen will be displayed.
ステップ2: Step 2:
ユーザがキャラクターを選択する。ユーザはキャラクター選択画面で特定のキャラクターを選び、端末が選択情報をサーバへ送信する。サーバは選択されたキャラクターのAIモデルをロードし、関連データを端末に送信する。 The user selects a character. The user chooses a specific character on the character selection screen, and the device sends the selection information to the server. The server loads the selected character's AI model and sends the relevant data to the device.
入力:ユーザのキャラクター選択情報 Input: User's character selection information
処理:サーバがAIモデルをロードし、関連データを取得する Processing: The server loads the AI model and retrieves relevant data.
出力:キャラクターの情報が端末に表示される Output: Character information is displayed on the device.
ステップ3: Step 3:
ユーザが会話を開始する。ユーザはスマートフォンのマイクに向かって話しかけ、端末はその音声を取得する。音声認識エンジン(Google Speech-to-Text API)を使用して音声をテキストデータに変換し、そのテキストデータをサーバへ送信する。 The user begins the conversation. They speak into the smartphone's microphone, and the device picks up the audio. The speech is converted into text data using a speech recognition engine (Google Speech-to-Text API), and the text data is sent to the server.
入力:ユーザの音声 Input: User's voice
処理:端末が音声を取得し、テキストデータに変換する Processing: The device captures the audio and converts it into text data.
出力:変換されたテキストデータがサーバに送信される Output: The converted text data is sent to the server.
ステップ4: Step 4:
サーバが感情解析を行う。サーバは取得したテキストデータを感情解析エンジン(IBM Watson Tone Analyzer)に送信し、利用者の感情状態を解析する。解析結果はテキストデータに付加される。 The server performs emotion analysis. The server sends the acquired text data to an emotion analysis engine (IBM Watson Tone Analyzer), which analyzes the user's emotional state. The analysis results are added to the text data.
入力:テキストデータ Input: Text data
処理:サーバが感情解析エンジンを使って感情状態を解析する Processing: The server analyzes the emotional state using an emotion analysis engine.
出力:感情状態が付加されたテキストデータ Output: Text data with emotional states added
ステップ5: Step 5:
サーバが応答を生成する。サーバは対話管理システム(Rasa)を用いて、感情解析結果および会話内容に基づいた応答を生成する。その応答はテキスト形式である。 The server generates a response. The server uses a dialogue management system (Rasa) to generate a response based on the sentiment analysis results and the content of the conversation. The response is in text format.
入力:感情解析結果が付加されたテキストデータ Input: Text data with sentiment analysis results added
処理:サーバが対話管理システムを用いて応答を生成する Processing: The server generates a response using the dialogue management system.
出力:生成された応答テキスト Output: Generated response text
ステップ6: Step 6:
サーバが応答テキストを音声に変換する。生成された応答テキストは、音声合成エンジン(Google Text-to-Speech API)を使用して音声データに変換される。変換された音声データは再び端末へ送信される。 The server converts the response text into speech. The generated response text is converted into audio data using a speech synthesis engine (Google Text-to-Speech API). The converted audio data is then sent back to the device.
入力:生成された応答テキスト Input: Generated response text
処理:サーバが音声合成エンジンを使用して音声データに変換する Processing: The server uses a speech synthesis engine to convert the data into audio.
出力:変換された音声データ Output: Converted audio data
ステップ7: Step 7:
端末が音声データを再生する。端末に送信された音声データは、スピーカーを通じて再生され、ユーザに聞こえるようになる。これにより、利用者とキャラクターのリアルタイム音声会話が成立する。 The device plays the audio data. The audio data sent to the device is played back through the speaker and becomes audible to the user. This allows for real-time audio conversation between the user and the character.
入力:音声データ Input: Audio data
処理:端末が音声データを再生する Processing: The device plays the audio data.
出力:ユーザが応答を聞く Output: The user hears the response.
特定処理部290は、特定処理の結果をロボット414に送信する。ロボット414では、制御部46Aが、スピーカ240及び制御対象443に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the robot 414. In the robot 414, the control unit 46A causes the speaker 240 and the control target 443 to output the results of the specific processing. The microphone 238 acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 238 to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). Examples of data generation model 58 include generative AI such as ChatGPT (Internet search <URL: https://openai.com/blog/chatgpt>) and Gemini (Internet search <URL: https://gemini.google.com/?hl=ja>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as voice data indicating speech, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt, and outputs the inference results in the form of data such as voice data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ロボット414によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the robot 414.
なお、感情エンジンとしての感情特定モデル59は、特定のマッピングに従い、ユーザの感情を決定してよい。具体的には、感情特定モデル59は、特定のマッピングである感情マップ(図9参照)に従い、ユーザの感情を決定してよい。また、感情特定モデル59は、同様に、ロボットの感情を決定し、特定処理部290は、ロボットの感情を用いた特定処理を行うようにしてもよい。 The emotion identification model 59, which serves as an emotion engine, may determine the user's emotion according to a specific mapping. Specifically, the emotion identification model 59 may determine the user's emotion according to an emotion map (see Figure 9), which is a specific mapping. Similarly, the emotion identification model 59 may determine the robot's emotion, and the identification processing unit 290 may perform identification processing using the robot's emotion.
図9は、複数の感情がマッピングされる感情マップ400を示す図である。感情マップ400において、感情は、中心から放射状に同心円に配置されている。同心円の中心に近いほど、原始的状態の感情が配置されている。同心円のより外側には、心境から生まれる状態や行動を表す感情が配置されている。感情とは、情動や心的状態も含む概念である。同心円の左側には、概して脳内で起きる反応から生成される感情が配置されている。同心円の右側には概して、状況判断で誘導される感情が配置されている。同心円の上方向及び下方向には、概して脳内で起きる反応から生成され、かつ、状況判断で誘導される感情が配置されている。また、同心円の上側には、「快」の感情が配置され、下側には、「不快」の感情が配置されている。このように、感情マップ400では、感情が生まれる構造に基づいて複数の感情がマッピングされており、同時に生じやすい感情が、近くにマッピングされている。 Figure 9 shows an emotion map 400 on which multiple emotions are mapped. In emotion map 400, emotions are arranged in concentric circles radiating from the center. Emotions closer to the center of the concentric circles are more primitive. Emotions representing states and actions arising from a state of mind are arranged on the outer edges of the concentric circles. The concept of emotion includes both emotions and mental states. Emotions that are generally generated from reactions that occur in the brain are arranged on the left side of the concentric circles. Emotions that are generally induced by situational judgment are arranged on the right side of the concentric circles. Emotions that are generally generated from reactions that occur in the brain and are induced by situational judgment are arranged above and below the concentric circles. Furthermore, the emotion of "pleasure" is arranged on the top side of the concentric circles, and the emotion of "discomfort" is arranged on the bottom side. In this way, emotion map 400 maps multiple emotions based on the structure by which emotions are generated, with emotions that tend to occur simultaneously being mapped close together.
これらの感情は、感情マップ400の3時の方向に分布しており、普段は安心と不安のあたりを行き来する。感情マップ400の右半分では、内部的な感覚よりも状況認識の方が優位に立つため、落ち着いた印象になる。 These emotions are distributed in the 3 o'clock direction on emotion map 400, and usually fluctuate between relief and anxiety. In the right half of emotion map 400, situational awareness takes precedence over internal sensations, resulting in a calm impression.
感情マップ400の内側は心の中、感情マップ400の外側は行動を表すため、感情マップ400の外側に行くほど、感情が目に見える(行動に表れる)ようになる。 The inside of emotion map 400 represents what is going on in the mind, and the outside of emotion map 400 represents behavior, so the further out you go on emotion map 400, the more visible (expressed in behavior) the emotion becomes.
ここで、人の感情は、姿勢や血糖値のような様々なバランスを基礎としており、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示す。ロボットや自動車やバイク等においても、姿勢やバッテリー残量のような様々なバランスを基礎として、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示すように感情を作ることができる。感情マップは、例えば、光吉博士の感情地図(音声感情認識及び情動の脳生理信号分析システムに関する研究、徳島大学、博士論文:https://ci.nii.ac.jp/naid/500000375379)に基づいて生成されてよい。感情地図の左半分には、感覚が優位にたつ「反応」と呼ばれる領域に属する感情が並ぶ。また、感情地図の右半分には、状況認識が優位にたつ「状況」と呼ばれる領域に属する感情が並ぶ。 Here, human emotions are based on various balances such as posture and blood sugar levels, and when these balances deviate from the ideal, it indicates discomfort, and when they approach the ideal, it indicates pleasure. Emotions can also be created for robots, cars, motorcycles, etc., based on various balances such as posture and remaining battery life, so that when these balances deviate from the ideal, it indicates discomfort, and when they approach the ideal, it indicates pleasure. Emotion maps may be generated, for example, based on Dr. Mitsuyoshi's emotion map (Research on speech emotion recognition and emotional brain physiological signal analysis systems, Tokushima University, doctoral dissertation: https://ci.nii.ac.jp/naid/500000375379). The left half of the emotion map is lined with emotions belonging to an area called "reaction," where sensation is dominant. The right half of the emotion map is lined with emotions belonging to an area called "situation," where situational awareness is dominant.
感情マップでは学習を促す感情が2つ定義される。1つは、状況側にあるネガティブな「懺悔」や「反省」の真ん中周辺の感情である。つまり、「もう2度とこんな想いはしたくない」「もう叱られたくない」というネガティブな感情がロボットに生じたときである。もう1つは、反応側にあるポジティブな「欲」のあたりの感情である。つまり、「もっと欲しい」「もっと知りたい」というポジティブな気持ちのときである。 The emotion map defines two emotions that encourage learning. One is the negative emotion around the middle of "repentance" or "reflection" on the situation side. In other words, this is when the robot experiences negative emotions such as "I never want to feel this way again" or "I don't want to be scolded again." The other is the positive emotion around "desire" on the response side. In other words, this is when the robot experiences positive feelings such as "I want more" or "I want to know more."
感情特定モデル59は、ユーザ入力を、予め学習されたニューラルネットワークに入力し、感情マップ400に示す各感情を示す感情値を取得し、ユーザの感情を決定する。このニューラルネットワークは、ユーザ入力と、感情マップ400に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。また、このニューラルネットワークは、図10に示す感情マップ900のように、近くに配置されている感情同士は、近い値を持つように学習される。図10では、「安心」、「安穏」、「心強い」という複数の感情が、近い感情値となる例を示している。 The emotion identification model 59 inputs user input into a pre-trained neural network, obtains emotion values indicating each emotion shown in the emotion map 400, and determines the user's emotion. This neural network is pre-trained based on multiple pieces of training data that are combinations of user input and emotion values indicating each emotion shown in the emotion map 400. Furthermore, this neural network is trained so that emotions that are close to each other have similar values, as in the emotion map 900 shown in Figure 10. Figure 10 shows an example in which multiple emotions, such as "relieved," "calm," and "reassuring," have similar emotion values.
以上、本開示に係るシステムをデータ処理装置12の機能を主として説明したが、本開示に係るシステムはサーバに実装されているとは限らない。本開示に係るシステムは、一般的な情報処理システムとして実装されていてもよい。本開示は、例えば、パーソナルコンピュータで動作するソフトウェアプログラム、スマートフォン等で動作するアプリケーションとして実装されてもよい。本開示に係る方法はSaaS(Software as a Service)形式でユーザに対して提供されてもよい。 The system according to the present disclosure has been described above primarily in terms of the functions of the data processing device 12, but the system according to the present disclosure is not necessarily implemented on a server. The system according to the present disclosure may also be implemented as a general information processing system. The present disclosure may also be implemented, for example, as a software program that runs on a personal computer or an application that runs on a smartphone, etc. The method according to the present disclosure may also be provided to users in the form of SaaS (Software as a Service).
上記実施形態では、1台のコンピュータ22によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ22を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。例えば、データ生成モデル58が、データ処理装置12の外部装置に設けられ、当該外部装置において、入力データに応じたデータの生成を行うようにしてもよい。 In the above embodiment, an example was given in which a specific process was performed by a single computer 22, but the technology of the present disclosure is not limited to this, and distributed processing of the specific process may be performed by multiple computers, including the computer 22. For example, the data generation model 58 may be provided in a device external to the data processing device 12, and data may be generated in that external device in response to input data.
上記実施形態では、ストレージ32に特定処理プログラム56が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム56がUSB(Universal Serial Bus)メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム56は、データ処理装置12のコンピュータ22にインストールされる。プロセッサ28は、特定処理プログラム56に従って特定処理を実行する。 In the above embodiment, an example was described in which the specific processing program 56 is stored in the storage 32, but the technology of the present disclosure is not limited to this. For example, the specific processing program 56 may be stored in a portable, computer-readable, non-transitory storage medium such as a USB (Universal Serial Bus) memory. The specific processing program 56 stored in the non-transitory storage medium is installed in the computer 22 of the data processing device 12. The processor 28 executes the specific processing in accordance with the specific processing program 56.
また、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56を格納させておき、データ処理装置12の要求に応じて特定処理プログラム56がダウンロードされ、コンピュータ22にインストールされるようにしてもよい。 Alternatively, the specific processing program 56 may be stored in a storage device such as a server connected to the data processing device 12 via the network 54, and the specific processing program 56 may be downloaded and installed on the computer 22 in response to a request from the data processing device 12.
なお、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56の全てを格納させておいたり、ストレージ32に特定処理プログラム56の全てを記憶させたりしておく必要はなく、特定処理プログラム56の一部を格納させておいてもよい。 It is not necessary to store the entire specific processing program 56 in a storage device such as a server connected to the data processing device 12 via the network 54, or to store the entire specific processing program 56 in the storage 32; only a portion of the specific processing program 56 may be stored.
特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)、又はASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。 The following types of processors can be used as hardware resources for executing specific processes. Examples of processors include a CPU, a general-purpose processor that functions as a hardware resource for executing specific processes by executing software, i.e., a program. Other examples of processors include dedicated electrical circuits, such as FPGAs (Field-Programmable Gate Arrays), PLDs (Programmable Logic Devices), or ASICs (Application Specific Integrated Circuits), which are processors with a circuit configuration designed specifically for executing specific processes. All processors have built-in or connected memory, and all use the memory to execute specific processes.
特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、特定処理を実行するハードウェア資源は1つのプロセッサであってもよい。 The hardware resource that executes the specific processing may be composed of one of these various processors, or may be composed of a combination of two or more processors of the same or different types (for example, a combination of multiple FPGAs, or a combination of a CPU and an FPGA). The hardware resource that executes the specific processing may also be a single processor.
1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第2に、SoC(System-on-a-chip)などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。 As an example of a configuration using a single processor, first, there is a configuration in which one processor is configured using a combination of one or more CPUs and software, and this processor functions as a hardware resource that executes specific processing. Second, there is a configuration in which a processor is used to realize the functions of an entire system, including multiple hardware resources that execute specific processing, on a single IC chip, as typified by SoC (System-on-a-chip). In this way, specific processing is realized using one or more of the various processors listed above as hardware resources.
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。 More specifically, the hardware structure of these various processors can be an electrical circuit that combines circuit elements such as semiconductor devices. Furthermore, the specific processing described above is merely an example. Therefore, it goes without saying that unnecessary steps can be deleted, new steps can be added, or the processing order can be rearranged, all within the scope of the spirit of the invention.
以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。 The above-described written content and illustrations are a detailed explanation of the parts related to the technology of the present disclosure and are merely an example of the technology of the present disclosure. For example, the above explanation of the configuration, functions, actions, and effects is an explanation of an example of the configuration, functions, actions, and effects of the parts related to the technology of the present disclosure. Therefore, it goes without saying that unnecessary parts may be deleted, new elements may be added, or substitutions may be made to the above-described written content and illustrations, as long as they do not deviate from the spirit of the technology of the present disclosure. Furthermore, to avoid confusion and facilitate understanding of the parts related to the technology of the present disclosure, the above-described written content and illustrations omit explanations of common technical knowledge that do not require particular explanation to enable the implementation of the technology of the present disclosure.
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。 All publications, patent applications, and technical standards mentioned in this specification are incorporated by reference herein to the same extent as if each individual publication, patent application, and technical standard was specifically and individually indicated to be incorporated by reference.
以上の実施形態に関し、更に以下を開示する。 The following is further disclosed regarding the above embodiments.
(請求項1) (Claim 1)
特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、 A means of learning the appearance and personality of specific characters or people using artificial intelligence technology,
学習されたデータを非代替性トークン(NFT)として保存する手段と、 A means of storing learned data as non-fungible tokens (NFTs),
利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、 A means for providing an interface for users to select a conversation partner and converse with them;
リアルタイムで音声会話を行う手段と、 A means of conducting real-time voice conversations,
利用者からの利用料を収受し、収益を関係者間で分配する手段と、 A means of collecting usage fees from users and distributing the revenue among the parties involved,
を含むシステム。 A system including
(請求項2) (Claim 2)
学習された人工知能データを使用して、利用者の会話内容に基づいて応答を生成し、その応答を音声データに変換する手段をさらに含む、請求項1記載のシステム。 The system of claim 1 further includes means for using the learned artificial intelligence data to generate a response based on the user's conversation content and converting the response into voice data.
(請求項3) (Claim 3)
利用者の入力した音声をテキストデータに変換し、そのテキストデータを人工知能に供給する手段をさらに含む、請求項1記載のシステム。 The system of claim 1 further includes means for converting user-input speech into text data and supplying the text data to the artificial intelligence.
「実施例1」 "Example 1"
(請求項1) (Claim 1)
特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、 A means of learning the appearance and personality of specific characters or people using artificial intelligence technology,
学習されたデータを非代替性トークン(NFT)として保存する手段と、 A means of storing learned data as non-fungible tokens (NFTs),
利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、 A means for providing an interface for users to select a conversation partner and converse with them;
利用者の音声を取得し、音声認識技術を使用してテキストデータに変換する手段と、 A means of capturing the user's voice and converting it into text data using voice recognition technology;
テキストデータを基にAIモデルを使用して適切な応答を生成し、その応答を音声データに変換する手段と、 A means to generate appropriate responses using an AI model based on text data and convert those responses into voice data;
変換された音声データを利用者端末に送信してリアルタイムで音声会話を行う手段と、 A means for transmitting the converted voice data to the user's terminal and conducting a real-time voice conversation;
利用者からの利用料を収受し、収益を関係者間で分配する手段と、 A means of collecting usage fees from users and distributing the revenue among the parties involved,
を含むシステム。 A system including
(請求項2) (Claim 2)
学習された人工知能データを使用して、利用者の会話内容に基づいて応答を生成し、その応答を音声データに変換する手段をさらに含む、請求項1記載のシステム。 The system of claim 1 further includes means for using the learned artificial intelligence data to generate a response based on the user's conversation content and converting the response into voice data.
(請求項3) (Claim 3)
利用者の入力した音声をテキストデータに変換し、そのテキストデータを人工知能に供給する手段をさらに含む、請求項1記載のシステム。 The system of claim 1 further includes means for converting user-input speech into text data and supplying the text data to the artificial intelligence.
「応用例1」 "Application Example 1"
(請求項1) (Claim 1)
特定の仮想人物の特徴を機械学習技術によって学習させる手段と、 A means of learning the characteristics of a specific virtual person using machine learning technology,
学習された情報を非代替性符号(NFT)として保存する手段と、 A means of storing learned information as non-fungible symbols (NFTs),
利用者が対話相手を選択し、会話を行うための操作画面を提供する手段と、 A means for providing an operation screen that allows users to select a conversation partner and conduct a conversation;
リアルタイムで音声通信を行う手段と、 A means of real-time voice communication,
利用者からのサービス料金を受け取り、収入を関連する関係者間で分配する手段と、 Means for collecting service fees from users and distributing revenue among relevant parties;
実店舗における顧客と仮想人物の会話を支援する表示装置を用いた案内を行う手段と、 A means for providing guidance using a display device that supports conversations between customers and virtual characters in a physical store;
利用者が店舗内で商品情報を取得し、キャラクターを通じて支援を受けることができる手段と、 A way for users to obtain product information in-store and receive support through characters,
を含むシステム。 A system including
(請求項2) (Claim 2)
学習された機械学習データを使用して、利用者の音声入力に基づいて応答を作成し、その応答を音声データに変換する手段をさらに含む、請求項1記載のシステム。 The system of claim 1 further includes means for using the learned machine learning data to create a response based on a user's voice input and converting the response into voice data.
(請求項3) (Claim 3)
利用者の音声入力をテキスト情報に変換し、そのテキスト情報を機械学習に供給する手段をさらに含む、請求項1記載のシステム。 The system of claim 1 further includes means for converting a user's voice input into text information and feeding the text information into machine learning.
「感情エンジンを組み合わせた場合の実施例2」 "Example 2: Combining Emotion Engines"
(請求項1) (Claim 1)
特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、 A means of learning the appearance and personality of specific characters or people using artificial intelligence technology,
学習されたデータを非代替性トークン(NFT)として保存する手段と、 A means of storing learned data as non-fungible tokens (NFTs),
利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、 A means for providing an interface for users to select a conversation partner and converse with them;
リアルタイムで音声会話を行う手段と、 A means of conducting real-time voice conversations,
利用者の音声から感情を解析し、解析結果に基づいて応答を適応的に変更する手段と、 A means for analyzing emotions from the user's voice and adaptively changing responses based on the analysis results;
利用者からの利用料を収受し、収益を関係者間で分配する手段と、 A means of collecting usage fees from users and distributing the revenue among the parties involved,
を含むシステム。 A system including
(請求項2) (Claim 2)
学習された人工知能データを使用して、利用者の会話内容に基づいて応答を生成し、その応答を音声データに変換する手段をさらに含む請求項1記載のシステム。 The system of claim 1 further includes means for using the learned artificial intelligence data to generate a response based on the user's conversation content and converting the response into voice data.
(請求項3) (Claim 3)
利用者の入力した音声をテキストデータに変換し、そのテキストデータを人工知能に供給する手段をさらに含む請求項1記載のシステム。 The system of claim 1 further includes means for converting speech input by a user into text data and supplying the text data to the artificial intelligence.
「感情エンジンを組み合わせた場合の応用例2」 "Application Example 2: Combining Emotion Engines"
(請求項1) (Claim 1)
特定のキャラクターや人物の外見および性格を人工知能技術によって学習させる手段と、 A means of learning the appearance and personality of specific characters or people using artificial intelligence technology,
学習されたデータを非代替性トークン(NFT)として保存する手段と、 A means of storing learned data as non-fungible tokens (NFTs),
利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、 A means for providing an interface for users to select a conversation partner and converse with them;
リアルタイムで音声会話を行う手段と、 A means of conducting real-time voice conversations,
利用者からの利用料を収受し、収益を関係者間で分配する手段と、 A means of collecting usage fees from users and distributing the revenue among the parties involved,
感情エンジンを使用して利用者の音声データから感情状態を解析し、その解析結果に基づいた適応的な応答を生成する手段と、 A means for analyzing the user's emotional state from their voice data using an emotion engine and generating an adaptive response based on the analysis results;
生成された応答を音声データに変換し、音声として利用者に提供する手段と、 A means for converting the generated response into audio data and providing it to the user as audio;
バーチャル店舗でのショッピングアシスタントとしてキャラクターが商品説明やおすすめアイテムの紹介を行う手段と、 The characters will act as shopping assistants in virtual stores, explaining products and recommending items,
を含むシステム。 A system including
(請求項2) (Claim 2)
学習された人工知能データを使用して、利用者の会話内容および感情解析結果に基づいて応答を生成し、その応答を音声データに変換する手段をさらに含む、請求項1記載のシステム。 The system of claim 1 further includes means for using the trained artificial intelligence data to generate a response based on the user's conversation content and sentiment analysis results, and converting the response into voice data.
(請求項3) (Claim 3)
利用者の入力した音声をテキストデータに変換し、そのテキストデータおよび感情解析結果を人工知能に供給する手段をさらに含む、請求項1記載のシステム。 The system described in claim 1 further includes means for converting the user's input voice into text data and supplying the text data and emotion analysis results to the artificial intelligence.
10、210、310、410 データ処理システム
12 データ処理装置
14 スマートデバイス
214 スマート眼鏡
314 ヘッドセット型端末
414 ロボット
10, 210, 310, 410 Data processing system 12 Data processing device 14 Smart device 214 Smart glasses 314 Headset type terminal 414 Robot
Claims (3)
学習されたデータを非代替性トークン(NFT)として保存する手段と、
利用者が対話相手を選択し、会話するためのインタフェースを提供する手段と、
リアルタイムで音声会話を行う手段と、
利用者からの利用料を収受し、収益を関係者間で分配する手段と、
を含むシステム。 A means for learning the appearance and personality of a specific character or person using artificial intelligence technology;
A means of storing the learned data as a non-fungible token (NFT);
means for providing an interface for a user to select a conversation partner and converse with;
a means for conducting real-time voice conversations;
A means of collecting fees from users and distributing the revenue among the parties involved;
A system including:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024126394A JP2026024073A (en) | 2024-08-01 | 2024-08-01 | system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024126394A JP2026024073A (en) | 2024-08-01 | 2024-08-01 | system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2026024073A true JP2026024073A (en) | 2026-02-13 |
Family
ID=98740000
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024126394A Pending JP2026024073A (en) | 2024-08-01 | 2024-08-01 | system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2026024073A (en) |
-
2024
- 2024-08-01 JP JP2024126394A patent/JP2026024073A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2026024073A (en) | system | |
| JP2026030534A (en) | system | |
| JP2026027028A (en) | system | |
| JP2026027009A (en) | system | |
| JP2026047922A (en) | system | |
| JP2026034259A (en) | system | |
| JP2026028886A (en) | system | |
| JP2026029290A (en) | system | |
| JP2026023353A (en) | system | |
| JP2026016188A (en) | system | |
| JP2026036217A (en) | system | |
| JP2026064608A (en) | system | |
| JP2026028023A (en) | system | |
| JP2026015088A (en) | system | |
| JP2026030649A (en) | system | |
| JP2026036275A (en) | system | |
| JP2026015069A (en) | system | |
| JP2026029537A (en) | system | |
| JP2026018047A (en) | system | |
| JP2026016261A (en) | system | |
| JP2026035339A (en) | system | |
| JP2026034004A (en) | system | |
| JP2025045339A (en) | system | |
| JP2026025729A (en) | system | |
| JP2026068486A (en) | system |