JP2026037133A - system - Google Patents

system

Info

Publication number
JP2026037133A
JP2026037133A JP2024140158A JP2024140158A JP2026037133A JP 2026037133 A JP2026037133 A JP 2026037133A JP 2024140158 A JP2024140158 A JP 2024140158A JP 2024140158 A JP2024140158 A JP 2024140158A JP 2026037133 A JP2026037133 A JP 2026037133A
Authority
JP
Japan
Prior art keywords
information
user
data
text
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2024140158A
Other languages
Japanese (ja)
Inventor
慶一郎 佐子山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Group Corp
Original Assignee
SoftBank Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Group Corp filed Critical SoftBank Group Corp
Priority to JP2024140158A priority Critical patent/JP2026037133A/en
Publication of JP2026037133A publication Critical patent/JP2026037133A/en
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

【課題】システムを提供する。
【解決手段】外界の視覚情報を取得する手段と、
外界の聴覚情報を取得する手段と、
前記視覚情報をテキスト情報に変換する手段と、
前記聴覚情報をテキスト情報に変換する手段と、
前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、
前記検索された情報を拡張現実(AR)形式で表示する手段と、
ユーザの興味に基づいたデータを収集する手段と、
前記収集されたデータを分析する手段と、
を含むシステム。
【選択図】図1

A system is provided.
A means for acquiring visual information of the outside world;
A means for acquiring auditory information from the outside world;
means for converting the visual information into text information;
means for converting the auditory information into text information;
a means for searching for related information on the web based on the converted text information;
means for displaying the retrieved information in an augmented reality (AR) format;
a means for collecting user interest-based data;
means for analyzing the collected data;
A system including:
[Selected Figure] Figure 1

Description

本開示の技術は、システムに関する。 The technology disclosed herein relates to a system.

特許文献1には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。 Patent document 1 discloses a persona chatbot control method executed by at least one processor, the method including the steps of receiving a user utterance, adding the user utterance to a prompt including an instruction sentence related to a description of the chatbot's character, encoding the prompt, and inputting the encoded prompt into a language model to generate a chatbot utterance in response to the user utterance.

特開2022-180282号公報Japanese Patent Application Laid-Open No. 2022-180282

従来の情報取得システムは、ユーザが自ら情報を検索し取得する手間がかかり、リアルタイムで必要な情報を効果的に提供することが困難であった。また、ユーザの興味や関心に基づいた情報提供が行われないため、個々のユーザに最適な情報を提供することができなかった。さらに、取得した視覚情報や聴覚情報を効果的に活用する方法が不足しており、それらの情報をもとにしたインタラクティブな体験を提供することが困難であった。 Traditional information acquisition systems required users to search for and acquire information themselves, making it difficult to effectively provide necessary information in real time. Furthermore, because information was not provided based on the user's interests, it was not possible to provide information that was optimal for each individual user. Furthermore, there was a lack of effective ways to utilize the acquired visual and auditory information, making it difficult to provide an interactive experience based on that information.

本発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それをテキスト情報に変換するシステムを提供するものである。具体的には、外界の視覚情報を取得する手段、外界の聴覚情報を取得する手段、取得された視覚情報をテキスト情報に変換する手段、取得された聴覚情報をテキスト情報に変換する手段、変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段、検索された情報を拡張現実(AR)形式で表示する手段、ユーザの興味に基づいたデータを収集する手段、収集されたデータを分析する手段を含むシステムを提供する。このシステムにより、ユーザは外界の情報を自動的に取得し、それに関連する情報をリアルタイムで得ることができる。さらに、ユーザの興味や関心に基づいた情報を効率的に提供することが可能となり、ユーザ体験を大幅に向上させることができる。 The present invention provides a system that acquires visual and auditory information from the outside world in real time and converts it into text information. Specifically, the system includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the acquired visual information into text information, means for converting the acquired auditory information into text information, means for searching for related information on the web based on the converted text information, means for displaying the searched information in an augmented reality (AR) format, means for collecting data based on the user's interests, and means for analyzing the collected data. This system allows users to automatically acquire information from the outside world and obtain related information in real time. Furthermore, it makes it possible to efficiently provide information based on the user's interests and concerns, significantly improving the user experience.

「視覚情報」とは、カメラなどの撮像装置によって取得される周囲の物理的な映像や画像の情報である。 "Visual information" refers to information about physical images or footage of the surroundings captured by an imaging device such as a camera.

「聴覚情報」とは、マイクロフォンなどの音声収集装置によって取得される周囲の音や会話の情報である。 "Auditory information" refers to information about surrounding sounds and conversations acquired by a sound collection device such as a microphone.

「テキスト情報」とは、視覚情報や聴覚情報を基に変換された文字コードで表現される情報である。 "Text information" is information expressed in character codes converted from visual and auditory information.

「変換手段」とは、視覚情報や聴覚情報を解析して対応するテキスト情報に変換するための装置またはソフトウェアである。 "Conversion means" refers to a device or software that analyzes visual or auditory information and converts it into corresponding text information.

「検索手段」とは、特定のキーワードやクエリに基づいてウェブ上から関連情報を探し出すための装置またはソフトウェアである。 A "search tool" is a device or software that locates relevant information on the web based on specific keywords or queries.

「拡張現実(AR)」とは、実際の環境に仮想の情報や映像を重ね合わせて表示する技術である。 Augmented reality (AR) is a technology that overlays virtual information and images onto the real environment.

「表示手段」とは、AR技術を用いて取得および検索された情報をユーザに見える形で提示する装置またはソフトウェアである。 "Display means" refers to a device or software that presents information obtained and searched using AR technology in a visible form to the user.

「興味データ」とは、ユーザが視線や音声などで示した関心や興味を記録した情報である。 "Interest data" is information that records the interests and concerns expressed by the user through their gaze, voice, etc.

「収集手段」とは、ユーザが示した興味データを記録および収集するための装置またはソフトウェアである。 "Collection Instrument" means any device or software used to record and collect interest data expressed by users.

「分析手段」とは、収集された興味データを解析してユーザの興味や関心の傾向を把握するための装置またはソフトウェアである。 "Analysis means" refers to a device or software that analyzes collected interest data to understand trends in users' interests and concerns.

第1実施形態に係るデータ処理システムの構成の一例を示す概念図である。1 is a conceptual diagram illustrating an example of the configuration of a data processing system according to a first embodiment. 第1実施形態に係るデータ処理装置及びスマートデバイスの要部機能の一例を示す概念図である。1 is a conceptual diagram showing an example of main functions of a data processing device and a smart device according to a first embodiment. 第2実施形態に係るデータ処理システムの構成の一例を示す概念図である。FIG. 10 is a conceptual diagram illustrating an example of the configuration of a data processing system according to a second embodiment. 第2実施形態に係るデータ処理装置及びスマート眼鏡の要部機能の一例を示す概念図である。FIG. 10 is a conceptual diagram showing an example of main functions of a data processing device and smart glasses according to a second embodiment. 第3実施形態に係るデータ処理システムの構成の一例を示す概念図である。FIG. 10 is a conceptual diagram illustrating an example of the configuration of a data processing system according to a third embodiment. 第3実施形態に係るデータ処理装置及びヘッドセット型端末の要部機能の一例を示す概念図である。FIG. 11 is a conceptual diagram showing an example of main functions of a data processing device and a headset-type terminal according to a third embodiment. 第4実施形態に係るデータ処理システムの構成の一例を示す概念図である。FIG. 10 is a conceptual diagram showing an example of the configuration of a data processing system according to a fourth embodiment. 第4実施形態に係るデータ処理装置及びロボットの要部機能の一例を示す概念図である。FIG. 10 is a conceptual diagram showing an example of main functions of a data processing device and a robot according to a fourth embodiment. 複数の感情がマッピングされる感情マップを示す。1 shows an emotion map onto which multiple emotions are mapped. 複数の感情がマッピングされる感情マップを示す。1 shows an emotion map onto which multiple emotions are mapped. 実施例1におけるデータ処理システムの処理の流れを示すシーケンス図である。FIG. 2 is a sequence diagram illustrating a processing flow of the data processing system according to the first embodiment. 応用例1におけるデータ処理システムの処理の流れを示すシーケンス図である。FIG. 10 is a sequence diagram showing the flow of processing in the data processing system in application example 1. 感情エンジンを組み合わせた場合の実施例2におけるデータ処理システムの処理の流れを示すシーケンス図である。FIG. 10 is a sequence diagram showing the flow of processing of the data processing system in the second embodiment when an emotion engine is combined. 感情エンジンを組み合わせた場合の応用例2におけるデータ処理システムの処理の流れを示すシーケンス図である。FIG. 10 is a sequence diagram showing the flow of processing in the data processing system in Application Example 2 when an emotion engine is combined.

以下、添付図面に従って本開示の技術に係るシステムの実施形態の一例について説明する。 Below, an example of an embodiment of a system relating to the technology disclosed herein will be described with reference to the accompanying drawings.

先ず、以下の説明で使用される文言について説明する。 First, let me explain the terminology used in the following explanation.

以下の実施形態において、符号付きのプロセッサ(以下、単に「プロセッサ」と称する)は、1つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、1種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on Graphics Processing Units)、APU(Accelerated Processing Unit)等が挙げられる。 In the following embodiments, a coded processor (hereinafter simply referred to as a "processor") may be a single arithmetic unit or a combination of multiple arithmetic units. Furthermore, a processor may be a single type of arithmetic unit or a combination of multiple types of arithmetic units. Examples of arithmetic units include a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a GPGPU (General-Purpose Computing on Graphics Processing Units), an APU (Accelerated Processing Unit), etc.

以下の実施形態において、符号付きのRAM(Random Access Memory)は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。 In the following embodiments, coded random access memory (RAM) is memory in which information is temporarily stored and is used as work memory by the processor.

以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する1つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ(SSD(Solid State Drive))、磁気ディスク(例えば、ハードディスク)、又は磁気テープ等が挙げられる。 In the following embodiments, the coded storage refers to one or more non-volatile storage devices that store various programs, parameters, etc. Examples of non-volatile storage devices include flash memory (SSD (Solid State Drive)), magnetic disks (e.g., hard disks), and magnetic tapes.

以下の実施形態において、符号付きの通信I/F(Interface)は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信I/Fは、複数のコンピュータ間での通信を司る。通信I/Fに対して適用される通信規格の一例としては、5G(5th Generation Mobile Communication System)、Wi-Fi(登録商標)、又はBluetooth(登録商標)等を含む無線通信規格が挙げられる。 In the following embodiments, a communication I/F (Interface) with a symbol is an interface that includes a communication processor, an antenna, etc. The communication I/F controls communication between multiple computers. Examples of communication standards that can be applied to the communication I/F include wireless communication standards such as 5G (5th Generation Mobile Communication System), Wi-Fi (registered trademark), or Bluetooth (registered trademark).

以下の実施形態において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。 In the following embodiments, "A and/or B" is synonymous with "at least one of A and B." In other words, "A and/or B" means that it may be just A, just B, or a combination of A and B. Furthermore, in this specification, the same concept as "A and/or B" also applies when three or more things are expressed connected by "and/or."

[第1実施形態] [First embodiment]

図1には、第1実施形態に係るデータ処理システム10の構成の一例が示されている。 Figure 1 shows an example of the configuration of a data processing system 10 according to the first embodiment.

図1に示すように、データ処理システム10は、データ処理装置12及びスマートデバイス14を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 1, the data processing system 10 includes a data processing device 12 and a smart device 14. An example of the data processing device 12 is a server.

データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).

スマートデバイス14は、コンピュータ36、受付装置38、出力装置40、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、受付装置38、出力装置40、及びカメラ42も、バス52に接続されている。 The smart device 14 includes a computer 36, a reception device 38, an output device 40, a camera 42, and a communication I/F 44. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The reception device 38, output device 40, and camera 42 are also connected to the bus 52.

受付装置38は、タッチパネル38A及びマイクロフォン38B等を備えており、ユーザ入力を受け付ける。タッチパネル38Aは、指示体(例えば、ペン又は指等)の接触を検出することにより、指示体の接触によるユーザ入力を受け付ける。マイクロフォン38Bは、ユーザの音声を検出することにより、音声によるユーザ入力を受け付ける。制御部46Aは、タッチパネル38A及びマイクロフォン38Bによって受け付けたユーザ入力を示すデータをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が、ユーザ入力を示すデータを取得する。 The reception device 38 is equipped with a touch panel 38A, a microphone 38B, etc., and receives user input. The touch panel 38A detects contact with an indicator (e.g., a pen or finger) to receive user input via the indicator. The microphone 38B detects the user's voice to receive user input via voice. The control unit 46A transmits data indicating the user input received by the touch panel 38A and the microphone 38B to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the data indicating the user input.

出力装置40は、ディスプレイ40A及びスピーカ40B等を備えており、データをユーザ20が知覚可能な表現形(例えば、音声及び/又はテキスト)で出力することでデータをユーザ20に対して提示する。ディスプレイ40Aは、プロセッサ46からの指示に従ってテキスト及び画像等の可視情報を表示する。スピーカ40Bは、プロセッサ46からの指示に従って音声を出力する。カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラである。 The output device 40 is equipped with a display 40A and a speaker 40B, and presents data to the user 20 by outputting the data in a form perceptible by the user 20 (e.g., audio and/or text). The display 40A displays visible information such as text and images in accordance with instructions from the processor 46. The speaker 40B outputs audio in accordance with instructions from the processor 46. The camera 42 is a compact digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor.

通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54.

図2には、データ処理装置12及びスマートデバイス14の要部機能の一例が示されている。 Figure 2 shows an example of the main functions of the data processing device 12 and smart device 14.

図2に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って特定処理部290として動作することによって実現される。 As shown in FIG. 2, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32. The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as a specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.

ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.

スマートデバイス14では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。受付出力プログラム60は、データ処理システム10によって特定処理プログラム56と併用される。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the smart device 14, the processor 46 performs the reception output processing. The storage 50 stores a reception output program 60. The reception output program 60 is used in conjunction with the specific processing program 56 by the data processing system 10. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output processing is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.

次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain the specific processing performed by the specific processing unit 290 of the data processing device 12. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、AR形式でユーザに表示するシステムである。以下に、その具体的な実施形態について説明する。 This invention is a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in AR format. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をテキスト情報に変換するために、OCR(光学文字認識)技術を使用する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then uses OCR (optical character recognition) technology to convert the acquired visual information into text information. For example, it can recognize a cafe sign and convert it into text information such as "Cafe ABC." Similarly, auditory information is converted into text information using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text information such as "This cafe is delicious."

変換されたテキスト情報は、端末からサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジンを使用して「カフェ ABC」に関するレビューやメニュー、位置情報などを取得する。検索結果は再び端末に送信される。 The converted text information is sent from the device to the server. The server uses the received text information to search for related information on the web. Specifically, it uses a web search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." The search results are then sent back to the device.

端末は取得した検索結果を整理し、ユーザの視界にAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The device organizes the search results and displays them in AR format in the user's field of view. For example, reviews and popular menu items for "Cafe ABC" could be overlaid on the smartglasses' display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの興味データを収集する。具体的には、ユーザが特定の情報に視線を向けたり、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。収集された興味データはサーバに送信され、サーバはこれを分析してユーザの興味の傾向を把握する。この分析結果は次回以降の検索や情報提供に反映され、ユーザの好みに合わせた最適な情報を提供することができる。 Furthermore, the device collects data on the user's interests. Specifically, when the user looks at specific information or issues a voice command such as "I'm interested in this menu item," that information is recorded. The collected interest data is sent to a server, which analyzes it to understand the user's interest trends. The results of this analysis are reflected in subsequent searches and information provision, making it possible to provide the most appropriate information tailored to the user's preferences.

例えば、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。サーバは「カフェ XYZ」および「ケーキ」というキーワードを基に、ウェブ検索を行い、関連するレビューやメニュー情報を取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 For example, if a user is walking down the street and spots a sign that says "Cafe XYZ," the camera in the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert this statement into text. The server will perform a web search based on the keywords "Cafe XYZ" and "cake" to retrieve related reviews and menu information. This information will be sent to the device and displayed in AR format on the smart glasses' display. The user will be able to check reviews and photos of the cake on the spot.

このような形態により、本発明はユーザのリアルタイムな情報取得と提供を可能にし、ユーザエクスペリエンスを向上させることができる。また、ユーザの興味や関心に基づいたデータを収集・分析することで、さらにパーソナライズされた情報提供が可能となる。 In this manner, the present invention enables users to obtain and provide information in real time, improving the user experience. Furthermore, by collecting and analyzing data based on the user's interests, it becomes possible to provide even more personalized information.

以下に、処理の流れについて説明する。 The processing flow is explained below.

ステップ1: Step 1:

端末が外界の視覚情報および聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラを用いて映像をキャプチャし、マイクを用いて音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 The device acquires visual and auditory information from the outside world. Specifically, the smart glasses' built-in camera captures video and a microphone records audio. This data is sent in real time to a processing unit within the device.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、端末は「カフェ ABC」と書かれた看板を認識し、その画像をテキストに変換する。同様に、取得した聴覚情報を音声認識技術を用いてテキスト情報に変換する。例えば、「このカフェは美味しい」という通行人の会話をテキストに変換する。 Visual information acquired by the device is converted into text information using OCR technology. For example, the device recognizes a sign that reads "Cafe ABC" and converts the image into text. Similarly, auditory information acquired is converted into text information using voice recognition technology. For example, a passerby's speech, "This cafe is delicious," is converted into text.

ステップ3: Step 3:

端末が変換されたテキスト情報をサーバに送信する。具体的には、OCRや音声認識によって生成されたテキストデータをインターネットを介してサーバにアップロードする。 The device sends the converted text information to the server. Specifically, the text data generated by OCR or voice recognition is uploaded to the server via the Internet.

ステップ4: Step 4:

サーバが受け取ったテキスト情報を基にウェブ上の関連情報を検索する。サーバは検索エンジンを使用して、「カフェ ABC」に関するレビュー、メニュー、位置情報などを取得する。複数の検索エンジンを用いてより豊富な情報を収集することも可能である。 The server searches for related information on the web based on the text information it receives. The server uses a search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." It is also possible to gather more information by using multiple search engines.

ステップ5: Step 5:

サーバが取得した検索結果を整理し、関連性の高い情報を選別する。例えば、ユーザ評価の高いレビューや、公式サイトの情報を優先的に選ぶ。 The server organizes the search results and selects the most relevant information. For example, it prioritizes reviews with high user ratings and information from official websites.

ステップ6: Step 6:

サーバが整理された情報を端末に送信する。具体的には、関連するレビューやメニュー情報をまとめたデータをインターネット経由で端末に送る。 The server sends the organized information to the device. Specifically, it sends data summarizing related reviews and menu information to the device via the Internet.

ステップ7: Step 7:

端末が受け取った情報をAR形式で表示する。スマートグラスのディスプレイ上に、「カフェ ABC」のレビューや人気メニューがオーバーレイ表示されるようにする。 The information received by the device is displayed in AR format. Reviews and popular menu items from Cafe ABC are overlaid on the smartglasses display.

ステップ8: Step 8:

ユーザが視線や音声で特定の情報に興味を示した場合、そのデータを端末が記録する。例えば、ユーザが特定のレビューページをじっと見つめたり、「このメニューが気になる」と言った場合である。 When a user shows interest in specific information through their gaze or voice, the device records that data. For example, if a user stares intently at a particular review page or says, "I'm interested in this menu item."

ステップ9: Step 9:

端末が収集された興味データをサーバに送信する。興味データには、ユーザの視線情報や音声コマンドが含まれる。 The device sends the collected interest data to the server. The interest data includes the user's gaze information and voice commands.

ステップ10: Step 10:

サーバが収集された興味データを分析し、ユーザの興味の傾向を把握する。この分析結果を基に、次回以降の検索結果や情報提供に反映させて、ユーザに最適な情報を提供できるようにする。 The server analyzes the collected interest data to understand trends in user interests. The results of this analysis are reflected in future search results and information provision, enabling the server to provide users with the most appropriate information.

(実施例1) (Example 1)

次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Example 1. In the following explanation, the data processing device 12 will be referred to as a "server" and the smart device 14 will be referred to as a "terminal."

現代の社会では、ユーザが必要な情報を迅速かつ効率的に取得することが求められている。特に、移動中や活動中においてもリアルタイムで情報を取得し、それを活用することで、ユーザエクスペリエンスを向上させることが重要である。しかし、既存の技術ではユーザが興味を持つ情報をリアルタイムで適切に取得・提供する手法が不十分であり、情報の取得過程が煩雑であるという問題がある。また、ユーザの興味傾向を把握し、それに基づいたパーソナライズされた情報提供についても課題が残されている。このような背景から、ユーザの視覚情報や聴覚情報を取得・分析し、それを基にリアルタイムで関連情報を提供するための技術が必要とされている。 In modern society, users are expected to obtain the information they need quickly and efficiently. It is particularly important to improve the user experience by obtaining and utilizing information in real time, even while on the move or while active. However, existing technology lacks sufficient methods for appropriately obtaining and providing information that interests users in real time, and the information acquisition process is cumbersome. Furthermore, there are still challenges in identifying users' interest trends and providing personalized information based on them. Against this background, there is a need for technology that can obtain and analyze users' visual and auditory information and provide relevant information in real time based on that information.

実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、前記視覚情報をテキスト情報に変換する手段と、前記聴覚情報をテキスト情報に変換する手段と、前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、前記検索された情報を拡張現実(AR)形式で表示する手段と、ユーザの興味に基づいたデータをリアルタイムで収集する手段と、前記収集されたデータを分析して次回以降の検索結果に反映する手段と、を含む。これにより、ユーザが移動中や活動中でも必要な情報を迅速かつ効率的に取得することが可能となり、さらにユーザの興味や好みに基づいたパーソナライズされた情報提供が実現できる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information, means for displaying the searched information in an augmented reality (AR) format, means for collecting data based on the user's interests in real time, and means for analyzing the collected data and reflecting it in subsequent search results. This enables the user to quickly and efficiently obtain the information they need while on the move or while active, and further enables the provision of personalized information based on the user's interests and preferences.

「外界の視覚情報」とは、周囲の環境に存在する物体や文字などの視覚的な情報のことを指す。 "Visual information from the external world" refers to visual information such as objects and letters that exist in the surrounding environment.

「外界の聴覚情報」とは、周囲の環境に存在する音や会話などの聴覚的な情報のことを指す。 "External auditory information" refers to auditory information such as sounds and conversations that exist in the surrounding environment.

「視覚情報をテキスト情報に変換する手段」とは、取得した視覚情報をテキストデータに変換する技術であり、具体的にはOCR(光学文字認識)技術を用いることである。 "Means for converting visual information into text information" refers to technology that converts acquired visual information into text data, specifically the use of OCR (optical character recognition) technology.

「聴覚情報をテキスト情報に変換する手段」とは、取得した聴覚情報をテキストデータに変換する技術であり、具体的には音声認識技術を用いることである。 "Means for converting auditory information into text information" refers to technology that converts acquired auditory information into text data, specifically using voice recognition technology.

「ウェブ上の関連情報を検索する手段」とは、変換されたテキスト情報を基に、インターネット上に存在する関連する情報を検索し取得する技術のことを指す。 "Means for searching for related information on the web" refers to technology that searches for and retrieves related information on the Internet based on converted text information.

「拡張現実(AR)形式で表示する手段」とは、取得した情報を現実の視界に重ねて表示する技術のことを指す。これによりユーザは現実世界の映像と追加情報を同時に確認できる。 "Augmented reality (AR) display" refers to technology that displays acquired information overlaid on the real world, allowing users to simultaneously view images of the real world and additional information.

「ユーザの興味に基づいたデータをリアルタイムで収集する手段」とは、ユーザが特定の情報に関心を示した際、その関心の傾向をリアルタイムで記録し収集する技術のことを指す。 "Means for collecting data based on user interests in real time" refers to technology that records and collects trends in interest in real time when a user shows interest in specific information.

「収集されたデータを分析して次回以降の検索結果に反映する手段」とは、収集したユーザの興味データを解析し、その解析結果を基に次回の情報提供をパーソナライズする技術のことを指す。 "Means of analyzing collected data and reflecting it in future search results" refers to technology that analyzes collected user interest data and personalizes the next information provided based on the results of that analysis.

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、拡張現実(AR)形式でユーザに表示するシステムである。以下に、その具体的な実施形態について説明する。 This invention is a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in augmented reality (AR) format. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をテキスト情報に変換するために、OCR(光学文字認識)技術を使用する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then uses OCR (optical character recognition) technology to convert the acquired visual information into text information. For example, it can recognize a cafe sign and convert it into text information such as "Cafe ABC." Similarly, auditory information is converted into text information using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text information such as "This cafe is delicious."

変換されたテキスト情報は、端末からサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジンを使用して「カフェ ABC」に関するレビューやメニュー、位置情報などを取得する。検索結果は再び端末に送信される。 The converted text information is sent from the device to the server. The server uses the received text information to search for related information on the web. Specifically, it uses a web search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." The search results are then sent back to the device.

端末は取得した検索結果を整理し、ユーザの視界にAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The device organizes the search results and displays them in AR format in the user's field of view. For example, reviews and popular menu items for "Cafe ABC" could be overlaid on the smartglasses' display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの興味データを収集する。具体的には、ユーザが特定の情報に視線を向けたり、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。収集された興味データはサーバに送信され、サーバはこれを分析してユーザの興味の傾向を把握する。この分析結果は次回以降の検索や情報提供に反映され、ユーザの好みに合わせた最適な情報を提供することができる。 Furthermore, the device collects user interest data. Specifically, when the user looks at specific information or issues a voice command such as "I'm interested in this menu item," that information is recorded. The collected interest data is sent to a server, which analyzes it to understand the user's interest trends. The results of this analysis are reflected in subsequent searches and information provision, making it possible to provide the most appropriate information tailored to the user's preferences.

具体例として、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。サーバは「カフェ XYZ」および「ケーキ」というキーワードを基に、ウェブ検索を行い、関連するレビューやメニュー情報を取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 As a concrete example, if a user is walking down the street and spots a sign for "Cafe XYZ," the camera in the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert this statement into text. The server will perform a web search based on the keywords "Cafe XYZ" and "cake" to retrieve related reviews and menu information. This information will be sent to the device and displayed in AR format on the smart glasses' display. The user will be able to check reviews and photos of the cake on the spot.

プロンプト文の例は以下の通りである: Example prompts are as follows:

「カフェ XYZ の看板を見つけたが、詳細情報とレビューを知りたい。このカフェのケーキの評判についても調べてください。」 "I saw a sign for Cafe XYZ and would like more information and reviews. I'd also like to know what people think of the cafe's cakes."

このような形態により、本発明はユーザのリアルタイムな情報取得と提供を可能にし、ユーザエクスペリエンスを向上させることができる。また、ユーザの興味や関心に基づいたデータを収集・分析することで、さらにパーソナライズされた情報提供が可能となる。 In this manner, the present invention enables users to obtain and provide information in real time, improving the user experience. Furthermore, by collecting and analyzing data based on the user's interests, it becomes possible to provide even more personalized information.

実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.

ステップ1: Step 1:

端末が外界の視覚情報と聴覚情報を取得する。 The device acquires visual and auditory information from the outside world.

入力として、ユーザの視界に映る外界の映像および環境の音がある。 Inputs include images of the outside world that appear in the user's field of vision and sounds from the environment.

具体的な動作として、スマートグラスに搭載されたカメラがビデオ映像をキャプチャし、マイクが音声を録音する。 Specifically, the camera built into the smart glasses captures video footage, and the microphone records audio.

出力として、取得した映像データと音声データが端末内部の処理ユニットに送信される。 As output, the captured video and audio data is sent to the processing unit inside the terminal.

ステップ2: Step 2:

端末が取得した視覚情報をテキスト情報に変換する。 The visual information acquired by the device is converted into text information.

入力として、ステップ1で取得された映像データがある。 The input is the video data acquired in step 1.

具体的な動作として、端末はOCR(光学文字認識)技術を用いて映像データ内の文字を解析し、これをテキストデータに変換する。例えば、「カフェ ABC」の看板を認識して「カフェ ABC」とテキスト化する。 Specifically, the device uses OCR (optical character recognition) technology to analyze the characters in the video data and convert it into text data. For example, it would recognize a sign that reads "Cafe ABC" and convert it into text as "Cafe ABC."

出力として、変換されたテキストデータが得られる。 The output is the converted text data.

ステップ3: Step 3:

端末が取得した聴覚情報をテキスト情報に変換する。 The device converts the auditory information it acquires into text information.

入力として、ステップ1で取得された音声データがある。 The input is the audio data obtained in step 1.

具体的な動作として、端末は音声認識技術を用いて、音声データを解析し、これをテキストデータに変換する。例えば、「このカフェは美味しい」という通行人の会話をテキストデータにする。 Specifically, the device uses voice recognition technology to analyze voice data and convert it into text data. For example, a passerby's speech, "This cafe is delicious," can be converted into text data.

出力として、変換されたテキストデータが得られる。 The output is the converted text data.

ステップ4: Step 4:

端末が変換されたテキスト情報をサーバに送信する。 The device sends the converted text information to the server.

入力として、ステップ2およびステップ3で得られたテキストデータがある。 The input is the text data obtained in steps 2 and 3.

具体的な動作として、端末内の通信モジュールを使用して、インターネット経由でテキストデータをサーバに送信する。 Specific operations include using a communications module within the device to send text data to a server via the Internet.

出力として、テキストデータがサーバに到着する。 As output, text data arrives at the server.

ステップ5: Step 5:

サーバが受け取ったテキスト情報に基づいてウェブ上の関連情報を検索する。 The server searches for relevant information on the web based on the text information received.

入力として、ステップ4でサーバに到着したテキストデータがある。 The input is the text data that arrived at the server in step 4.

具体的な動作として、サーバはウェブ検索エンジン(例えば、Google(登録商標)のAPI)を使用して、「カフェ ABC」に関連するレビュー、メニュー、位置情報などを検索する。 Specific operations include the server using a web search engine (e.g., Google (registered trademark) API) to search for reviews, menus, location information, etc. related to "Cafe ABC."

出力として、検索結果が得られる。 The output is the search results.

ステップ6: Step 6:

サーバが検索結果を端末に送信する。 The server sends the search results to the device.

入力として、ステップ5で得られた検索結果がある。 The input is the search results obtained in step 5.

具体的な動作として、サーバは通信モジュールを使用して、検索結果を端末に送信する。データはJSON形式などの軽量データフォーマットで送信される。 Specifically, the server uses a communications module to send search results to the device. The data is sent in a lightweight data format such as JSON.

出力として、検索結果が端末に到着する。 As output, the search results arrive on the terminal.

ステップ7: Step 7:

端末が取得した検索結果を整理し、ユーザの視界にAR形式で表示する。 The device organizes the search results and displays them in AR format in the user's field of view.

入力として、ステップ6で端末に到着した検索結果がある。 The input is the search results that arrived on the terminal in step 6.

具体的な動作として、端末はスマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューをオーバーレイ表示する。例えば、「カフェ ABC: 評価 4.5 星, 人気メニュー: チーズケーキ」といった内容が表示される。 Specifically, the device will overlay reviews and popular menu items for "Cafe ABC" on the smartglasses' display. For example, it might show something like "Cafe ABC: Rating 4.5 stars, Popular menu item: Cheesecake."

出力として、ユーザの視界に検索結果がAR形式で表示される。 As output, search results are displayed in AR format in the user's field of vision.

ステップ8: Step 8:

端末がユーザの興味データを収集し、サーバに送信する。 The device collects user interest data and sends it to the server.

入力として、ユーザの視線の固定や音声コマンドなどのユーザの行動データがある。 Inputs include user behavior data such as gaze fixation and voice commands.

具体的な動作として、端末はユーザの視線の動きを検出し、特定の情報に視線を向けた場合や、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。これらの興味データはインターネットを通じてサーバに送信される。 Specifically, the device detects the user's eye movements and records information when the user looks at specific information or issues a voice command such as "I'm interested in this menu item." This interest data is sent to a server via the Internet.

出力として、興味データがサーバに到着する。 As output, the interest data arrives at the server.

ステップ9: Step 9:

サーバが収集されたデータを分析し、次回以降の検索結果に反映する。 The server analyzes the collected data and reflects it in future search results.

入力として、ステップ8でサーバに到着した興味データがある。 The input is the interest data that arrived at the server in step 8.

具体的な動作として、サーバは興味データを解析し、ユーザの興味の傾向をモデル化する。このモデルを基に、次回の検索や情報提供の際にパーソナライズされた結果を提供する。 Specifically, the server analyzes interest data and models the user's interest trends. Based on this model, the server provides personalized results the next time the user searches or provides information.

出力として、分析結果が得られ、次回以降の検索結果に反映される。 The analysis results are obtained as output and will be reflected in subsequent search results.

(応用例1) (Application Example 1)

次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Application Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."

従来の技術では、ユーザが実店舗内で商品情報をリアルタイムに取得する手段が限られており、特定の商品についてのレビューやプロモーション情報を迅速に得ることが困難であった。また、ユーザの興味や関心に応じたパーソナライズされた情報提供も十分に行われていなかった。これにより、ユーザエクスペリエンスが低下し、購入意欲が減退する恐れがあった。 With conventional technology, users had limited means of obtaining real-time product information in physical stores, making it difficult to quickly obtain reviews and promotional information about specific products. Furthermore, there was a lack of provision of personalized information tailored to users' interests. This could result in a poor user experience and a decrease in purchasing motivation.

応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、前記視覚情報をテキスト情報に変換する手段と、前記聴覚情報をテキスト情報に変換する手段と、前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、前記検索された情報を拡張現実(AR)形式で表示する手段と、ユーザの興味に基づいたデータを収集する手段と、前記収集されたデータを分析する手段と、ユーザの歩行中に商品情報やレビューをAR形式でリアルタイムに提供する手段と、を含む。これにより、ユーザは実店舗内で商品情報を迅速かつ直感的に取得でき、パーソナライズされた情報提供により、ショッピング体験が向上することが可能となる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information, means for displaying the searched information in an augmented reality (AR) format, means for collecting data based on the user's interests, means for analyzing the collected data, and means for providing product information and reviews in AR format in real time while the user is walking. This allows users to quickly and intuitively obtain product information in a physical store, and the provision of personalized information can improve the shopping experience.

「外界の視覚情報」とは、ユーザの周囲の環境や対象物の映像情報を指し、主にカメラなどの撮影装置で取得されるものである。 "Visual information from the outside world" refers to image information about the user's surrounding environment and objects, and is primarily obtained using imaging devices such as cameras.

「外界の聴覚情報」とは、ユーザの周囲の音声や音響情報を指し、主にマイクロフォンなどの音響収集装置で取得されるものである。 "External auditory information" refers to the sounds and acoustic information around the user, and is primarily obtained by acoustic collection devices such as microphones.

「視覚情報をテキスト情報に変換する手段」とは、取得した視覚情報を文字や数字などのテキスト形式の情報に変換するための光学文字認識(OCR)技術を用いる手段である。 "Means for converting visual information into text information" refers to means that use optical character recognition (OCR) technology to convert acquired visual information into text-format information such as letters and numbers.

「聴覚情報をテキスト情報に変換する手段」とは、取得した聴覚情報を文字や単語などのテキスト形式の情報に変換するための音声認識技術を用いる手段である。 "Means for converting auditory information into text information" refers to means that use voice recognition technology to convert acquired auditory information into text-format information such as letters or words.

「ウェブ上の関連情報を検索する手段」とは、変換されたテキスト情報を基にインターネット上で適切な情報を探し出すための検索エンジン機能を含む手段である。 "Means for searching for relevant information on the web" refers to means that include a search engine function for finding appropriate information on the Internet based on converted text information.

「拡張現実(AR)形式で表示する手段」とは、現実の映像にデジタル情報を重ね合わせて表示する技術であり、スマートグラスなどのディスプレイ装置を用いる手段である。 "Augmented reality (AR) display" refers to a technology that displays digital information overlaid on real-world images, and is a method that uses display devices such as smart glasses.

「ユーザの興味に基づいたデータを収集する手段」とは、ユーザの視線や音声コマンドなど、ユーザが興味を示した対象に関する情報を集める手段である。 "Means for collecting data based on user interests" refers to means for collecting information about subjects that the user is interested in, such as the user's gaze or voice commands.

「収集されたデータを分析する手段」とは、収集したユーザの興味データを解析し、ユーザの好みや傾向を把握するための手段である。 "Means for analyzing collected data" refers to means for analyzing collected user interest data and understanding user preferences and trends.

「ユーザの歩行中に商品情報やレビューをAR形式でリアルタイムに提供する手段」とは、ユーザが実店舗内で移動しながら視覚装置を通じて商品情報やユーザレビューを拡張現実形式で即時に表示する手段である。 "A means of providing product information and reviews in real time in AR format while the user is walking" refers to a means of instantly displaying product information and user reviews in augmented reality format through a visual device while the user is moving around in a physical store.

「ユーザの視線を検出する手段」とは、ユーザの視線の方向や注視ポイントを検出して追跡するための視線追跡装置や技術を用いる手段である。 "Means for detecting a user's gaze" refers to means that use gaze tracking devices or technology to detect and track the user's gaze direction and gaze point.

「ユーザの音声コマンドを認識する手段」とは、ユーザが発した音声指示を捉え、それを理解して処理するための音声認識システムを用いる手段である。 "Means for recognizing user voice commands" refers to means for using a voice recognition system to capture, understand, and process voice instructions given by the user.

この発明は、ユーザが実店舗内で商品情報やレビューをリアルタイムに取得するためのシステムを提供するものである。具体的には、スマートグラスを用いて外界の視覚情報や聴覚情報を取得し、それを基にテキスト情報を生成し、ウェブ上の関連情報を検索して拡張現実(AR)形式で表示するシステムである。 This invention provides a system that allows users to obtain product information and reviews in real time while in a physical store. Specifically, the system uses smart glasses to obtain visual and auditory information from the outside world, generates text information based on that information, searches for related information on the web, and displays it in augmented reality (AR) format.

システムの構成 System Configuration

このシステムは以下の主要なコンポーネントで構成される: The system consists of the following main components:

ハードウェア Hardware

スマートグラス:カメラ、マイク、ディスプレイ、プロセッサを搭載している。ユーザが装着し、外界の視覚情報や聴覚情報を取得する。 Smart glasses: Equipped with a camera, microphone, display, and processor. Worn by the user, they capture visual and auditory information from the outside world.

クラウドサーバ:大容量のデータ処理とストレージを担当する。 Cloud server: Responsible for large-volume data processing and storage.

ソフトウェア Software

光学文字認識(OCR)技術(例: Tesseract):取得された視覚情報をテキスト形式に変換する。 Optical character recognition (OCR) technology (e.g., Tesseract): converts captured visual information into text.

音声認識技術(例: Google Cloud Speech-to-Text):取得された聴覚情報をテキスト形式に変換する。 Speech recognition technology (e.g., Google Cloud Speech-to-Text): Converts captured auditory information into text format.

ウェブ検索エンジン(例: ElasticSearch(登録商標)):変換されたテキスト情報に基づいてインターネット上の関連情報を検索する。 Web search engines (e.g., ElasticSearch (registered trademark)): Search for relevant information on the Internet based on converted text information.

拡張現実(AR)技術(例: ARCore):取得した情報をAR形式でスマートグラスのディスプレイに表示する。 Augmented reality (AR) technology (e.g., ARCore): Displays acquired information in AR format on the smart glasses display.

視線追跡技術:ユーザの視線を検出し、興味を示す対象物を特定する。 Eye tracking technology: Detects where the user is looking and identifies objects of interest.

動作の概要 Operation Overview

1. 視覚情報の取得と変換:スマートグラスのカメラで店舗内の商品や看板をキャプチャし、OCR技術を用いてテキスト情報に変換する。 1. Acquisition and conversion of visual information: The smart glasses' camera captures products and signs in the store and converts them into text information using OCR technology.

2. 聴覚情報の取得と変換:スマートグラスのマイクでユーザの音声コマンドを録音し、音声認識技術を用いてテキスト情報に変換する。 2. Acquisition and conversion of auditory information: The smart glasses' microphone records the user's voice commands and converts them into text using voice recognition technology.

3. 関連情報の検索:変換されたテキスト情報をクラウドサーバに送信し、ウェブ検索エンジンで関連情報を取得する。 3. Search for related information: The converted text information is sent to a cloud server and related information is retrieved using a web search engine.

4. 情報のAR形式で表示:取得した情報をAR形式でスマートグラスのディスプレイにオーバーレイ表示する。 4. Displaying information in AR format: The acquired information is overlaid on the smart glasses display in AR format.

5. 興味データの収集と分析:ユーザの視線や音声コマンドを記録し、クラウドサーバで分析することでユーザの興味や関心を把握し、次回以降の情報提供に活用する。 5. Collection and analysis of interest data: By recording the user's gaze and voice commands and analyzing them on a cloud server, we can understand the user's interests and concerns, and use this information to provide them in future visits.

具体例 Specific examples

例えば、ユーザが店内で特定の商品を探している場合、スマートグラスのカメラがその商品を認識し、「商品名 XYZ」というテキスト情報に変換する。その上で「商品名 XYZ レビュー」というキーワードでウェブ検索を行い、取得したレビュー情報をスマートグラスのディスプレイにAR表示する。さらに、ユーザが「この商品の評価を知りたい」という音声コマンドを発した場合、音声をテキストに変換し、追加のレビュー情報を再検索して表示する。ユーザが特定の情報に視線を向けた場合、その情報を記録し、次回の検索結果に基づくパーソナライズに利用する。 For example, if a user is looking for a specific product in a store, the smart glasses' camera will recognize the product and convert it into text information such as "Product name XYZ." A web search will then be performed using the keywords "Product name XYZ review," and the retrieved review information will be displayed in AR on the smart glasses' display. Furthermore, if the user issues a voice command such as "I want to know the rating of this product," the voice will be converted into text, and additional review information will be searched for and displayed. If the user looks at specific information, that information will be recorded and used to personalize the next search results.

プロンプト文の例 Example prompt

ユーザが店内で特定の商品を探している時、 When a user is searching for a specific product in a store,

スマートグラスのカメラで商品名 XYZ をキャプチャし、 Capture product name XYZ with the smart glasses camera,

カメラ映像から OCR で「商品名 XYZ」をテキスト情報に変換する。 Use OCR to convert "Product Name XYZ" from camera footage into text information.

その上で "商品名 XYZ レビュー" というキーワードでウェブ検索を行い、 Then, do a web search using the keywords "Product Name XYZ Review"

取得したレビュー情報をスマートグラスのディスプレイに AR 表示しなさい。 Display the acquired review information in AR on the smart glasses display.

さらに、ユーザが「この商品の評価を知りたい」という音声コマンドを発した場合、 Furthermore, if the user issues a voice command such as "I want to know the rating of this product,"

音声をテキストに変換し、追加のレビュー情報を再検索して表示しなさい。 Convert speech to text and re-search for additional review information.

ユーザが特定の情報に視線を向けた場合、その情報を記録し、次回の検索結果に基づくパーソナライズに利用しなさい。 When a user looks at specific information, record that information and use it to personalize your next search results.

応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the specific processing in Application Example 1 will be explained using Figure 12.

ステップ1: Step 1:

スマートグラスのカメラが実店舗内の環境をキャプチャする。ここで得られる入力は、ユーザの視界内にある商品の映像である。スマートグラス内のプロセッサは、この映像データをリアルタイムで取得し、視覚情報として処理ユニットに送信する。出力は、キャプチャされた映像データである。 The camera in the smart glasses captures the environment in a physical store. The input is a video of the products in the user's field of view. The processor in the smart glasses captures this video data in real time and sends it to the processing unit as visual information. The output is the captured video data.

ステップ2: Step 2:

スマートグラスのプロセッサは、取得した映像データをOCR技術を用いてテキスト情報に変換する。入力としては、キャプチャされた映像データが使用される。OCR技術(例: Tesseract)により、商品名や看板の文字情報が抽出され、「商品名 XYZ」などのテキスト情報に変換される。出力は、変換されたテキスト情報である。 The processor in the smart glasses converts the captured video data into text information using OCR technology. The captured video data is used as input. OCR technology (e.g., Tesseract) extracts text information from product names and signs and converts it into text information such as "Product Name XYZ." The output is the converted text information.

ステップ3: Step 3:

スマートグラスのマイクは、ユーザが発した音声コマンドを録音する。ここで得られる入力は、ユーザの音声情報である。この音声情報は音声認識技術(例: Google Cloud Speech-to-Text)によってテキスト情報に変換される。例えば、「この商品のレビューを聞きたい」という音声コマンドが「この商品のレビューを聞きたい」というテキストに変換される。出力は、変換された音声のテキスト情報である。 The microphone in the smart glasses records voice commands given by the user. The input obtained here is the user's voice information. This voice information is converted into text information using voice recognition technology (e.g., Google Cloud Speech-to-Text). For example, the voice command "I would like to hear reviews of this product" is converted into text "I would like to hear reviews of this product." The output is the text information of the converted voice.

ステップ4: Step 4:

端末は、変換された視覚情報と聴覚情報をクラウドサーバに送信する。入力としては、OCRおよび音声認識によって変換されたテキスト情報が使用される。クラウドサーバは、受け取ったテキスト情報に基づいてウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジン(例: Elasticsearch)を使用して、「商品名 XYZ レビュー」などの検索クエリを実行し、関連するレビューやメニュー情報を取得する。出力は、検索結果としての関連情報である。 The device sends the converted visual and auditory information to a cloud server. The input is text information converted using OCR and speech recognition. The cloud server searches for related information on the web based on the received text information. Specifically, it uses a web search engine (e.g., Elasticsearch) to execute a search query such as "Product Name XYZ Reviews" to retrieve related reviews and menu information. The output is related information as search results.

ステップ5: Step 5:

クラウドサーバは、取得した関連情報を整理し、スマートグラスに送信する。入力としては、検索によって得られた関連情報が使用される。まず、関連情報を形式化し、スマートグラスのディスプレイに適した形式に変換する。出力は、AR表示用にフォーマットされたデータである。 The cloud server organizes the retrieved relevant information and sends it to the smart glasses. The relevant information obtained through the search is used as input. First, the relevant information is formalized and converted into a format suitable for the smart glasses' display. The output is data formatted for AR display.

ステップ6: Step 6:

スマートグラスのディスプレイは、取得した情報をAR形式でオーバーレイ表示する。ここでの入力は、クラウドサーバから送信されたフォーマット化されたデータである。スマートグラスのディスプレイは、ユーザの視界に商品レビューやメニュー情報を重ね合わせて表示する。出力は、実店舗環境に重ね合わせられたAR表示情報である。 The smart glasses display displays the acquired information in an AR overlay format. The input here is formatted data sent from the cloud server. The smart glasses display overlays product reviews and menu information in the user's field of view. The output is AR display information overlaid on the physical store environment.

ステップ7: Step 7:

スマートグラスの視線追跡機能は、ユーザの視線を検出し、興味を示した情報を記録する。入力としては、視線の方向や視点のデータが使用される。視線追跡技術により、ユーザがどの情報を注視しているかがリアルタイムで解析され、その結果がデータとして記録される。出力は、興味データである。 The eye-tracking function of smart glasses detects the user's gaze and records information that the user shows interest in. The input is data on the direction of gaze and point of view. Eye-tracking technology analyzes in real time what information the user is focusing on, and the results are recorded as data. The output is interest data.

ステップ8: Step 8:

クラウドサーバは、収集されたユーザの興味データを分析する。入力は、視線追跡技術や音声コマンドによって記録された興味データである。サーバはこのデータを解析し、ユーザの好みや傾向を把握する。これにより次回以降の検索や情報提供に活用される。出力は、解析されたユーザの好みや傾向のデータである。 The cloud server analyzes the collected user interest data. The input is interest data recorded using eye-tracking technology and voice commands. The server analyzes this data to understand the user's preferences and trends. This information is used for future searches and information provision. The output is analyzed data on the user's preferences and trends.

更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 Furthermore, an emotion engine that estimates the user's emotion may be combined. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.

本発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、AR形式でユーザに表示するシステムに、ユーザの感情を認識する感情エンジンを組み合わせたものである。以下に、その具体的な実施形態について説明する。 This invention combines a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in AR format with an emotion engine that recognizes the user's emotions. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then converts the acquired visual information into text using OCR technology. For example, it can recognize a cafe sign and convert it into text such as "Cafe ABC." Similarly, it converts auditory information into text using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text such as "This cafe is delicious."

また、取得された映像および音声データは、端末に搭載された感情エンジンによってユーザの感情を解析する。感情エンジンは機械学習アルゴリズムを使用してユーザの表情や声のトーンから感情を識別する。例えば、ユーザが喜んでいるか、興味を持っているか、あるいは驚いているかといった感情を認識する。 The captured video and audio data is then analyzed by the device's built-in emotion engine to determine the user's emotions. The emotion engine uses machine learning algorithms to identify emotions from the user's facial expressions and tone of voice. For example, it can recognize whether the user is happy, interested, or surprised.

変換されたテキスト情報と認識された感情データは、端末からサーバに送信される。サーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「カフェ ABC」というキーワードを基にレビューやメニュー、場所の詳細をGoogleなどの検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent from the device to the server. The server then searches for related information on the web based on the received text information. For example, based on the keyword "cafe ABC," reviews, menus, and location details can be retrieved using a search engine such as Google. Furthermore, by taking emotion data into consideration, it is possible to prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報をAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in AR format. For example, reviews and popular menu items for "Cafe ABC" are overlaid on the smartglasses display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。例えば、ユーザが特定の情報をじっと見つめたり、「このケーキが気になる」といった発言をすると、端末はそれを記録する。また、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 The device also collects interest data based on the user's gaze and voice commands. For example, if a user stares intently at a particular piece of information or says something like "I'm interested in this cake," the device will record it. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはサーバに送信され、分析される。サーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to the server for analysis. The server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if the user shows a strong interest in cafes, information about cafes can be displayed preferentially from the next time onwards.

具体例として、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はサーバに送信され、サーバは「カフェ XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 As a specific example, if a user is walking down the street and spots a sign for "Cafe XYZ," the camera on the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert the statement into text. At the same time, the emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to the server, which will search for detailed information about "Cafe XYZ" and prioritize information that is likely to interest the user. This information is sent to the device and displayed in AR format on the smart glasses' display. The user can then check reviews and photos of the cake on the spot.

このような形態により、ユーザのリアルタイムな情報取得および提供が可能となり、ユーザエクスペリエンスを大幅に向上させることができる。また、感情データを活用することで、さらにパーソナライズされた情報提供が実現される。 This type of service allows users to obtain and provide information in real time, significantly improving the user experience. Furthermore, by utilizing emotional data, even more personalized information can be provided.

以下に、処理の流れについて説明する。 The processing flow is explained below.

ステップ1: Step 1:

端末が外界の視覚情報および聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラで映像をキャプチャし、マイクで音声を録音する。これらのデータはリアルタイムで端末内のメモリに保存される。 The device acquires visual and auditory information from the outside world. Specifically, the smart glasses' built-in camera captures video and the microphone records audio. This data is stored in the device's memory in real time.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、「カフェ XYZ」という看板をキャプチャした場合、画像データを解析し「カフェ XYZ」というテキストデータを生成する。同様に、取得した聴覚情報を音声認識技術を用いてテキスト情報に変換する。例えば、「このカフェは美味しい」という会話をテキスト形式に変換する。 Visual information acquired by the device is converted into text information using OCR technology. For example, if a sign that reads "Cafe XYZ" is captured, the image data is analyzed and the text data "Cafe XYZ" is generated. Similarly, auditory information acquired is converted into text information using voice recognition technology. For example, a conversation such as "This cafe is delicious" is converted into text format.

ステップ3: Step 3:

端末が感情エンジンを使って視覚情報および聴覚情報からユーザの感情を識別する。機械学習アルゴリズムを用いてユーザの表情や声のトーンを解析し、喜び、興味、驚きなどの感情を認識する。例えば、ユーザがカフェの看板を見て微笑んでいる場合、その喜びの感情を識別する。 The device uses an emotion engine to identify the user's emotions from visual and auditory information. It uses machine learning algorithms to analyze the user's facial expressions and tone of voice to recognize emotions such as joy, interest, and surprise. For example, if the user smiles at a cafe sign, the device will identify the emotion of joy.

ステップ4: Step 4:

端末が変換されたテキスト情報および識別された感情データをサーバに送信する。データはインターネット経由でサーバにアップロードされる。 The device sends the converted text information and identified emotion data to the server, which then uploads the data to the server via the Internet.

ステップ5: Step 5:

サーバが受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「カフェ XYZ」というキーワードを使ってGoogle検索を行い、そのカフェのレビューやメニュー情報を取得する。 The server searches for related information on the web based on the text information it receives. For example, you can perform a Google search using the keyword "cafe XYZ" to retrieve reviews and menu information for that cafe.

ステップ6: Step 6:

サーバが取得した検索結果を整理し、関連性の高い情報を選別する。感情データを考慮して、ユーザが興味を示しやすい情報を優先的に選ぶ。例えば、ユーザが喜びの感情を示している場合、そのカフェのポジティブなレビューを優先表示する。 The server organizes the search results and selects the most relevant information. It takes into account emotional data and prioritizes information that is likely to interest the user. For example, if the user is expressing happiness, it will prioritize positive reviews of that cafe.

ステップ7: Step 7:

サーバが整理された情報を端末に送信する。選別されたデータはインターネット経由で端末に転送される。 The server sends the organized information to the device. The selected data is then transferred to the device via the Internet.

ステップ8: Step 8:

端末が受信した情報をAR形式で表示する。スマートグラスのディスプレイに、「カフェ XYZ」のレビューや人気メニューがオーバーレイ表示されるように設定する。 The information received by the device is displayed in AR format. Set it up so that reviews and popular menu items from "Cafe XYZ" are overlaid on the smart glasses display.

ステップ9: Step 9:

ユーザが視線や音声コマンドで特定の情報に興味を示す場合、そのデータを端末が記録する。例えば、ユーザが特定のレビューを見つめたり、「このケーキが気になる」と言った場合、その情報を記録する。 If a user shows interest in specific information through their gaze or voice command, the device will record that data. For example, if a user looks at a particular review or says, "I'm interested in this cake," that information will be recorded.

ステップ10: Step 10:

端末が収集された興味データと感情データをサーバに送信する。データはリアルタイムでインターネット経由で送信される。 The device sends the collected interest and emotion data to a server. The data is transmitted in real time via the Internet.

ステップ11: Step 11:

サーバが収集されたデータを分析し、ユーザの興味の傾向および感情のパターンを把握する。この分析結果を基に、次回以降の情報提供に反映し、ユーザに最適な情報を提供する。例えば、次回以降の検索結果にはユーザが好むカフェの情報を優先的に表示する。 The server analyzes the collected data to understand the user's interest trends and emotional patterns. Based on the results of this analysis, the server reflects this in future information provision, providing the user with the most appropriate information. For example, from the next search result onwards, information about the user's favourite cafes will be displayed first.

(実施例2) (Example 2)

次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Example 2. In the following explanation, the data processing device 12 will be referred to as a "server" and the smart device 14 will be referred to as a "terminal."

現代社会において、ユーザがリアルタイムに情報を取得し、迅速に意思決定を行う必要性が高まっている。しかし、現行の技術では、視覚情報および聴覚情報に基づいたリアルタイムな情報提供が十分に行われず、ユーザの使用体験が制限される問題がある。特に、ユーザの感情や興味を考慮したパーソナライズされた情報提供が不足しているため、情報収集の効率性とユーザ満足度が低下する。このため、外界の視覚情報および聴覚情報をリアルタイムで取得し、ユーザの感情や興味を反映した情報提供を行うシステムが求められている。 In modern society, there is an increasing need for users to obtain information in real time and make quick decisions. However, current technology does not adequately provide real-time information based on visual and auditory information, limiting the user experience. In particular, there is a lack of personalized information provision that takes into account the user's emotions and interests, which reduces the efficiency of information gathering and user satisfaction. For this reason, there is a demand for a system that can obtain visual and auditory information from the outside world in real time and provide information that reflects the user's emotions and interests.

実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、視覚情報をテキスト情報に変換する手段と、聴覚情報をテキスト情報に変換する手段と、変換されたテキスト情報及び感情データに基づいてウェブ上の関連情報を検索する手段と、検索された情報を拡張現実形式で表示する手段と、ユーザの感情を認識する手段と、ユーザの興味に基づいたデータを収集する手段と、収集されたデータ及び感情データを分析する手段と、を含む。これにより、ユーザはリアルタイムで自身の感情や興味に基づいたパーソナライズされた情報を効率的に取得することが可能となる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information and emotional data, means for displaying the searched information in an augmented reality format, means for recognizing the user's emotions, means for collecting data based on the user's interests, and means for analyzing the collected data and emotional data. This enables users to efficiently obtain personalized information based on their emotions and interests in real time.

「視覚情報」とは、外界の環境から取得される映像や画像のデータである。 "Visual information" refers to video and image data obtained from the external environment.

「聴覚情報」とは、外界の環境から取得される音声や音響のデータである。 "Auditory information" refers to sound and acoustic data obtained from the external environment.

「テキスト情報」とは、視覚情報および聴覚情報を解析・変換して得られる文字列データである。 "Text information" is character string data obtained by analyzing and converting visual and auditory information.

「感情データ」とは、ユーザの感情状態を解析した結果得られるデータである。 "Emotional data" is data obtained as a result of analyzing the user's emotional state.

「ウェブ上の関連情報」とは、インターネットを利用して検索され、ユーザの要求やコンテキストに関連する情報である。 "Relevant information on the web" is information that is searched using the Internet and is relevant to the user's requirements and context.

「拡張現実形式」とは、現実世界の視覚情報にデジタル情報を重ね合わせて表示する技術である。 "Augmented reality" is a technology that displays digital information overlaid on visual information from the real world.

「ユーザの感情を認識する手段」とは、映像や音声データを解析し、ユーザの感情を識別するアルゴリズムである。 "Means for recognizing user emotions" refers to an algorithm that analyzes video and audio data and identifies the user's emotions.

「ユーザの興味に基づいたデータ」とは、ユーザの視線や音声コマンドなどの入力情報を解析し、ユーザの関心を示すデータである。 "Data based on user interests" is data that indicates a user's interests by analyzing input information such as the user's gaze and voice commands.

「収集されたデータ及び感情データを分析する手段」とは、ユーザの興味や感情に基づいて収集されたデータを解析し、次回の情報提供に利用するアルゴリズムである。 "Means for analyzing collected data and emotional data" refers to an algorithm that analyzes collected data based on the user's interests and emotions and uses it to provide information the next time.

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、拡張現実形式でユーザに表示するシステムに、ユーザの感情を認識する感情エンジンを組み合わせたものである。 This invention combines a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in augmented reality format with an emotion engine that recognizes the user's emotions.

まず、端末であるスマートグラスが、カメラを用いて外界の視覚情報を取得し、マイクを用いて外界の聴覚情報を取得する。この時点で取得された映像データと音声データはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the terminal, use a camera to acquire visual information from the outside world and a microphone to acquire auditory information from the outside world. The video and audio data acquired at this point is sent in real time to a processing unit within the terminal.

次に、端末は視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報に変換する。 The device then converts the visual information into text using OCR technology. For example, it recognizes a cafe sign and converts it into text such as "Cafe ABC." Similarly, it converts auditory information into text using voice recognition technology. For example, it recognizes the conversation of a passerby and converts it into text such as "This cafe is delicious."

また、端末は取得された映像および音声データを用いて、感情エンジンによってユーザの感情を解析する。これにより、ユーザが喜んでいるか、興味を持っているか、あるいは驚いているかといった感情を識別することができる。感情エンジンは機械学習アルゴリズムを使用して、表情や声のトーンから感情を認識する。 The device also uses the captured video and audio data to analyze the user's emotions using an emotion engine, which can identify emotions such as whether the user is happy, interested, or surprised. The emotion engine uses machine learning algorithms to recognize emotions from facial expressions and tone of voice.

変換されたテキスト情報と認識された感情データはサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。例えば、「カフェ ABC」というキーワードを基にレビューやメニュー、場所の詳細を検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent to the server. The server uses the received text information to search for related information on the web. For example, based on the keyword "cafe ABC," it can use a search engine to retrieve reviews, menus, and location details. Furthermore, by taking emotion data into consideration, it can prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報を拡張現実(AR)形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューが現実の景色にオーバーレイ表示される。これにより、ユーザはリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in augmented reality (AR) format. For example, reviews and popular menu items for "Cafe ABC" may be overlaid on the real-world view on the smart glasses display, allowing users to obtain relevant information in real time.

さらに、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。ユーザが特定の情報をじっと見つめたり、「このケーキが気になる」といった発言をすると、端末はそれを記録する。また、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 In addition, the device also collects interest data based on the user's gaze and voice commands. If the user stares intently at a particular piece of information or says something like "I'm interested in this cake," the device records it. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはサーバに送信され、サーバはそれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to the server, which uses this data to understand the user's interest trends and reflect them in the next information provided. For example, if the user shows a strong interest in cafes, information about cafes can be displayed preferentially from the next time onwards.

詳細な具体例 Detailed examples

ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はサーバに送信され、サーバは「カフェ XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートグラスのディスプレイに拡張現実(AR)形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 If a user is walking down the street and spots a sign for "Cafe XYZ," the camera on the smart glasses will recognize the sign and convert it into text using OCR technology: "Cafe XYZ." Furthermore, if the user says, "I'm interested in the cakes at this cafe," the speech recognition technology will convert the statement into text. At the same time, the emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to the server, which searches for detailed information about "Cafe XYZ" and prioritizes information that is likely to interest the user. This information is then sent to the device and displayed in augmented reality (AR) on the smart glasses' display. Users can then instantly check reviews and photos of the cakes.

プロンプト文の例: Example prompt:

「ユーザがカフェに関する情報を探している場合に、スマートグラスが視覚および聴覚データを取得し、感情エンジンでユーザの感情を分析し、AR形式で情報を表示するシステムの詳細な処理フローを説明してください。」 "When a user searches for information about a cafe, please explain the detailed processing flow of the system in which smart glasses acquire visual and auditory data, analyze the user's emotions using an emotion engine, and display information in AR format."

実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.

ステップ1: Step 1:

端末であるスマートグラスが外界の視覚情報および聴覚情報を取得する。 The smart glasses that serve as the device collect visual and auditory information from the outside world.

入力:外界の映像データおよび音声データ。 Input: Video and audio data from the outside world.

処理:スマートグラスのカメラで映像をキャプチャし、マイクで音声を録音する。 Processing: The smart glasses' camera captures video and the microphone records audio.

出力:キャプチャされた映像データと録音された音声データ。 Output: Captured video data and recorded audio data.

具体的な動作:ユーザが街を歩いているときにスマートグラスが建物や看板を撮影し、周囲の会話や環境音を録音する。 Specific operation: As the user walks around town, the smart glasses take photos of buildings and signs, and record surrounding conversations and environmental sounds.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換し、聴覚情報を音声認識技術でテキスト化する。 Visual information acquired by the device is converted into text information using OCR technology, and auditory information is converted into text using voice recognition technology.

入力:映像データおよび音声データ。 Input: Video and audio data.

処理:OCR技術を使用して映像データから文字列を抽出し、音声認識技術を使用して音声データを文字列に変換する。 Processing: Use OCR technology to extract text from video data, and use voice recognition technology to convert audio data into text.

出力:テキスト情報。 Output: Text information.

具体的な動作:スマートグラスが「カフェ XYZ」という看板をキャプチャし、それを「カフェ XYZ」というテキスト情報に変換する。同様に、通行人の会話「このカフェのケーキが美味しい」を音声認識してテキスト化する。 Specific operation: The smart glasses capture a sign that reads "Cafe XYZ" and convert it into text information: "Cafe XYZ." Similarly, they recognize the speech of a passerby, "The cake at this cafe is delicious," and convert it into text.

ステップ3: Step 3:

端末が映像および音声データを用いて感情エンジンでユーザの感情を解析する。 The device uses video and audio data to analyze the user's emotions using an emotion engine.

入力:映像データおよび音声データ。 Input: Video and audio data.

処理:機械学習アルゴリズムを使用して映像データから顔の表情を解析し、音声データから声のトーンを解析して感情を識別する。 Processing: Machine learning algorithms are used to analyze facial expressions from video data and tone of voice from audio data to identify emotions.

出力:感情データ。 Output: Emotion data.

具体的な動作:ユーザがカフェの看板を見るときの顔の表情や音声のトーンを分析し、ユーザが興味を示しているか、喜んでいるかを判断する。 Specific behavior: Analyzes the user's facial expression and tone of voice when they look at a cafe sign to determine whether they are interested or pleased.

ステップ4: Step 4:

端末が変換されたテキスト情報および感情データをサーバに送信する。 The device sends the converted text information and emotion data to the server.

入力:テキスト情報および感情データ。 Input: Text information and emotion data.

処理:データをパケットにまとめ、サーバに送信する。 Processing: Packetize the data and send it to the server.

出力:サーバに送信されたデータ。 Output: Data sent to the server.

具体的な動作:端末が「カフェ XYZ」というテキスト情報と「興味」を示す感情データをサーバに送信する。 Specific operation: The device sends the text information "Cafe XYZ" and emotion data indicating "interest" to the server.

ステップ5: Step 5:

サーバが受け取ったテキスト情報と感情データを基にウェブ上の関連情報を検索する。 The server searches for relevant information on the web based on the text information and emotion data received.

入力:テキスト情報および感情データ。 Input: Text information and emotion data.

処理:検索エンジンを使用して関連情報を検索し、感情データを考慮してユーザが興味を示しやすい情報を優先的に取得する。 Processing: Use a search engine to search for relevant information and prioritize information that is likely to interest the user, taking into account emotional data.

出力:関連情報の検索結果。 Output: Search results for related information.

具体的な動作:サーバが「カフェ XYZ」に関するレビューやメニュー情報を検索し、ユーザが興味を示しやすい情報を選定する。 Specific operation: The server searches for reviews and menu information about "Cafe XYZ" and selects information that is likely to interest the user.

ステップ6: Step 6:

サーバが検索結果を再び端末に送信する。 The server will send the search results back to the device.

入力:関連情報の検索結果。 Input: Search results for related information.

処理:検索結果をパケットにまとめ、端末に送信する。 Processing: The search results are compiled into packets and sent to the terminal.

出力:端末に送信されたデータ。 Output: Data sent to the terminal.

具体的な動作:サーバが「カフェ XYZ」のレビューや人気メニューなどのデータを端末に送信する。 Specific operation: The server sends data such as reviews and popular menu items for "Cafe XYZ" to the device.

ステップ7: Step 7:

端末が取得した情報を拡張現実(AR)形式でユーザに表示する。 The information acquired by the device is displayed to the user in augmented reality (AR) format.

入力:関連情報の検索結果。 Input: Search results for related information.

処理:拡張現実(AR)技術を使用して現実の景色にデジタル情報を重ね合わせて表示する。 Processing: Using augmented reality (AR) technology, digital information is overlaid on real-world scenes.

出力:AR形式で表示された情報。 Output: Information displayed in AR format.

具体的な動作:スマートグラスのディスプレイに、「カフェ XYZ」のレビューやケーキの写真が現実の景色にオーバーレイ表示される。 Specific operation: Reviews of Cafe XYZ and photos of cakes are overlaid on the real world on the smart glasses display.

ステップ8: Step 8:

端末がユーザの視線や音声コマンドに基づいた興味データを収集する。 The device collects interest data based on the user's gaze and voice commands.

入力:ユーザの視線データおよび音声コマンド。 Input: User gaze data and voice commands.

処理:視線検出センサーを使用してユーザがどこを見ているかを検出し、音声コマンドを音声認識技術で解析する。 Processing: Uses an eye gaze sensor to detect where the user is looking, and analyzes voice commands using voice recognition technology.

出力:興味データ。 Output: Interest data.

具体的な動作:ユーザがケーキの写真を長時間見つめたり、「このケーキが気になる」と言った場合、端末がそのデータを収集する。 Specific behavior: If a user stares at a photo of a cake for a long time or says, "I'm interested in this cake," the device will collect that data.

ステップ9: Step 9:

端末が収集した興味データおよび感情データをサーバに送信し、サーバがそれを解析する。 The device sends the collected interest and emotion data to the server, which analyzes it.

入力:興味データおよび感情データ。 Input: Interest data and emotion data.

処理:データをパケットにまとめ、サーバに送信し、サーバが機械学習アルゴリズムを使用して解析する。 Processing: The data is packaged into packets and sent to a server, where it is analyzed using machine learning algorithms.

出力:解析結果。 Output: Analysis results.

具体的な動作:収集されたデータをサーバに送信し、サーバがそれを解析してユーザの興味の傾向を把握する。 Specific operations: The collected data is sent to a server, which analyzes it to understand trends in user interests.

ステップ10: Step 10:

サーバが解析結果を基に次回以降の情報提供に反映させる。 The server will use the analysis results to provide information from the next time onwards.

入力:解析結果。 Input: Analysis results.

処理:解析結果をデータベースに記録し、次回の情報提供に使用する。 Processing: The analysis results will be recorded in a database and used for the next information provision.

出力:次回の情報提供の準備。 Output: Preparing for next information submission.

具体的な動作:ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示する準備をする。 Specific behavior: If the user shows a strong interest in the cafe, prepare to display information about the cafe preferentially from the next time onwards.

(応用例2) (Application Example 2)

次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Application Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."

自動運転車両において、乗客やドライバーは外界の情報を効果的に把握し、特定の情報をリアルタイムで取得する手段が限られている。また、利用者の感情や興味を反映した情報提供が不足しているため、ユーザエクスペリエンスが十分に向上しないという課題がある。 In autonomous vehicles, passengers and drivers have limited means to effectively grasp information about the outside world and obtain specific information in real time. Furthermore, there is a lack of information provided that reflects the user's emotions and interests, which presents a challenge in terms of the user experience not being sufficiently improved.

応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、視覚情報をテキスト情報に変換する手段と、を含む。これにより、リアルタイムで視覚および聴覚情報を基に関連情報を取得し、ユーザの感情や興味を反映したパーソナライズされた情報提供が可能となる。 The specific processing by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means. In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, and means for converting the visual information into text information. This makes it possible to acquire related information based on visual and auditory information in real time and provide personalized information that reflects the user's emotions and interests.

「外界の視覚情報」とは、スマートデバイスに搭載されたカメラやセンサーを用いて取得される、周囲の映像や画像データのことである。 "Visual information from the outside world" refers to video and image data of the surroundings acquired using cameras and sensors installed on smart devices.

「外界の聴覚情報」とは、スマートデバイスに搭載されたマイクを用いて取得される、周囲の音声や音データのことである。 "External auditory information" refers to surrounding voice and sound data acquired using a microphone installed on a smart device.

「視覚情報をテキスト情報に変換する手段」とは、映像や画像データを文字情報に変換するための光学的文字認識(OCR)技術を指す。 "Means for converting visual information into text information" refers to optical character recognition (OCR) technology for converting video and image data into text information.

「聴覚情報をテキスト情報に変換する手段」とは、音声データを文字情報に変換するための音声認識技術を指す。 "Means for converting auditory information into text information" refers to speech recognition technology for converting voice data into text information.

「ウェブ上の関連情報を検索する手段」とは、サーバや検索エンジンを用いてインターネット上の情報を検索し、必要なデータを取得する機能を指す。 "Means for searching for related information on the web" refers to the function of searching for information on the Internet using a server or search engine and obtaining the necessary data.

「拡張現実(AR)形式で表示する手段」とは、取得した情報を現実の映像に重ね合わせる形で表示するための技術を指す。 "Means of displaying in augmented reality (AR) format" refers to technology for displaying acquired information by overlaying it on real-world images.

「ユーザの興味に基づいたデータを収集する手段」とは、ユーザの視線や音声コマンドなどから興味を推定し、それに関連するデータを集める機能を指す。 "Means for collecting data based on user interests" refers to a function that infers a user's interests from their gaze, voice commands, etc., and collects data related to those interests.

「収集されたデータを分析する手段」とは、収集したデータを解析し、ユーザの興味や行動パターンを理解するためのアルゴリズムや手法を指す。 "Means for analyzing collected data" refers to algorithms and methods for analyzing collected data and understanding user interests and behavioral patterns.

「ユーザの感情を解析する手段」とは、ユーザの表情や音声トーンを解析し、感情状態を判断するための機械学習アルゴリズムを指す。 "Means for analyzing user emotions" refers to machine learning algorithms that analyze a user's facial expressions and tone of voice to determine their emotional state.

「自動運転車両に搭載されるスマートデバイス」とは、自動運転車内で使用される、カメラやマイク、ディスプレイなどの機能を持つ電子機器を指す。 "Smart devices installed in self-driving vehicles" refers to electronic devices with functions such as cameras, microphones, and displays that are used inside self-driving vehicles.

本発明は、自動運転車両におけるユーザ体験を向上させるためのシステムであり、スマートデバイスを用いて外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基に関連情報を検索・表示するものである。また、ユーザの感情を解析し、興味に基づいた情報提供を行うことが特徴である。 This invention is a system for improving the user experience in autonomous vehicles. It uses smart devices to acquire visual and auditory information from the outside world in real time, and uses this information to search for and display relevant information. It also features the ability to analyze the user's emotions and provide information based on their interests.

まず、端末であるスマートデバイスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートデバイスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart device, which serves as the terminal, acquires visual and auditory information from the outside world. Specifically, the camera installed on the smart device captures video and the microphone records audio. This data is sent in real time to a processing unit within the terminal.

次に、端末は取得した視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、自動運転車両が街中を走行中にレストランの看板を認識した場合、「レストラン ABC」というテキスト情報に変換される。同様に聴覚情報も音声認識技術を使用してテキスト情報に変換される。例えば、乗客が「このレストランのメニューが気になる」と言った場合、それがテキスト情報として記録される。 The device then converts the acquired visual information into text using OCR technology. For example, if an autonomous vehicle recognizes a restaurant sign while driving through town, it will convert it into text such as "Restaurant ABC." Similarly, auditory information is converted into text using voice recognition technology. For example, if a passenger says, "I'm interested in the menu at this restaurant," this will be recorded as text.

さらに、取得された映像および音声データは、端末に搭載された感情エンジンによってユーザの感情を解析する。感情エンジンは機械学習アルゴリズムを使用して、ユーザの表情や声のトーンから感情を識別する。例えば、ユーザが興味を持っているか、喜んでいるか、驚いているかといった感情を認識できる。 Furthermore, the captured video and audio data is analyzed for the user's emotions by the device's built-in emotion engine. The emotion engine uses machine learning algorithms to identify emotions from the user's facial expressions and tone of voice. For example, it can recognize whether the user is interested, happy, or surprised.

変換されたテキスト情報と認識された感情データは、端末からクラウドサーバに送信される。クラウドサーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「レストラン ABC」というキーワードを基に、レビューやメニュー、場所の詳細を検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent from the device to a cloud server. The cloud server then searches for related information on the web based on the received text information. For example, based on the keyword "restaurant ABC," reviews, menus, and location details can be retrieved using a search engine. Furthermore, by taking emotion data into consideration, it is possible to prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報をAR形式で表示する。例えば、スマートデバイスのディスプレイに「レストラン ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは移動中でもリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in AR format. For example, reviews and popular menu items for "Restaurant ABC" are overlaid on the smart device's display. This allows users to access relevant information in real time even while on the move.

また、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。例えば、ユーザが特定の情報をじっと見つめたり、「この料理が美味しそう」といった発言をする場合、そのデータを記録する。そして、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 The device also collects interest data based on the user's gaze and voice commands. For example, if a user stares intently at a particular piece of information or says something like "this dish looks delicious," that data is recorded. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはクラウドサーバに送信され、分析される。クラウドサーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがレストランに対して強い興味を示している場合、次回以降はレストランに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to a cloud server for analysis. The cloud server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if the user shows a strong interest in restaurants, information about restaurants can be displayed preferentially from the next time onwards.

具体例として As a concrete example

具体的な実施例として、ユーザが街を走行中に「レストラン XYZ」という看板を見つけた場合、スマートデバイスのカメラがその看板を認識し、OCR技術で「レストラン XYZ」とテキスト情報に変換する。さらに、ユーザが「このレストランのメニューが気になる」と発言した場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はクラウドサーバに送信され、サーバは「レストラン XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートデバイスのディスプレイにAR形式で表示される。ユーザはメニューのレビューや写真をその場で確認することができる。 As a specific example, if a user spots a sign for "Restaurant XYZ" while driving around town, the camera on the smart device will recognize the sign and convert it into text information as "Restaurant XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the menu at this restaurant," speech recognition technology will convert this statement into text. At the same time, an emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to a cloud server, which then searches for detailed information about "Restaurant XYZ" and prioritizes information that is likely to interest the user. This information is then sent to the device and displayed in AR format on the smart device's display. The user can then check reviews and photos of the menu on the spot.

プロンプト文の例 Example prompt

プロンプト文の一例を以下に示す。 An example of a prompt is shown below.

"ユーザがレストランの看板を見つけたときにスマートデバイスがその情報を識別し、テキスト化して、ユーザの感情に基づいてそのレストランのレビューやメニュー情報を優先的に表示します。たとえば、ユーザが「このレストランのメニューが気になる」と言った場合、その音声をテキスト化し、リアルタイムで関連情報を取得して表示します。" "When a user finds a restaurant sign, the smart device identifies the information, converts it into text, and prioritizes displaying reviews and menu information for that restaurant based on the user's sentiment. For example, if a user says, 'I'm interested in the menu at this restaurant,' the device converts that speech into text and retrieves and displays relevant information in real time."

応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.

ステップ1: Step 1:

端末であるスマートデバイスが外界の視覚情報と聴覚情報を取得する。ユーザが街を移動中に、カメラが周囲の映像をキャプチャし、マイクが周囲の音声を記録する。これらのデータはリアルタイムで処理ユニットに送信される。入力はカメラ映像データおよび音声データであり、出力は処理ユニットに送信される未処理データである。 The terminal, a smart device, acquires visual and auditory information from the outside world. As the user moves around town, the camera captures video of the surroundings and the microphone records audio from the surroundings. This data is sent to a processing unit in real time. The input is camera video data and audio data, and the output is raw data sent to the processing unit.

ステップ2: Step 2:

端末は取得した視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、スマートデバイスのカメラがレストランの看板を捉えた場合、その映像データをテキスト化し、「レストラン XYZ」という文字情報を生成する。入力は映像データであり、出力はテキストデータである。 The device converts the acquired visual information into text using OCR technology. For example, if a smart device's camera captures a restaurant sign, the video data is converted into text, generating the text information "Restaurant XYZ." The input is video data, and the output is text data.

ステップ3: Step 3:

端末は取得した音声情報を音声認識技術を用いてテキスト情報に変換する。例えば、ユーザが「このレストランのメニューが気になる」と発言した場合、その音声データをテキスト情報に変換し、関連情報を生成する。入力は音声データであり、出力はテキストデータである。 The device uses voice recognition technology to convert the acquired voice information into text information. For example, if a user says, "I'm interested in the menu at this restaurant," the voice data is converted into text information and related information is generated. The input is voice data, and the output is text data.

ステップ4: Step 4:

端末は取得された映像および音声データを感情エンジンによってユーザの感情を解析する。例えば、ユーザの表情や声のトーンから「興味深い」という感情認識を行う。入力は映像データと音声データであり、出力は感情データである。 The device uses an emotion engine to analyze the user's emotions from the captured video and audio data. For example, it can recognize the emotion "interesting" from the user's facial expression and tone of voice. The input is video and audio data, and the output is emotional data.

ステップ5: Step 5:

変換されたテキスト情報と認識された感情データは端末からクラウドサーバに送信される。サーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「レストラン XYZ」というキーワードに基づき、レビューやメニュー情報を取得する。入力はテキストデータと感情データであり、出力は関連情報データである。 The converted text information and recognized emotion data are sent from the device to a cloud server. The server searches for related information on the web based on the received text information. For example, based on the keyword "restaurant XYZ," it retrieves reviews and menu information. The input is text data and emotion data, and the output is related information data.

ステップ6: Step 6:

クラウドサーバは感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得し、その結果を再び端末に送信する。例えば、ポジティブな感情を示している場合、レストランのレビューの中でも高評価なものを優先的に送信する。入力はテキストデータと感情データであり、出力は関連情報データである。 The cloud server takes emotional data into consideration and prioritizes obtaining information that is likely to interest the user, and then sends the results back to the device. For example, if the user is expressing positive emotions, it will prioritize sending highly rated restaurant reviews. The input is text data and emotional data, and the output is related information data.

ステップ7: Step 7:

端末は取得した情報をAR形式で表示する。例えば、スマートデバイスのディスプレイに「レストラン XYZ」のレビューや人気メニューがオーバーレイ表示され、ユーザはそれを見ることができる。入力は関連情報データであり、出力は表示されるARデータである。 The device displays the acquired information in AR format. For example, reviews and popular menu items for "Restaurant XYZ" are overlaid on the smart device's display, allowing the user to view them. The input is related information data, and the output is the displayed AR data.

ステップ8: Step 8:

端末は引き続きユーザの視線や音声コマンドに基づいた興味データを収集する。例えば、ユーザが特定の情報をじっと見つめたり「この料理が気になる」と発言する場合、そのデータを記録する。入力は視線データおよび音声データであり、出力は興味データである。 The device continues to collect interest data based on the user's gaze and voice commands. For example, if the user stares at a particular piece of information or says, "I'm interested in this dish," that data is recorded. The input is gaze data and voice data, and the output is interest data.

ステップ9: Step 9:

収集された興味データおよび感情データはクラウドサーバに送信され、詳細査分析が行われる。サーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、レストランに対する興味が強い場合、次回以降はレストランに関する情報を優先的に表示する。入力は興味データおよび感情データであり、出力は次回の情報提供に向けた分析データである。 The collected interest and emotion data is sent to a cloud server for detailed analysis. The server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if there is a strong interest in restaurants, information about restaurants will be displayed preferentially from the next time onwards. The input is interest data and emotion data, and the output is analysis data for the next information provided.

特定処理部290は、特定処理の結果をスマートデバイス14に送信する。スマートデバイス14では、制御部46Aが、出力装置40に対して特定処理の結果を出力させる。マイクロフォン38Bは、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン38Bによって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the smart device 14. In the smart device 14, the control unit 46A causes the output device 40 to output the results of the specific processing. The microphone 38B acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 38B to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.

データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(登録商標)(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(登録商標)(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). Examples of data generation model 58 include generative AI such as ChatGPT (registered trademark) (Internet search <URL: https://openai.com/blog/chatgpt>) and Gemini (registered trademark) (Internet search <URL: https://gemini.google.com/?hl=ja>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as audio data indicating speech, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt and outputs the inference results in the form of data such as audio data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.

上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマートデバイス14によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the smart device 14.

[第2実施形態] [Second embodiment]

図3には、第2実施形態に係るデータ処理システム210の構成の一例が示されている。 Figure 3 shows an example of the configuration of a data processing system 210 according to the second embodiment.

図3に示すように、データ処理システム210は、データ処理装置12及びスマート眼鏡214を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 3, the data processing system 210 includes a data processing device 12 and smart glasses 214. An example of the data processing device 12 is a server.

データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).

スマート眼鏡214は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、及びカメラ42も、バス52に接続されている。 The smart glasses 214 include a computer 36, a microphone 238, a speaker 240, a camera 42, and a communication I/F 44. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The microphone 238, speaker 240, and camera 42 are also connected to the bus 52.

マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。 The microphone 238 receives instructions and the like from the user 20 by receiving voice uttered by the user 20. The microphone 238 captures the voice uttered by the user 20, converts the captured voice into audio data, and outputs it to the processor 46. The speaker 240 outputs audio in accordance with instructions from the processor 46.

カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。 Camera 42 is a small digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor, and captures images of the user 20's surroundings (e.g., an imaging range defined by an angle of view equivalent to the field of vision of a typical healthy person).

通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54. The exchange of various information between the processor 46 and the processor 28 using the communication I/Fs 44 and 26 is carried out in a secure manner.

図4には、データ処理装置12及びスマート眼鏡214の要部機能の一例が示されている。図4に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。 Figure 4 shows an example of the main functions of the data processing device 12 and smart glasses 214. As shown in Figure 4, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32.

特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。 The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as the specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.

ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.

スマート眼鏡214では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the smart glasses 214, the reception output process is performed by the processor 46. A reception output program 60 is stored in the storage 50. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output process is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.

次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain the identification process performed by the identification processing unit 290 of the data processing device 12. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、AR形式でユーザに表示するシステムである。以下に、その具体的な実施形態について説明する。 This invention is a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in AR format. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をテキスト情報に変換するために、OCR(光学文字認識)技術を使用する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then uses OCR (optical character recognition) technology to convert the acquired visual information into text information. For example, it can recognize a cafe sign and convert it into text information such as "Cafe ABC." Similarly, auditory information is converted into text information using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text information such as "This cafe is delicious."

変換されたテキスト情報は、端末からサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジンを使用して「カフェ ABC」に関するレビューやメニュー、位置情報などを取得する。検索結果は再び端末に送信される。 The converted text information is sent from the device to the server. The server uses the received text information to search for related information on the web. Specifically, it uses a web search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." The search results are then sent back to the device.

端末は取得した検索結果を整理し、ユーザの視界にAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The device organizes the search results and displays them in AR format in the user's field of view. For example, reviews and popular menu items for "Cafe ABC" could be overlaid on the smartglasses' display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの興味データを収集する。具体的には、ユーザが特定の情報に視線を向けたり、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。収集された興味データはサーバに送信され、サーバはこれを分析してユーザの興味の傾向を把握する。この分析結果は次回以降の検索や情報提供に反映され、ユーザの好みに合わせた最適な情報を提供することができる。 Furthermore, the device collects data on the user's interests. Specifically, when the user looks at specific information or issues a voice command such as "I'm interested in this menu item," that information is recorded. The collected interest data is sent to a server, which analyzes it to understand the user's interest trends. The results of this analysis are reflected in subsequent searches and information provision, making it possible to provide the most appropriate information tailored to the user's preferences.

例えば、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。サーバは「カフェ XYZ」および「ケーキ」というキーワードを基に、ウェブ検索を行い、関連するレビューやメニュー情報を取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 For example, if a user is walking down the street and spots a sign that says "Cafe XYZ," the camera in the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert this statement into text. The server will perform a web search based on the keywords "Cafe XYZ" and "cake" to retrieve related reviews and menu information. This information will be sent to the device and displayed in AR format on the smart glasses' display. The user will be able to check reviews and photos of the cake on the spot.

このような形態により、本発明はユーザのリアルタイムな情報取得と提供を可能にし、ユーザエクスペリエンスを向上させることができる。また、ユーザの興味や関心に基づいたデータを収集・分析することで、さらにパーソナライズされた情報提供が可能となる。 In this manner, the present invention enables users to obtain and provide information in real time, improving the user experience. Furthermore, by collecting and analyzing data based on the user's interests, it becomes possible to provide even more personalized information.

以下に、処理の流れについて説明する。 The processing flow is explained below.

ステップ1: Step 1:

端末が外界の視覚情報および聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラを用いて映像をキャプチャし、マイクを用いて音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 The device acquires visual and auditory information from the outside world. Specifically, the smart glasses' built-in camera captures video and a microphone records audio. This data is sent in real time to a processing unit within the device.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、端末は「カフェ ABC」と書かれた看板を認識し、その画像をテキストに変換する。同様に、取得した聴覚情報を音声認識技術を用いてテキスト情報に変換する。例えば、「このカフェは美味しい」という通行人の会話をテキストに変換する。 Visual information acquired by the device is converted into text information using OCR technology. For example, the device recognizes a sign that reads "Cafe ABC" and converts the image into text. Similarly, auditory information acquired is converted into text information using voice recognition technology. For example, a passerby's speech, "This cafe is delicious," is converted into text.

ステップ3: Step 3:

端末が変換されたテキスト情報をサーバに送信する。具体的には、OCRや音声認識によって生成されたテキストデータをインターネットを介してサーバにアップロードする。 The device sends the converted text information to the server. Specifically, the text data generated by OCR or voice recognition is uploaded to the server via the Internet.

ステップ4: Step 4:

サーバが受け取ったテキスト情報を基にウェブ上の関連情報を検索する。サーバは検索エンジンを使用して、「カフェ ABC」に関するレビュー、メニュー、位置情報などを取得する。複数の検索エンジンを用いてより豊富な情報を収集することも可能である。 The server searches for related information on the web based on the text information it receives. The server uses a search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." It is also possible to gather more information by using multiple search engines.

ステップ5: Step 5:

サーバが取得した検索結果を整理し、関連性の高い情報を選別する。例えば、ユーザ評価の高いレビューや、公式サイトの情報を優先的に選ぶ。 The server organizes the search results and selects the most relevant information. For example, it prioritizes reviews with high user ratings and information from official websites.

ステップ6: Step 6:

サーバが整理された情報を端末に送信する。具体的には、関連するレビューやメニュー情報をまとめたデータをインターネット経由で端末に送る。 The server sends the organized information to the device. Specifically, it sends data summarizing related reviews and menu information to the device via the Internet.

ステップ7: Step 7:

端末が受け取った情報をAR形式で表示する。スマートグラスのディスプレイ上に、「カフェ ABC」のレビューや人気メニューがオーバーレイ表示されるようにする。 The information received by the device is displayed in AR format. Reviews and popular menu items from Cafe ABC are overlaid on the smartglasses display.

ステップ8: Step 8:

ユーザが視線や音声で特定の情報に興味を示した場合、そのデータを端末が記録する。例えば、ユーザが特定のレビューページをじっと見つめたり、「このメニューが気になる」と言った場合である。 When a user shows interest in specific information through their gaze or voice, the device records that data. For example, if a user stares intently at a particular review page or says, "I'm interested in this menu item."

ステップ9: Step 9:

端末が収集された興味データをサーバに送信する。興味データには、ユーザの視線情報や音声コマンドが含まれる。 The device sends the collected interest data to the server. The interest data includes the user's gaze information and voice commands.

ステップ10: Step 10:

サーバが収集された興味データを分析し、ユーザの興味の傾向を把握する。この分析結果を基に、次回以降の検索結果や情報提供に反映させて、ユーザに最適な情報を提供できるようにする。 The server analyzes the collected interest data to understand trends in user interests. The results of this analysis are reflected in future search results and information provision, enabling the server to provide users with the most appropriate information.

(実施例1) (Example 1)

次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."

現代の社会では、ユーザが必要な情報を迅速かつ効率的に取得することが求められている。特に、移動中や活動中においてもリアルタイムで情報を取得し、それを活用することで、ユーザエクスペリエンスを向上させることが重要である。しかし、既存の技術ではユーザが興味を持つ情報をリアルタイムで適切に取得・提供する手法が不十分であり、情報の取得過程が煩雑であるという問題がある。また、ユーザの興味傾向を把握し、それに基づいたパーソナライズされた情報提供についても課題が残されている。このような背景から、ユーザの視覚情報や聴覚情報を取得・分析し、それを基にリアルタイムで関連情報を提供するための技術が必要とされている。 In modern society, users are expected to obtain the information they need quickly and efficiently. It is particularly important to improve the user experience by obtaining and utilizing information in real time, even while on the move or while active. However, existing technology lacks sufficient methods for appropriately obtaining and providing information that interests users in real time, and the information acquisition process is cumbersome. Furthermore, there are still challenges in identifying users' interest trends and providing personalized information based on them. Against this background, there is a need for technology that can obtain and analyze users' visual and auditory information and provide relevant information in real time based on that information.

実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、前記視覚情報をテキスト情報に変換する手段と、前記聴覚情報をテキスト情報に変換する手段と、前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、前記検索された情報を拡張現実(AR)形式で表示する手段と、ユーザの興味に基づいたデータをリアルタイムで収集する手段と、前記収集されたデータを分析して次回以降の検索結果に反映する手段と、を含む。これにより、ユーザが移動中や活動中でも必要な情報を迅速かつ効率的に取得することが可能となり、さらにユーザの興味や好みに基づいたパーソナライズされた情報提供が実現できる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information, means for displaying the searched information in an augmented reality (AR) format, means for collecting data based on the user's interests in real time, and means for analyzing the collected data and reflecting it in subsequent search results. This enables the user to quickly and efficiently obtain the information they need while on the move or while active, and further enables the provision of personalized information based on the user's interests and preferences.

「外界の視覚情報」とは、周囲の環境に存在する物体や文字などの視覚的な情報のことを指す。 "Visual information from the external world" refers to visual information such as objects and letters that exist in the surrounding environment.

「外界の聴覚情報」とは、周囲の環境に存在する音や会話などの聴覚的な情報のことを指す。 "External auditory information" refers to auditory information such as sounds and conversations that exist in the surrounding environment.

「視覚情報をテキスト情報に変換する手段」とは、取得した視覚情報をテキストデータに変換する技術であり、具体的にはOCR(光学文字認識)技術を用いることである。 "Means for converting visual information into text information" refers to technology that converts acquired visual information into text data, specifically the use of OCR (optical character recognition) technology.

「聴覚情報をテキスト情報に変換する手段」とは、取得した聴覚情報をテキストデータに変換する技術であり、具体的には音声認識技術を用いることである。 "Means for converting auditory information into text information" refers to technology that converts acquired auditory information into text data, specifically using voice recognition technology.

「ウェブ上の関連情報を検索する手段」とは、変換されたテキスト情報を基に、インターネット上に存在する関連する情報を検索し取得する技術のことを指す。 "Means for searching for related information on the web" refers to technology that searches for and retrieves related information on the Internet based on converted text information.

「拡張現実(AR)形式で表示する手段」とは、取得した情報を現実の視界に重ねて表示する技術のことを指す。これによりユーザは現実世界の映像と追加情報を同時に確認できる。 "Augmented reality (AR) display" refers to technology that displays acquired information overlaid on the real world, allowing users to simultaneously view images of the real world and additional information.

「ユーザの興味に基づいたデータをリアルタイムで収集する手段」とは、ユーザが特定の情報に関心を示した際、その関心の傾向をリアルタイムで記録し収集する技術のことを指す。 "Means for collecting data based on user interests in real time" refers to technology that records and collects trends in interest in real time when a user shows interest in specific information.

「収集されたデータを分析して次回以降の検索結果に反映する手段」とは、収集したユーザの興味データを解析し、その解析結果を基に次回の情報提供をパーソナライズする技術のことを指す。 "Means of analyzing collected data and reflecting it in future search results" refers to technology that analyzes collected user interest data and personalizes the next information provided based on the results of that analysis.

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、拡張現実(AR)形式でユーザに表示するシステムである。以下に、その具体的な実施形態について説明する。 This invention is a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in augmented reality (AR) format. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をテキスト情報に変換するために、OCR(光学文字認識)技術を使用する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then uses OCR (optical character recognition) technology to convert the acquired visual information into text information. For example, it can recognize a cafe sign and convert it into text information such as "Cafe ABC." Similarly, auditory information is converted into text information using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text information such as "This cafe is delicious."

変換されたテキスト情報は、端末からサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジンを使用して「カフェ ABC」に関するレビューやメニュー、位置情報などを取得する。検索結果は再び端末に送信される。 The converted text information is sent from the device to the server. The server uses the received text information to search for related information on the web. Specifically, it uses a web search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." The search results are then sent back to the device.

端末は取得した検索結果を整理し、ユーザの視界にAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The device organizes the search results and displays them in AR format in the user's field of view. For example, reviews and popular menu items for "Cafe ABC" could be overlaid on the smartglasses' display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの興味データを収集する。具体的には、ユーザが特定の情報に視線を向けたり、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。収集された興味データはサーバに送信され、サーバはこれを分析してユーザの興味の傾向を把握する。この分析結果は次回以降の検索や情報提供に反映され、ユーザの好みに合わせた最適な情報を提供することができる。 Furthermore, the device collects data on the user's interests. Specifically, when the user looks at specific information or issues a voice command such as "I'm interested in this menu item," that information is recorded. The collected interest data is sent to a server, which analyzes it to understand the user's interest trends. The results of this analysis are reflected in subsequent searches and information provision, making it possible to provide the most appropriate information tailored to the user's preferences.

具体例として、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。サーバは「カフェ XYZ」および「ケーキ」というキーワードを基に、ウェブ検索を行い、関連するレビューやメニュー情報を取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 As a concrete example, if a user is walking down the street and spots a sign for "Cafe XYZ," the camera in the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert the comment into text. The server will perform a web search based on the keywords "Cafe XYZ" and "cake" to retrieve related reviews and menu information. This information will be sent to the device and displayed in AR format on the smart glasses' display. The user will be able to check reviews and photos of the cake on the spot.

プロンプト文の例は以下の通りである: Example prompts are as follows:

「カフェ XYZ の看板を見つけたが、詳細情報とレビューを知りたい。このカフェのケーキの評判についても調べてください。」 "I saw a sign for Cafe XYZ and would like more information and reviews. I'd also like to know what people think of the cafe's cakes."

このような形態により、本発明はユーザのリアルタイムな情報取得と提供を可能にし、ユーザエクスペリエンスを向上させることができる。また、ユーザの興味や関心に基づいたデータを収集・分析することで、さらにパーソナライズされた情報提供が可能となる。 In this manner, the present invention enables users to obtain and provide information in real time, improving the user experience. Furthermore, by collecting and analyzing data based on the user's interests, it becomes possible to provide even more personalized information.

実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.

ステップ1: Step 1:

端末が外界の視覚情報と聴覚情報を取得する。 The device acquires visual and auditory information from the outside world.

入力として、ユーザの視界に映る外界の映像および環境の音がある。 Inputs include images of the outside world that appear in the user's field of vision and sounds from the environment.

具体的な動作として、スマートグラスに搭載されたカメラがビデオ映像をキャプチャし、マイクが音声を録音する。 Specifically, the camera built into the smart glasses captures video footage, and the microphone records audio.

出力として、取得した映像データと音声データが端末内部の処理ユニットに送信される。 As output, the captured video and audio data is sent to the processing unit inside the terminal.

ステップ2: Step 2:

端末が取得した視覚情報をテキスト情報に変換する。 The visual information acquired by the device is converted into text information.

入力として、ステップ1で取得された映像データがある。 The input is the video data acquired in step 1.

具体的な動作として、端末はOCR(光学文字認識)技術を用いて映像データ内の文字を解析し、これをテキストデータに変換する。例えば、「カフェ ABC」の看板を認識して「カフェ ABC」とテキスト化する。 Specifically, the device uses OCR (optical character recognition) technology to analyze the characters in the video data and convert it into text data. For example, it would recognize a sign that reads "Cafe ABC" and convert it into text as "Cafe ABC."

出力として、変換されたテキストデータが得られる。 The output is the converted text data.

ステップ3: Step 3:

端末が取得した聴覚情報をテキスト情報に変換する。 The device converts the auditory information it acquires into text information.

入力として、ステップ1で取得された音声データがある。 The input is the audio data obtained in step 1.

具体的な動作として、端末は音声認識技術を用いて、音声データを解析し、これをテキストデータに変換する。例えば、「このカフェは美味しい」という通行人の会話をテキストデータにする。 Specifically, the device uses voice recognition technology to analyze voice data and convert it into text data. For example, a passerby's speech, "This cafe is delicious," can be converted into text data.

出力として、変換されたテキストデータが得られる。 The output is the converted text data.

ステップ4: Step 4:

端末が変換されたテキスト情報をサーバに送信する。 The device sends the converted text information to the server.

入力として、ステップ2およびステップ3で得られたテキストデータがある。 The input is the text data obtained in steps 2 and 3.

具体的な動作として、端末内の通信モジュールを使用して、インターネット経由でテキストデータをサーバに送信する。 Specific operations include using a communications module within the device to send text data to a server via the Internet.

出力として、テキストデータがサーバに到着する。 As output, text data arrives at the server.

ステップ5: Step 5:

サーバが受け取ったテキスト情報に基づいてウェブ上の関連情報を検索する。 The server searches for relevant information on the web based on the text information received.

入力として、ステップ4でサーバに到着したテキストデータがある。 The input is the text data that arrived at the server in step 4.

具体的な動作として、サーバはウェブ検索エンジン(例えば、GoogleのAPI)を使用して、「カフェ ABC」に関連するレビュー、メニュー、位置情報などを検索する。 Specifically, the server uses a web search engine (e.g., Google's API) to search for reviews, menus, location information, etc. related to "Cafe ABC."

出力として、検索結果が得られる。 The output is the search results.

ステップ6: Step 6:

サーバが検索結果を端末に送信する。 The server sends the search results to the device.

入力として、ステップ5で得られた検索結果がある。 The input is the search results obtained in step 5.

具体的な動作として、サーバは通信モジュールを使用して、検索結果を端末に送信する。データはJSON形式などの軽量データフォーマットで送信される。 Specifically, the server uses a communications module to send search results to the device. The data is sent in a lightweight data format such as JSON.

出力として、検索結果が端末に到着する。 As output, the search results arrive on the terminal.

ステップ7: Step 7:

端末が取得した検索結果を整理し、ユーザの視界にAR形式で表示する。 The device organizes the search results and displays them in AR format in the user's field of view.

入力として、ステップ6で端末に到着した検索結果がある。 The input is the search results that arrived on the terminal in step 6.

具体的な動作として、端末はスマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューをオーバーレイ表示する。例えば、「カフェ ABC: 評価 4.5 星, 人気メニュー: チーズケーキ」といった内容が表示される。 Specifically, the device will overlay reviews and popular menu items for "Cafe ABC" on the smartglasses' display. For example, it might show something like "Cafe ABC: Rating 4.5 stars, Popular menu item: Cheesecake."

出力として、ユーザの視界に検索結果がAR形式で表示される。 As output, search results are displayed in AR format in the user's field of vision.

ステップ8: Step 8:

端末がユーザの興味データを収集し、サーバに送信する。 The device collects user interest data and sends it to the server.

入力として、ユーザの視線の固定や音声コマンドなどのユーザの行動データがある。 Inputs include user behavior data such as gaze fixation and voice commands.

具体的な動作として、端末はユーザの視線の動きを検出し、特定の情報に視線を向けた場合や、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。これらの興味データはインターネットを通じてサーバに送信される。 Specifically, the device detects the user's eye movements and records information when the user looks at specific information or issues a voice command such as "I'm interested in this menu item." This interest data is sent to a server via the Internet.

出力として、興味データがサーバに到着する。 As output, the interest data arrives at the server.

ステップ9: Step 9:

サーバが収集されたデータを分析し、次回以降の検索結果に反映する。 The server analyzes the collected data and reflects it in future search results.

入力として、ステップ8でサーバに到着した興味データがある。 The input is the interest data that arrived at the server in step 8.

具体的な動作として、サーバは興味データを解析し、ユーザの興味の傾向をモデル化する。このモデルを基に、次回の検索や情報提供の際にパーソナライズされた結果を提供する。 Specifically, the server analyzes interest data and models the user's interest trends. Based on this model, the server provides personalized results the next time the user searches or provides information.

出力として、分析結果が得られ、次回以降の検索結果に反映される。 The analysis results are obtained as output and will be reflected in subsequent search results.

(応用例1) (Application Example 1)

次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Application Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."

従来の技術では、ユーザが実店舗内で商品情報をリアルタイムに取得する手段が限られており、特定の商品についてのレビューやプロモーション情報を迅速に得ることが困難であった。また、ユーザの興味や関心に応じたパーソナライズされた情報提供も十分に行われていなかった。これにより、ユーザエクスペリエンスが低下し、購入意欲が減退する恐れがあった。 With conventional technology, users had limited means of obtaining real-time product information in physical stores, making it difficult to quickly obtain reviews and promotional information about specific products. Furthermore, there was a lack of provision of personalized information tailored to users' interests. This could result in a poor user experience and a decrease in purchasing motivation.

応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、前記視覚情報をテキスト情報に変換する手段と、前記聴覚情報をテキスト情報に変換する手段と、前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、前記検索された情報を拡張現実(AR)形式で表示する手段と、ユーザの興味に基づいたデータを収集する手段と、前記収集されたデータを分析する手段と、ユーザの歩行中に商品情報やレビューをAR形式でリアルタイムに提供する手段と、を含む。これにより、ユーザは実店舗内で商品情報を迅速かつ直感的に取得でき、パーソナライズされた情報提供により、ショッピング体験が向上することが可能となる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information, means for displaying the searched information in an augmented reality (AR) format, means for collecting data based on the user's interests, means for analyzing the collected data, and means for providing product information and reviews in AR format in real time while the user is walking. This allows users to quickly and intuitively obtain product information in a physical store, and the provision of personalized information can improve the shopping experience.

「外界の視覚情報」とは、ユーザの周囲の環境や対象物の映像情報を指し、主にカメラなどの撮影装置で取得されるものである。 "Visual information from the outside world" refers to image information about the user's surrounding environment and objects, and is primarily obtained using imaging devices such as cameras.

「外界の聴覚情報」とは、ユーザの周囲の音声や音響情報を指し、主にマイクロフォンなどの音響収集装置で取得されるものである。 "External auditory information" refers to the sounds and acoustic information around the user, and is primarily obtained by acoustic collection devices such as microphones.

「視覚情報をテキスト情報に変換する手段」とは、取得した視覚情報を文字や数字などのテキスト形式の情報に変換するための光学文字認識(OCR)技術を用いる手段である。 "Means for converting visual information into text information" refers to means that use optical character recognition (OCR) technology to convert acquired visual information into text-format information such as letters and numbers.

「聴覚情報をテキスト情報に変換する手段」とは、取得した聴覚情報を文字や単語などのテキスト形式の情報に変換するための音声認識技術を用いる手段である。 "Means for converting auditory information into text information" refers to means that use voice recognition technology to convert acquired auditory information into text-format information such as letters or words.

「ウェブ上の関連情報を検索する手段」とは、変換されたテキスト情報を基にインターネット上で適切な情報を探し出すための検索エンジン機能を含む手段である。 "Means for searching for relevant information on the web" refers to means that include a search engine function for finding appropriate information on the Internet based on converted text information.

「拡張現実(AR)形式で表示する手段」とは、現実の映像にデジタル情報を重ね合わせて表示する技術であり、スマートグラスなどのディスプレイ装置を用いる手段である。 "Augmented reality (AR) display" refers to a technology that displays digital information overlaid on real-world images, and is a method that uses display devices such as smart glasses.

「ユーザの興味に基づいたデータを収集する手段」とは、ユーザの視線や音声コマンドなど、ユーザが興味を示した対象に関する情報を集める手段である。 "Means for collecting data based on user interests" refers to means for collecting information about subjects that the user is interested in, such as the user's gaze or voice commands.

「収集されたデータを分析する手段」とは、収集したユーザの興味データを解析し、ユーザの好みや傾向を把握するための手段である。 "Means for analyzing collected data" refers to means for analyzing collected user interest data and understanding user preferences and trends.

「ユーザの歩行中に商品情報やレビューをAR形式でリアルタイムに提供する手段」とは、ユーザが実店舗内で移動しながら視覚装置を通じて商品情報やユーザレビューを拡張現実形式で即時に表示する手段である。 "A means of providing product information and reviews in real time in AR format while the user is walking" refers to a means of instantly displaying product information and user reviews in augmented reality format through a visual device while the user is moving around in a physical store.

「ユーザの視線を検出する手段」とは、ユーザの視線の方向や注視ポイントを検出して追跡するための視線追跡装置や技術を用いる手段である。 "Means for detecting a user's gaze" refers to means that use gaze tracking devices or technology to detect and track the user's gaze direction and gaze point.

「ユーザの音声コマンドを認識する手段」とは、ユーザが発した音声指示を捉え、それを理解して処理するための音声認識システムを用いる手段である。 "Means for recognizing user voice commands" refers to means for using a voice recognition system to capture, understand, and process voice instructions given by the user.

この発明は、ユーザが実店舗内で商品情報やレビューをリアルタイムに取得するためのシステムを提供するものである。具体的には、スマートグラスを用いて外界の視覚情報や聴覚情報を取得し、それを基にテキスト情報を生成し、ウェブ上の関連情報を検索して拡張現実(AR)形式で表示するシステムである。 This invention provides a system that allows users to obtain product information and reviews in real time while in a physical store. Specifically, the system uses smart glasses to obtain visual and auditory information from the outside world, generates text information based on that information, searches for related information on the web, and displays it in augmented reality (AR) format.

システムの構成 System Configuration

このシステムは以下の主要なコンポーネントで構成される: The system consists of the following main components:

ハードウェア Hardware

スマートグラス:カメラ、マイク、ディスプレイ、プロセッサを搭載している。ユーザが装着し、外界の視覚情報や聴覚情報を取得する。 Smart glasses: Equipped with a camera, microphone, display, and processor. Worn by the user, they capture visual and auditory information from the outside world.

クラウドサーバ:大容量のデータ処理とストレージを担当する。 Cloud server: Responsible for large-volume data processing and storage.

ソフトウェア Software

光学文字認識(OCR)技術(例: Tesseract):取得された視覚情報をテキスト形式に変換する。 Optical character recognition (OCR) technology (e.g., Tesseract): converts captured visual information into text.

音声認識技術(例: Google Cloud Speech-to-Text):取得された聴覚情報をテキスト形式に変換する。 Speech recognition technology (e.g., Google Cloud Speech-to-Text): Converts captured auditory information into text format.

ウェブ検索エンジン(例: Elasticsearch):変換されたテキスト情報に基づいてインターネット上の関連情報を検索する。 Web search engines (e.g., Elasticsearch): Search for relevant information on the Internet based on converted text information.

拡張現実(AR)技術(例: ARCore):取得した情報をAR形式でスマートグラスのディスプレイに表示する。 Augmented reality (AR) technology (e.g., ARCore): Displays acquired information in AR format on the smart glasses display.

視線追跡技術:ユーザの視線を検出し、興味を示す対象物を特定する。 Eye tracking technology: Detects where the user is looking and identifies objects of interest.

動作の概要 Operation Overview

1. 視覚情報の取得と変換:スマートグラスのカメラで店舗内の商品や看板をキャプチャし、OCR技術を用いてテキスト情報に変換する。 1. Acquisition and conversion of visual information: The smart glasses' camera captures products and signs in the store and converts them into text information using OCR technology.

2. 聴覚情報の取得と変換:スマートグラスのマイクでユーザの音声コマンドを録音し、音声認識技術を用いてテキスト情報に変換する。 2. Acquiring and converting auditory information: The smart glasses' microphone records the user's voice commands and converts them into text using voice recognition technology.

3. 関連情報の検索:変換されたテキスト情報をクラウドサーバに送信し、ウェブ検索エンジンで関連情報を取得する。 3. Search for related information: The converted text information is sent to a cloud server and related information is retrieved using a web search engine.

4. 情報のAR形式で表示:取得した情報をAR形式でスマートグラスのディスプレイにオーバーレイ表示する。 4. Displaying information in AR format: The acquired information is overlaid on the smart glasses display in AR format.

5. 興味データの収集と分析:ユーザの視線や音声コマンドを記録し、クラウドサーバで分析することでユーザの興味や関心を把握し、次回以降の情報提供に活用する。 5. Collection and analysis of interest data: By recording the user's gaze and voice commands and analyzing them on a cloud server, we can understand the user's interests and concerns, and use this information to provide them in future visits.

具体例 Specific examples

例えば、ユーザが店内で特定の商品を探している場合、スマートグラスのカメラがその商品を認識し、「商品名 XYZ」というテキスト情報に変換する。その上で「商品名 XYZ レビュー」というキーワードでウェブ検索を行い、取得したレビュー情報をスマートグラスのディスプレイにAR表示する。さらに、ユーザが「この商品の評価を知りたい」という音声コマンドを発した場合、音声をテキストに変換し、追加のレビュー情報を再検索して表示する。ユーザが特定の情報に視線を向けた場合、その情報を記録し、次回の検索結果に基づくパーソナライズに利用する。 For example, if a user is looking for a specific product in a store, the smart glasses' camera will recognize the product and convert it into text information such as "Product name XYZ." A web search will then be performed using the keywords "Product name XYZ review," and the retrieved review information will be displayed in AR on the smart glasses' display. Furthermore, if the user issues a voice command such as "I want to know the rating of this product," the voice will be converted into text, and additional review information will be searched for and displayed. If the user looks at specific information, that information will be recorded and used to personalize the next search results.

プロンプト文の例 Example prompt

ユーザが店内で特定の商品を探している時、 When a user is searching for a specific product in a store,

スマートグラスのカメラで商品名 XYZ をキャプチャし、 Capture product name XYZ with the smart glasses camera,

カメラ映像から OCR で「商品名 XYZ」をテキスト情報に変換する。 Use OCR to convert "Product Name XYZ" from camera footage into text information.

その上で "商品名 XYZ レビュー" というキーワードでウェブ検索を行い、 Then, do a web search using the keywords "Product Name XYZ Review"

取得したレビュー情報をスマートグラスのディスプレイに AR 表示しなさい。 Display the acquired review information in AR on the smart glasses display.

さらに、ユーザが「この商品の評価を知りたい」という音声コマンドを発した場合、 Furthermore, if the user issues a voice command such as "I want to know the rating of this product,"

音声をテキストに変換し、追加のレビュー情報を再検索して表示しなさい。 Convert speech to text and re-search for additional review information.

ユーザが特定の情報に視線を向けた場合、その情報を記録し、次回の検索結果に基づくパーソナライズに利用しなさい。 When a user looks at specific information, record that information and use it to personalize your next search results.

応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the identification process in Application Example 1 will be explained using Figure 12.

ステップ1: Step 1:

スマートグラスのカメラが実店舗内の環境をキャプチャする。ここで得られる入力は、ユーザの視界内にある商品の映像である。スマートグラス内のプロセッサは、この映像データをリアルタイムで取得し、視覚情報として処理ユニットに送信する。出力は、キャプチャされた映像データである。 The camera in the smart glasses captures the environment in a physical store. The input is a video of the products in the user's field of view. The processor in the smart glasses captures this video data in real time and sends it to the processing unit as visual information. The output is the captured video data.

ステップ2: Step 2:

スマートグラスのプロセッサは、取得した映像データをOCR技術を用いてテキスト情報に変換する。入力としては、キャプチャされた映像データが使用される。OCR技術(例: Tesseract)により、商品名や看板の文字情報が抽出され、「商品名 XYZ」などのテキスト情報に変換される。出力は、変換されたテキスト情報である。 The processor in the smart glasses converts the captured video data into text information using OCR technology. The captured video data is used as input. OCR technology (e.g., Tesseract) extracts text information from product names and signs and converts it into text information such as "Product Name XYZ." The output is the converted text information.

ステップ3: Step 3:

スマートグラスのマイクは、ユーザが発した音声コマンドを録音する。ここで得られる入力は、ユーザの音声情報である。この音声情報は音声認識技術(例: Google Cloud Speech-to-Text)によってテキスト情報に変換される。例えば、「この商品のレビューを聞きたい」という音声コマンドが「この商品のレビューを聞きたい」というテキストに変換される。出力は、変換された音声のテキスト情報である。 The microphone in the smart glasses records voice commands given by the user. The input obtained here is the user's voice information. This voice information is converted into text information using voice recognition technology (e.g., Google Cloud Speech-to-Text). For example, the voice command "I would like to hear reviews of this product" is converted into text "I would like to hear reviews of this product." The output is the text information of the converted voice.

ステップ4: Step 4:

端末は、変換された視覚情報と聴覚情報をクラウドサーバに送信する。入力としては、OCRおよび音声認識によって変換されたテキスト情報が使用される。クラウドサーバは、受け取ったテキスト情報に基づいてウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジン(例: Elasticsearch)を使用して、「商品名 XYZ レビュー」などの検索クエリを実行し、関連するレビューやメニュー情報を取得する。出力は、検索結果としての関連情報である。 The device sends the converted visual and auditory information to a cloud server. The input is text information converted using OCR and speech recognition. The cloud server searches for related information on the web based on the received text information. Specifically, it uses a web search engine (e.g., Elasticsearch) to execute a search query such as "Product Name XYZ Reviews" to retrieve related reviews and menu information. The output is related information as search results.

ステップ5: Step 5:

クラウドサーバは、取得した関連情報を整理し、スマートグラスに送信する。入力としては、検索によって得られた関連情報が使用される。まず、関連情報を形式化し、スマートグラスのディスプレイに適した形式に変換する。出力は、AR表示用にフォーマットされたデータである。 The cloud server organizes the retrieved relevant information and sends it to the smart glasses. The relevant information obtained through the search is used as input. First, the relevant information is formalized and converted into a format suitable for the smart glasses' display. The output is data formatted for AR display.

ステップ6: Step 6:

スマートグラスのディスプレイは、取得した情報をAR形式でオーバーレイ表示する。ここでの入力は、クラウドサーバから送信されたフォーマット化されたデータである。スマートグラスのディスプレイは、ユーザの視界に商品レビューやメニュー情報を重ね合わせて表示する。出力は、実店舗環境に重ね合わせられたAR表示情報である。 The smart glasses display displays the acquired information in an AR overlay format. The input here is formatted data sent from the cloud server. The smart glasses display overlays product reviews and menu information in the user's field of view. The output is AR display information overlaid on the physical store environment.

ステップ7: Step 7:

スマートグラスの視線追跡機能は、ユーザの視線を検出し、興味を示した情報を記録する。入力としては、視線の方向や視点のデータが使用される。視線追跡技術により、ユーザがどの情報を注視しているかがリアルタイムで解析され、その結果がデータとして記録される。出力は、興味データである。 The eye-tracking function of smart glasses detects the user's gaze and records information that shows interest. The input is data on the direction of gaze and point of view. Eye-tracking technology analyzes in real time what information the user is focusing on, and the results are recorded as data. The output is interest data.

ステップ8: Step 8:

クラウドサーバは、収集されたユーザの興味データを分析する。入力は、視線追跡技術や音声コマンドによって記録された興味データである。サーバはこのデータを解析し、ユーザの好みや傾向を把握する。これにより次回以降の検索や情報提供に活用される。出力は、解析されたユーザの好みや傾向のデータである。 The cloud server analyzes the collected user interest data. The input is interest data recorded using eye-tracking technology and voice commands. The server analyzes this data to understand the user's preferences and trends. This information is used for future searches and information provision. The output is analyzed data on the user's preferences and trends.

なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 It is also possible to further combine an emotion engine that estimates the user's emotion. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.

本発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、AR形式でユーザに表示するシステムに、ユーザの感情を認識する感情エンジンを組み合わせたものである。以下に、その具体的な実施形態について説明する。 This invention combines a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in AR format with an emotion engine that recognizes the user's emotions. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then converts the acquired visual information into text using OCR technology. For example, it can recognize a cafe sign and convert it into text such as "Cafe ABC." Similarly, it converts auditory information into text using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text such as "This cafe is delicious."

また、取得された映像および音声データは、端末に搭載された感情エンジンによってユーザの感情を解析する。感情エンジンは機械学習アルゴリズムを使用してユーザの表情や声のトーンから感情を識別する。例えば、ユーザが喜んでいるか、興味を持っているか、あるいは驚いているかといった感情を認識する。 The captured video and audio data is then analyzed by the device's built-in emotion engine to determine the user's emotions. The emotion engine uses machine learning algorithms to identify emotions from the user's facial expressions and tone of voice. For example, it can recognize whether the user is happy, interested, or surprised.

変換されたテキスト情報と認識された感情データは、端末からサーバに送信される。サーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「カフェ ABC」というキーワードを基にレビューやメニュー、場所の詳細をGoogleなどの検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent from the device to the server. The server then searches for related information on the web based on the received text information. For example, based on the keyword "cafe ABC," reviews, menus, and location details can be retrieved using a search engine such as Google. Furthermore, by taking emotion data into consideration, it is possible to prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報をAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in AR format. For example, reviews and popular menu items for "Cafe ABC" are overlaid on the smartglasses display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。例えば、ユーザが特定の情報をじっと見つめたり、「このケーキが気になる」といった発言をすると、端末はそれを記録する。また、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 The device also collects interest data based on the user's gaze and voice commands. For example, if a user stares intently at a particular piece of information or says something like "I'm interested in this cake," the device will record it. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはサーバに送信され、分析される。サーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to the server for analysis. The server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if the user shows a strong interest in cafes, information about cafes can be displayed preferentially from the next time onwards.

具体例として、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はサーバに送信され、サーバは「カフェ XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 As a specific example, if a user is walking down the street and spots a sign for "Cafe XYZ," the camera on the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert the statement into text. At the same time, the emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to the server, which will search for detailed information about "Cafe XYZ" and prioritize information that is likely to interest the user. This information is sent to the device and displayed in AR format on the smart glasses' display. The user can then check reviews and photos of the cake on the spot.

このような形態により、ユーザのリアルタイムな情報取得および提供が可能となり、ユーザエクスペリエンスを大幅に向上させることができる。また、感情データを活用することで、さらにパーソナライズされた情報提供が実現される。 This type of service allows users to obtain and provide information in real time, significantly improving the user experience. Furthermore, by utilizing emotional data, even more personalized information can be provided.

以下に、処理の流れについて説明する。 The processing flow is explained below.

ステップ1: Step 1:

端末が外界の視覚情報および聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラで映像をキャプチャし、マイクで音声を録音する。これらのデータはリアルタイムで端末内のメモリに保存される。 The device acquires visual and auditory information from the outside world. Specifically, the smart glasses' built-in camera captures video and the microphone records audio. This data is stored in the device's memory in real time.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、「カフェ XYZ」という看板をキャプチャした場合、画像データを解析し「カフェ XYZ」というテキストデータを生成する。同様に、取得した聴覚情報を音声認識技術を用いてテキスト情報に変換する。例えば、「このカフェは美味しい」という会話をテキスト形式に変換する。 Visual information acquired by the device is converted into text information using OCR technology. For example, if a sign that reads "Cafe XYZ" is captured, the image data is analyzed and the text data "Cafe XYZ" is generated. Similarly, auditory information acquired is converted into text information using voice recognition technology. For example, a conversation such as "This cafe is delicious" is converted into text format.

ステップ3: Step 3:

端末が感情エンジンを使って視覚情報および聴覚情報からユーザの感情を識別する。機械学習アルゴリズムを用いてユーザの表情や声のトーンを解析し、喜び、興味、驚きなどの感情を認識する。例えば、ユーザがカフェの看板を見て微笑んでいる場合、その喜びの感情を識別する。 The device uses an emotion engine to identify the user's emotions from visual and auditory information. It uses machine learning algorithms to analyze the user's facial expressions and tone of voice to recognize emotions such as joy, interest, and surprise. For example, if the user smiles at a cafe sign, the device will identify the emotion of joy.

ステップ4: Step 4:

端末が変換されたテキスト情報および識別された感情データをサーバに送信する。データはインターネット経由でサーバにアップロードされる。 The device sends the converted text information and identified emotion data to the server, which then uploads the data to the server via the Internet.

ステップ5: Step 5:

サーバが受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「カフェ XYZ」というキーワードを使ってGoogle検索を行い、そのカフェのレビューやメニュー情報を取得する。 The server searches for related information on the web based on the text information it receives. For example, you can perform a Google search using the keyword "cafe XYZ" to retrieve reviews and menu information for that cafe.

ステップ6: Step 6:

サーバが取得した検索結果を整理し、関連性の高い情報を選別する。感情データを考慮して、ユーザが興味を示しやすい情報を優先的に選ぶ。例えば、ユーザが喜びの感情を示している場合、そのカフェのポジティブなレビューを優先表示する。 The server organizes the search results and selects the most relevant information. It takes into account emotional data and prioritizes information that is likely to interest the user. For example, if the user is expressing happiness, it will prioritize positive reviews of that cafe.

ステップ7: Step 7:

サーバが整理された情報を端末に送信する。選別されたデータはインターネット経由で端末に転送される。 The server sends the organized information to the device. The selected data is then transferred to the device via the Internet.

ステップ8: Step 8:

端末が受信した情報をAR形式で表示する。スマートグラスのディスプレイに、「カフェ XYZ」のレビューや人気メニューがオーバーレイ表示されるように設定する。 The information received by the device is displayed in AR format. Set it up so that reviews and popular menu items from "Cafe XYZ" are overlaid on the smart glasses display.

ステップ9: Step 9:

ユーザが視線や音声コマンドで特定の情報に興味を示す場合、そのデータを端末が記録する。例えば、ユーザが特定のレビューを見つめたり、「このケーキが気になる」と言った場合、その情報を記録する。 If a user shows interest in specific information through their gaze or voice command, the device will record that data. For example, if a user looks at a particular review or says, "I'm interested in this cake," that information will be recorded.

ステップ10: Step 10:

端末が収集された興味データと感情データをサーバに送信する。データはリアルタイムでインターネット経由で送信される。 The device sends the collected interest and emotion data to a server. The data is transmitted in real time via the Internet.

ステップ11: Step 11:

サーバが収集されたデータを分析し、ユーザの興味の傾向および感情のパターンを把握する。この分析結果を基に、次回以降の情報提供に反映し、ユーザに最適な情報を提供する。例えば、次回以降の検索結果にはユーザが好むカフェの情報を優先的に表示する。 The server analyzes the collected data to understand the user's interest trends and emotional patterns. Based on the results of this analysis, the server reflects this in future information provision, providing the user with the most appropriate information. For example, from the next search result onwards, information about the user's favourite cafes will be displayed first.

(実施例2) (Example 2)

次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."

現代社会において、ユーザがリアルタイムに情報を取得し、迅速に意思決定を行う必要性が高まっている。しかし、現行の技術では、視覚情報および聴覚情報に基づいたリアルタイムな情報提供が十分に行われず、ユーザの使用体験が制限される問題がある。特に、ユーザの感情や興味を考慮したパーソナライズされた情報提供が不足しているため、情報収集の効率性とユーザ満足度が低下する。このため、外界の視覚情報および聴覚情報をリアルタイムで取得し、ユーザの感情や興味を反映した情報提供を行うシステムが求められている。 In modern society, there is an increasing need for users to obtain information in real time and make quick decisions. However, current technology does not adequately provide real-time information based on visual and auditory information, limiting the user experience. In particular, there is a lack of personalized information provision that takes into account the user's emotions and interests, which reduces the efficiency of information gathering and user satisfaction. For this reason, there is a demand for a system that can obtain visual and auditory information from the outside world in real time and provide information that reflects the user's emotions and interests.

実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、視覚情報をテキスト情報に変換する手段と、聴覚情報をテキスト情報に変換する手段と、変換されたテキスト情報及び感情データに基づいてウェブ上の関連情報を検索する手段と、検索された情報を拡張現実形式で表示する手段と、ユーザの感情を認識する手段と、ユーザの興味に基づいたデータを収集する手段と、収集されたデータ及び感情データを分析する手段と、を含む。これにより、ユーザはリアルタイムで自身の感情や興味に基づいたパーソナライズされた情報を効率的に取得することが可能となる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information and emotional data, means for displaying the searched information in an augmented reality format, means for recognizing the user's emotions, means for collecting data based on the user's interests, and means for analyzing the collected data and emotional data. This enables users to efficiently obtain personalized information based on their emotions and interests in real time.

「視覚情報」とは、外界の環境から取得される映像や画像のデータである。 "Visual information" refers to video and image data obtained from the external environment.

「聴覚情報」とは、外界の環境から取得される音声や音響のデータである。 "Auditory information" refers to sound and acoustic data obtained from the external environment.

「テキスト情報」とは、視覚情報および聴覚情報を解析・変換して得られる文字列データである。 "Text information" is character string data obtained by analyzing and converting visual and auditory information.

「感情データ」とは、ユーザの感情状態を解析した結果得られるデータである。 "Emotional data" is data obtained as a result of analyzing the user's emotional state.

「ウェブ上の関連情報」とは、インターネットを利用して検索され、ユーザの要求やコンテキストに関連する情報である。 "Relevant information on the web" is information that is searched using the Internet and is relevant to the user's requirements and context.

「拡張現実形式」とは、現実世界の視覚情報にデジタル情報を重ね合わせて表示する技術である。 "Augmented reality" is a technology that displays digital information overlaid on visual information from the real world.

「ユーザの感情を認識する手段」とは、映像や音声データを解析し、ユーザの感情を識別するアルゴリズムである。 "Means for recognizing user emotions" refers to an algorithm that analyzes video and audio data and identifies the user's emotions.

「ユーザの興味に基づいたデータ」とは、ユーザの視線や音声コマンドなどの入力情報を解析し、ユーザの関心を示すデータである。 "Data based on user interests" is data that indicates a user's interests by analyzing input information such as the user's gaze and voice commands.

「収集されたデータ及び感情データを分析する手段」とは、ユーザの興味や感情に基づいて収集されたデータを解析し、次回の情報提供に利用するアルゴリズムである。 "Means for analyzing collected data and emotional data" refers to an algorithm that analyzes collected data based on the user's interests and emotions and uses it to provide information the next time.

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、拡張現実形式でユーザに表示するシステムに、ユーザの感情を認識する感情エンジンを組み合わせたものである。 This invention combines a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in augmented reality format with an emotion engine that recognizes the user's emotions.

まず、端末であるスマートグラスが、カメラを用いて外界の視覚情報を取得し、マイクを用いて外界の聴覚情報を取得する。この時点で取得された映像データと音声データはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the terminal, use a camera to acquire visual information from the outside world and a microphone to acquire auditory information from the outside world. The video and audio data acquired at this point is sent in real time to a processing unit within the terminal.

次に、端末は視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報に変換する。 The device then converts the visual information into text using OCR technology. For example, it recognizes a cafe sign and converts it into text such as "Cafe ABC." Similarly, it converts auditory information into text using voice recognition technology. For example, it recognizes the conversation of a passerby and converts it into text such as "This cafe is delicious."

また、端末は取得された映像および音声データを用いて、感情エンジンによってユーザの感情を解析する。これにより、ユーザが喜んでいるか、興味を持っているか、あるいは驚いているかといった感情を識別することができる。感情エンジンは機械学習アルゴリズムを使用して、表情や声のトーンから感情を認識する。 The device also uses the captured video and audio data to analyze the user's emotions using an emotion engine, which can identify emotions such as whether the user is happy, interested, or surprised. The emotion engine uses machine learning algorithms to recognize emotions from facial expressions and tone of voice.

変換されたテキスト情報と認識された感情データはサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。例えば、「カフェ ABC」というキーワードを基にレビューやメニュー、場所の詳細を検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent to the server. The server uses the received text information to search for related information on the web. For example, based on the keyword "cafe ABC," it can use a search engine to retrieve reviews, menus, and location details. Furthermore, by taking emotion data into consideration, it can prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報を拡張現実(AR)形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューが現実の景色にオーバーレイ表示される。これにより、ユーザはリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in augmented reality (AR) format. For example, reviews and popular menu items for "Cafe ABC" may be overlaid on the real-world view on the smart glasses display, allowing users to obtain relevant information in real time.

さらに、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。ユーザが特定の情報をじっと見つめたり、「このケーキが気になる」といった発言をすると、端末はそれを記録する。また、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 In addition, the device also collects interest data based on the user's gaze and voice commands. If the user stares intently at a particular piece of information or says something like "I'm interested in this cake," the device records it. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはサーバに送信され、サーバはそれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to the server, which uses this data to understand the user's interest trends and reflect them in the next information provided. For example, if the user shows a strong interest in cafes, information about cafes can be displayed preferentially from the next time onwards.

詳細な具体例 Detailed examples

ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はサーバに送信され、サーバは「カフェ XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートグラスのディスプレイに拡張現実(AR)形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 If a user is walking down the street and spots a sign for "Cafe XYZ," the camera on the smart glasses will recognize the sign and convert it into text using OCR technology: "Cafe XYZ." Furthermore, if the user says, "I'm interested in the cakes at this cafe," the speech recognition technology will convert the statement into text. At the same time, the emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to the server, which searches for detailed information about "Cafe XYZ" and prioritizes information that is likely to interest the user. This information is then sent to the device and displayed in augmented reality (AR) on the smart glasses' display. Users can then instantly check reviews and photos of the cakes.

プロンプト文の例: Example prompt:

「ユーザがカフェに関する情報を探している場合に、スマートグラスが視覚および聴覚データを取得し、感情エンジンでユーザの感情を分析し、AR形式で情報を表示するシステムの詳細な処理フローを説明してください。」 "When a user searches for information about a cafe, please explain the detailed processing flow of the system in which smart glasses acquire visual and auditory data, analyze the user's emotions using an emotion engine, and display information in AR format."

実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.

ステップ1: Step 1:

端末であるスマートグラスが外界の視覚情報および聴覚情報を取得する。 The smart glasses that serve as the device collect visual and auditory information from the outside world.

入力:外界の映像データおよび音声データ。 Input: Video and audio data from the outside world.

処理:スマートグラスのカメラで映像をキャプチャし、マイクで音声を録音する。 Processing: The smart glasses' camera captures video and the microphone records audio.

出力:キャプチャされた映像データと録音された音声データ。 Output: Captured video data and recorded audio data.

具体的な動作:ユーザが街を歩いているときにスマートグラスが建物や看板を撮影し、周囲の会話や環境音を録音する。 Specific operation: As the user walks around town, the smart glasses take photos of buildings and signs, and record surrounding conversations and environmental sounds.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換し、聴覚情報を音声認識技術でテキスト化する。 Visual information acquired by the device is converted into text information using OCR technology, and auditory information is converted into text using voice recognition technology.

入力:映像データおよび音声データ。 Input: Video and audio data.

処理:OCR技術を使用して映像データから文字列を抽出し、音声認識技術を使用して音声データを文字列に変換する。 Processing: Use OCR technology to extract text from video data, and use voice recognition technology to convert audio data into text.

出力:テキスト情報。 Output: Text information.

具体的な動作:スマートグラスが「カフェ XYZ」という看板をキャプチャし、それを「カフェ XYZ」というテキスト情報に変換する。同様に、通行人の会話「このカフェのケーキが美味しい」を音声認識してテキスト化する。 Specific operation: The smart glasses capture a sign that reads "Cafe XYZ" and convert it into text information: "Cafe XYZ." Similarly, they recognize the speech of a passerby, "The cake at this cafe is delicious," and convert it into text.

ステップ3: Step 3:

端末が映像および音声データを用いて感情エンジンでユーザの感情を解析する。 The device uses video and audio data to analyze the user's emotions using an emotion engine.

入力:映像データおよび音声データ。 Input: Video and audio data.

処理:機械学習アルゴリズムを使用して映像データから顔の表情を解析し、音声データから声のトーンを解析して感情を識別する。 Processing: Machine learning algorithms are used to analyze facial expressions from video data and tone of voice from audio data to identify emotions.

出力:感情データ。 Output: Emotion data.

具体的な動作:ユーザがカフェの看板を見るときの顔の表情や音声のトーンを分析し、ユーザが興味を示しているか、喜んでいるかを判断する。 Specific behavior: Analyzes the user's facial expression and tone of voice when they look at a cafe sign to determine whether they are interested or pleased.

ステップ4: Step 4:

端末が変換されたテキスト情報および感情データをサーバに送信する。 The device sends the converted text information and emotion data to the server.

入力:テキスト情報および感情データ。 Input: Text information and emotion data.

処理:データをパケットにまとめ、サーバに送信する。 Processing: Packetize the data and send it to the server.

出力:サーバに送信されたデータ。 Output: Data sent to the server.

具体的な動作:端末が「カフェ XYZ」というテキスト情報と「興味」を示す感情データをサーバに送信する。 Specific operation: The device sends the text information "Cafe XYZ" and emotion data indicating "interest" to the server.

ステップ5: Step 5:

サーバが受け取ったテキスト情報と感情データを基にウェブ上の関連情報を検索する。 The server searches for relevant information on the web based on the text information and emotion data received.

入力:テキスト情報および感情データ。 Input: Text information and emotion data.

処理:検索エンジンを使用して関連情報を検索し、感情データを考慮してユーザが興味を示しやすい情報を優先的に取得する。 Processing: Use a search engine to search for relevant information and prioritize information that is likely to interest the user, taking into account emotional data.

出力:関連情報の検索結果。 Output: Search results for related information.

具体的な動作:サーバが「カフェ XYZ」に関するレビューやメニュー情報を検索し、ユーザが興味を示しやすい情報を選定する。 Specific operation: The server searches for reviews and menu information about "Cafe XYZ" and selects information that is likely to interest the user.

ステップ6: Step 6:

サーバが検索結果を再び端末に送信する。 The server will send the search results back to the device.

入力:関連情報の検索結果。 Input: Search results for related information.

処理:検索結果をパケットにまとめ、端末に送信する。 Processing: The search results are compiled into packets and sent to the terminal.

出力:端末に送信されたデータ。 Output: Data sent to the terminal.

具体的な動作:サーバが「カフェ XYZ」のレビューや人気メニューなどのデータを端末に送信する。 Specific operation: The server sends data such as reviews and popular menu items for "Cafe XYZ" to the device.

ステップ7: Step 7:

端末が取得した情報を拡張現実(AR)形式でユーザに表示する。 The information acquired by the device is displayed to the user in augmented reality (AR) format.

入力:関連情報の検索結果。 Input: Search results for related information.

処理:拡張現実(AR)技術を使用して現実の景色にデジタル情報を重ね合わせて表示する。 Processing: Using augmented reality (AR) technology, digital information is overlaid on real-world scenes.

出力:AR形式で表示された情報。 Output: Information displayed in AR format.

具体的な動作:スマートグラスのディスプレイに、「カフェ XYZ」のレビューやケーキの写真が現実の景色にオーバーレイ表示される。 Specific operation: Reviews of Cafe XYZ and photos of cakes are overlaid on the real world on the smart glasses display.

ステップ8: Step 8:

端末がユーザの視線や音声コマンドに基づいた興味データを収集する。 The device collects interest data based on the user's gaze and voice commands.

入力:ユーザの視線データおよび音声コマンド。 Input: User gaze data and voice commands.

処理:視線検出センサーを使用してユーザがどこを見ているかを検出し、音声コマンドを音声認識技術で解析する。 Processing: Uses an eye gaze sensor to detect where the user is looking, and analyzes voice commands using voice recognition technology.

出力:興味データ。 Output: Interest data.

具体的な動作:ユーザがケーキの写真を長時間見つめたり、「このケーキが気になる」と言った場合、端末がそのデータを収集する。 Specific behavior: If a user stares at a photo of a cake for a long time or says, "I'm interested in this cake," the device will collect that data.

ステップ9: Step 9:

端末が収集した興味データおよび感情データをサーバに送信し、サーバがそれを解析する。 The device sends the collected interest and emotion data to the server, which analyzes it.

入力:興味データおよび感情データ。 Input: Interest data and emotion data.

処理:データをパケットにまとめ、サーバに送信し、サーバが機械学習アルゴリズムを使用して解析する。 Processing: The data is packaged into packets and sent to a server, where it is analyzed using machine learning algorithms.

出力:解析結果。 Output: Analysis results.

具体的な動作:収集されたデータをサーバに送信し、サーバがそれを解析してユーザの興味の傾向を把握する。 Specific operations: The collected data is sent to a server, which analyzes it to understand trends in user interests.

ステップ10: Step 10:

サーバが解析結果を基に次回以降の情報提供に反映させる。 The server will use the analysis results to provide information from the next time onwards.

入力:解析結果。 Input: Analysis results.

処理:解析結果をデータベースに記録し、次回の情報提供に使用する。 Processing: The analysis results will be recorded in a database and used for the next information provision.

出力:次回の情報提供の準備。 Output: Preparing for next information submission.

具体的な動作:ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示する準備をする。 Specific behavior: If the user shows a strong interest in the cafe, prepare to prioritize displaying information about the cafe from the next time onwards.

(応用例2) (Application Example 2)

次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Application Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."

自動運転車両において、乗客やドライバーは外界の情報を効果的に把握し、特定の情報をリアルタイムで取得する手段が限られている。また、利用者の感情や興味を反映した情報提供が不足しているため、ユーザエクスペリエンスが十分に向上しないという課題がある。 In autonomous vehicles, passengers and drivers have limited means to effectively grasp information about the outside world and obtain specific information in real time. Furthermore, there is a lack of information provided that reflects the user's emotions and interests, which presents a challenge in terms of the user experience not being sufficiently improved.

応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、視覚情報をテキスト情報に変換する手段と、を含む。これにより、リアルタイムで視覚および聴覚情報を基に関連情報を取得し、ユーザの感情や興味を反映したパーソナライズされた情報提供が可能となる。 The specific processing by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means. In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, and means for converting the visual information into text information. This makes it possible to acquire related information based on visual and auditory information in real time and provide personalized information that reflects the user's emotions and interests.

「外界の視覚情報」とは、スマートデバイスに搭載されたカメラやセンサーを用いて取得される、周囲の映像や画像データのことである。 "Visual information from the outside world" refers to video and image data of the surroundings acquired using cameras and sensors installed on smart devices.

「外界の聴覚情報」とは、スマートデバイスに搭載されたマイクを用いて取得される、周囲の音声や音データのことである。 "External auditory information" refers to surrounding voice and sound data acquired using a microphone installed on a smart device.

「視覚情報をテキスト情報に変換する手段」とは、映像や画像データを文字情報に変換するための光学的文字認識(OCR)技術を指す。 "Means for converting visual information into text information" refers to optical character recognition (OCR) technology for converting video and image data into text information.

「聴覚情報をテキスト情報に変換する手段」とは、音声データを文字情報に変換するための音声認識技術を指す。 "Means for converting auditory information into text information" refers to speech recognition technology for converting voice data into text information.

「ウェブ上の関連情報を検索する手段」とは、サーバや検索エンジンを用いてインターネット上の情報を検索し、必要なデータを取得する機能を指す。 "Means for searching for related information on the web" refers to the function of searching for information on the Internet using a server or search engine and obtaining the necessary data.

「拡張現実(AR)形式で表示する手段」とは、取得した情報を現実の映像に重ね合わせる形で表示するための技術を指す。 "Means of displaying in augmented reality (AR) format" refers to technology for displaying acquired information by overlaying it on real-world images.

「ユーザの興味に基づいたデータを収集する手段」とは、ユーザの視線や音声コマンドなどから興味を推定し、それに関連するデータを集める機能を指す。 "Means for collecting data based on user interests" refers to a function that infers a user's interests from their gaze, voice commands, etc., and collects data related to those interests.

「収集されたデータを分析する手段」とは、収集したデータを解析し、ユーザの興味や行動パターンを理解するためのアルゴリズムや手法を指す。 "Means for analyzing collected data" refers to algorithms and methods for analyzing collected data and understanding user interests and behavioral patterns.

「ユーザの感情を解析する手段」とは、ユーザの表情や音声トーンを解析し、感情状態を判断するための機械学習アルゴリズムを指す。 "Means for analyzing user emotions" refers to machine learning algorithms that analyze a user's facial expressions and tone of voice to determine their emotional state.

「自動運転車両に搭載されるスマートデバイス」とは、自動運転車内で使用される、カメラやマイク、ディスプレイなどの機能を持つ電子機器を指す。 "Smart devices installed in self-driving vehicles" refers to electronic devices with functions such as cameras, microphones, and displays that are used inside self-driving vehicles.

本発明は、自動運転車両におけるユーザ体験を向上させるためのシステムであり、スマートデバイスを用いて外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基に関連情報を検索・表示するものである。また、ユーザの感情を解析し、興味に基づいた情報提供を行うことが特徴である。 This invention is a system for improving the user experience in autonomous vehicles. It uses smart devices to acquire visual and auditory information from the outside world in real time, and uses this information to search for and display relevant information. It also features the ability to analyze the user's emotions and provide information based on their interests.

まず、端末であるスマートデバイスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートデバイスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart device, which serves as the terminal, acquires visual and auditory information from the outside world. Specifically, the camera installed on the smart device captures video and the microphone records audio. This data is sent in real time to a processing unit within the terminal.

次に、端末は取得した視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、自動運転車両が街中を走行中にレストランの看板を認識した場合、「レストラン ABC」というテキスト情報に変換される。同様に聴覚情報も音声認識技術を使用してテキスト情報に変換される。例えば、乗客が「このレストランのメニューが気になる」と言った場合、それがテキスト情報として記録される。 The device then converts the acquired visual information into text using OCR technology. For example, if an autonomous vehicle recognizes a restaurant sign while driving through town, it will convert it into text such as "Restaurant ABC." Similarly, auditory information is converted into text using voice recognition technology. For example, if a passenger says, "I'm interested in the menu at this restaurant," this will be recorded as text.

さらに、取得された映像および音声データは、端末に搭載された感情エンジンによってユーザの感情を解析する。感情エンジンは機械学習アルゴリズムを使用して、ユーザの表情や声のトーンから感情を識別する。例えば、ユーザが興味を持っているか、喜んでいるか、驚いているかといった感情を認識できる。 Furthermore, the captured video and audio data is analyzed for the user's emotions by the device's built-in emotion engine. The emotion engine uses machine learning algorithms to identify emotions from the user's facial expressions and tone of voice. For example, it can recognize whether the user is interested, happy, or surprised.

変換されたテキスト情報と認識された感情データは、端末からクラウドサーバに送信される。クラウドサーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「レストラン ABC」というキーワードを基に、レビューやメニュー、場所の詳細を検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent from the device to a cloud server. The cloud server then searches for related information on the web based on the received text information. For example, based on the keyword "restaurant ABC," reviews, menus, and location details can be retrieved using a search engine. Furthermore, by taking emotion data into consideration, it is possible to prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報をAR形式で表示する。例えば、スマートデバイスのディスプレイに「レストラン ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは移動中でもリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in AR format. For example, reviews and popular menu items for "Restaurant ABC" are overlaid on the smart device's display. This allows users to access relevant information in real time even while on the move.

また、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。例えば、ユーザが特定の情報をじっと見つめたり、「この料理が美味しそう」といった発言をする場合、そのデータを記録する。そして、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 The device also collects interest data based on the user's gaze and voice commands. For example, if a user stares intently at a particular piece of information or says something like "this dish looks delicious," that data is recorded. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはクラウドサーバに送信され、分析される。クラウドサーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがレストランに対して強い興味を示している場合、次回以降はレストランに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to a cloud server for analysis. The cloud server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if the user shows a strong interest in restaurants, information about restaurants can be displayed preferentially from the next time onwards.

具体例として As a concrete example

具体的な実施例として、ユーザが街を走行中に「レストラン XYZ」という看板を見つけた場合、スマートデバイスのカメラがその看板を認識し、OCR技術で「レストラン XYZ」とテキスト情報に変換する。さらに、ユーザが「このレストランのメニューが気になる」と発言した場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はクラウドサーバに送信され、サーバは「レストラン XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートデバイスのディスプレイにAR形式で表示される。ユーザはメニューのレビューや写真をその場で確認することができる。 As a specific example, if a user spots a sign for "Restaurant XYZ" while driving around town, the camera on the smart device will recognize the sign and convert it into text information as "Restaurant XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the menu at this restaurant," speech recognition technology will convert this statement into text. At the same time, an emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to a cloud server, which then searches for detailed information about "Restaurant XYZ" and prioritizes information that is likely to interest the user. This information is then sent to the device and displayed in AR format on the smart device's display. The user can then check reviews and photos of the menu on the spot.

プロンプト文の例 Example prompt

プロンプト文の一例を以下に示す。 An example of a prompt is shown below.

"ユーザがレストランの看板を見つけたときにスマートデバイスがその情報を識別し、テキスト化して、ユーザの感情に基づいてそのレストランのレビューやメニュー情報を優先的に表示します。たとえば、ユーザが「このレストランのメニューが気になる」と言った場合、その音声をテキスト化し、リアルタイムで関連情報を取得して表示します。" "When a user finds a restaurant sign, the smart device identifies the information, converts it into text, and prioritizes displaying reviews and menu information for that restaurant based on the user's sentiment. For example, if a user says, 'I'm interested in the menu at this restaurant,' the device converts that speech into text and retrieves and displays relevant information in real time."

応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.

ステップ1: Step 1:

端末であるスマートデバイスが外界の視覚情報と聴覚情報を取得する。ユーザが街を移動中に、カメラが周囲の映像をキャプチャし、マイクが周囲の音声を記録する。これらのデータはリアルタイムで処理ユニットに送信される。入力はカメラ映像データおよび音声データであり、出力は処理ユニットに送信される未処理データである。 The terminal, a smart device, acquires visual and auditory information from the outside world. As the user moves around town, the camera captures video of the surroundings and the microphone records audio from the surroundings. This data is sent to a processing unit in real time. The input is camera video data and audio data, and the output is raw data sent to the processing unit.

ステップ2: Step 2:

端末は取得した視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、スマートデバイスのカメラがレストランの看板を捉えた場合、その映像データをテキスト化し、「レストラン XYZ」という文字情報を生成する。入力は映像データであり、出力はテキストデータである。 The device converts the acquired visual information into text using OCR technology. For example, if a smart device's camera captures a restaurant sign, the video data is converted into text, generating the text information "Restaurant XYZ." The input is video data, and the output is text data.

ステップ3: Step 3:

端末は取得した音声情報を音声認識技術を用いてテキスト情報に変換する。例えば、ユーザが「このレストランのメニューが気になる」と発言した場合、その音声データをテキスト情報に変換し、関連情報を生成する。入力は音声データであり、出力はテキストデータである。 The device converts the acquired voice information into text information using voice recognition technology. For example, if a user says, "I'm interested in the menu at this restaurant," the voice data is converted into text information and related information is generated. The input is voice data, and the output is text data.

ステップ4: Step 4:

端末は取得された映像および音声データを感情エンジンによってユーザの感情を解析する。例えば、ユーザの表情や声のトーンから「興味深い」という感情認識を行う。入力は映像データと音声データであり、出力は感情データである。 The device uses an emotion engine to analyze the user's emotions from the captured video and audio data. For example, it can recognize the emotion "interesting" from the user's facial expression and tone of voice. The input is video and audio data, and the output is emotional data.

ステップ5: Step 5:

変換されたテキスト情報と認識された感情データは端末からクラウドサーバに送信される。サーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「レストラン XYZ」というキーワードに基づき、レビューやメニュー情報を取得する。入力はテキストデータと感情データであり、出力は関連情報データである。 The converted text information and recognized emotion data are sent from the device to a cloud server. The server searches for related information on the web based on the received text information. For example, based on the keyword "restaurant XYZ," it retrieves reviews and menu information. The input is text data and emotion data, and the output is related information data.

ステップ6: Step 6:

クラウドサーバは感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得し、その結果を再び端末に送信する。例えば、ポジティブな感情を示している場合、レストランのレビューの中でも高評価なものを優先的に送信する。入力はテキストデータと感情データであり、出力は関連情報データである。 The cloud server takes emotional data into consideration and prioritizes obtaining information that is likely to interest the user, and then sends the results back to the device. For example, if the user is expressing positive emotions, it will prioritize sending highly rated restaurant reviews. The input is text data and emotional data, and the output is related information data.

ステップ7: Step 7:

端末は取得した情報をAR形式で表示する。例えば、スマートデバイスのディスプレイに「レストラン XYZ」のレビューや人気メニューがオーバーレイ表示され、ユーザはそれを見ることができる。入力は関連情報データであり、出力は表示されるARデータである。 The device displays the acquired information in AR format. For example, reviews and popular menu items for "Restaurant XYZ" are overlaid on the smart device's display, allowing the user to view them. The input is related information data, and the output is the displayed AR data.

ステップ8: Step 8:

端末は引き続きユーザの視線や音声コマンドに基づいた興味データを収集する。例えば、ユーザが特定の情報をじっと見つめたり「この料理が気になる」と発言する場合、そのデータを記録する。入力は視線データおよび音声データであり、出力は興味データである。 The device continues to collect interest data based on the user's gaze and voice commands. For example, if the user stares at a particular piece of information or says, "I'm interested in this dish," that data is recorded. The input is gaze data and voice data, and the output is interest data.

ステップ9: Step 9:

収集された興味データおよび感情データはクラウドサーバに送信され、詳細査分析が行われる。サーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、レストランに対する興味が強い場合、次回以降はレストランに関する情報を優先的に表示する。入力は興味データおよび感情データであり、出力は次回の情報提供に向けた分析データである。 The collected interest and emotion data is sent to a cloud server for detailed analysis. The server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if there is a strong interest in restaurants, information about restaurants will be displayed preferentially from the next time onwards. The input is interest data and emotion data, and the output is analysis data for the next information provided.

特定処理部290は、特定処理の結果をスマート眼鏡214に送信する。スマート眼鏡214では、制御部46Aが、スピーカ240に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the smart glasses 214. In the smart glasses 214, the control unit 46A causes the speaker 240 to output the results of the specific processing. The microphone 238 acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 238 to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.

データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). Examples of data generation model 58 include generative AI such as ChatGPT (Internet search <URL: https://openai.com/blog/chatgpt>) and Gemini (Internet search <URL: https://gemini.google.com/?hl=ja>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as voice data indicating speech, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt, and outputs the inference results in the form of data such as voice data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.

上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマート眼鏡214によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the smart glasses 214.

[第3実施形態] [Third embodiment]

図5には、第3実施形態に係るデータ処理システム310の構成の一例が示されている。 Figure 5 shows an example of the configuration of a data processing system 310 according to the third embodiment.

図5に示すように、データ処理システム310は、データ処理装置12及びヘッドセット型端末314を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 5, the data processing system 310 includes a data processing device 12 and a headset terminal 314. An example of the data processing device 12 is a server.

データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).

ヘッドセット型端末314は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及びディスプレイ343を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及びディスプレイ343も、バス52に接続されている。 The headset terminal 314 includes a computer 36, a microphone 238, a speaker 240, a camera 42, a communication I/F 44, and a display 343. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The microphone 238, the speaker 240, the camera 42, and the display 343 are also connected to the bus 52.

マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。 The microphone 238 receives instructions and the like from the user 20 by receiving voice uttered by the user 20. The microphone 238 captures the voice uttered by the user 20, converts the captured voice into audio data, and outputs it to the processor 46. The speaker 240 outputs audio in accordance with instructions from the processor 46.

カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。 Camera 42 is a small digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor, and captures images of the user 20's surroundings (e.g., an imaging range defined by an angle of view equivalent to the field of vision of a typical healthy person).

通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54. The exchange of various information between the processor 46 and the processor 28 using the communication I/Fs 44 and 26 is carried out in a secure manner.

図6には、データ処理装置12及びヘッドセット型端末314の要部機能の一例が示されている。図6に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。 Figure 6 shows an example of the main functions of the data processing device 12 and headset terminal 314. As shown in Figure 6, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32.

特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。 The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as the specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.

ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.

ヘッドセット型端末314では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the headset terminal 314, the reception output process is performed by the processor 46. A reception output program 60 is stored in the storage 50. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output process is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.

次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain the identification process performed by the identification processing unit 290 of the data processing device 12. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、AR形式でユーザに表示するシステムである。以下に、その具体的な実施形態について説明する。 This invention is a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in AR format. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をテキスト情報に変換するために、OCR(光学文字認識)技術を使用する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then uses OCR (optical character recognition) technology to convert the acquired visual information into text information. For example, it can recognize a cafe sign and convert it into text information such as "Cafe ABC." Similarly, auditory information is converted into text information using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text information such as "This cafe is delicious."

変換されたテキスト情報は、端末からサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジンを使用して「カフェ ABC」に関するレビューやメニュー、位置情報などを取得する。検索結果は再び端末に送信される。 The converted text information is sent from the device to the server. The server uses the received text information to search for related information on the web. Specifically, it uses a web search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." The search results are then sent back to the device.

端末は取得した検索結果を整理し、ユーザの視界にAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The device organizes the search results and displays them in AR format in the user's field of view. For example, reviews and popular menu items for "Cafe ABC" could be overlaid on the smartglasses' display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの興味データを収集する。具体的には、ユーザが特定の情報に視線を向けたり、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。収集された興味データはサーバに送信され、サーバはこれを分析してユーザの興味の傾向を把握する。この分析結果は次回以降の検索や情報提供に反映され、ユーザの好みに合わせた最適な情報を提供することができる。 Furthermore, the device collects data on the user's interests. Specifically, when the user looks at specific information or issues a voice command such as "I'm interested in this menu item," that information is recorded. The collected interest data is sent to a server, which analyzes it to understand the user's interest trends. The results of this analysis are reflected in subsequent searches and information provision, making it possible to provide the most appropriate information tailored to the user's preferences.

例えば、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。サーバは「カフェ XYZ」および「ケーキ」というキーワードを基に、ウェブ検索を行い、関連するレビューやメニュー情報を取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 For example, if a user is walking down the street and spots a sign that says "Cafe XYZ," the camera in the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert this statement into text. The server will perform a web search based on the keywords "Cafe XYZ" and "cake" to retrieve related reviews and menu information. This information will be sent to the device and displayed in AR format on the smart glasses' display. The user will be able to check reviews and photos of the cake on the spot.

このような形態により、本発明はユーザのリアルタイムな情報取得と提供を可能にし、ユーザエクスペリエンスを向上させることができる。また、ユーザの興味や関心に基づいたデータを収集・分析することで、さらにパーソナライズされた情報提供が可能となる。 In this manner, the present invention enables users to obtain and provide information in real time, improving the user experience. Furthermore, by collecting and analyzing data based on the user's interests, it becomes possible to provide even more personalized information.

以下に、処理の流れについて説明する。 The processing flow is explained below.

ステップ1: Step 1:

端末が外界の視覚情報および聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラを用いて映像をキャプチャし、マイクを用いて音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 The device acquires visual and auditory information from the outside world. Specifically, the smart glasses' built-in camera captures video and a microphone records audio. This data is sent in real time to a processing unit within the device.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、端末は「カフェ ABC」と書かれた看板を認識し、その画像をテキストに変換する。同様に、取得した聴覚情報を音声認識技術を用いてテキスト情報に変換する。例えば、「このカフェは美味しい」という通行人の会話をテキストに変換する。 Visual information acquired by the device is converted into text information using OCR technology. For example, the device recognizes a sign that reads "Cafe ABC" and converts the image into text. Similarly, auditory information acquired is converted into text information using voice recognition technology. For example, a passerby's speech, "This cafe is delicious," is converted into text.

ステップ3: Step 3:

端末が変換されたテキスト情報をサーバに送信する。具体的には、OCRや音声認識によって生成されたテキストデータをインターネットを介してサーバにアップロードする。 The device sends the converted text information to the server. Specifically, the text data generated by OCR or voice recognition is uploaded to the server via the Internet.

ステップ4: Step 4:

サーバが受け取ったテキスト情報を基にウェブ上の関連情報を検索する。サーバは検索エンジンを使用して、「カフェ ABC」に関するレビュー、メニュー、位置情報などを取得する。複数の検索エンジンを用いてより豊富な情報を収集することも可能である。 The server searches for related information on the web based on the text information it receives. The server uses a search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." It is also possible to gather more information by using multiple search engines.

ステップ5: Step 5:

サーバが取得した検索結果を整理し、関連性の高い情報を選別する。例えば、ユーザ評価の高いレビューや、公式サイトの情報を優先的に選ぶ。 The server organizes the search results and selects the most relevant information. For example, it prioritizes reviews with high user ratings and information from official websites.

ステップ6: Step 6:

サーバが整理された情報を端末に送信する。具体的には、関連するレビューやメニュー情報をまとめたデータをインターネット経由で端末に送る。 The server sends the organized information to the device. Specifically, it sends data summarizing related reviews and menu information to the device via the Internet.

ステップ7: Step 7:

端末が受け取った情報をAR形式で表示する。スマートグラスのディスプレイ上に、「カフェ ABC」のレビューや人気メニューがオーバーレイ表示されるようにする。 The information received by the device is displayed in AR format. Reviews and popular menu items from Cafe ABC are overlaid on the smartglasses display.

ステップ8: Step 8:

ユーザが視線や音声で特定の情報に興味を示した場合、そのデータを端末が記録する。例えば、ユーザが特定のレビューページをじっと見つめたり、「このメニューが気になる」と言った場合である。 When a user shows interest in specific information through their gaze or voice, the device records that data. For example, if a user stares intently at a particular review page or says, "I'm interested in this menu item."

ステップ9: Step 9:

端末が収集された興味データをサーバに送信する。興味データには、ユーザの視線情報や音声コマンドが含まれる。 The device sends the collected interest data to the server. The interest data includes the user's gaze information and voice commands.

ステップ10: Step 10:

サーバが収集された興味データを分析し、ユーザの興味の傾向を把握する。この分析結果を基に、次回以降の検索結果や情報提供に反映させて、ユーザに最適な情報を提供できるようにする。 The server analyzes the collected interest data to understand trends in user interests. The results of this analysis are reflected in future search results and information provision, enabling the server to provide users with the most appropriate information.

(実施例1) (Example 1)

次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, Example 1 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."

現代の社会では、ユーザが必要な情報を迅速かつ効率的に取得することが求められている。特に、移動中や活動中においてもリアルタイムで情報を取得し、それを活用することで、ユーザエクスペリエンスを向上させることが重要である。しかし、既存の技術ではユーザが興味を持つ情報をリアルタイムで適切に取得・提供する手法が不十分であり、情報の取得過程が煩雑であるという問題がある。また、ユーザの興味傾向を把握し、それに基づいたパーソナライズされた情報提供についても課題が残されている。このような背景から、ユーザの視覚情報や聴覚情報を取得・分析し、それを基にリアルタイムで関連情報を提供するための技術が必要とされている。 In modern society, users are expected to obtain the information they need quickly and efficiently. It is particularly important to improve the user experience by obtaining and utilizing information in real time, even while on the move or while active. However, existing technology lacks sufficient methods for appropriately obtaining and providing information that interests users in real time, and the information acquisition process is cumbersome. Furthermore, there are still challenges in identifying users' interest trends and providing personalized information based on them. Against this background, there is a need for technology that can obtain and analyze users' visual and auditory information and provide relevant information in real time based on that information.

実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、前記視覚情報をテキスト情報に変換する手段と、前記聴覚情報をテキスト情報に変換する手段と、前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、前記検索された情報を拡張現実(AR)形式で表示する手段と、ユーザの興味に基づいたデータをリアルタイムで収集する手段と、前記収集されたデータを分析して次回以降の検索結果に反映する手段と、を含む。これにより、ユーザが移動中や活動中でも必要な情報を迅速かつ効率的に取得することが可能となり、さらにユーザの興味や好みに基づいたパーソナライズされた情報提供が実現できる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information, means for displaying the searched information in an augmented reality (AR) format, means for collecting data based on the user's interests in real time, and means for analyzing the collected data and reflecting it in subsequent search results. This enables the user to quickly and efficiently obtain the information they need while on the move or while active, and further enables the provision of personalized information based on the user's interests and preferences.

「外界の視覚情報」とは、周囲の環境に存在する物体や文字などの視覚的な情報のことを指す。 "Visual information from the external world" refers to visual information such as objects and letters that exist in the surrounding environment.

「外界の聴覚情報」とは、周囲の環境に存在する音や会話などの聴覚的な情報のことを指す。 "External auditory information" refers to auditory information such as sounds and conversations that exist in the surrounding environment.

「視覚情報をテキスト情報に変換する手段」とは、取得した視覚情報をテキストデータに変換する技術であり、具体的にはOCR(光学文字認識)技術を用いることである。 "Means for converting visual information into text information" refers to technology that converts acquired visual information into text data, specifically the use of OCR (optical character recognition) technology.

「聴覚情報をテキスト情報に変換する手段」とは、取得した聴覚情報をテキストデータに変換する技術であり、具体的には音声認識技術を用いることである。 "Means for converting auditory information into text information" refers to technology that converts acquired auditory information into text data, specifically using voice recognition technology.

「ウェブ上の関連情報を検索する手段」とは、変換されたテキスト情報を基に、インターネット上に存在する関連する情報を検索し取得する技術のことを指す。 "Means for searching for related information on the web" refers to technology that searches for and retrieves related information on the Internet based on converted text information.

「拡張現実(AR)形式で表示する手段」とは、取得した情報を現実の視界に重ねて表示する技術のことを指す。これによりユーザは現実世界の映像と追加情報を同時に確認できる。 "Augmented reality (AR) display" refers to technology that displays acquired information overlaid on the real world, allowing users to simultaneously view images of the real world and additional information.

「ユーザの興味に基づいたデータをリアルタイムで収集する手段」とは、ユーザが特定の情報に関心を示した際、その関心の傾向をリアルタイムで記録し収集する技術のことを指す。 "Means for collecting data based on user interests in real time" refers to technology that records and collects trends in interest in real time when a user shows interest in specific information.

「収集されたデータを分析して次回以降の検索結果に反映する手段」とは、収集したユーザの興味データを解析し、その解析結果を基に次回の情報提供をパーソナライズする技術のことを指す。 "Means of analyzing collected data and reflecting it in future search results" refers to technology that analyzes collected user interest data and personalizes the next information provided based on the results of that analysis.

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、拡張現実(AR)形式でユーザに表示するシステムである。以下に、その具体的な実施形態について説明する。 This invention is a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in augmented reality (AR) format. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をテキスト情報に変換するために、OCR(光学文字認識)技術を使用する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then uses OCR (optical character recognition) technology to convert the acquired visual information into text information. For example, it can recognize a cafe sign and convert it into text information such as "Cafe ABC." Similarly, auditory information is converted into text information using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text information such as "This cafe is delicious."

変換されたテキスト情報は、端末からサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジンを使用して「カフェ ABC」に関するレビューやメニュー、位置情報などを取得する。検索結果は再び端末に送信される。 The converted text information is sent from the device to the server. The server uses the received text information to search for related information on the web. Specifically, it uses a web search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." The search results are then sent back to the device.

端末は取得した検索結果を整理し、ユーザの視界にAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The device organizes the search results and displays them in AR format in the user's field of view. For example, reviews and popular menu items for "Cafe ABC" could be overlaid on the smartglasses' display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの興味データを収集する。具体的には、ユーザが特定の情報に視線を向けたり、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。収集された興味データはサーバに送信され、サーバはこれを分析してユーザの興味の傾向を把握する。この分析結果は次回以降の検索や情報提供に反映され、ユーザの好みに合わせた最適な情報を提供することができる。 Furthermore, the device collects data on the user's interests. Specifically, when the user looks at specific information or issues a voice command such as "I'm interested in this menu item," that information is recorded. The collected interest data is sent to a server, which analyzes it to understand the user's interest trends. The results of this analysis are reflected in subsequent searches and information provision, making it possible to provide the most appropriate information tailored to the user's preferences.

具体例として、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。サーバは「カフェ XYZ」および「ケーキ」というキーワードを基に、ウェブ検索を行い、関連するレビューやメニュー情報を取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 As a concrete example, if a user is walking down the street and spots a sign for "Cafe XYZ," the camera in the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert the comment into text. The server will perform a web search based on the keywords "Cafe XYZ" and "cake" to retrieve related reviews and menu information. This information will be sent to the device and displayed in AR format on the smart glasses' display. The user will be able to check reviews and photos of the cake on the spot.

プロンプト文の例は以下の通りである: Example prompts are as follows:

「カフェ XYZ の看板を見つけたが、詳細情報とレビューを知りたい。このカフェのケーキの評判についても調べてください。」 "I saw a sign for Cafe XYZ and would like more information and reviews. I'd also like to know what people think of the cafe's cakes."

このような形態により、本発明はユーザのリアルタイムな情報取得と提供を可能にし、ユーザエクスペリエンスを向上させることができる。また、ユーザの興味や関心に基づいたデータを収集・分析することで、さらにパーソナライズされた情報提供が可能となる。 In this manner, the present invention enables users to obtain and provide information in real time, improving the user experience. Furthermore, by collecting and analyzing data based on the user's interests, it becomes possible to provide even more personalized information.

実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.

ステップ1: Step 1:

端末が外界の視覚情報と聴覚情報を取得する。 The device acquires visual and auditory information from the outside world.

入力として、ユーザの視界に映る外界の映像および環境の音がある。 Inputs include images of the outside world that appear in the user's field of vision and sounds from the environment.

具体的な動作として、スマートグラスに搭載されたカメラがビデオ映像をキャプチャし、マイクが音声を録音する。 Specifically, the camera built into the smart glasses captures video footage, and the microphone records audio.

出力として、取得した映像データと音声データが端末内部の処理ユニットに送信される。 As output, the captured video and audio data is sent to the processing unit inside the terminal.

ステップ2: Step 2:

端末が取得した視覚情報をテキスト情報に変換する。 The visual information acquired by the device is converted into text information.

入力として、ステップ1で取得された映像データがある。 The input is the video data acquired in step 1.

具体的な動作として、端末はOCR(光学文字認識)技術を用いて映像データ内の文字を解析し、これをテキストデータに変換する。例えば、「カフェ ABC」の看板を認識して「カフェ ABC」とテキスト化する。 Specifically, the device uses OCR (optical character recognition) technology to analyze the characters in the video data and convert it into text data. For example, it would recognize a sign that reads "Cafe ABC" and convert it into text as "Cafe ABC."

出力として、変換されたテキストデータが得られる。 The output is the converted text data.

ステップ3: Step 3:

端末が取得した聴覚情報をテキスト情報に変換する。 The device converts the auditory information it acquires into text information.

入力として、ステップ1で取得された音声データがある。 The input is the audio data obtained in step 1.

具体的な動作として、端末は音声認識技術を用いて、音声データを解析し、これをテキストデータに変換する。例えば、「このカフェは美味しい」という通行人の会話をテキストデータにする。 Specifically, the device uses voice recognition technology to analyze voice data and convert it into text data. For example, a passerby's speech, "This cafe is delicious," can be converted into text data.

出力として、変換されたテキストデータが得られる。 The output is the converted text data.

ステップ4: Step 4:

端末が変換されたテキスト情報をサーバに送信する。 The device sends the converted text information to the server.

入力として、ステップ2およびステップ3で得られたテキストデータがある。 The input is the text data obtained in steps 2 and 3.

具体的な動作として、端末内の通信モジュールを使用して、インターネット経由でテキストデータをサーバに送信する。 Specific operations include using a communications module within the device to send text data to a server via the Internet.

出力として、テキストデータがサーバに到着する。 As output, text data arrives at the server.

ステップ5: Step 5:

サーバが受け取ったテキスト情報に基づいてウェブ上の関連情報を検索する。 The server searches for relevant information on the web based on the text information received.

入力として、ステップ4でサーバに到着したテキストデータがある。 The input is the text data that arrived at the server in step 4.

具体的な動作として、サーバはウェブ検索エンジン(例えば、GoogleのAPI)を使用して、「カフェ ABC」に関連するレビュー、メニュー、位置情報などを検索する。 Specifically, the server uses a web search engine (e.g., Google's API) to search for reviews, menus, location information, etc. related to "Cafe ABC."

出力として、検索結果が得られる。 The output is the search results.

ステップ6: Step 6:

サーバが検索結果を端末に送信する。 The server sends the search results to the device.

入力として、ステップ5で得られた検索結果がある。 The input is the search results obtained in step 5.

具体的な動作として、サーバは通信モジュールを使用して、検索結果を端末に送信する。データはJSON形式などの軽量データフォーマットで送信される。 Specifically, the server uses a communications module to send search results to the device. The data is sent in a lightweight data format such as JSON.

出力として、検索結果が端末に到着する。 As output, the search results arrive on the terminal.

ステップ7: Step 7:

端末が取得した検索結果を整理し、ユーザの視界にAR形式で表示する。 The device organizes the search results and displays them in AR format in the user's field of vision.

入力として、ステップ6で端末に到着した検索結果がある。 The input is the search results that arrived on the terminal in step 6.

具体的な動作として、端末はスマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューをオーバーレイ表示する。例えば、「カフェ ABC: 評価 4.5 星, 人気メニュー: チーズケーキ」といった内容が表示される。 Specifically, the device will overlay reviews and popular menu items for "Cafe ABC" on the smartglasses' display. For example, it might show something like "Cafe ABC: Rating 4.5 stars, Popular menu item: Cheesecake."

出力として、ユーザの視界に検索結果がAR形式で表示される。 As output, search results are displayed in AR format in the user's field of vision.

ステップ8: Step 8:

端末がユーザの興味データを収集し、サーバに送信する。 The device collects user interest data and sends it to the server.

入力として、ユーザの視線の固定や音声コマンドなどのユーザの行動データがある。 Inputs include user behavior data such as gaze fixation and voice commands.

具体的な動作として、端末はユーザの視線の動きを検出し、特定の情報に視線を向けた場合や、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。これらの興味データはインターネットを通じてサーバに送信される。 Specifically, the device detects the user's eye movements and records information when the user looks at specific information or issues a voice command such as "I'm interested in this menu item." This interest data is sent to a server via the Internet.

出力として、興味データがサーバに到着する。 As output, the interest data arrives at the server.

ステップ9: Step 9:

サーバが収集されたデータを分析し、次回以降の検索結果に反映する。 The server analyzes the collected data and reflects it in future search results.

入力として、ステップ8でサーバに到着した興味データがある。 As input, there is the interest data that arrived at the server in step 8.

具体的な動作として、サーバは興味データを解析し、ユーザの興味の傾向をモデル化する。このモデルを基に、次回の検索や情報提供の際にパーソナライズされた結果を提供する。 Specifically, the server analyzes interest data and models the user's interest trends. Based on this model, the server provides personalized results the next time the user searches or provides information.

出力として、分析結果が得られ、次回以降の検索結果に反映される。 The analysis results are obtained as output and will be reflected in future search results.

(応用例1) (Application Example 1)

次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Application Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."

従来の技術では、ユーザが実店舗内で商品情報をリアルタイムに取得する手段が限られており、特定の商品についてのレビューやプロモーション情報を迅速に得ることが困難であった。また、ユーザの興味や関心に応じたパーソナライズされた情報提供も十分に行われていなかった。これにより、ユーザエクスペリエンスが低下し、購入意欲が減退する恐れがあった。 With conventional technology, users had limited means of obtaining real-time product information in physical stores, making it difficult to quickly obtain reviews and promotional information about specific products. Furthermore, there was a lack of provision of personalized information tailored to users' interests. This could result in a poor user experience and a decrease in purchasing motivation.

応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、前記視覚情報をテキスト情報に変換する手段と、前記聴覚情報をテキスト情報に変換する手段と、前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、前記検索された情報を拡張現実(AR)形式で表示する手段と、ユーザの興味に基づいたデータを収集する手段と、前記収集されたデータを分析する手段と、ユーザの歩行中に商品情報やレビューをAR形式でリアルタイムに提供する手段と、を含む。これにより、ユーザは実店舗内で商品情報を迅速かつ直感的に取得でき、パーソナライズされた情報提供により、ショッピング体験が向上することが可能となる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information, means for displaying the searched information in an augmented reality (AR) format, means for collecting data based on the user's interests, means for analyzing the collected data, and means for providing product information and reviews in AR format in real time while the user is walking. This allows users to quickly and intuitively obtain product information in a physical store, and the provision of personalized information can improve the shopping experience.

「外界の視覚情報」とは、ユーザの周囲の環境や対象物の映像情報を指し、主にカメラなどの撮影装置で取得されるものである。 "Visual information from the outside world" refers to image information about the user's surrounding environment and objects, and is primarily obtained using imaging devices such as cameras.

「外界の聴覚情報」とは、ユーザの周囲の音声や音響情報を指し、主にマイクロフォンなどの音響収集装置で取得されるものである。 "External auditory information" refers to the sounds and acoustic information around the user, and is primarily obtained by acoustic collection devices such as microphones.

「視覚情報をテキスト情報に変換する手段」とは、取得した視覚情報を文字や数字などのテキスト形式の情報に変換するための光学文字認識(OCR)技術を用いる手段である。 "Means for converting visual information into text information" refers to means that use optical character recognition (OCR) technology to convert acquired visual information into text-format information such as letters and numbers.

「聴覚情報をテキスト情報に変換する手段」とは、取得した聴覚情報を文字や単語などのテキスト形式の情報に変換するための音声認識技術を用いる手段である。 "Means for converting auditory information into text information" refers to means that use voice recognition technology to convert acquired auditory information into text-format information such as letters or words.

「ウェブ上の関連情報を検索する手段」とは、変換されたテキスト情報を基にインターネット上で適切な情報を探し出すための検索エンジン機能を含む手段である。 "Means for searching for relevant information on the web" refers to means that include a search engine function for finding appropriate information on the Internet based on converted text information.

「拡張現実(AR)形式で表示する手段」とは、現実の映像にデジタル情報を重ね合わせて表示する技術であり、スマートグラスなどのディスプレイ装置を用いる手段である。 "Augmented reality (AR) display" refers to a technology that displays digital information overlaid on real-world images, and is a method that uses display devices such as smart glasses.

「ユーザの興味に基づいたデータを収集する手段」とは、ユーザの視線や音声コマンドなど、ユーザが興味を示した対象に関する情報を集める手段である。 "Means for collecting data based on user interests" refers to means for collecting information about subjects that the user is interested in, such as the user's gaze or voice commands.

「収集されたデータを分析する手段」とは、収集したユーザの興味データを解析し、ユーザの好みや傾向を把握するための手段である。 "Means for analyzing collected data" refers to means for analyzing collected user interest data and understanding user preferences and trends.

「ユーザの歩行中に商品情報やレビューをAR形式でリアルタイムに提供する手段」とは、ユーザが実店舗内で移動しながら視覚装置を通じて商品情報やユーザレビューを拡張現実形式で即時に表示する手段である。 "A means of providing product information and reviews in real time in AR format while the user is walking" refers to a means of instantly displaying product information and user reviews in augmented reality format through a visual device while the user is moving around in a physical store.

「ユーザの視線を検出する手段」とは、ユーザの視線の方向や注視ポイントを検出して追跡するための視線追跡装置や技術を用いる手段である。 "Means for detecting a user's gaze" refers to means that use gaze tracking devices or technology to detect and track the user's gaze direction and gaze point.

「ユーザの音声コマンドを認識する手段」とは、ユーザが発した音声指示を捉え、それを理解して処理するための音声認識システムを用いる手段である。 "Means for recognizing user voice commands" refers to means for using a voice recognition system to capture, understand, and process voice instructions given by the user.

この発明は、ユーザが実店舗内で商品情報やレビューをリアルタイムに取得するためのシステムを提供するものである。具体的には、スマートグラスを用いて外界の視覚情報や聴覚情報を取得し、それを基にテキスト情報を生成し、ウェブ上の関連情報を検索して拡張現実(AR)形式で表示するシステムである。 This invention provides a system that allows users to obtain product information and reviews in real time while in a physical store. Specifically, the system uses smart glasses to obtain visual and auditory information from the outside world, generates text information based on that information, searches for related information on the web, and displays it in augmented reality (AR) format.

システムの構成 System Configuration

このシステムは以下の主要なコンポーネントで構成される: The system consists of the following main components:

ハードウェア Hardware

スマートグラス:カメラ、マイク、ディスプレイ、プロセッサを搭載している。ユーザが装着し、外界の視覚情報や聴覚情報を取得する。 Smart glasses: Equipped with a camera, microphone, display, and processor. Worn by the user, they capture visual and auditory information from the outside world.

クラウドサーバ:大容量のデータ処理とストレージを担当する。 Cloud server: Responsible for large-volume data processing and storage.

ソフトウェア Software

光学文字認識(OCR)技術(例: Tesseract):取得された視覚情報をテキスト形式に変換する。 Optical character recognition (OCR) technology (e.g., Tesseract): converts captured visual information into text.

音声認識技術(例: Google Cloud Speech-to-Text):取得された聴覚情報をテキスト形式に変換する。 Speech recognition technology (e.g., Google Cloud Speech-to-Text): Converts captured auditory information into text format.

ウェブ検索エンジン(例: Elasticsearch):変換されたテキスト情報に基づいてインターネット上の関連情報を検索する。 Web search engines (e.g., Elasticsearch): Search for relevant information on the Internet based on converted text information.

拡張現実(AR)技術(例: ARCore):取得した情報をAR形式でスマートグラスのディスプレイに表示する。 Augmented reality (AR) technology (e.g., ARCore): Displays acquired information in AR format on the smart glasses display.

視線追跡技術:ユーザの視線を検出し、興味を示す対象物を特定する。 Eye tracking technology: Detects where the user is looking and identifies objects of interest.

動作の概要 Operation Overview

1. 視覚情報の取得と変換:スマートグラスのカメラで店舗内の商品や看板をキャプチャし、OCR技術を用いてテキスト情報に変換する。 1. Acquisition and conversion of visual information: The smart glasses' camera captures products and signs in the store and converts them into text information using OCR technology.

2. 聴覚情報の取得と変換:スマートグラスのマイクでユーザの音声コマンドを録音し、音声認識技術を用いてテキスト情報に変換する。 2. Acquisition and conversion of auditory information: The smart glasses' microphone records the user's voice commands and converts them into text using voice recognition technology.

3. 関連情報の検索:変換されたテキスト情報をクラウドサーバに送信し、ウェブ検索エンジンで関連情報を取得する。 3. Search for related information: The converted text information is sent to a cloud server and related information is retrieved using a web search engine.

4. 情報のAR形式で表示:取得した情報をAR形式でスマートグラスのディスプレイにオーバーレイ表示する。 4. Displaying information in AR format: The acquired information is overlaid on the smart glasses display in AR format.

5. 興味データの収集と分析:ユーザの視線や音声コマンドを記録し、クラウドサーバで分析することでユーザの興味や関心を把握し、次回以降の情報提供に活用する。 5. Collection and analysis of interest data: By recording the user's gaze and voice commands and analyzing them on a cloud server, we can understand the user's interests and concerns, and use this information to provide them in future visits.

具体例 Specific examples

例えば、ユーザが店内で特定の商品を探している場合、スマートグラスのカメラがその商品を認識し、「商品名 XYZ」というテキスト情報に変換する。その上で「商品名 XYZ レビュー」というキーワードでウェブ検索を行い、取得したレビュー情報をスマートグラスのディスプレイにAR表示する。さらに、ユーザが「この商品の評価を知りたい」という音声コマンドを発した場合、音声をテキストに変換し、追加のレビュー情報を再検索して表示する。ユーザが特定の情報に視線を向けた場合、その情報を記録し、次回の検索結果に基づくパーソナライズに利用する。 For example, if a user is looking for a specific product in a store, the smart glasses' camera will recognize the product and convert it into text information such as "Product name XYZ." A web search will then be performed using the keywords "Product name XYZ review," and the retrieved review information will be displayed in AR on the smart glasses' display. Furthermore, if the user issues a voice command such as "I want to know the rating of this product," the voice will be converted into text, and additional review information will be searched for and displayed. If the user looks at specific information, that information will be recorded and used to personalize the next search results.

プロンプト文の例 Example prompt

ユーザが店内で特定の商品を探している時、 When a user is searching for a specific product in a store,

スマートグラスのカメラで商品名 XYZ をキャプチャし、 Capture product name XYZ with the smart glasses camera,

カメラ映像から OCR で「商品名 XYZ」をテキスト情報に変換する。 Use OCR to convert "Product Name XYZ" from camera footage into text information.

その上で "商品名 XYZ レビュー" というキーワードでウェブ検索を行い、 Then, do a web search using the keywords "Product Name XYZ Review"

取得したレビュー情報をスマートグラスのディスプレイに AR 表示しなさい。 Display the acquired review information in AR on the smart glasses display.

さらに、ユーザが「この商品の評価を知りたい」という音声コマンドを発した場合、 Furthermore, if the user issues a voice command such as "I want to know the rating of this product,"

音声をテキストに変換し、追加のレビュー情報を再検索して表示しなさい。 Convert speech to text and re-search for additional review information.

ユーザが特定の情報に視線を向けた場合、その情報を記録し、次回の検索結果に基づくパーソナライズに利用しなさい。 When a user looks at specific information, record that information and use it to personalize your next search results.

応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the specific processing in Application Example 1 will be explained using Figure 12.

ステップ1: Step 1:

スマートグラスのカメラが実店舗内の環境をキャプチャする。ここで得られる入力は、ユーザの視界内にある商品の映像である。スマートグラス内のプロセッサは、この映像データをリアルタイムで取得し、視覚情報として処理ユニットに送信する。出力は、キャプチャされた映像データである。 The camera in the smart glasses captures the environment in a physical store. The input is a video of the products in the user's field of view. The processor in the smart glasses captures this video data in real time and sends it to the processing unit as visual information. The output is the captured video data.

ステップ2: Step 2:

スマートグラスのプロセッサは、取得した映像データをOCR技術を用いてテキスト情報に変換する。入力としては、キャプチャされた映像データが使用される。OCR技術(例: Tesseract)により、商品名や看板の文字情報が抽出され、「商品名 XYZ」などのテキスト情報に変換される。出力は、変換されたテキスト情報である。 The processor in the smart glasses converts the captured video data into text information using OCR technology. The captured video data is used as input. OCR technology (e.g., Tesseract) extracts text information from product names and signs and converts it into text information such as "Product Name XYZ." The output is the converted text information.

ステップ3: Step 3:

スマートグラスのマイクは、ユーザが発した音声コマンドを録音する。ここで得られる入力は、ユーザの音声情報である。この音声情報は音声認識技術(例: Google Cloud Speech-to-Text)によってテキスト情報に変換される。例えば、「この商品のレビューを聞きたい」という音声コマンドが「この商品のレビューを聞きたい」というテキストに変換される。出力は、変換された音声のテキスト情報である。 The microphone in the smart glasses records voice commands given by the user. The input obtained here is the user's voice information. This voice information is converted into text information using voice recognition technology (e.g., Google Cloud Speech-to-Text). For example, the voice command "I would like to hear reviews of this product" is converted into text "I would like to hear reviews of this product." The output is the text information of the converted voice.

ステップ4: Step 4:

端末は、変換された視覚情報と聴覚情報をクラウドサーバに送信する。入力としては、OCRおよび音声認識によって変換されたテキスト情報が使用される。クラウドサーバは、受け取ったテキスト情報に基づいてウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジン(例: Elasticsearch)を使用して、「商品名 XYZ レビュー」などの検索クエリを実行し、関連するレビューやメニュー情報を取得する。出力は、検索結果としての関連情報である。 The device sends the converted visual and auditory information to a cloud server. The input is text information converted using OCR and speech recognition. The cloud server searches for related information on the web based on the received text information. Specifically, it uses a web search engine (e.g., Elasticsearch) to execute a search query such as "Product Name XYZ Reviews" to retrieve related reviews and menu information. The output is related information as search results.

ステップ5: Step 5:

クラウドサーバは、取得した関連情報を整理し、スマートグラスに送信する。入力としては、検索によって得られた関連情報が使用される。まず、関連情報を形式化し、スマートグラスのディスプレイに適した形式に変換する。出力は、AR表示用にフォーマットされたデータである。 The cloud server organizes the retrieved relevant information and sends it to the smart glasses. The relevant information obtained through the search is used as input. First, the relevant information is formalized and converted into a format suitable for the smart glasses' display. The output is data formatted for AR display.

ステップ6: Step 6:

スマートグラスのディスプレイは、取得した情報をAR形式でオーバーレイ表示する。ここでの入力は、クラウドサーバから送信されたフォーマット化されたデータである。スマートグラスのディスプレイは、ユーザの視界に商品レビューやメニュー情報を重ね合わせて表示する。出力は、実店舗環境に重ね合わせられたAR表示情報である。 The smart glasses display displays the acquired information in an AR overlay format. The input here is formatted data sent from the cloud server. The smart glasses display overlays product reviews and menu information in the user's field of view. The output is AR display information overlaid on the physical store environment.

ステップ7: Step 7:

スマートグラスの視線追跡機能は、ユーザの視線を検出し、興味を示した情報を記録する。入力としては、視線の方向や視点のデータが使用される。視線追跡技術により、ユーザがどの情報を注視しているかがリアルタイムで解析され、その結果がデータとして記録される。出力は、興味データである。 The eye-tracking function of smart glasses detects the user's gaze and records information that the user shows interest in. The input is data on the direction of gaze and point of view. Eye-tracking technology analyzes in real time what information the user is focusing on, and the results are recorded as data. The output is interest data.

ステップ8: Step 8:

クラウドサーバは、収集されたユーザの興味データを分析する。入力は、視線追跡技術や音声コマンドによって記録された興味データである。サーバはこのデータを解析し、ユーザの好みや傾向を把握する。これにより次回以降の検索や情報提供に活用される。出力は、解析されたユーザの好みや傾向のデータである。 The cloud server analyzes the collected user interest data. The input is interest data recorded using eye-tracking technology and voice commands. The server analyzes this data to understand the user's preferences and trends. This information is used for future searches and information provision. The output is analyzed data on the user's preferences and trends.

なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 It is also possible to further combine an emotion engine that estimates the user's emotion. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.

本発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、AR形式でユーザに表示するシステムに、ユーザの感情を認識する感情エンジンを組み合わせたものである。以下に、その具体的な実施形態について説明する。 This invention combines a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in AR format with an emotion engine that recognizes the user's emotions. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then converts the acquired visual information into text using OCR technology. For example, it can recognize a cafe sign and convert it into text such as "Cafe ABC." Similarly, it converts auditory information into text using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text such as "This cafe is delicious."

また、取得された映像および音声データは、端末に搭載された感情エンジンによってユーザの感情を解析する。感情エンジンは機械学習アルゴリズムを使用してユーザの表情や声のトーンから感情を識別する。例えば、ユーザが喜んでいるか、興味を持っているか、あるいは驚いているかといった感情を認識する。 The captured video and audio data is then analyzed by the device's built-in emotion engine to determine the user's emotions. The emotion engine uses machine learning algorithms to identify emotions from the user's facial expressions and tone of voice. For example, it can recognize whether the user is happy, interested, or surprised.

変換されたテキスト情報と認識された感情データは、端末からサーバに送信される。サーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「カフェ ABC」というキーワードを基にレビューやメニュー、場所の詳細をGoogleなどの検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent from the device to the server. The server then searches for related information on the web based on the received text information. For example, based on the keyword "cafe ABC," reviews, menus, and location details can be retrieved using a search engine such as Google. Furthermore, by taking emotion data into consideration, it is possible to prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報をAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in AR format. For example, reviews and popular menu items for "Cafe ABC" are overlaid on the smartglasses display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。例えば、ユーザが特定の情報をじっと見つめたり、「このケーキが気になる」といった発言をすると、端末はそれを記録する。また、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 The device also collects interest data based on the user's gaze and voice commands. For example, if a user stares intently at a particular piece of information or says something like "I'm interested in this cake," the device will record it. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはサーバに送信され、分析される。サーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to the server for analysis. The server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if the user shows a strong interest in cafes, information about cafes can be displayed preferentially from the next time onwards.

具体例として、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はサーバに送信され、サーバは「カフェ XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 As a specific example, if a user is walking down the street and spots a sign for "Cafe XYZ," the camera on the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert the statement into text. At the same time, the emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to the server, which will search for detailed information about "Cafe XYZ" and prioritize information that is likely to interest the user. This information is sent to the device and displayed in AR format on the smart glasses' display. The user can then check reviews and photos of the cake on the spot.

このような形態により、ユーザのリアルタイムな情報取得および提供が可能となり、ユーザエクスペリエンスを大幅に向上させることができる。また、感情データを活用することで、さらにパーソナライズされた情報提供が実現される。 This type of service allows users to obtain and provide information in real time, significantly improving the user experience. Furthermore, by utilizing emotional data, even more personalized information can be provided.

以下に、処理の流れについて説明する。 The processing flow is explained below.

ステップ1: Step 1:

端末が外界の視覚情報および聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラで映像をキャプチャし、マイクで音声を録音する。これらのデータはリアルタイムで端末内のメモリに保存される。 The device acquires visual and auditory information from the outside world. Specifically, the smart glasses' built-in camera captures video and the microphone records audio. This data is stored in the device's memory in real time.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、「カフェ XYZ」という看板をキャプチャした場合、画像データを解析し「カフェ XYZ」というテキストデータを生成する。同様に、取得した聴覚情報を音声認識技術を用いてテキスト情報に変換する。例えば、「このカフェは美味しい」という会話をテキスト形式に変換する。 Visual information acquired by the device is converted into text information using OCR technology. For example, if a sign that reads "Cafe XYZ" is captured, the image data is analyzed and the text data "Cafe XYZ" is generated. Similarly, auditory information acquired is converted into text information using voice recognition technology. For example, a conversation such as "This cafe is delicious" is converted into text format.

ステップ3: Step 3:

端末が感情エンジンを使って視覚情報および聴覚情報からユーザの感情を識別する。機械学習アルゴリズムを用いてユーザの表情や声のトーンを解析し、喜び、興味、驚きなどの感情を認識する。例えば、ユーザがカフェの看板を見て微笑んでいる場合、その喜びの感情を識別する。 The device uses an emotion engine to identify the user's emotions from visual and auditory information. It uses machine learning algorithms to analyze the user's facial expressions and tone of voice to recognize emotions such as joy, interest, and surprise. For example, if the user smiles at a cafe sign, the device will identify the emotion of joy.

ステップ4: Step 4:

端末が変換されたテキスト情報および識別された感情データをサーバに送信する。データはインターネット経由でサーバにアップロードされる。 The device sends the converted text information and identified emotion data to the server, which then uploads the data to the server via the Internet.

ステップ5: Step 5:

サーバが受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「カフェ XYZ」というキーワードを使ってGoogle検索を行い、そのカフェのレビューやメニュー情報を取得する。 The server searches for related information on the web based on the text information it receives. For example, you can perform a Google search using the keyword "cafe XYZ" to retrieve reviews and menu information for that cafe.

ステップ6: Step 6:

サーバが取得した検索結果を整理し、関連性の高い情報を選別する。感情データを考慮して、ユーザが興味を示しやすい情報を優先的に選ぶ。例えば、ユーザが喜びの感情を示している場合、そのカフェのポジティブなレビューを優先表示する。 The server organizes the search results and selects the most relevant information. It takes into account emotional data and prioritizes information that is likely to interest the user. For example, if the user is expressing happiness, it will prioritize positive reviews of that cafe.

ステップ7: Step 7:

サーバが整理された情報を端末に送信する。選別されたデータはインターネット経由で端末に転送される。 The server sends the organized information to the device. The selected data is then transferred to the device via the Internet.

ステップ8: Step 8:

端末が受信した情報をAR形式で表示する。スマートグラスのディスプレイに、「カフェ XYZ」のレビューや人気メニューがオーバーレイ表示されるように設定する。 The information received by the device is displayed in AR format. Set it up so that reviews and popular menu items from "Cafe XYZ" are overlaid on the smart glasses display.

ステップ9: Step 9:

ユーザが視線や音声コマンドで特定の情報に興味を示す場合、そのデータを端末が記録する。例えば、ユーザが特定のレビューを見つめたり、「このケーキが気になる」と言った場合、その情報を記録する。 If a user shows interest in specific information through their gaze or voice command, the device will record that data. For example, if a user looks at a particular review or says, "I'm interested in this cake," that information will be recorded.

ステップ10: Step 10:

端末が収集された興味データと感情データをサーバに送信する。データはリアルタイムでインターネット経由で送信される。 The device sends the collected interest and emotion data to a server. The data is transmitted in real time via the Internet.

ステップ11: Step 11:

サーバが収集されたデータを分析し、ユーザの興味の傾向および感情のパターンを把握する。この分析結果を基に、次回以降の情報提供に反映し、ユーザに最適な情報を提供する。例えば、次回以降の検索結果にはユーザが好むカフェの情報を優先的に表示する。 The server analyzes the collected data to understand the user's interest trends and emotional patterns. Based on the results of this analysis, the server reflects this in future information provision, providing the user with the most appropriate information. For example, from the next search result onwards, information about the user's favourite cafes will be displayed first.

(実施例2) (Example 2)

次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, Example 2 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."

現代社会において、ユーザがリアルタイムに情報を取得し、迅速に意思決定を行う必要性が高まっている。しかし、現行の技術では、視覚情報および聴覚情報に基づいたリアルタイムな情報提供が十分に行われず、ユーザの使用体験が制限される問題がある。特に、ユーザの感情や興味を考慮したパーソナライズされた情報提供が不足しているため、情報収集の効率性とユーザ満足度が低下する。このため、外界の視覚情報および聴覚情報をリアルタイムで取得し、ユーザの感情や興味を反映した情報提供を行うシステムが求められている。 In modern society, there is an increasing need for users to obtain information in real time and make quick decisions. However, current technology does not adequately provide real-time information based on visual and auditory information, limiting the user experience. In particular, there is a lack of personalized information provision that takes into account the user's emotions and interests, which reduces the efficiency of information gathering and user satisfaction. For this reason, there is a demand for a system that can obtain visual and auditory information from the outside world in real time and provide information that reflects the user's emotions and interests.

実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、視覚情報をテキスト情報に変換する手段と、聴覚情報をテキスト情報に変換する手段と、変換されたテキスト情報及び感情データに基づいてウェブ上の関連情報を検索する手段と、検索された情報を拡張現実形式で表示する手段と、ユーザの感情を認識する手段と、ユーザの興味に基づいたデータを収集する手段と、収集されたデータ及び感情データを分析する手段と、を含む。これにより、ユーザはリアルタイムで自身の感情や興味に基づいたパーソナライズされた情報を効率的に取得することが可能となる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information and emotional data, means for displaying the searched information in an augmented reality format, means for recognizing the user's emotions, means for collecting data based on the user's interests, and means for analyzing the collected data and emotional data. This enables users to efficiently obtain personalized information based on their emotions and interests in real time.

「視覚情報」とは、外界の環境から取得される映像や画像のデータである。 "Visual information" refers to video and image data obtained from the external environment.

「聴覚情報」とは、外界の環境から取得される音声や音響のデータである。 "Auditory information" refers to sound and acoustic data obtained from the external environment.

「テキスト情報」とは、視覚情報および聴覚情報を解析・変換して得られる文字列データである。 "Text information" is character string data obtained by analyzing and converting visual and auditory information.

「感情データ」とは、ユーザの感情状態を解析した結果得られるデータである。 "Emotional data" is data obtained as a result of analyzing the user's emotional state.

「ウェブ上の関連情報」とは、インターネットを利用して検索され、ユーザの要求やコンテキストに関連する情報である。 "Relevant information on the web" is information that is searched using the Internet and is relevant to the user's requirements and context.

「拡張現実形式」とは、現実世界の視覚情報にデジタル情報を重ね合わせて表示する技術である。 "Augmented reality" is a technology that displays digital information overlaid on visual information from the real world.

「ユーザの感情を認識する手段」とは、映像や音声データを解析し、ユーザの感情を識別するアルゴリズムである。 "Means for recognizing user emotions" refers to an algorithm that analyzes video and audio data and identifies the user's emotions.

「ユーザの興味に基づいたデータ」とは、ユーザの視線や音声コマンドなどの入力情報を解析し、ユーザの関心を示すデータである。 "Data based on user interests" is data that indicates a user's interests by analyzing input information such as the user's gaze and voice commands.

「収集されたデータ及び感情データを分析する手段」とは、ユーザの興味や感情に基づいて収集されたデータを解析し、次回の情報提供に利用するアルゴリズムである。 "Means for analyzing collected data and emotional data" refers to an algorithm that analyzes collected data based on the user's interests and emotions and uses it to provide information the next time.

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、拡張現実形式でユーザに表示するシステムに、ユーザの感情を認識する感情エンジンを組み合わせたものである。 This invention combines a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in augmented reality format with an emotion engine that recognizes the user's emotions.

まず、端末であるスマートグラスが、カメラを用いて外界の視覚情報を取得し、マイクを用いて外界の聴覚情報を取得する。この時点で取得された映像データと音声データはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the terminal, use a camera to acquire visual information from the outside world and a microphone to acquire auditory information from the outside world. The video and audio data acquired at this point is sent in real time to a processing unit within the terminal.

次に、端末は視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報に変換する。 The device then converts the visual information into text using OCR technology. For example, it recognizes a cafe sign and converts it into text such as "Cafe ABC." Similarly, it converts auditory information into text using voice recognition technology. For example, it recognizes the conversation of a passerby and converts it into text such as "This cafe is delicious."

また、端末は取得された映像および音声データを用いて、感情エンジンによってユーザの感情を解析する。これにより、ユーザが喜んでいるか、興味を持っているか、あるいは驚いているかといった感情を識別することができる。感情エンジンは機械学習アルゴリズムを使用して、表情や声のトーンから感情を認識する。 The device also uses the captured video and audio data to analyze the user's emotions using an emotion engine, which can identify emotions such as whether the user is happy, interested, or surprised. The emotion engine uses machine learning algorithms to recognize emotions from facial expressions and tone of voice.

変換されたテキスト情報と認識された感情データはサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。例えば、「カフェ ABC」というキーワードを基にレビューやメニュー、場所の詳細を検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent to the server. The server uses the received text information to search for related information on the web. For example, based on the keyword "cafe ABC," it can use a search engine to retrieve reviews, menus, and location details. Furthermore, by taking emotion data into consideration, it can prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報を拡張現実(AR)形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューが現実の景色にオーバーレイ表示される。これにより、ユーザはリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in augmented reality (AR) format. For example, reviews and popular menu items for "Cafe ABC" may be overlaid on the real-world view on the smart glasses display, allowing users to obtain relevant information in real time.

さらに、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。ユーザが特定の情報をじっと見つめたり、「このケーキが気になる」といった発言をすると、端末はそれを記録する。また、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 In addition, the device also collects interest data based on the user's gaze and voice commands. If the user stares intently at a particular piece of information or says something like "I'm interested in this cake," the device records it. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはサーバに送信され、サーバはそれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to the server, which uses this data to understand the user's interest trends and reflect them in the next information provided. For example, if the user shows a strong interest in cafes, information about cafes can be displayed preferentially from the next time onwards.

詳細な具体例 Detailed examples

ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はサーバに送信され、サーバは「カフェ XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートグラスのディスプレイに拡張現実(AR)形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 If a user is walking down the street and spots a sign for "Cafe XYZ," the camera on the smart glasses will recognize the sign and convert it into text using OCR technology: "Cafe XYZ." Furthermore, if the user says, "I'm interested in the cakes at this cafe," the speech recognition technology will convert the statement into text. At the same time, the emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to the server, which searches for detailed information about "Cafe XYZ" and prioritizes information that is likely to interest the user. This information is then sent to the device and displayed in augmented reality (AR) on the smart glasses' display. Users can then instantly check reviews and photos of the cakes.

プロンプト文の例: Example prompt:

「ユーザがカフェに関する情報を探している場合に、スマートグラスが視覚および聴覚データを取得し、感情エンジンでユーザの感情を分析し、AR形式で情報を表示するシステムの詳細な処理フローを説明してください。」 "When a user searches for information about a cafe, please explain the detailed processing flow of the system in which smart glasses acquire visual and auditory data, analyze the user's emotions using an emotion engine, and display information in AR format."

実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.

ステップ1: Step 1:

端末であるスマートグラスが外界の視覚情報および聴覚情報を取得する。 The smart glasses that serve as the device collect visual and auditory information from the outside world.

入力:外界の映像データおよび音声データ。 Input: Video and audio data from the outside world.

処理:スマートグラスのカメラで映像をキャプチャし、マイクで音声を録音する。 Processing: The smart glasses' camera captures video and the microphone records audio.

出力:キャプチャされた映像データと録音された音声データ。 Output: Captured video data and recorded audio data.

具体的な動作:ユーザが街を歩いているときにスマートグラスが建物や看板を撮影し、周囲の会話や環境音を録音する。 Specific operation: As the user walks around town, the smart glasses take photos of buildings and signs, and record surrounding conversations and environmental sounds.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換し、聴覚情報を音声認識技術でテキスト化する。 Visual information acquired by the device is converted into text information using OCR technology, and auditory information is converted into text using voice recognition technology.

入力:映像データおよび音声データ。 Input: Video and audio data.

処理:OCR技術を使用して映像データから文字列を抽出し、音声認識技術を使用して音声データを文字列に変換する。 Processing: Use OCR technology to extract text from video data, and use voice recognition technology to convert audio data into text.

出力:テキスト情報。 Output: Text information.

具体的な動作:スマートグラスが「カフェ XYZ」という看板をキャプチャし、それを「カフェ XYZ」というテキスト情報に変換する。同様に、通行人の会話「このカフェのケーキが美味しい」を音声認識してテキスト化する。 Specific operation: The smart glasses capture a sign that reads "Cafe XYZ" and convert it into text information: "Cafe XYZ." Similarly, they recognize the speech of a passerby, "The cake at this cafe is delicious," and convert it into text.

ステップ3: Step 3:

端末が映像および音声データを用いて感情エンジンでユーザの感情を解析する。 The device uses video and audio data to analyze the user's emotions using an emotion engine.

入力:映像データおよび音声データ。 Input: Video and audio data.

処理:機械学習アルゴリズムを使用して映像データから顔の表情を解析し、音声データから声のトーンを解析して感情を識別する。 Processing: Machine learning algorithms are used to analyze facial expressions from video data and tone of voice from audio data to identify emotions.

出力:感情データ。 Output: Emotion data.

具体的な動作:ユーザがカフェの看板を見るときの顔の表情や音声のトーンを分析し、ユーザが興味を示しているか、喜んでいるかを判断する。 Specific behavior: Analyzes the user's facial expression and tone of voice when they look at a cafe sign to determine whether they are interested or pleased.

ステップ4: Step 4:

端末が変換されたテキスト情報および感情データをサーバに送信する。 The device sends the converted text information and emotion data to the server.

入力:テキスト情報および感情データ。 Input: Text information and emotion data.

処理:データをパケットにまとめ、サーバに送信する。 Processing: Packetize the data and send it to the server.

出力:サーバに送信されたデータ。 Output: Data sent to the server.

具体的な動作:端末が「カフェ XYZ」というテキスト情報と「興味」を示す感情データをサーバに送信する。 Specific operation: The device sends the text information "Cafe XYZ" and emotion data indicating "interest" to the server.

ステップ5: Step 5:

サーバが受け取ったテキスト情報と感情データを基にウェブ上の関連情報を検索する。 The server searches for relevant information on the web based on the text information and emotion data received.

入力:テキスト情報および感情データ。 Input: Text information and emotion data.

処理:検索エンジンを使用して関連情報を検索し、感情データを考慮してユーザが興味を示しやすい情報を優先的に取得する。 Processing: Use a search engine to search for relevant information and prioritize information that is likely to interest the user, taking into account emotional data.

出力:関連情報の検索結果。 Output: Search results for related information.

具体的な動作:サーバが「カフェ XYZ」に関するレビューやメニュー情報を検索し、ユーザが興味を示しやすい情報を選定する。 Specific operation: The server searches for reviews and menu information about "Cafe XYZ" and selects information that is likely to interest the user.

ステップ6: Step 6:

サーバが検索結果を再び端末に送信する。 The server will send the search results back to the device.

入力:関連情報の検索結果。 Input: Search results for related information.

処理:検索結果をパケットにまとめ、端末に送信する。 Processing: The search results are compiled into packets and sent to the terminal.

出力:端末に送信されたデータ。 Output: Data sent to the terminal.

具体的な動作:サーバが「カフェ XYZ」のレビューや人気メニューなどのデータを端末に送信する。 Specific operation: The server sends data such as reviews and popular menu items for "Cafe XYZ" to the device.

ステップ7: Step 7:

端末が取得した情報を拡張現実(AR)形式でユーザに表示する。 The information acquired by the device is displayed to the user in augmented reality (AR) format.

入力:関連情報の検索結果。 Input: Search results for related information.

処理:拡張現実(AR)技術を使用して現実の景色にデジタル情報を重ね合わせて表示する。 Processing: Using augmented reality (AR) technology, digital information is overlaid on real-world scenes.

出力:AR形式で表示された情報。 Output: Information displayed in AR format.

具体的な動作:スマートグラスのディスプレイに、「カフェ XYZ」のレビューやケーキの写真が現実の景色にオーバーレイ表示される。 Specific operation: Reviews of Cafe XYZ and photos of cakes are overlaid on the real world on the smart glasses display.

ステップ8: Step 8:

端末がユーザの視線や音声コマンドに基づいた興味データを収集する。 The device collects interest data based on the user's gaze and voice commands.

入力:ユーザの視線データおよび音声コマンド。 Input: User gaze data and voice commands.

処理:視線検出センサーを使用してユーザがどこを見ているかを検出し、音声コマンドを音声認識技術で解析する。 Processing: Uses an eye gaze sensor to detect where the user is looking, and analyzes voice commands using voice recognition technology.

出力:興味データ。 Output: Interest data.

具体的な動作:ユーザがケーキの写真を長時間見つめたり、「このケーキが気になる」と言った場合、端末がそのデータを収集する。 Specific behavior: If a user stares at a photo of a cake for a long time or says, "I'm interested in this cake," the device will collect that data.

ステップ9: Step 9:

端末が収集した興味データおよび感情データをサーバに送信し、サーバがそれを解析する。 The device sends the collected interest and emotion data to the server, which analyzes it.

入力:興味データおよび感情データ。 Input: Interest data and emotion data.

処理:データをパケットにまとめ、サーバに送信し、サーバが機械学習アルゴリズムを使用して解析する。 Processing: The data is packaged into packets and sent to a server, where it is analyzed using machine learning algorithms.

出力:解析結果。 Output: Analysis results.

具体的な動作:収集されたデータをサーバに送信し、サーバがそれを解析してユーザの興味の傾向を把握する。 Specific operations: The collected data is sent to a server, which analyzes it to understand trends in user interests.

ステップ10: Step 10:

サーバが解析結果を基に次回以降の情報提供に反映させる。 The server will use the analysis results to provide information from the next time onwards.

入力:解析結果。 Input: Analysis results.

処理:解析結果をデータベースに記録し、次回の情報提供に使用する。 Processing: The analysis results will be recorded in a database and used for the next information provision.

出力:次回の情報提供の準備。 Output: Preparing for next information submission.

具体的な動作:ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示する準備をする。 Specific behavior: If the user shows a strong interest in the cafe, prepare to prioritize displaying information about the cafe from the next time onwards.

(応用例2) (Application Example 2)

次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Application Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."

自動運転車両において、乗客やドライバーは外界の情報を効果的に把握し、特定の情報をリアルタイムで取得する手段が限られている。また、利用者の感情や興味を反映した情報提供が不足しているため、ユーザエクスペリエンスが十分に向上しないという課題がある。 In autonomous vehicles, passengers and drivers have limited means to effectively grasp information about the outside world and obtain specific information in real time. Furthermore, there is a lack of information provided that reflects the user's emotions and interests, which presents a challenge in terms of the user experience not being sufficiently improved.

応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、視覚情報をテキスト情報に変換する手段と、を含む。これにより、リアルタイムで視覚および聴覚情報を基に関連情報を取得し、ユーザの感情や興味を反映したパーソナライズされた情報提供が可能となる。 The specific processing by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means. In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, and means for converting the visual information into text information. This makes it possible to acquire related information based on visual and auditory information in real time and provide personalized information that reflects the user's emotions and interests.

「外界の視覚情報」とは、スマートデバイスに搭載されたカメラやセンサーを用いて取得される、周囲の映像や画像データのことである。 "Visual information from the outside world" refers to video and image data of the surroundings acquired using cameras and sensors installed on smart devices.

「外界の聴覚情報」とは、スマートデバイスに搭載されたマイクを用いて取得される、周囲の音声や音データのことである。 "External auditory information" refers to surrounding voice and sound data acquired using a microphone installed on a smart device.

「視覚情報をテキスト情報に変換する手段」とは、映像や画像データを文字情報に変換するための光学的文字認識(OCR)技術を指す。 "Means for converting visual information into text information" refers to optical character recognition (OCR) technology for converting video and image data into text information.

「聴覚情報をテキスト情報に変換する手段」とは、音声データを文字情報に変換するための音声認識技術を指す。 "Means for converting auditory information into text information" refers to speech recognition technology for converting voice data into text information.

「ウェブ上の関連情報を検索する手段」とは、サーバや検索エンジンを用いてインターネット上の情報を検索し、必要なデータを取得する機能を指す。 "Means for searching for related information on the web" refers to the function of searching for information on the Internet using a server or search engine and obtaining the necessary data.

「拡張現実(AR)形式で表示する手段」とは、取得した情報を現実の映像に重ね合わせる形で表示するための技術を指す。 "Means of displaying in augmented reality (AR) format" refers to technology for displaying acquired information by overlaying it on real-world images.

「ユーザの興味に基づいたデータを収集する手段」とは、ユーザの視線や音声コマンドなどから興味を推定し、それに関連するデータを集める機能を指す。 "Means for collecting data based on user interests" refers to a function that infers a user's interests from their gaze, voice commands, etc., and collects data related to those interests.

「収集されたデータを分析する手段」とは、収集したデータを解析し、ユーザの興味や行動パターンを理解するためのアルゴリズムや手法を指す。 "Means for analyzing collected data" refers to algorithms and methods for analyzing collected data and understanding user interests and behavioral patterns.

「ユーザの感情を解析する手段」とは、ユーザの表情や音声トーンを解析し、感情状態を判断するための機械学習アルゴリズムを指す。 "Means for analyzing user emotions" refers to machine learning algorithms that analyze a user's facial expressions and tone of voice to determine their emotional state.

「自動運転車両に搭載されるスマートデバイス」とは、自動運転車内で使用される、カメラやマイク、ディスプレイなどの機能を持つ電子機器を指す。 "Smart devices installed in self-driving vehicles" refers to electronic devices with functions such as cameras, microphones, and displays that are used inside self-driving vehicles.

本発明は、自動運転車両におけるユーザ体験を向上させるためのシステムであり、スマートデバイスを用いて外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基に関連情報を検索・表示するものである。また、ユーザの感情を解析し、興味に基づいた情報提供を行うことが特徴である。 This invention is a system for improving the user experience in autonomous vehicles. It uses smart devices to acquire visual and auditory information from the outside world in real time, and uses this information to search for and display relevant information. It also features the ability to analyze the user's emotions and provide information based on their interests.

まず、端末であるスマートデバイスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートデバイスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart device, which serves as the terminal, acquires visual and auditory information from the outside world. Specifically, the camera installed on the smart device captures video and the microphone records audio. This data is sent in real time to a processing unit within the terminal.

次に、端末は取得した視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、自動運転車両が街中を走行中にレストランの看板を認識した場合、「レストラン ABC」というテキスト情報に変換される。同様に聴覚情報も音声認識技術を使用してテキスト情報に変換される。例えば、乗客が「このレストランのメニューが気になる」と言った場合、それがテキスト情報として記録される。 The device then converts the acquired visual information into text using OCR technology. For example, if an autonomous vehicle recognizes a restaurant sign while driving through town, it will convert it into text such as "Restaurant ABC." Similarly, auditory information is converted into text using voice recognition technology. For example, if a passenger says, "I'm interested in the menu at this restaurant," this will be recorded as text.

さらに、取得された映像および音声データは、端末に搭載された感情エンジンによってユーザの感情を解析する。感情エンジンは機械学習アルゴリズムを使用して、ユーザの表情や声のトーンから感情を識別する。例えば、ユーザが興味を持っているか、喜んでいるか、驚いているかといった感情を認識できる。 Furthermore, the captured video and audio data is analyzed for the user's emotions by the device's built-in emotion engine. The emotion engine uses machine learning algorithms to identify emotions from the user's facial expressions and tone of voice. For example, it can recognize whether the user is interested, happy, or surprised.

変換されたテキスト情報と認識された感情データは、端末からクラウドサーバに送信される。クラウドサーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「レストラン ABC」というキーワードを基に、レビューやメニュー、場所の詳細を検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent from the device to a cloud server. The cloud server then searches for related information on the web based on the received text information. For example, based on the keyword "restaurant ABC," reviews, menus, and location details can be retrieved using a search engine. Furthermore, by taking emotion data into consideration, it is possible to prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報をAR形式で表示する。例えば、スマートデバイスのディスプレイに「レストラン ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは移動中でもリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in AR format. For example, reviews and popular menu items for "Restaurant ABC" are overlaid on the smart device's display. This allows users to access relevant information in real time even while on the move.

また、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。例えば、ユーザが特定の情報をじっと見つめたり、「この料理が美味しそう」といった発言をする場合、そのデータを記録する。そして、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 The device also collects interest data based on the user's gaze and voice commands. For example, if a user stares intently at a particular piece of information or says something like "this dish looks delicious," that data is recorded. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはクラウドサーバに送信され、分析される。クラウドサーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがレストランに対して強い興味を示している場合、次回以降はレストランに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to a cloud server for analysis. The cloud server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if the user shows a strong interest in restaurants, information about restaurants can be displayed preferentially from the next time onwards.

具体例として As a concrete example

具体的な実施例として、ユーザが街を走行中に「レストラン XYZ」という看板を見つけた場合、スマートデバイスのカメラがその看板を認識し、OCR技術で「レストラン XYZ」とテキスト情報に変換する。さらに、ユーザが「このレストランのメニューが気になる」と発言した場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はクラウドサーバに送信され、サーバは「レストラン XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートデバイスのディスプレイにAR形式で表示される。ユーザはメニューのレビューや写真をその場で確認することができる。 As a specific example, if a user spots a sign for "Restaurant XYZ" while driving around town, the camera on the smart device will recognize the sign and convert it into text information as "Restaurant XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the menu at this restaurant," speech recognition technology will convert this statement into text. At the same time, an emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to a cloud server, which then searches for detailed information about "Restaurant XYZ" and prioritizes information that is likely to interest the user. This information is then sent to the device and displayed in AR format on the smart device's display. The user can then check reviews and photos of the menu on the spot.

プロンプト文の例 Example prompt

プロンプト文の一例を以下に示す。 An example of a prompt is shown below.

"ユーザがレストランの看板を見つけたときにスマートデバイスがその情報を識別し、テキスト化して、ユーザの感情に基づいてそのレストランのレビューやメニュー情報を優先的に表示します。たとえば、ユーザが「このレストランのメニューが気になる」と言った場合、その音声をテキスト化し、リアルタイムで関連情報を取得して表示します。" "When a user finds a restaurant sign, the smart device identifies the information, converts it into text, and prioritizes displaying reviews and menu information for that restaurant based on the user's sentiment. For example, if a user says, 'I'm interested in the menu at this restaurant,' the device converts that speech into text and retrieves and displays relevant information in real time."

応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.

ステップ1: Step 1:

端末であるスマートデバイスが外界の視覚情報と聴覚情報を取得する。ユーザが街を移動中に、カメラが周囲の映像をキャプチャし、マイクが周囲の音声を記録する。これらのデータはリアルタイムで処理ユニットに送信される。入力はカメラ映像データおよび音声データであり、出力は処理ユニットに送信される未処理データである。 The terminal, a smart device, acquires visual and auditory information from the outside world. As the user moves around town, the camera captures video of the surroundings and the microphone records audio from the surroundings. This data is sent to a processing unit in real time. The input is camera video data and audio data, and the output is raw data sent to the processing unit.

ステップ2: Step 2:

端末は取得した視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、スマートデバイスのカメラがレストランの看板を捉えた場合、その映像データをテキスト化し、「レストラン XYZ」という文字情報を生成する。入力は映像データであり、出力はテキストデータである。 The device converts the acquired visual information into text using OCR technology. For example, if a smart device's camera captures a restaurant sign, the video data is converted into text, generating the text information "Restaurant XYZ." The input is video data, and the output is text data.

ステップ3: Step 3:

端末は取得した音声情報を音声認識技術を用いてテキスト情報に変換する。例えば、ユーザが「このレストランのメニューが気になる」と発言した場合、その音声データをテキスト情報に変換し、関連情報を生成する。入力は音声データであり、出力はテキストデータである。 The device uses voice recognition technology to convert the acquired voice information into text information. For example, if a user says, "I'm interested in the menu at this restaurant," the voice data is converted into text information and related information is generated. The input is voice data, and the output is text data.

ステップ4: Step 4:

端末は取得された映像および音声データを感情エンジンによってユーザの感情を解析する。例えば、ユーザの表情や声のトーンから「興味深い」という感情認識を行う。入力は映像データと音声データであり、出力は感情データである。 The device uses an emotion engine to analyze the user's emotions from the captured video and audio data. For example, it can recognize the emotion "interesting" from the user's facial expression and tone of voice. The input is video and audio data, and the output is emotional data.

ステップ5: Step 5:

変換されたテキスト情報と認識された感情データは端末からクラウドサーバに送信される。サーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「レストラン XYZ」というキーワードに基づき、レビューやメニュー情報を取得する。入力はテキストデータと感情データであり、出力は関連情報データである。 The converted text information and recognized emotion data are sent from the device to a cloud server. The server searches for related information on the web based on the received text information. For example, based on the keyword "restaurant XYZ," it retrieves reviews and menu information. The input is text data and emotion data, and the output is related information data.

ステップ6: Step 6:

クラウドサーバは感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得し、その結果を再び端末に送信する。例えば、ポジティブな感情を示している場合、レストランのレビューの中でも高評価なものを優先的に送信する。入力はテキストデータと感情データであり、出力は関連情報データである。 The cloud server takes emotional data into consideration and prioritizes obtaining information that is likely to interest the user, and then sends the results back to the device. For example, if the user is expressing positive emotions, it will prioritize sending highly rated restaurant reviews. The input is text data and emotional data, and the output is related information data.

ステップ7: Step 7:

端末は取得した情報をAR形式で表示する。例えば、スマートデバイスのディスプレイに「レストラン XYZ」のレビューや人気メニューがオーバーレイ表示され、ユーザはそれを見ることができる。入力は関連情報データであり、出力は表示されるARデータである。 The device displays the acquired information in AR format. For example, reviews and popular menu items for "Restaurant XYZ" are overlaid on the smart device's display, allowing the user to view them. The input is related information data, and the output is the displayed AR data.

ステップ8: Step 8:

端末は引き続きユーザの視線や音声コマンドに基づいた興味データを収集する。例えば、ユーザが特定の情報をじっと見つめたり「この料理が気になる」と発言する場合、そのデータを記録する。入力は視線データおよび音声データであり、出力は興味データである。 The device continues to collect interest data based on the user's gaze and voice commands. For example, if the user stares at a particular piece of information or says, "I'm interested in this dish," that data is recorded. The input is gaze data and voice data, and the output is interest data.

ステップ9: Step 9:

収集された興味データおよび感情データはクラウドサーバに送信され、詳細査分析が行われる。サーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、レストランに対する興味が強い場合、次回以降はレストランに関する情報を優先的に表示する。入力は興味データおよび感情データであり、出力は次回の情報提供に向けた分析データである。 The collected interest and emotion data is sent to a cloud server for detailed analysis. The server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if there is a strong interest in restaurants, information about restaurants will be displayed preferentially from the next time onwards. The input is interest data and emotion data, and the output is analysis data for the next information provided.

特定処理部290は、特定処理の結果をヘッドセット型端末314に送信する。ヘッドセット型端末314では、制御部46Aが、スピーカ240及びディスプレイ343に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the headset terminal 314. In the headset terminal 314, the control unit 46A causes the speaker 240 and display 343 to output the results of the specific processing. The microphone 238 acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 238 to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.

データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). Examples of data generation model 58 include generative AI such as ChatGPT (Internet search <URL: https://openai.com/blog/chatgpt>) and Gemini (Internet search <URL: https://gemini.google.com/?hl=ja>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as voice data indicating speech, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt, and outputs the inference results in the form of data such as voice data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.

上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ヘッドセット型端末314によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the headset-type terminal 314.

[第4実施形態] [Fourth embodiment]

図7には、第4実施形態に係るデータ処理システム410の構成の一例が示されている。 Figure 7 shows an example of the configuration of a data processing system 410 according to the fourth embodiment.

図7に示すように、データ処理システム410は、データ処理装置12及びロボット414を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 7, the data processing system 410 includes a data processing device 12 and a robot 414. An example of the data processing device 12 is a server.

データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).

ロボット414は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及び制御対象443を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及び制御対象443も、バス52に接続されている。 The robot 414 includes a computer 36, a microphone 238, a speaker 240, a camera 42, a communication I/F 44, and a control target 443. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The microphone 238, speaker 240, camera 42, and control target 443 are also connected to the bus 52.

マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。 The microphone 238 receives instructions and the like from the user 20 by receiving voice uttered by the user 20. The microphone 238 captures the voice uttered by the user 20, converts the captured voice into audio data, and outputs it to the processor 46. The speaker 240 outputs audio in accordance with instructions from the processor 46.

カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。 Camera 42 is a small digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor, and captures images of the user 20's surroundings (e.g., an imaging range defined by an angle of view equivalent to the field of vision of a typical healthy person).

通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54. The exchange of various information between the processor 46 and the processor 28 using the communication I/Fs 44 and 26 is carried out in a secure manner.

制御対象443は、表示装置、目部のLED、並びに、腕、手及び足等を駆動するモータ等を含む。ロボット414の姿勢や仕草は、腕、手及び足等のモータを制御することにより制御される。ロボット414の感情の一部は、これらのモータを制御することにより表現できる。また、ロボット414の目部のLEDの発光状態を制御することによっても、ロボット414の表情を表現できる。 The control object 443 includes a display device, LEDs in the eyes, and motors that drive the arms, hands, and feet. The posture and gestures of the robot 414 are controlled by controlling the motors of the arms, hands, and feet. Some of the emotions of the robot 414 can be expressed by controlling these motors. In addition, the facial expressions of the robot 414 can also be expressed by controlling the light emission state of the LEDs in the eyes of the robot 414.

図8には、データ処理装置12及びロボット414の要部機能の一例が示されている。図8に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。 Figure 8 shows an example of the main functions of the data processing device 12 and the robot 414. As shown in Figure 8, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32.

特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。 The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as the specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.

ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.

ロボット414では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the robot 414, the reception output process is performed by the processor 46. A reception output program 60 is stored in the storage 50. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output process is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.

次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain the specific processing performed by the specific processing unit 290 of the data processing device 12. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、AR形式でユーザに表示するシステムである。以下に、その具体的な実施形態について説明する。 This invention is a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in AR format. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をテキスト情報に変換するために、OCR(光学文字認識)技術を使用する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then uses OCR (optical character recognition) technology to convert the acquired visual information into text information. For example, it can recognize a cafe sign and convert it into text information such as "Cafe ABC." Similarly, auditory information is converted into text information using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text information such as "This cafe is delicious."

変換されたテキスト情報は、端末からサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジンを使用して「カフェ ABC」に関するレビューやメニュー、位置情報などを取得する。検索結果は再び端末に送信される。 The converted text information is sent from the device to the server. The server uses the received text information to search for related information on the web. Specifically, it uses a web search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." The search results are then sent back to the device.

端末は取得した検索結果を整理し、ユーザの視界にAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The device organizes the search results and displays them in AR format in the user's field of view. For example, reviews and popular menu items for "Cafe ABC" could be overlaid on the smartglasses' display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの興味データを収集する。具体的には、ユーザが特定の情報に視線を向けたり、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。収集された興味データはサーバに送信され、サーバはこれを分析してユーザの興味の傾向を把握する。この分析結果は次回以降の検索や情報提供に反映され、ユーザの好みに合わせた最適な情報を提供することができる。 Furthermore, the device collects data on the user's interests. Specifically, when the user looks at specific information or issues a voice command such as "I'm interested in this menu item," that information is recorded. The collected interest data is sent to a server, which analyzes it to understand the user's interest trends. The results of this analysis are reflected in subsequent searches and information provision, making it possible to provide the most appropriate information tailored to the user's preferences.

例えば、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。サーバは「カフェ XYZ」および「ケーキ」というキーワードを基に、ウェブ検索を行い、関連するレビューやメニュー情報を取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 For example, if a user is walking down the street and spots a sign that says "Cafe XYZ," the camera in the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert this statement into text. The server will perform a web search based on the keywords "Cafe XYZ" and "cake" to retrieve related reviews and menu information. This information will be sent to the device and displayed in AR format on the smart glasses' display. The user will be able to check reviews and photos of the cake on the spot.

このような形態により、本発明はユーザのリアルタイムな情報取得と提供を可能にし、ユーザエクスペリエンスを向上させることができる。また、ユーザの興味や関心に基づいたデータを収集・分析することで、さらにパーソナライズされた情報提供が可能となる。 In this manner, the present invention enables users to obtain and provide information in real time, improving the user experience. Furthermore, by collecting and analyzing data based on the user's interests, it becomes possible to provide even more personalized information.

以下に、処理の流れについて説明する。 The processing flow is explained below.

ステップ1: Step 1:

端末が外界の視覚情報および聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラを用いて映像をキャプチャし、マイクを用いて音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 The device acquires visual and auditory information from the outside world. Specifically, the smart glasses' built-in camera captures video and a microphone records audio. This data is sent in real time to a processing unit within the device.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、端末は「カフェ ABC」と書かれた看板を認識し、その画像をテキストに変換する。同様に、取得した聴覚情報を音声認識技術を用いてテキスト情報に変換する。例えば、「このカフェは美味しい」という通行人の会話をテキストに変換する。 Visual information acquired by the device is converted into text information using OCR technology. For example, the device recognizes a sign that reads "Cafe ABC" and converts the image into text. Similarly, auditory information acquired is converted into text information using voice recognition technology. For example, a passerby's speech, "This cafe is delicious," is converted into text.

ステップ3: Step 3:

端末が変換されたテキスト情報をサーバに送信する。具体的には、OCRや音声認識によって生成されたテキストデータをインターネットを介してサーバにアップロードする。 The device sends the converted text information to the server. Specifically, the text data generated by OCR or voice recognition is uploaded to the server via the Internet.

ステップ4: Step 4:

サーバが受け取ったテキスト情報を基にウェブ上の関連情報を検索する。サーバは検索エンジンを使用して、「カフェ ABC」に関するレビュー、メニュー、位置情報などを取得する。複数の検索エンジンを用いてより豊富な情報を収集することも可能である。 The server searches for related information on the web based on the text information it receives. The server uses a search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." It is also possible to gather more information by using multiple search engines.

ステップ5: Step 5:

サーバが取得した検索結果を整理し、関連性の高い情報を選別する。例えば、ユーザ評価の高いレビューや、公式サイトの情報を優先的に選ぶ。 The server organizes the search results and selects the most relevant information. For example, it prioritizes reviews with high user ratings and information from official websites.

ステップ6: Step 6:

サーバが整理された情報を端末に送信する。具体的には、関連するレビューやメニュー情報をまとめたデータをインターネット経由で端末に送る。 The server sends the organized information to the device. Specifically, it sends data summarizing related reviews and menu information to the device via the Internet.

ステップ7: Step 7:

端末が受け取った情報をAR形式で表示する。スマートグラスのディスプレイ上に、「カフェ ABC」のレビューや人気メニューがオーバーレイ表示されるようにする。 The information received by the device is displayed in AR format. Reviews and popular menu items from Cafe ABC are overlaid on the smartglasses display.

ステップ8: Step 8:

ユーザが視線や音声で特定の情報に興味を示した場合、そのデータを端末が記録する。例えば、ユーザが特定のレビューページをじっと見つめたり、「このメニューが気になる」と言った場合である。 When a user shows interest in specific information through their gaze or voice, the device records that data. For example, if a user stares intently at a particular review page or says, "I'm interested in this menu item."

ステップ9: Step 9:

端末が収集された興味データをサーバに送信する。興味データには、ユーザの視線情報や音声コマンドが含まれる。 The device sends the collected interest data to the server. The interest data includes the user's gaze information and voice commands.

ステップ10: Step 10:

サーバが収集された興味データを分析し、ユーザの興味の傾向を把握する。この分析結果を基に、次回以降の検索結果や情報提供に反映させて、ユーザに最適な情報を提供できるようにする。 The server analyzes the collected interest data to understand trends in user interests. The results of this analysis are reflected in future search results and information provision, enabling the server to provide users with the most appropriate information.

(実施例1) (Example 1)

次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, Example 1 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."

現代の社会では、ユーザが必要な情報を迅速かつ効率的に取得することが求められている。特に、移動中や活動中においてもリアルタイムで情報を取得し、それを活用することで、ユーザエクスペリエンスを向上させることが重要である。しかし、既存の技術ではユーザが興味を持つ情報をリアルタイムで適切に取得・提供する手法が不十分であり、情報の取得過程が煩雑であるという問題がある。また、ユーザの興味傾向を把握し、それに基づいたパーソナライズされた情報提供についても課題が残されている。このような背景から、ユーザの視覚情報や聴覚情報を取得・分析し、それを基にリアルタイムで関連情報を提供するための技術が必要とされている。 In modern society, users are expected to obtain the information they need quickly and efficiently. It is particularly important to improve the user experience by obtaining and utilizing information in real time, even while on the move or while active. However, existing technology lacks sufficient methods for appropriately obtaining and providing information that interests users in real time, and the information acquisition process is cumbersome. Furthermore, there are still challenges in identifying users' interest trends and providing personalized information based on them. Against this background, there is a need for technology that can obtain and analyze users' visual and auditory information and provide relevant information in real time based on that information.

実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、前記視覚情報をテキスト情報に変換する手段と、前記聴覚情報をテキスト情報に変換する手段と、前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、前記検索された情報を拡張現実(AR)形式で表示する手段と、ユーザの興味に基づいたデータをリアルタイムで収集する手段と、前記収集されたデータを分析して次回以降の検索結果に反映する手段と、を含む。これにより、ユーザが移動中や活動中でも必要な情報を迅速かつ効率的に取得することが可能となり、さらにユーザの興味や好みに基づいたパーソナライズされた情報提供が実現できる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information, means for displaying the searched information in an augmented reality (AR) format, means for collecting data based on the user's interests in real time, and means for analyzing the collected data and reflecting it in subsequent search results. This enables the user to quickly and efficiently obtain the information they need while on the move or while active, and further enables the provision of personalized information based on the user's interests and preferences.

「外界の視覚情報」とは、周囲の環境に存在する物体や文字などの視覚的な情報のことを指す。 "Visual information from the external world" refers to visual information such as objects and letters that exist in the surrounding environment.

「外界の聴覚情報」とは、周囲の環境に存在する音や会話などの聴覚的な情報のことを指す。 "External auditory information" refers to auditory information such as sounds and conversations that exist in the surrounding environment.

「視覚情報をテキスト情報に変換する手段」とは、取得した視覚情報をテキストデータに変換する技術であり、具体的にはOCR(光学文字認識)技術を用いることである。 "Means for converting visual information into text information" refers to technology that converts acquired visual information into text data, specifically the use of OCR (optical character recognition) technology.

「聴覚情報をテキスト情報に変換する手段」とは、取得した聴覚情報をテキストデータに変換する技術であり、具体的には音声認識技術を用いることである。 "Means for converting auditory information into text information" refers to technology that converts acquired auditory information into text data, specifically using voice recognition technology.

「ウェブ上の関連情報を検索する手段」とは、変換されたテキスト情報を基に、インターネット上に存在する関連する情報を検索し取得する技術のことを指す。 "Means for searching for related information on the web" refers to technology that searches for and retrieves related information on the Internet based on converted text information.

「拡張現実(AR)形式で表示する手段」とは、取得した情報を現実の視界に重ねて表示する技術のことを指す。これによりユーザは現実世界の映像と追加情報を同時に確認できる。 "Augmented reality (AR) display" refers to technology that displays acquired information overlaid on the real world, allowing users to simultaneously view images of the real world and additional information.

「ユーザの興味に基づいたデータをリアルタイムで収集する手段」とは、ユーザが特定の情報に関心を示した際、その関心の傾向をリアルタイムで記録し収集する技術のことを指す。 "Means for collecting data based on user interests in real time" refers to technology that records and collects trends in interest in real time when a user shows interest in specific information.

「収集されたデータを分析して次回以降の検索結果に反映する手段」とは、収集したユーザの興味データを解析し、その解析結果を基に次回の情報提供をパーソナライズする技術のことを指す。 "Means of analyzing collected data and reflecting it in future search results" refers to technology that analyzes collected user interest data and personalizes the next information provided based on the results of that analysis.

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、拡張現実(AR)形式でユーザに表示するシステムである。以下に、その具体的な実施形態について説明する。 This invention is a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in augmented reality (AR) format. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をテキスト情報に変換するために、OCR(光学文字認識)技術を使用する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then uses OCR (optical character recognition) technology to convert the acquired visual information into text information. For example, it can recognize a cafe sign and convert it into text information such as "Cafe ABC." Similarly, auditory information is converted into text information using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text information such as "This cafe is delicious."

変換されたテキスト情報は、端末からサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジンを使用して「カフェ ABC」に関するレビューやメニュー、位置情報などを取得する。検索結果は再び端末に送信される。 The converted text information is sent from the device to the server. The server uses the received text information to search for related information on the web. Specifically, it uses a web search engine to obtain reviews, menus, location information, etc. for "Cafe ABC." The search results are then sent back to the device.

端末は取得した検索結果を整理し、ユーザの視界にAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The device organizes the search results and displays them in AR format in the user's field of view. For example, reviews and popular menu items for "Cafe ABC" could be overlaid on the smartglasses' display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの興味データを収集する。具体的には、ユーザが特定の情報に視線を向けたり、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。収集された興味データはサーバに送信され、サーバはこれを分析してユーザの興味の傾向を把握する。この分析結果は次回以降の検索や情報提供に反映され、ユーザの好みに合わせた最適な情報を提供することができる。 Furthermore, the device collects data on the user's interests. Specifically, when the user looks at specific information or issues a voice command such as "I'm interested in this menu item," that information is recorded. The collected interest data is sent to a server, which analyzes it to understand the user's interest trends. The results of this analysis are reflected in subsequent searches and information provision, making it possible to provide the most appropriate information tailored to the user's preferences.

具体例として、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。サーバは「カフェ XYZ」および「ケーキ」というキーワードを基に、ウェブ検索を行い、関連するレビューやメニュー情報を取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 As a concrete example, if a user is walking down the street and spots a sign for "Cafe XYZ," the camera in the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert the comment into text. The server will perform a web search based on the keywords "Cafe XYZ" and "cake" to retrieve related reviews and menu information. This information will be sent to the device and displayed in AR format on the smart glasses' display. The user will be able to check reviews and photos of the cake on the spot.

プロンプト文の例は以下の通りである: Example prompts are as follows:

「カフェ XYZ の看板を見つけたが、詳細情報とレビューを知りたい。このカフェのケーキの評判についても調べてください。」 "I saw a sign for Cafe XYZ and would like more information and reviews. I'd also like to know what people think of the cafe's cakes."

このような形態により、本発明はユーザのリアルタイムな情報取得と提供を可能にし、ユーザエクスペリエンスを向上させることができる。また、ユーザの興味や関心に基づいたデータを収集・分析することで、さらにパーソナライズされた情報提供が可能となる。 In this manner, the present invention enables users to obtain and provide information in real time, improving the user experience. Furthermore, by collecting and analyzing data based on the user's interests, it becomes possible to provide even more personalized information.

実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.

ステップ1: Step 1:

端末が外界の視覚情報と聴覚情報を取得する。 The device acquires visual and auditory information from the outside world.

入力として、ユーザの視界に映る外界の映像および環境の音がある。 Inputs include images of the outside world that appear in the user's field of vision and sounds from the environment.

具体的な動作として、スマートグラスに搭載されたカメラがビデオ映像をキャプチャし、マイクが音声を録音する。 Specifically, the camera built into the smart glasses captures video footage, and the microphone records audio.

出力として、取得した映像データと音声データが端末内部の処理ユニットに送信される。 As output, the captured video and audio data is sent to the processing unit inside the terminal.

ステップ2: Step 2:

端末が取得した視覚情報をテキスト情報に変換する。 The visual information acquired by the device is converted into text information.

入力として、ステップ1で取得された映像データがある。 The input is the video data acquired in step 1.

具体的な動作として、端末はOCR(光学文字認識)技術を用いて映像データ内の文字を解析し、これをテキストデータに変換する。例えば、「カフェ ABC」の看板を認識して「カフェ ABC」とテキスト化する。 Specifically, the device uses OCR (optical character recognition) technology to analyze the characters in the video data and convert it into text data. For example, it would recognize a sign that reads "Cafe ABC" and convert it into text as "Cafe ABC."

出力として、変換されたテキストデータが得られる。 The output is the converted text data.

ステップ3: Step 3:

端末が取得した聴覚情報をテキスト情報に変換する。 The device converts the auditory information it acquires into text information.

入力として、ステップ1で取得された音声データがある。 The input is the audio data obtained in step 1.

具体的な動作として、端末は音声認識技術を用いて、音声データを解析し、これをテキストデータに変換する。例えば、「このカフェは美味しい」という通行人の会話をテキストデータにする。 Specifically, the device uses voice recognition technology to analyze voice data and convert it into text data. For example, a passerby's speech, "This cafe is delicious," can be converted into text data.

出力として、変換されたテキストデータが得られる。 The output is the converted text data.

ステップ4: Step 4:

端末が変換されたテキスト情報をサーバに送信する。 The device sends the converted text information to the server.

入力として、ステップ2およびステップ3で得られたテキストデータがある。 The input is the text data obtained in steps 2 and 3.

具体的な動作として、端末内の通信モジュールを使用して、インターネット経由でテキストデータをサーバに送信する。 Specific operations include using a communications module within the device to send text data to a server via the Internet.

出力として、テキストデータがサーバに到着する。 As output, text data arrives at the server.

ステップ5: Step 5:

サーバが受け取ったテキスト情報に基づいてウェブ上の関連情報を検索する。 The server searches for relevant information on the web based on the text information received.

入力として、ステップ4でサーバに到着したテキストデータがある。 The input is the text data that arrived at the server in step 4.

具体的な動作として、サーバはウェブ検索エンジン(例えば、GoogleのAPI)を使用して、「カフェ ABC」に関連するレビュー、メニュー、位置情報などを検索する。 Specifically, the server uses a web search engine (e.g., Google's API) to search for reviews, menus, location information, etc. related to "Cafe ABC."

出力として、検索結果が得られる。 The output is the search results.

ステップ6: Step 6:

サーバが検索結果を端末に送信する。 The server sends the search results to the device.

入力として、ステップ5で得られた検索結果がある。 The input is the search results obtained in step 5.

具体的な動作として、サーバは通信モジュールを使用して、検索結果を端末に送信する。データはJSON形式などの軽量データフォーマットで送信される。 Specifically, the server uses a communications module to send search results to the device. The data is sent in a lightweight data format such as JSON.

出力として、検索結果が端末に到着する。 As output, the search results arrive on the terminal.

ステップ7: Step 7:

端末が取得した検索結果を整理し、ユーザの視界にAR形式で表示する。 The device organizes the search results and displays them in AR format in the user's field of view.

入力として、ステップ6で端末に到着した検索結果がある。 The input is the search results that arrived on the terminal in step 6.

具体的な動作として、端末はスマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューをオーバーレイ表示する。例えば、「カフェ ABC: 評価 4.5 星, 人気メニュー: チーズケーキ」といった内容が表示される。 Specifically, the device will overlay reviews and popular menu items for "Cafe ABC" on the smartglasses' display. For example, it might show something like "Cafe ABC: Rating 4.5 stars, Popular menu item: Cheesecake."

出力として、ユーザの視界に検索結果がAR形式で表示される。 As output, search results are displayed in AR format in the user's field of vision.

ステップ8: Step 8:

端末がユーザの興味データを収集し、サーバに送信する。 The device collects user interest data and sends it to the server.

入力として、ユーザの視線の固定や音声コマンドなどのユーザの行動データがある。 Inputs include user behavior data such as gaze fixation and voice commands.

具体的な動作として、端末はユーザの視線の動きを検出し、特定の情報に視線を向けた場合や、「このメニューが気になる」といった音声コマンドを発した場合、その情報を記録する。これらの興味データはインターネットを通じてサーバに送信される。 Specifically, the device detects the user's eye movements and records information when the user looks at specific information or issues a voice command such as "I'm interested in this menu item." This interest data is sent to a server via the Internet.

出力として、興味データがサーバに到着する。 As output, the interest data arrives at the server.

ステップ9: Step 9:

サーバが収集されたデータを分析し、次回以降の検索結果に反映する。 The server analyzes the collected data and reflects it in future search results.

入力として、ステップ8でサーバに到着した興味データがある。 The input is the interest data that arrived at the server in step 8.

具体的な動作として、サーバは興味データを解析し、ユーザの興味の傾向をモデル化する。このモデルを基に、次回の検索や情報提供の際にパーソナライズされた結果を提供する。 Specifically, the server analyzes interest data and models the user's interest trends. Based on this model, the server provides personalized results the next time the user searches or provides information.

出力として、分析結果が得られ、次回以降の検索結果に反映される。 The analysis results are obtained as output and will be reflected in subsequent search results.

(応用例1) (Application Example 1)

次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain Application Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."

従来の技術では、ユーザが実店舗内で商品情報をリアルタイムに取得する手段が限られており、特定の商品についてのレビューやプロモーション情報を迅速に得ることが困難であった。また、ユーザの興味や関心に応じたパーソナライズされた情報提供も十分に行われていなかった。これにより、ユーザエクスペリエンスが低下し、購入意欲が減退する恐れがあった。 With conventional technology, users had limited means of obtaining real-time product information in physical stores, making it difficult to quickly obtain reviews and promotional information about specific products. Furthermore, there was a lack of provision of personalized information tailored to users' interests. This could result in a poor user experience and a decrease in purchasing motivation.

応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、前記視覚情報をテキスト情報に変換する手段と、前記聴覚情報をテキスト情報に変換する手段と、前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、前記検索された情報を拡張現実(AR)形式で表示する手段と、ユーザの興味に基づいたデータを収集する手段と、前記収集されたデータを分析する手段と、ユーザの歩行中に商品情報やレビューをAR形式でリアルタイムに提供する手段と、を含む。これにより、ユーザは実店舗内で商品情報を迅速かつ直感的に取得でき、パーソナライズされた情報提供により、ショッピング体験が向上することが可能となる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information, means for displaying the searched information in an augmented reality (AR) format, means for collecting data based on the user's interests, means for analyzing the collected data, and means for providing product information and reviews in AR format in real time while the user is walking. This allows users to quickly and intuitively obtain product information in a physical store, and the provision of personalized information can improve the shopping experience.

「外界の視覚情報」とは、ユーザの周囲の環境や対象物の映像情報を指し、主にカメラなどの撮影装置で取得されるものである。 "Visual information from the outside world" refers to image information about the user's surrounding environment and objects, and is primarily obtained using imaging devices such as cameras.

「外界の聴覚情報」とは、ユーザの周囲の音声や音響情報を指し、主にマイクロフォンなどの音響収集装置で取得されるものである。 "External auditory information" refers to the sounds and acoustic information around the user, and is primarily obtained by acoustic collection devices such as microphones.

「視覚情報をテキスト情報に変換する手段」とは、取得した視覚情報を文字や数字などのテキスト形式の情報に変換するための光学文字認識(OCR)技術を用いる手段である。 "Means for converting visual information into text information" refers to means that use optical character recognition (OCR) technology to convert acquired visual information into text-format information such as letters and numbers.

「聴覚情報をテキスト情報に変換する手段」とは、取得した聴覚情報を文字や単語などのテキスト形式の情報に変換するための音声認識技術を用いる手段である。 "Means for converting auditory information into text information" refers to means that use voice recognition technology to convert acquired auditory information into text-format information such as letters or words.

「ウェブ上の関連情報を検索する手段」とは、変換されたテキスト情報を基にインターネット上で適切な情報を探し出すための検索エンジン機能を含む手段である。 "Means for searching for relevant information on the web" refers to means that include a search engine function for finding appropriate information on the Internet based on converted text information.

「拡張現実(AR)形式で表示する手段」とは、現実の映像にデジタル情報を重ね合わせて表示する技術であり、スマートグラスなどのディスプレイ装置を用いる手段である。 "Augmented reality (AR) display" refers to a technology that displays digital information overlaid on real-world images, and is a method that uses display devices such as smart glasses.

「ユーザの興味に基づいたデータを収集する手段」とは、ユーザの視線や音声コマンドなど、ユーザが興味を示した対象に関する情報を集める手段である。 "Means for collecting data based on user interests" refers to means for collecting information about subjects that the user is interested in, such as the user's gaze or voice commands.

「収集されたデータを分析する手段」とは、収集したユーザの興味データを解析し、ユーザの好みや傾向を把握するための手段である。 "Means for analyzing collected data" refers to means for analyzing collected user interest data and understanding user preferences and trends.

「ユーザの歩行中に商品情報やレビューをAR形式でリアルタイムに提供する手段」とは、ユーザが実店舗内で移動しながら視覚装置を通じて商品情報やユーザレビューを拡張現実形式で即時に表示する手段である。 "A means of providing product information and reviews in real time in AR format while the user is walking" refers to a means of instantly displaying product information and user reviews in augmented reality format through a visual device while the user is moving around in a physical store.

「ユーザの視線を検出する手段」とは、ユーザの視線の方向や注視ポイントを検出して追跡するための視線追跡装置や技術を用いる手段である。 "Means for detecting a user's gaze" refers to means that use gaze tracking devices or technology to detect and track the user's gaze direction and gaze point.

「ユーザの音声コマンドを認識する手段」とは、ユーザが発した音声指示を捉え、それを理解して処理するための音声認識システムを用いる手段である。 "Means for recognizing user voice commands" refers to means for using a voice recognition system to capture, understand, and process voice instructions given by the user.

この発明は、ユーザが実店舗内で商品情報やレビューをリアルタイムに取得するためのシステムを提供するものである。具体的には、スマートグラスを用いて外界の視覚情報や聴覚情報を取得し、それを基にテキスト情報を生成し、ウェブ上の関連情報を検索して拡張現実(AR)形式で表示するシステムである。 This invention provides a system that allows users to obtain product information and reviews in real time while in a physical store. Specifically, the system uses smart glasses to obtain visual and auditory information from the outside world, generates text information based on that information, searches for related information on the web, and displays it in augmented reality (AR) format.

システムの構成 System Configuration

このシステムは以下の主要なコンポーネントで構成される: The system consists of the following main components:

ハードウェア Hardware

スマートグラス:カメラ、マイク、ディスプレイ、プロセッサを搭載している。ユーザが装着し、外界の視覚情報や聴覚情報を取得する。 Smart glasses: Equipped with a camera, microphone, display, and processor. Worn by the user, they capture visual and auditory information from the outside world.

クラウドサーバ:大容量のデータ処理とストレージを担当する。 Cloud server: Responsible for large-volume data processing and storage.

ソフトウェア Software

光学文字認識(OCR)技術(例: Tesseract):取得された視覚情報をテキスト形式に変換する。 Optical character recognition (OCR) technology (e.g., Tesseract): converts captured visual information into text.

音声認識技術(例: Google Cloud Speech-to-Text):取得された聴覚情報をテキスト形式に変換する。 Speech recognition technology (e.g., Google Cloud Speech-to-Text): Converts captured auditory information into text format.

ウェブ検索エンジン(例: Elasticsearch):変換されたテキスト情報に基づいてインターネット上の関連情報を検索する。 Web search engines (e.g., Elasticsearch): Search for relevant information on the Internet based on converted text information.

拡張現実(AR)技術(例: ARCore):取得した情報をAR形式でスマートグラスのディスプレイに表示する。 Augmented reality (AR) technology (e.g., ARCore): Displays acquired information in AR format on the smart glasses display.

視線追跡技術:ユーザの視線を検出し、興味を示す対象物を特定する。 Eye tracking technology: Detects where the user is looking and identifies objects of interest.

動作の概要 Operation Overview

1. 視覚情報の取得と変換:スマートグラスのカメラで店舗内の商品や看板をキャプチャし、OCR技術を用いてテキスト情報に変換する。 1. Acquisition and conversion of visual information: The smart glasses' camera captures products and signs in the store and converts them into text information using OCR technology.

2. 聴覚情報の取得と変換:スマートグラスのマイクでユーザの音声コマンドを録音し、音声認識技術を用いてテキスト情報に変換する。 2. Acquisition and conversion of auditory information: The smart glasses' microphone records the user's voice commands and converts them into text using voice recognition technology.

3. 関連情報の検索:変換されたテキスト情報をクラウドサーバに送信し、ウェブ検索エンジンで関連情報を取得する。 3. Search for related information: The converted text information is sent to a cloud server and related information is retrieved using a web search engine.

4. 情報のAR形式で表示:取得した情報をAR形式でスマートグラスのディスプレイにオーバーレイ表示する。 4. Displaying information in AR format: The acquired information is overlaid on the smart glasses display in AR format.

5. 興味データの収集と分析:ユーザの視線や音声コマンドを記録し、クラウドサーバで分析することでユーザの興味や関心を把握し、次回以降の情報提供に活用する。 5. Collection and analysis of interest data: By recording the user's gaze and voice commands and analyzing them on a cloud server, we can understand the user's interests and concerns, and use this information to provide them in future visits.

具体例 Specific examples

例えば、ユーザが店内で特定の商品を探している場合、スマートグラスのカメラがその商品を認識し、「商品名 XYZ」というテキスト情報に変換する。その上で「商品名 XYZ レビュー」というキーワードでウェブ検索を行い、取得したレビュー情報をスマートグラスのディスプレイにAR表示する。さらに、ユーザが「この商品の評価を知りたい」という音声コマンドを発した場合、音声をテキストに変換し、追加のレビュー情報を再検索して表示する。ユーザが特定の情報に視線を向けた場合、その情報を記録し、次回の検索結果に基づくパーソナライズに利用する。 For example, if a user is looking for a specific product in a store, the smart glasses' camera will recognize the product and convert it into text information such as "Product name XYZ." A web search will then be performed using the keywords "Product name XYZ review," and the retrieved review information will be displayed in AR on the smart glasses' display. Furthermore, if the user issues a voice command such as "I want to know the rating of this product," the voice will be converted into text, and additional review information will be searched for and displayed. If the user looks at specific information, that information will be recorded and used to personalize the next search results.

プロンプト文の例 Example prompt

ユーザが店内で特定の商品を探している時、 When a user is searching for a specific product in a store,

スマートグラスのカメラで商品名 XYZ をキャプチャし、 Capture product name XYZ with the smart glasses camera,

カメラ映像から OCR で「商品名 XYZ」をテキスト情報に変換する。 Use OCR to convert "Product Name XYZ" from camera footage into text information.

その上で "商品名 XYZ レビュー" というキーワードでウェブ検索を行い、 Then, do a web search using the keywords "Product Name XYZ Review"

取得したレビュー情報をスマートグラスのディスプレイに AR 表示しなさい。 Display the acquired review information in AR on the smart glasses display.

さらに、ユーザが「この商品の評価を知りたい」という音声コマンドを発した場合、 Furthermore, if the user issues a voice command such as "I want to know the rating of this product,"

音声をテキストに変換し、追加のレビュー情報を再検索して表示しなさい。 Convert speech to text and re-search for additional review information.

ユーザが特定の情報に視線を向けた場合、その情報を記録し、次回の検索結果に基づくパーソナライズに利用しなさい。 When a user looks at specific information, record that information and use it to personalize your next search results.

応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the specific processing in Application Example 1 will be explained using Figure 12.

ステップ1: Step 1:

スマートグラスのカメラが実店舗内の環境をキャプチャする。ここで得られる入力は、ユーザの視界内にある商品の映像である。スマートグラス内のプロセッサは、この映像データをリアルタイムで取得し、視覚情報として処理ユニットに送信する。出力は、キャプチャされた映像データである。 The camera in the smart glasses captures the environment in a physical store. The input is a video of the products in the user's field of view. The processor in the smart glasses captures this video data in real time and sends it to the processing unit as visual information. The output is the captured video data.

ステップ2: Step 2:

スマートグラスのプロセッサは、取得した映像データをOCR技術を用いてテキスト情報に変換する。入力としては、キャプチャされた映像データが使用される。OCR技術(例: Tesseract)により、商品名や看板の文字情報が抽出され、「商品名 XYZ」などのテキスト情報に変換される。出力は、変換されたテキスト情報である。 The processor in the smart glasses converts the captured video data into text information using OCR technology. The captured video data is used as input. OCR technology (e.g., Tesseract) extracts text information from product names and signs and converts it into text information such as "Product Name XYZ." The output is the converted text information.

ステップ3: Step 3:

スマートグラスのマイクは、ユーザが発した音声コマンドを録音する。ここで得られる入力は、ユーザの音声情報である。この音声情報は音声認識技術(例: Google Cloud Speech-to-Text)によってテキスト情報に変換される。例えば、「この商品のレビューを聞きたい」という音声コマンドが「この商品のレビューを聞きたい」というテキストに変換される。出力は、変換された音声のテキスト情報である。 The microphone in the smart glasses records voice commands given by the user. The input obtained here is the user's voice information. This voice information is converted into text information using voice recognition technology (e.g., Google Cloud Speech-to-Text). For example, the voice command "I would like to hear reviews of this product" is converted into text "I would like to hear reviews of this product." The output is the text information of the converted voice.

ステップ4: Step 4:

端末は、変換された視覚情報と聴覚情報をクラウドサーバに送信する。入力としては、OCRおよび音声認識によって変換されたテキスト情報が使用される。クラウドサーバは、受け取ったテキスト情報に基づいてウェブ上の関連情報を検索する。具体的には、ウェブ検索エンジン(例: Elasticsearch)を使用して、「商品名 XYZ レビュー」などの検索クエリを実行し、関連するレビューやメニュー情報を取得する。出力は、検索結果としての関連情報である。 The device sends the converted visual and auditory information to a cloud server. The input is text information converted using OCR and speech recognition. The cloud server searches for related information on the web based on the received text information. Specifically, it uses a web search engine (e.g., Elasticsearch) to execute a search query such as "Product Name XYZ Reviews" to retrieve related reviews and menu information. The output is related information as search results.

ステップ5: Step 5:

クラウドサーバは、取得した関連情報を整理し、スマートグラスに送信する。入力としては、検索によって得られた関連情報が使用される。まず、関連情報を形式化し、スマートグラスのディスプレイに適した形式に変換する。出力は、AR表示用にフォーマットされたデータである。 The cloud server organizes the retrieved relevant information and sends it to the smart glasses. The relevant information obtained through the search is used as input. First, the relevant information is formalized and converted into a format suitable for the smart glasses' display. The output is data formatted for AR display.

ステップ6: Step 6:

スマートグラスのディスプレイは、取得した情報をAR形式でオーバーレイ表示する。ここでの入力は、クラウドサーバから送信されたフォーマット化されたデータである。スマートグラスのディスプレイは、ユーザの視界に商品レビューやメニュー情報を重ね合わせて表示する。出力は、実店舗環境に重ね合わせられたAR表示情報である。 The smart glasses display displays the acquired information in an AR overlay format. The input here is formatted data sent from the cloud server. The smart glasses display overlays product reviews and menu information in the user's field of view. The output is AR display information overlaid on the physical store environment.

ステップ7: Step 7:

スマートグラスの視線追跡機能は、ユーザの視線を検出し、興味を示した情報を記録する。入力としては、視線の方向や視点のデータが使用される。視線追跡技術により、ユーザがどの情報を注視しているかがリアルタイムで解析され、その結果がデータとして記録される。出力は、興味データである。 The eye-tracking function of smart glasses detects the user's gaze and records information that the user shows interest in. The input is data on the direction of gaze and point of view. Eye-tracking technology analyzes in real time what information the user is focusing on, and the results are recorded as data. The output is interest data.

ステップ8: Step 8:

クラウドサーバは、収集されたユーザの興味データを分析する。入力は、視線追跡技術や音声コマンドによって記録された興味データである。サーバはこのデータを解析し、ユーザの好みや傾向を把握する。これにより次回以降の検索や情報提供に活用される。出力は、解析されたユーザの好みや傾向のデータである。 The cloud server analyzes the collected user interest data. The input is interest data recorded using eye-tracking technology and voice commands. The server analyzes this data to understand the user's preferences and trends. This information is used for future searches and information provision. The output is analyzed data on the user's preferences and trends.

なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 It is also possible to further combine an emotion engine that estimates the user's emotion. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.

本発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、AR形式でユーザに表示するシステムに、ユーザの感情を認識する感情エンジンを組み合わせたものである。以下に、その具体的な実施形態について説明する。 This invention combines a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in AR format with an emotion engine that recognizes the user's emotions. Specific embodiments of this system are described below.

まず、端末であるスマートグラスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the device, acquire visual and auditory information from the outside world. Specifically, the camera installed in the smart glasses captures images, and the microphone records audio. This data is sent in real time to a processing unit within the device.

次に、端末は取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報が生成される。 The device then converts the acquired visual information into text using OCR technology. For example, it can recognize a cafe sign and convert it into text such as "Cafe ABC." Similarly, it converts auditory information into text using voice recognition technology. For example, it can recognize the conversation of a passerby and generate text such as "This cafe is delicious."

また、取得された映像および音声データは、端末に搭載された感情エンジンによってユーザの感情を解析する。感情エンジンは機械学習アルゴリズムを使用してユーザの表情や声のトーンから感情を識別する。例えば、ユーザが喜んでいるか、興味を持っているか、あるいは驚いているかといった感情を認識する。 The captured video and audio data is then analyzed by the device's built-in emotion engine to determine the user's emotions. The emotion engine uses machine learning algorithms to identify emotions from the user's facial expressions and tone of voice. For example, it can recognize whether the user is happy, interested, or surprised.

変換されたテキスト情報と認識された感情データは、端末からサーバに送信される。サーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「カフェ ABC」というキーワードを基にレビューやメニュー、場所の詳細をGoogleなどの検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent from the device to the server. The server then searches for related information on the web based on the received text information. For example, based on the keyword "cafe ABC," reviews, menus, and location details can be retrieved using a search engine such as Google. Furthermore, by taking emotion data into consideration, it is possible to prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報をAR形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは街中を歩いている最中でも、スマートグラスを通じてリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in AR format. For example, reviews and popular menu items for "Cafe ABC" are overlaid on the smartglasses display. This allows users to access relevant information in real time through their smartglasses even while walking around town.

さらに、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。例えば、ユーザが特定の情報をじっと見つめたり、「このケーキが気になる」といった発言をすると、端末はそれを記録する。また、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 The device also collects interest data based on the user's gaze and voice commands. For example, if a user stares intently at a particular piece of information or says something like "I'm interested in this cake," the device will record it. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはサーバに送信され、分析される。サーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to the server for analysis. The server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if the user shows a strong interest in cafes, information about cafes can be displayed preferentially from the next time onwards.

具体例として、ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はサーバに送信され、サーバは「カフェ XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートグラスのディスプレイにAR形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 As a specific example, if a user is walking down the street and spots a sign for "Cafe XYZ," the camera on the smart glasses will recognize the sign and convert it into text information as "Cafe XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the cake at this cafe," speech recognition technology will convert the statement into text. At the same time, the emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to the server, which will search for detailed information about "Cafe XYZ" and prioritize information that is likely to interest the user. This information is sent to the device and displayed in AR format on the smart glasses' display. The user can then check reviews and photos of the cake on the spot.

このような形態により、ユーザのリアルタイムな情報取得および提供が可能となり、ユーザエクスペリエンスを大幅に向上させることができる。また、感情データを活用することで、さらにパーソナライズされた情報提供が実現される。 This type of service allows users to obtain and provide information in real time, significantly improving the user experience. Furthermore, by utilizing emotional data, even more personalized information can be provided.

以下に、処理の流れについて説明する。 The processing flow is explained below.

ステップ1: Step 1:

端末が外界の視覚情報および聴覚情報を取得する。具体的には、スマートグラスに搭載されているカメラで映像をキャプチャし、マイクで音声を録音する。これらのデータはリアルタイムで端末内のメモリに保存される。 The device acquires visual and auditory information from the outside world. Specifically, the smart glasses' built-in camera captures video and the microphone records audio. This data is stored in the device's memory in real time.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換する。例えば、「カフェ XYZ」という看板をキャプチャした場合、画像データを解析し「カフェ XYZ」というテキストデータを生成する。同様に、取得した聴覚情報を音声認識技術を用いてテキスト情報に変換する。例えば、「このカフェは美味しい」という会話をテキスト形式に変換する。 Visual information acquired by the device is converted into text information using OCR technology. For example, if a sign that reads "Cafe XYZ" is captured, the image data is analyzed and the text data "Cafe XYZ" is generated. Similarly, auditory information acquired is converted into text information using voice recognition technology. For example, a conversation such as "This cafe is delicious" is converted into text format.

ステップ3: Step 3:

端末が感情エンジンを使って視覚情報および聴覚情報からユーザの感情を識別する。機械学習アルゴリズムを用いてユーザの表情や声のトーンを解析し、喜び、興味、驚きなどの感情を認識する。例えば、ユーザがカフェの看板を見て微笑んでいる場合、その喜びの感情を識別する。 The device uses an emotion engine to identify the user's emotions from visual and auditory information. It uses machine learning algorithms to analyze the user's facial expressions and tone of voice to recognize emotions such as joy, interest, and surprise. For example, if the user smiles at a cafe sign, the device will identify the emotion of joy.

ステップ4: Step 4:

端末が変換されたテキスト情報および識別された感情データをサーバに送信する。データはインターネット経由でサーバにアップロードされる。 The device sends the converted text information and identified emotion data to the server, which then uploads the data to the server via the Internet.

ステップ5: Step 5:

サーバが受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「カフェ XYZ」というキーワードを使ってGoogle検索を行い、そのカフェのレビューやメニュー情報を取得する。 The server searches for related information on the web based on the text information it receives. For example, you can perform a Google search using the keyword "cafe XYZ" to retrieve reviews and menu information for that cafe.

ステップ6: Step 6:

サーバが取得した検索結果を整理し、関連性の高い情報を選別する。感情データを考慮して、ユーザが興味を示しやすい情報を優先的に選ぶ。例えば、ユーザが喜びの感情を示している場合、そのカフェのポジティブなレビューを優先表示する。 The server organizes the search results and selects the most relevant information. It takes into account emotional data and prioritizes information that is likely to interest the user. For example, if the user is expressing happiness, it will prioritize positive reviews of that cafe.

ステップ7: Step 7:

サーバが整理された情報を端末に送信する。選別されたデータはインターネット経由で端末に転送される。 The server sends the organized information to the device. The selected data is then transferred to the device via the Internet.

ステップ8: Step 8:

端末が受信した情報をAR形式で表示する。スマートグラスのディスプレイに、「カフェ XYZ」のレビューや人気メニューがオーバーレイ表示されるように設定する。 The information received by the device is displayed in AR format. Set it up so that reviews and popular menu items from "Cafe XYZ" are overlaid on the smart glasses display.

ステップ9: Step 9:

ユーザが視線や音声コマンドで特定の情報に興味を示す場合、そのデータを端末が記録する。例えば、ユーザが特定のレビューを見つめたり、「このケーキが気になる」と言った場合、その情報を記録する。 If a user shows interest in specific information through their gaze or voice command, the device will record that data. For example, if a user looks at a particular review or says, "I'm interested in this cake," that information will be recorded.

ステップ10: Step 10:

端末が収集された興味データと感情データをサーバに送信する。データはリアルタイムでインターネット経由で送信される。 The device sends the collected interest and emotion data to a server. The data is transmitted in real time via the Internet.

ステップ11: Step 11:

サーバが収集されたデータを分析し、ユーザの興味の傾向および感情のパターンを把握する。この分析結果を基に、次回以降の情報提供に反映し、ユーザに最適な情報を提供する。例えば、次回以降の検索結果にはユーザが好むカフェの情報を優先的に表示する。 The server analyzes the collected data to understand the user's interest trends and emotional patterns. Based on the results of this analysis, the server reflects this in future information provision, providing the user with the most appropriate information. For example, from the next search result onwards, information about the user's favourite cafes will be displayed first.

(実施例2) (Example 2)

次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, Example 2 will be described. In the following description, the data processing device 12 will be referred to as a "server" and the robot 414 will be referred to as a "terminal."

現代社会において、ユーザがリアルタイムに情報を取得し、迅速に意思決定を行う必要性が高まっている。しかし、現行の技術では、視覚情報および聴覚情報に基づいたリアルタイムな情報提供が十分に行われず、ユーザの使用体験が制限される問題がある。特に、ユーザの感情や興味を考慮したパーソナライズされた情報提供が不足しているため、情報収集の効率性とユーザ満足度が低下する。このため、外界の視覚情報および聴覚情報をリアルタイムで取得し、ユーザの感情や興味を反映した情報提供を行うシステムが求められている。 In modern society, there is an increasing need for users to obtain information in real time and make quick decisions. However, current technology does not adequately provide real-time information based on visual and auditory information, limiting the user experience. In particular, there is a lack of personalized information provision that takes into account the user's emotions and interests, which reduces the efficiency of information gathering and user satisfaction. For this reason, there is a demand for a system that can obtain visual and auditory information from the outside world in real time and provide information that reflects the user's emotions and interests.

実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.

この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、視覚情報をテキスト情報に変換する手段と、聴覚情報をテキスト情報に変換する手段と、変換されたテキスト情報及び感情データに基づいてウェブ上の関連情報を検索する手段と、検索された情報を拡張現実形式で表示する手段と、ユーザの感情を認識する手段と、ユーザの興味に基づいたデータを収集する手段と、収集されたデータ及び感情データを分析する手段と、を含む。これにより、ユーザはリアルタイムで自身の感情や興味に基づいたパーソナライズされた情報を効率的に取得することが可能となる。 In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, means for converting the visual information into text information, means for converting the auditory information into text information, means for searching for related information on the web based on the converted text information and emotional data, means for displaying the searched information in an augmented reality format, means for recognizing the user's emotions, means for collecting data based on the user's interests, and means for analyzing the collected data and emotional data. This enables users to efficiently obtain personalized information based on their emotions and interests in real time.

「視覚情報」とは、外界の環境から取得される映像や画像のデータである。 "Visual information" refers to video and image data obtained from the external environment.

「聴覚情報」とは、外界の環境から取得される音声や音響のデータである。 "Auditory information" refers to sound and acoustic data obtained from the external environment.

「テキスト情報」とは、視覚情報および聴覚情報を解析・変換して得られる文字列データである。 "Text information" is character string data obtained by analyzing and converting visual and auditory information.

「感情データ」とは、ユーザの感情状態を解析した結果得られるデータである。 "Emotional data" is data obtained as a result of analyzing the user's emotional state.

「ウェブ上の関連情報」とは、インターネットを利用して検索され、ユーザの要求やコンテキストに関連する情報である。 "Relevant information on the web" is information that is searched using the Internet and is relevant to the user's requirements and context.

「拡張現実形式」とは、現実世界の視覚情報にデジタル情報を重ね合わせて表示する技術である。 "Augmented reality" is a technology that displays digital information overlaid on visual information from the real world.

「ユーザの感情を認識する手段」とは、映像や音声データを解析し、ユーザの感情を識別するアルゴリズムである。 "Means for recognizing user emotions" refers to an algorithm that analyzes video and audio data and identifies the user's emotions.

「ユーザの興味に基づいたデータ」とは、ユーザの視線や音声コマンドなどの入力情報を解析し、ユーザの関心を示すデータである。 "Data based on user interests" is data that indicates a user's interests by analyzing input information such as the user's gaze and voice commands.

「収集されたデータ及び感情データを分析する手段」とは、ユーザの興味や感情に基づいて収集されたデータを解析し、次回の情報提供に利用するアルゴリズムである。 "Means for analyzing collected data and emotional data" refers to an algorithm that analyzes collected data based on the user's interests and emotions and uses it to provide information the next time.

この発明は、外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基にウェブ上の関連情報を検索し、拡張現実形式でユーザに表示するシステムに、ユーザの感情を認識する感情エンジンを組み合わせたものである。 This invention combines a system that acquires visual and auditory information from the outside world in real time, searches for related information on the web based on that information, and displays it to the user in augmented reality format with an emotion engine that recognizes the user's emotions.

まず、端末であるスマートグラスが、カメラを用いて外界の視覚情報を取得し、マイクを用いて外界の聴覚情報を取得する。この時点で取得された映像データと音声データはリアルタイムで端末内の処理ユニットに送信される。 First, the smart glasses, which serve as the terminal, use a camera to acquire visual information from the outside world and a microphone to acquire auditory information from the outside world. The video and audio data acquired at this point is sent in real time to a processing unit within the terminal.

次に、端末は視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、カフェの看板を認識して「カフェ ABC」というテキスト情報に変換する。同様に、聴覚情報は音声認識技術を用いてテキスト情報に変換される。例えば、通行人の会話を認識して「このカフェは美味しい」といったテキスト情報に変換する。 The device then converts the visual information into text using OCR technology. For example, it recognizes a cafe sign and converts it into text such as "Cafe ABC." Similarly, it converts auditory information into text using voice recognition technology. For example, it recognizes the conversation of a passerby and converts it into text such as "This cafe is delicious."

また、端末は取得された映像および音声データを用いて、感情エンジンによってユーザの感情を解析する。これにより、ユーザが喜んでいるか、興味を持っているか、あるいは驚いているかといった感情を識別することができる。感情エンジンは機械学習アルゴリズムを使用して、表情や声のトーンから感情を認識する。 The device also uses the captured video and audio data to analyze the user's emotions using an emotion engine, which can identify emotions such as whether the user is happy, interested, or surprised. The emotion engine uses machine learning algorithms to recognize emotions from facial expressions and tone of voice.

変換されたテキスト情報と認識された感情データはサーバに送信される。サーバは受け取ったテキスト情報を基に、ウェブ上の関連情報を検索する。例えば、「カフェ ABC」というキーワードを基にレビューやメニュー、場所の詳細を検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent to the server. The server uses the received text information to search for related information on the web. For example, based on the keyword "cafe ABC," it can use a search engine to retrieve reviews, menus, and location details. Furthermore, by taking emotion data into consideration, it can prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報を拡張現実(AR)形式で表示する。例えば、スマートグラスのディスプレイに「カフェ ABC」のレビューや人気メニューが現実の景色にオーバーレイ表示される。これにより、ユーザはリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in augmented reality (AR) format. For example, reviews and popular menu items for "Cafe ABC" may be overlaid on the real-world view on the smart glasses display, allowing users to obtain relevant information in real time.

さらに、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。ユーザが特定の情報をじっと見つめたり、「このケーキが気になる」といった発言をすると、端末はそれを記録する。また、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 In addition, the device also collects interest data based on the user's gaze and voice commands. If the user stares intently at a particular piece of information or says something like "I'm interested in this cake," the device records it. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはサーバに送信され、サーバはそれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to the server, which uses this data to understand the user's interest trends and reflect them in the next information provided. For example, if the user shows a strong interest in cafes, information about cafes can be displayed preferentially from the next time onwards.

詳細な具体例 Detailed examples

ユーザが街を歩いていて「カフェ XYZ」という看板を見つけた場合、スマートグラスのカメラがその看板を認識し、OCR技術で「カフェ XYZ」とテキスト情報に変換する。さらに、ユーザが「このカフェのケーキが気になる」と言った場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はサーバに送信され、サーバは「カフェ XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートグラスのディスプレイに拡張現実(AR)形式で表示される。ユーザはケーキのレビューや写真をその場で確認することができる。 If a user is walking down the street and spots a sign for "Cafe XYZ," the camera on the smart glasses will recognize the sign and convert it into text using OCR technology: "Cafe XYZ." Furthermore, if the user says, "I'm interested in the cakes at this cafe," the speech recognition technology will convert the statement into text. At the same time, the emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to the server, which searches for detailed information about "Cafe XYZ" and prioritizes information that is likely to interest the user. This information is then sent to the device and displayed in augmented reality (AR) on the smart glasses' display. Users can then instantly check reviews and photos of the cakes.

プロンプト文の例: Example prompt:

「ユーザがカフェに関する情報を探している場合に、スマートグラスが視覚および聴覚データを取得し、感情エンジンでユーザの感情を分析し、AR形式で情報を表示するシステムの詳細な処理フローを説明してください。」 "When a user searches for information about a cafe, please explain the detailed processing flow of the system in which smart glasses acquire visual and auditory data, analyze the user's emotions using an emotion engine, and display information in AR format."

実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.

ステップ1: Step 1:

端末であるスマートグラスが外界の視覚情報および聴覚情報を取得する。 The smart glasses that serve as the device collect visual and auditory information from the outside world.

入力:外界の映像データおよび音声データ。 Input: Video and audio data from the outside world.

処理:スマートグラスのカメラで映像をキャプチャし、マイクで音声を録音する。 Processing: The smart glasses' camera captures video and the microphone records audio.

出力:キャプチャされた映像データと録音された音声データ。 Output: Captured video data and recorded audio data.

具体的な動作:ユーザが街を歩いているときにスマートグラスが建物や看板を撮影し、周囲の会話や環境音を録音する。 Specific operation: As the user walks around town, the smart glasses take photos of buildings and signs, and record surrounding conversations and environmental sounds.

ステップ2: Step 2:

端末が取得した視覚情報をOCR技術を使用してテキスト情報に変換し、聴覚情報を音声認識技術でテキスト化する。 Visual information acquired by the device is converted into text information using OCR technology, and auditory information is converted into text using voice recognition technology.

入力:映像データおよび音声データ。 Input: Video and audio data.

処理:OCR技術を使用して映像データから文字列を抽出し、音声認識技術を使用して音声データを文字列に変換する。 Processing: Use OCR technology to extract text from video data, and use voice recognition technology to convert audio data into text.

出力:テキスト情報。 Output: Text information.

具体的な動作:スマートグラスが「カフェ XYZ」という看板をキャプチャし、それを「カフェ XYZ」というテキスト情報に変換する。同様に、通行人の会話「このカフェのケーキが美味しい」を音声認識してテキスト化する。 Specific operation: The smart glasses capture a sign that reads "Cafe XYZ" and convert it into text information: "Cafe XYZ." Similarly, they recognize the speech of a passerby, "The cake at this cafe is delicious," and convert it into text.

ステップ3: Step 3:

端末が映像および音声データを用いて感情エンジンでユーザの感情を解析する。 The device uses video and audio data to analyze the user's emotions using an emotion engine.

入力:映像データおよび音声データ。 Input: Video and audio data.

処理:機械学習アルゴリズムを使用して映像データから顔の表情を解析し、音声データから声のトーンを解析して感情を識別する。 Processing: Machine learning algorithms are used to analyze facial expressions from video data and tone of voice from audio data to identify emotions.

出力:感情データ。 Output: Emotion data.

具体的な動作:ユーザがカフェの看板を見るときの顔の表情や音声のトーンを分析し、ユーザが興味を示しているか、喜んでいるかを判断する。 Specific behavior: Analyzes the user's facial expression and tone of voice when they look at a cafe sign to determine whether they are interested or pleased.

ステップ4: Step 4:

端末が変換されたテキスト情報および感情データをサーバに送信する。 The device sends the converted text information and emotion data to the server.

入力:テキスト情報および感情データ。 Input: Text information and emotion data.

処理:データをパケットにまとめ、サーバに送信する。 Processing: Packetize the data and send it to the server.

出力:サーバに送信されたデータ。 Output: Data sent to the server.

具体的な動作:端末が「カフェ XYZ」というテキスト情報と「興味」を示す感情データをサーバに送信する。 Specific operation: The device sends the text information "Cafe XYZ" and emotion data indicating "interest" to the server.

ステップ5: Step 5:

サーバが受け取ったテキスト情報と感情データを基にウェブ上の関連情報を検索する。 The server searches for relevant information on the web based on the text information and emotion data received.

入力:テキスト情報および感情データ。 Input: Text information and emotion data.

処理:検索エンジンを使用して関連情報を検索し、感情データを考慮してユーザが興味を示しやすい情報を優先的に取得する。 Processing: Use a search engine to search for relevant information and prioritize information that is likely to interest the user, taking into account emotional data.

出力:関連情報の検索結果。 Output: Search results for related information.

具体的な動作:サーバが「カフェ XYZ」に関するレビューやメニュー情報を検索し、ユーザが興味を示しやすい情報を選定する。 Specific operation: The server searches for reviews and menu information about "Cafe XYZ" and selects information that is likely to interest the user.

ステップ6: Step 6:

サーバが検索結果を再び端末に送信する。 The server will send the search results back to the device.

入力:関連情報の検索結果。 Input: Search results for related information.

処理:検索結果をパケットにまとめ、端末に送信する。 Processing: The search results are compiled into packets and sent to the terminal.

出力:端末に送信されたデータ。 Output: Data sent to the terminal.

具体的な動作:サーバが「カフェ XYZ」のレビューや人気メニューなどのデータを端末に送信する。 Specific operation: The server sends data such as reviews and popular menu items for "Cafe XYZ" to the device.

ステップ7: Step 7:

端末が取得した情報を拡張現実(AR)形式でユーザに表示する。 The information acquired by the device is displayed to the user in augmented reality (AR) format.

入力:関連情報の検索結果。 Input: Search results for related information.

処理:拡張現実(AR)技術を使用して現実の景色にデジタル情報を重ね合わせて表示する。 Processing: Using augmented reality (AR) technology, digital information is overlaid on real-world scenes.

出力:AR形式で表示された情報。 Output: Information displayed in AR format.

具体的な動作:スマートグラスのディスプレイに、「カフェ XYZ」のレビューやケーキの写真が現実の景色にオーバーレイ表示される。 Specific operation: Reviews of Cafe XYZ and photos of cakes are overlaid on the real world on the smart glasses display.

ステップ8: Step 8:

端末がユーザの視線や音声コマンドに基づいた興味データを収集する。 The device collects interest data based on the user's gaze and voice commands.

入力:ユーザの視線データおよび音声コマンド。 Input: User gaze data and voice commands.

処理:視線検出センサーを使用してユーザがどこを見ているかを検出し、音声コマンドを音声認識技術で解析する。 Processing: Uses an eye gaze sensor to detect where the user is looking, and analyzes voice commands using voice recognition technology.

出力:興味データ。 Output: Interest data.

具体的な動作:ユーザがケーキの写真を長時間見つめたり、「このケーキが気になる」と言った場合、端末がそのデータを収集する。 Specific behavior: If a user stares at a photo of a cake for a long time or says, "I'm interested in this cake," the device will collect that data.

ステップ9: Step 9:

端末が収集した興味データおよび感情データをサーバに送信し、サーバがそれを解析する。 The device sends the collected interest and emotion data to the server, which analyzes it.

入力:興味データおよび感情データ。 Input: Interest data and emotion data.

処理:データをパケットにまとめ、サーバに送信し、サーバが機械学習アルゴリズムを使用して解析する。 Processing: The data is packaged into packets and sent to a server, where it is analyzed using machine learning algorithms.

出力:解析結果。 Output: Analysis results.

具体的な動作:収集されたデータをサーバに送信し、サーバがそれを解析してユーザの興味の傾向を把握する。 Specific operations: The collected data is sent to a server, which analyzes it to understand trends in user interests.

ステップ10: Step 10:

サーバが解析結果を基に次回以降の情報提供に反映させる。 The server will use the analysis results to provide information from the next time onwards.

入力:解析結果。 Input: Analysis results.

処理:解析結果をデータベースに記録し、次回の情報提供に使用する。 Processing: The analysis results will be recorded in a database and used for the next information provision.

出力:次回の情報提供の準備。 Output: Preparing for next information submission.

具体的な動作:ユーザがカフェに対して強い興味を示している場合、次回以降はカフェに関する情報を優先的に表示する準備をする。 Specific behavior: If the user shows a strong interest in the cafe, prepare to prioritize displaying information about the cafe from the next time onwards.

(応用例2) (Application Example 2)

次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain Application Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."

自動運転車両において、乗客やドライバーは外界の情報を効果的に把握し、特定の情報をリアルタイムで取得する手段が限られている。また、利用者の感情や興味を反映した情報提供が不足しているため、ユーザエクスペリエンスが十分に向上しないという課題がある。 In autonomous vehicles, passengers and drivers have limited means to effectively grasp information about the outside world and obtain specific information in real time. Furthermore, there is a lack of information provided that reflects the user's emotions and interests, which presents a challenge in terms of the user experience not being sufficiently improved.

応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。この発明では、サーバは、外界の視覚情報を取得する手段と、外界の聴覚情報を取得する手段と、視覚情報をテキスト情報に変換する手段と、を含む。これにより、リアルタイムで視覚および聴覚情報を基に関連情報を取得し、ユーザの感情や興味を反映したパーソナライズされた情報提供が可能となる。 The specific processing by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means. In this invention, the server includes means for acquiring visual information from the outside world, means for acquiring auditory information from the outside world, and means for converting the visual information into text information. This makes it possible to acquire related information based on visual and auditory information in real time and provide personalized information that reflects the user's emotions and interests.

「外界の視覚情報」とは、スマートデバイスに搭載されたカメラやセンサーを用いて取得される、周囲の映像や画像データのことである。 "Visual information from the outside world" refers to video and image data of the surroundings acquired using cameras and sensors installed on smart devices.

「外界の聴覚情報」とは、スマートデバイスに搭載されたマイクを用いて取得される、周囲の音声や音データのことである。 "External auditory information" refers to surrounding voice and sound data acquired using a microphone installed on a smart device.

「視覚情報をテキスト情報に変換する手段」とは、映像や画像データを文字情報に変換するための光学的文字認識(OCR)技術を指す。 "Means for converting visual information into text information" refers to optical character recognition (OCR) technology for converting video and image data into text information.

「聴覚情報をテキスト情報に変換する手段」とは、音声データを文字情報に変換するための音声認識技術を指す。 "Means for converting auditory information into text information" refers to speech recognition technology for converting voice data into text information.

「ウェブ上の関連情報を検索する手段」とは、サーバや検索エンジンを用いてインターネット上の情報を検索し、必要なデータを取得する機能を指す。 "Means for searching for related information on the web" refers to the function of searching for information on the Internet using a server or search engine and obtaining the necessary data.

「拡張現実(AR)形式で表示する手段」とは、取得した情報を現実の映像に重ね合わせる形で表示するための技術を指す。 "Means of displaying in augmented reality (AR) format" refers to technology for displaying acquired information by overlaying it on real-world images.

「ユーザの興味に基づいたデータを収集する手段」とは、ユーザの視線や音声コマンドなどから興味を推定し、それに関連するデータを集める機能を指す。 "Means for collecting data based on user interests" refers to a function that infers a user's interests from their gaze, voice commands, etc., and collects data related to those interests.

「収集されたデータを分析する手段」とは、収集したデータを解析し、ユーザの興味や行動パターンを理解するためのアルゴリズムや手法を指す。 "Means for analyzing collected data" refers to algorithms and methods for analyzing collected data and understanding user interests and behavioral patterns.

「ユーザの感情を解析する手段」とは、ユーザの表情や音声トーンを解析し、感情状態を判断するための機械学習アルゴリズムを指す。 "Means for analyzing user emotions" refers to machine learning algorithms that analyze a user's facial expressions and tone of voice to determine their emotional state.

「自動運転車両に搭載されるスマートデバイス」とは、自動運転車内で使用される、カメラやマイク、ディスプレイなどの機能を持つ電子機器を指す。 "Smart devices installed in self-driving vehicles" refers to electronic devices with functions such as cameras, microphones, and displays that are used inside self-driving vehicles.

本発明は、自動運転車両におけるユーザ体験を向上させるためのシステムであり、スマートデバイスを用いて外界の視覚情報および聴覚情報をリアルタイムで取得し、それを基に関連情報を検索・表示するものである。また、ユーザの感情を解析し、興味に基づいた情報提供を行うことが特徴である。 This invention is a system for improving the user experience in autonomous vehicles. It uses smart devices to acquire visual and auditory information from the outside world in real time, and uses this information to search for and display relevant information. It also features the ability to analyze the user's emotions and provide information based on their interests.

まず、端末であるスマートデバイスが外界の視覚情報と聴覚情報を取得する。具体的には、スマートデバイスに搭載されているカメラが映像をキャプチャし、マイクが音声を録音する。これらのデータはリアルタイムで端末内の処理ユニットに送信される。 First, the smart device, which serves as the terminal, acquires visual and auditory information from the outside world. Specifically, the camera installed on the smart device captures video and the microphone records audio. This data is sent in real time to a processing unit within the terminal.

次に、端末は取得した視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、自動運転車両が街中を走行中にレストランの看板を認識した場合、「レストラン ABC」というテキスト情報に変換される。同様に聴覚情報も音声認識技術を使用してテキスト情報に変換される。例えば、乗客が「このレストランのメニューが気になる」と言った場合、それがテキスト情報として記録される。 The device then converts the acquired visual information into text using OCR technology. For example, if an autonomous vehicle recognizes a restaurant sign while driving through town, it will convert it into text such as "Restaurant ABC." Similarly, auditory information is converted into text using voice recognition technology. For example, if a passenger says, "I'm interested in the menu at this restaurant," this will be recorded as text.

さらに、取得された映像および音声データは、端末に搭載された感情エンジンによってユーザの感情を解析する。感情エンジンは機械学習アルゴリズムを使用して、ユーザの表情や声のトーンから感情を識別する。例えば、ユーザが興味を持っているか、喜んでいるか、驚いているかといった感情を認識できる。 Furthermore, the captured video and audio data is analyzed for the user's emotions by the device's built-in emotion engine. The emotion engine uses machine learning algorithms to identify emotions from the user's facial expressions and tone of voice. For example, it can recognize whether the user is interested, happy, or surprised.

変換されたテキスト情報と認識された感情データは、端末からクラウドサーバに送信される。クラウドサーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「レストラン ABC」というキーワードを基に、レビューやメニュー、場所の詳細を検索エンジンを用いて取得する。さらに、感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得することができる。 The converted text information and recognized emotion data are sent from the device to a cloud server. The cloud server then searches for related information on the web based on the received text information. For example, based on the keyword "restaurant ABC," reviews, menus, and location details can be retrieved using a search engine. Furthermore, by taking emotion data into consideration, it is possible to prioritize retrieving information that is likely to interest the user.

検索結果は再び端末に送信され、端末は取得した情報をAR形式で表示する。例えば、スマートデバイスのディスプレイに「レストラン ABC」のレビューや人気メニューがオーバーレイ表示される。これにより、ユーザは移動中でもリアルタイムで関連情報を得ることができる。 The search results are then sent back to the device, which then displays the retrieved information in AR format. For example, reviews and popular menu items for "Restaurant ABC" are overlaid on the smart device's display. This allows users to access relevant information in real time even while on the move.

また、端末はユーザの視線や音声コマンドに基づいた興味データも収集する。例えば、ユーザが特定の情報をじっと見つめたり、「この料理が美味しそう」といった発言をする場合、そのデータを記録する。そして、感情エンジンによって認識された感情データと組み合わせることで、より詳細な興味解析が可能となる。 The device also collects interest data based on the user's gaze and voice commands. For example, if a user stares intently at a particular piece of information or says something like "this dish looks delicious," that data is recorded. By combining this with emotional data recognized by the emotion engine, more detailed interest analysis becomes possible.

収集された興味データおよび感情データはクラウドサーバに送信され、分析される。クラウドサーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、ユーザがレストランに対して強い興味を示している場合、次回以降はレストランに関する情報を優先的に表示することができる。 The collected interest and emotion data is sent to a cloud server for analysis. The cloud server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if the user shows a strong interest in restaurants, information about restaurants can be displayed preferentially from the next time onwards.

具体例として As a concrete example

具体的な実施例として、ユーザが街を走行中に「レストラン XYZ」という看板を見つけた場合、スマートデバイスのカメラがその看板を認識し、OCR技術で「レストラン XYZ」とテキスト情報に変換する。さらに、ユーザが「このレストランのメニューが気になる」と発言した場合、音声認識技術でその発言をテキスト化する。同時に、感情エンジンがユーザの興味深そうな表情や声のトーンからポジティブな感情を認識する。これらの情報はクラウドサーバに送信され、サーバは「レストラン XYZ」に関する詳しい情報を検索し、ユーザが興味を示しやすい情報を優先的に取得する。その情報は端末に送信され、スマートデバイスのディスプレイにAR形式で表示される。ユーザはメニューのレビューや写真をその場で確認することができる。 As a specific example, if a user spots a sign for "Restaurant XYZ" while driving around town, the camera on the smart device will recognize the sign and convert it into text information as "Restaurant XYZ" using OCR technology. Furthermore, if the user says, "I'm interested in the menu at this restaurant," speech recognition technology will convert this statement into text. At the same time, an emotion engine will recognize positive emotions from the user's interested facial expression and tone of voice. This information is sent to a cloud server, which then searches for detailed information about "Restaurant XYZ" and prioritizes information that is likely to interest the user. This information is then sent to the device and displayed in AR format on the smart device's display. The user can then check reviews and photos of the menu on the spot.

プロンプト文の例 Example prompt

プロンプト文の一例を以下に示す。 An example of a prompt is shown below.

"ユーザがレストランの看板を見つけたときにスマートデバイスがその情報を識別し、テキスト化して、ユーザの感情に基づいてそのレストランのレビューやメニュー情報を優先的に表示します。たとえば、ユーザが「このレストランのメニューが気になる」と言った場合、その音声をテキスト化し、リアルタイムで関連情報を取得して表示します。" "When a user finds a restaurant sign, the smart device identifies the information, converts it into text, and prioritizes displaying reviews and menu information for that restaurant based on the user's sentiment. For example, if a user says, 'I'm interested in the menu at this restaurant,' the device converts that speech into text and retrieves and displays relevant information in real time."

応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.

ステップ1: Step 1:

端末であるスマートデバイスが外界の視覚情報と聴覚情報を取得する。ユーザが街を移動中に、カメラが周囲の映像をキャプチャし、マイクが周囲の音声を記録する。これらのデータはリアルタイムで処理ユニットに送信される。入力はカメラ映像データおよび音声データであり、出力は処理ユニットに送信される未処理データである。 The terminal, a smart device, acquires visual and auditory information from the outside world. As the user moves around town, the camera captures video of the surroundings and the microphone records audio from the surroundings. This data is sent to a processing unit in real time. The input is camera video data and audio data, and the output is raw data sent to the processing unit.

ステップ2: Step 2:

端末は取得した視覚情報をOCR技術を用いてテキスト情報に変換する。例えば、スマートデバイスのカメラがレストランの看板を捉えた場合、その映像データをテキスト化し、「レストラン XYZ」という文字情報を生成する。入力は映像データであり、出力はテキストデータである。 The device converts the acquired visual information into text using OCR technology. For example, if a smart device's camera captures a restaurant sign, the video data is converted into text, generating the text information "Restaurant XYZ." The input is video data, and the output is text data.

ステップ3: Step 3:

端末は取得した音声情報を音声認識技術を用いてテキスト情報に変換する。例えば、ユーザが「このレストランのメニューが気になる」と発言した場合、その音声データをテキスト情報に変換し、関連情報を生成する。入力は音声データであり、出力はテキストデータである。 The device uses voice recognition technology to convert the acquired voice information into text information. For example, if a user says, "I'm interested in the menu at this restaurant," the voice data is converted into text information and related information is generated. The input is voice data, and the output is text data.

ステップ4: Step 4:

端末は取得された映像および音声データを感情エンジンによってユーザの感情を解析する。例えば、ユーザの表情や声のトーンから「興味深い」という感情認識を行う。入力は映像データと音声データであり、出力は感情データである。 The device uses an emotion engine to analyze the user's emotions from the captured video and audio data. For example, it can recognize the emotion "interesting" from the user's facial expression and tone of voice. The input is video and audio data, and the output is emotional data.

ステップ5: Step 5:

変換されたテキスト情報と認識された感情データは端末からクラウドサーバに送信される。サーバは受け取ったテキスト情報を基にウェブ上の関連情報を検索する。例えば、「レストラン XYZ」というキーワードに基づき、レビューやメニュー情報を取得する。入力はテキストデータと感情データであり、出力は関連情報データである。 The converted text information and recognized emotion data are sent from the device to a cloud server. The server searches for related information on the web based on the received text information. For example, based on the keyword "restaurant XYZ," it retrieves reviews and menu information. The input is text data and emotion data, and the output is related information data.

ステップ6: Step 6:

クラウドサーバは感情データを考慮して、ユーザが興味を示しやすい情報を優先的に取得し、その結果を再び端末に送信する。例えば、ポジティブな感情を示している場合、レストランのレビューの中でも高評価なものを優先的に送信する。入力はテキストデータと感情データであり、出力は関連情報データである。 The cloud server takes emotional data into consideration and prioritizes obtaining information that is likely to interest the user, and then sends the results back to the device. For example, if the user is expressing positive emotions, it will prioritize sending highly rated restaurant reviews. The input is text data and emotional data, and the output is related information data.

ステップ7: Step 7:

端末は取得した情報をAR形式で表示する。例えば、スマートデバイスのディスプレイに「レストラン XYZ」のレビューや人気メニューがオーバーレイ表示され、ユーザはそれを見ることができる。入力は関連情報データであり、出力は表示されるARデータである。 The device displays the acquired information in AR format. For example, reviews and popular menu items for "Restaurant XYZ" are overlaid on the smart device's display, allowing the user to view them. The input is related information data, and the output is the displayed AR data.

ステップ8: Step 8:

端末は引き続きユーザの視線や音声コマンドに基づいた興味データを収集する。例えば、ユーザが特定の情報をじっと見つめたり「この料理が気になる」と発言する場合、そのデータを記録する。入力は視線データおよび音声データであり、出力は興味データである。 The device continues to collect interest data based on the user's gaze and voice commands. For example, if the user stares at a particular piece of information or says, "I'm interested in this dish," that data is recorded. The input is gaze data and voice data, and the output is interest data.

ステップ9: Step 9:

収集された興味データおよび感情データはクラウドサーバに送信され、詳細査分析が行われる。サーバはこれらのデータを基にユーザの興味の傾向を把握し、次回の情報提供に反映させる。例えば、レストランに対する興味が強い場合、次回以降はレストランに関する情報を優先的に表示する。入力は興味データおよび感情データであり、出力は次回の情報提供に向けた分析データである。 The collected interest and emotion data is sent to a cloud server for detailed analysis. The server uses this data to understand the user's interest trends and reflects this in the next information provided. For example, if there is a strong interest in restaurants, information about restaurants will be displayed preferentially from the next time onwards. The input is interest data and emotion data, and the output is analysis data for the next information provided.

特定処理部290は、特定処理の結果をロボット414に送信する。ロボット414では、制御部46Aが、スピーカ240及び制御対象443に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the robot 414. In the robot 414, the control unit 46A causes the speaker 240 and the control target 443 to output the results of the specific processing. The microphone 238 acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 238 to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.

データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). Examples of data generation model 58 include generative AI such as ChatGPT (Internet search <URL: https://openai.com/blog/chatgpt>) and Gemini (Internet search <URL: https://gemini.google.com/?hl=ja>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as voice data indicating speech, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt, and outputs the inference results in the form of data such as voice data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.

上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ロボット414によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the robot 414.

なお、感情エンジンとしての感情特定モデル59は、特定のマッピングに従い、ユーザの感情を決定してよい。具体的には、感情特定モデル59は、特定のマッピングである感情マップ(図9参照)に従い、ユーザの感情を決定してよい。また、感情特定モデル59は、同様に、ロボットの感情を決定し、特定処理部290は、ロボットの感情を用いた特定処理を行うようにしてもよい。 The emotion identification model 59, which serves as an emotion engine, may determine the user's emotion according to a specific mapping. Specifically, the emotion identification model 59 may determine the user's emotion according to an emotion map (see Figure 9), which is a specific mapping. Similarly, the emotion identification model 59 may determine the robot's emotion, and the identification processing unit 290 may perform identification processing using the robot's emotion.

図9は、複数の感情がマッピングされる感情マップ400を示す図である。感情マップ400において、感情は、中心から放射状に同心円に配置されている。同心円の中心に近いほど、原始的状態の感情が配置されている。同心円のより外側には、心境から生まれる状態や行動を表す感情が配置されている。感情とは、情動や心的状態も含む概念である。同心円の左側には、概して脳内で起きる反応から生成される感情が配置されている。同心円の右側には概して、状況判断で誘導される感情が配置されている。同心円の上方向及び下方向には、概して脳内で起きる反応から生成され、かつ、状況判断で誘導される感情が配置されている。また、同心円の上側には、「快」の感情が配置され、下側には、「不快」の感情が配置されている。このように、感情マップ400では、感情が生まれる構造に基づいて複数の感情がマッピングされており、同時に生じやすい感情が、近くにマッピングされている。 Figure 9 shows an emotion map 400 on which multiple emotions are mapped. In emotion map 400, emotions are arranged in concentric circles radiating from the center. Emotions closer to the center of the concentric circles are more primitive. Emotions representing states and actions arising from a state of mind are arranged on the outer edges of the concentric circles. The concept of emotion includes both emotions and mental states. Emotions that are generally generated from reactions that occur in the brain are arranged on the left side of the concentric circles. Emotions that are generally induced by situational judgment are arranged on the right side of the concentric circles. Emotions that are generally generated from reactions that occur in the brain and are induced by situational judgment are arranged above and below the concentric circles. Furthermore, the emotion of "pleasure" is arranged on the top side of the concentric circles, and the emotion of "discomfort" is arranged on the bottom side. In this way, emotion map 400 maps multiple emotions based on the structure by which emotions are generated, with emotions that tend to occur simultaneously being mapped close together.

これらの感情は、感情マップ400の3時の方向に分布しており、普段は安心と不安のあたりを行き来する。感情マップ400の右半分では、内部的な感覚よりも状況認識の方が優位に立つため、落ち着いた印象になる。 These emotions are distributed in the 3 o'clock direction on emotion map 400, and usually fluctuate between relief and anxiety. In the right half of emotion map 400, situational awareness takes precedence over internal sensations, resulting in a sense of calm.

感情マップ400の内側は心の中、感情マップ400の外側は行動を表すため、感情マップ400の外側に行くほど、感情が目に見える(行動に表れる)ようになる。 The inside of emotion map 400 represents what is going on in the mind, and the outside of emotion map 400 represents behavior, so the further out you go on emotion map 400, the more visible (expressed in behavior) the emotion becomes.

ここで、人の感情は、姿勢や血糖値のような様々なバランスを基礎としており、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示す。ロボットや自動車やバイク等においても、姿勢やバッテリー残量のような様々なバランスを基礎として、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示すように感情を作ることができる。感情マップは、例えば、光吉博士の感情地図(音声感情認識及び情動の脳生理信号分析システムに関する研究、徳島大学、博士論文:https://ci.nii.ac.jp/naid/500000375379)に基づいて生成されてよい。感情地図の左半分には、感覚が優位にたつ「反応」と呼ばれる領域に属する感情が並ぶ。また、感情地図の右半分には、状況認識が優位にたつ「状況」と呼ばれる領域に属する感情が並ぶ。 Here, human emotions are based on various balances such as posture and blood sugar levels, and when these balances deviate from the ideal, it indicates discomfort, and when they approach the ideal, it indicates pleasure. Emotions can also be created for robots, cars, motorcycles, etc., based on various balances such as posture and remaining battery life, so that when these balances deviate from the ideal, it indicates discomfort, and when they approach the ideal, it indicates pleasure. Emotion maps may be generated, for example, based on Dr. Mitsuyoshi's emotion map (Research on speech emotion recognition and emotional brain physiological signal analysis systems, Tokushima University, doctoral dissertation: https://ci.nii.ac.jp/naid/500000375379). The left half of the emotion map is lined with emotions belonging to an area called "reaction," where sensation is dominant. The right half of the emotion map is lined with emotions belonging to an area called "situation," where situational awareness is dominant.

感情マップでは学習を促す感情が2つ定義される。1つは、状況側にあるネガティブな「懺悔」や「反省」の真ん中周辺の感情である。つまり、「もう2度とこんな想いはしたくない」「もう叱られたくない」というネガティブな感情がロボットに生じたときである。もう1つは、反応側にあるポジティブな「欲」のあたりの感情である。つまり、「もっと欲しい」「もっと知りたい」というポジティブな気持ちのときである。 The emotion map defines two emotions that encourage learning. One is the negative emotion around the middle of "repentance" or "reflection" on the situation side. In other words, this is when the robot experiences negative emotions such as "I never want to feel this way again" or "I don't want to be scolded again." The other is the positive emotion around "desire" on the response side. In other words, this is when the robot experiences positive feelings such as "I want more" or "I want to know more."

感情特定モデル59は、ユーザ入力を、予め学習されたニューラルネットワークに入力し、感情マップ400に示す各感情を示す感情値を取得し、ユーザの感情を決定する。このニューラルネットワークは、ユーザ入力と、感情マップ400に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。また、このニューラルネットワークは、図10に示す感情マップ900のように、近くに配置されている感情同士は、近い値を持つように学習される。図10では、「安心」、「安穏」、「心強い」という複数の感情が、近い感情値となる例を示している。 The emotion identification model 59 inputs user input into a pre-trained neural network, obtains emotion values indicating each emotion shown in the emotion map 400, and determines the user's emotion. This neural network is pre-trained based on multiple pieces of training data that are combinations of user input and emotion values indicating each emotion shown in the emotion map 400. Furthermore, this neural network is trained so that emotions that are close to each other have similar values, as in the emotion map 900 shown in Figure 10. Figure 10 shows an example in which multiple emotions, such as "relieved," "calm," and "reassuring," have similar emotion values.

以上、本開示に係るシステムをデータ処理装置12の機能を主として説明したが、本開示に係るシステムはサーバに実装されているとは限らない。本開示に係るシステムは、一般的な情報処理システムとして実装されていてもよい。本開示は、例えば、パーソナルコンピュータで動作するソフトウェアプログラム、スマートフォン等で動作するアプリケーションとして実装されてもよい。本開示に係る方法はSaaS(Software as a Service)形式でユーザに対して提供されてもよい。 The system according to the present disclosure has been described above primarily in terms of the functions of the data processing device 12, but the system according to the present disclosure is not necessarily implemented on a server. The system according to the present disclosure may also be implemented as a general information processing system. The present disclosure may also be implemented, for example, as a software program that runs on a personal computer or an application that runs on a smartphone, etc. The method according to the present disclosure may also be provided to users in the form of SaaS (Software as a Service).

上記実施形態では、1台のコンピュータ22によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ22を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。例えば、データ生成モデル58が、データ処理装置12の外部装置に設けられ、当該外部装置において、入力データに応じたデータの生成を行うようにしてもよい。 In the above embodiment, an example was given in which a specific process was performed by a single computer 22, but the technology of the present disclosure is not limited to this, and distributed processing of the specific process may be performed by multiple computers, including the computer 22. For example, the data generation model 58 may be provided in a device external to the data processing device 12, and data may be generated in that external device in response to input data.

上記実施形態では、ストレージ32に特定処理プログラム56が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム56がUSB(Universal Serial Bus)メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム56は、データ処理装置12のコンピュータ22にインストールされる。プロセッサ28は、特定処理プログラム56に従って特定処理を実行する。 In the above embodiment, an example was described in which the specific processing program 56 is stored in the storage 32, but the technology of the present disclosure is not limited to this. For example, the specific processing program 56 may be stored in a portable, computer-readable, non-transitory storage medium such as a USB (Universal Serial Bus) memory. The specific processing program 56 stored in the non-transitory storage medium is installed in the computer 22 of the data processing device 12. The processor 28 executes the specific processing in accordance with the specific processing program 56.

また、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56を格納させておき、データ処理装置12の要求に応じて特定処理プログラム56がダウンロードされ、コンピュータ22にインストールされるようにしてもよい。 Alternatively, the specific processing program 56 may be stored in a storage device such as a server connected to the data processing device 12 via the network 54, and the specific processing program 56 may be downloaded and installed on the computer 22 in response to a request from the data processing device 12.

なお、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56の全てを格納させておいたり、ストレージ32に特定処理プログラム56の全てを記憶させたりしておく必要はなく、特定処理プログラム56の一部を格納させておいてもよい。 It is not necessary to store the entire specific processing program 56 in a storage device such as a server connected to the data processing device 12 via the network 54, or to store the entire specific processing program 56 in the storage 32; only a portion of the specific processing program 56 may be stored.

特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)、又はASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。 The following types of processors can be used as hardware resources for executing specific processes. Examples of processors include a CPU, a general-purpose processor that functions as a hardware resource for executing specific processes by executing software, i.e., a program. Other examples of processors include dedicated electrical circuits, such as FPGAs (Field-Programmable Gate Arrays), PLDs (Programmable Logic Devices), or ASICs (Application Specific Integrated Circuits), which are processors with a circuit configuration designed specifically for executing specific processes. All processors have built-in or connected memory, and all use the memory to execute specific processes.

特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、特定処理を実行するハードウェア資源は1つのプロセッサであってもよい。 The hardware resource that executes the specific processing may be composed of one of these various processors, or may be composed of a combination of two or more processors of the same or different types (for example, a combination of multiple FPGAs, or a combination of a CPU and an FPGA). The hardware resource that executes the specific processing may also be a single processor.

1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第2に、SoC(System-on-a-chip)などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。 As an example of a configuration using a single processor, first, there is a configuration in which one processor is configured using a combination of one or more CPUs and software, and this processor functions as a hardware resource that executes specific processing. Second, there is a configuration in which a processor is used to realize the functions of an entire system, including multiple hardware resources that execute specific processing, on a single IC chip, as typified by SoC (System-on-a-chip). In this way, specific processing is realized using one or more of the various processors listed above as hardware resources.

更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。 More specifically, the hardware structure of these various processors can be an electrical circuit that combines circuit elements such as semiconductor devices. Furthermore, the specific processing described above is merely an example. Therefore, it goes without saying that unnecessary steps can be deleted, new steps can be added, or the processing order can be rearranged, all within the scope of the spirit of the invention.

以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。 The above-described written content and illustrations are a detailed explanation of the parts related to the technology of the present disclosure and are merely an example of the technology of the present disclosure. For example, the above explanation of the configuration, functions, actions, and effects is an explanation of an example of the configuration, functions, actions, and effects of the parts related to the technology of the present disclosure. Therefore, it goes without saying that unnecessary parts may be deleted, new elements may be added, or substitutions may be made to the above-described written content and illustrations, as long as they do not deviate from the spirit of the technology of the present disclosure. Furthermore, to avoid confusion and facilitate understanding of the parts related to the technology of the present disclosure, the above-described written content and illustrations omit explanations of common technical knowledge that do not require particular explanation to enable the implementation of the technology of the present disclosure.

本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。 All publications, patent applications, and technical standards mentioned in this specification are incorporated by reference herein to the same extent as if each individual publication, patent application, and technical standard was specifically and individually indicated to be incorporated by reference.

以上の実施形態に関し、更に以下を開示する。 The following is further disclosed regarding the above embodiments.

(請求項1) (Claim 1)

外界の視覚情報を取得する手段と、 A means of acquiring visual information from the outside world,

外界の聴覚情報を取得する手段と、 A means of acquiring auditory information from the outside world,

前記視覚情報をテキスト情報に変換する手段と、 Means for converting the visual information into text information;

前記聴覚情報をテキスト情報に変換する手段と、 Means for converting the auditory information into text information;

前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、 Means for searching for related information on the web based on the converted text information;

前記検索された情報を拡張現実(AR)形式で表示する手段と、 Means for displaying the searched information in an augmented reality (AR) format;

ユーザの興味に基づいたデータを収集する手段と、 Means of collecting data based on user interests,

前記収集されたデータを分析する手段と、 Means for analyzing the collected data;

を含むシステム。 A system including

(請求項2) (Claim 2)

前記ユーザの視線を検出する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for detecting the user's line of sight.

(請求項3) (Claim 3)

前記ユーザの音声コマンドを認識する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for recognizing voice commands from the user.

「実施例1」 "Example 1"

(請求項1) (Claim 1)

外界の視覚情報を取得する手段と、 A means of acquiring visual information from the outside world,

外界の聴覚情報を取得する手段と、 A means of acquiring auditory information from the outside world,

前記視覚情報をテキスト情報に変換する手段と、 Means for converting the visual information into text information;

前記聴覚情報をテキスト情報に変換する手段と、 Means for converting the auditory information into text information;

前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、 Means for searching for related information on the web based on the converted text information;

前記検索された情報を拡張現実(AR)形式で表示する手段と、 Means for displaying the searched information in an augmented reality (AR) format;

ユーザの興味に基づいたデータをリアルタイムで収集する手段と、 Means of collecting data based on user interests in real time,

前記収集されたデータを分析して次回以降の検索結果に反映する手段と、 Means for analyzing the collected data and reflecting it in subsequent search results;

を含むシステム。 A system including

(請求項2) (Claim 2)

前記ユーザの視線を検出し、興味データを収集する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for detecting the user's gaze and collecting interest data.

(請求項3) (Claim 3)

前記ユーザの音声コマンドを認識し、興味データを収集する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for recognizing the user's voice commands and collecting interest data.

「応用例1」 "Application Example 1"

(請求項1) (Claim 1)

外界の視覚情報を取得する手段と、 A means of acquiring visual information from the outside world,

外界の聴覚情報を取得する手段と、 A means of acquiring auditory information from the outside world,

前記視覚情報をテキスト情報に変換する手段と、 Means for converting the visual information into text information;

前記聴覚情報をテキスト情報に変換する手段と、 Means for converting the auditory information into text information;

前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、 Means for searching for related information on the web based on the converted text information;

前記検索された情報を拡張現実(AR)形式で表示する手段と、 Means for displaying the searched information in an augmented reality (AR) format;

ユーザの興味に基づいたデータを収集する手段と、 Means of collecting data based on user interests,

前記収集されたデータを分析する手段と、 Means for analyzing the collected data;

ユーザの歩行中に商品情報やレビューをAR形式でリアルタイムに提供する手段と、 A means to provide product information and reviews in real time in AR format while users are walking,

を含むシステム。 A system including

(請求項2) (Claim 2)

前記ユーザの視線を検出する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for detecting the user's line of sight.

(請求項3) (Claim 3)

前記ユーザの音声コマンドを認識する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for recognizing voice commands from the user.

「感情エンジンを組み合わせた場合の実施例2」 "Example 2: Combining Emotion Engines"

(請求項1) (Claim 1)

外界の視覚情報を取得する手段と、 A means of acquiring visual information from the outside world,

外界の聴覚情報を取得する手段と、 A means of acquiring auditory information from the outside world,

前記視覚情報をテキスト情報に変換する手段と、 Means for converting the visual information into text information;

前記聴覚情報をテキスト情報に変換する手段と、 Means for converting the auditory information into text information;

前記変換されたテキスト情報及び感情データに基づいてウェブ上の関連情報を検索する手段と、 Means for searching for related information on the web based on the converted text information and emotion data;

前記検索された情報を拡張現実形式で表示する手段と、 Means for displaying the searched information in an augmented reality format;

ユーザの感情を認識する手段と、 Means for recognizing user emotions,

ユーザの興味に基づいたデータを収集する手段と、 Means of collecting data based on user interests,

前記収集されたデータ及び感情データを分析する手段と、 Means for analyzing the collected data and emotion data;

を含むシステム。 A system including

(請求項2) (Claim 2)

ユーザの視線を検出する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for detecting a user's gaze.

(請求項3) (Claim 3)

ユーザの音声コマンドを認識する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for recognizing a user's voice command.

「感情エンジンを組み合わせた場合の応用例2」 "Application Example 2: Combining Emotion Engines"

(請求項1) (Claim 1)

外界の視覚情報を取得する手段と、 A means of acquiring visual information from the outside world,

外界の聴覚情報を取得する手段と、 A means of acquiring auditory information from the outside world,

前記視覚情報をテキスト情報に変換する手段と、 Means for converting the visual information into text information;

前記聴覚情報をテキスト情報に変換する手段と、 Means for converting the auditory information into text information;

前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、 Means for searching for related information on the web based on the converted text information;

前記検索された情報を拡張現実(AR)形式で表示する手段と、 Means for displaying the searched information in an augmented reality (AR) format;

ユーザの興味に基づいたデータを収集する手段と、 Means of collecting data based on user interests,

前記収集されたデータを分析する手段と、 Means for analyzing the collected data;

ユーザの感情を解析する手段と、 Means for analyzing user emotions,

自動運転車両に搭載されるスマートデバイスに関連情報を表示する手段と、 A means for displaying relevant information on smart devices installed in autonomous vehicles;

を含むシステム。 A system including

(請求項2) (Claim 2)

前記ユーザの視線を検出する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for detecting the user's line of sight.

(請求項3) (Claim 3)

前記ユーザの音声コマンドを認識する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for recognizing voice commands from the user.

10、210、310、410 データ処理システム
12 データ処理装置
14 スマートデバイス
214 スマート眼鏡
314 ヘッドセット型端末
414 ロボット

10, 210, 310, 410 Data processing system 12 Data processing device 14 Smart device 214 Smart glasses 314 Headset type terminal 414 Robot

Claims (3)

外界の視覚情報を取得する手段と、
外界の聴覚情報を取得する手段と、
前記視覚情報をテキスト情報に変換する手段と、
前記聴覚情報をテキスト情報に変換する手段と、
前記変換されたテキスト情報に基づいてウェブ上の関連情報を検索する手段と、
前記検索された情報を拡張現実(AR)形式で表示する手段と、
ユーザの興味に基づいたデータを収集する手段と、
前記収集されたデータを分析する手段と、
を含むシステム。
A means for acquiring visual information of the outside world;
A means for acquiring auditory information from the outside world;
means for converting the visual information into text information;
means for converting the auditory information into text information;
a means for searching for related information on the web based on the converted text information;
means for displaying the retrieved information in an augmented reality (AR) format;
a means for collecting user interest-based data;
means for analyzing the collected data;
A system including:
前記ユーザの視線を検出する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for detecting the user's line of sight. 前記ユーザの音声コマンドを認識する手段をさらに含む請求項1記載のシステム。 The system of claim 1, further comprising means for recognizing voice commands from the user.
JP2024140158A 2024-08-21 2024-08-21 system Pending JP2026037133A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024140158A JP2026037133A (en) 2024-08-21 2024-08-21 system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2024140158A JP2026037133A (en) 2024-08-21 2024-08-21 system

Publications (1)

Publication Number Publication Date
JP2026037133A true JP2026037133A (en) 2026-03-06

Family

ID=98941650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024140158A Pending JP2026037133A (en) 2024-08-21 2024-08-21 system

Country Status (1)

Country Link
JP (1) JP2026037133A (en)

Similar Documents

Publication Publication Date Title
JP2026037133A (en) system
JP2026039971A (en) system
JP2026038142A (en) system
JP2026017283A (en) system
JP2026040096A (en) system
JP2026070142A (en) system
JP2025052619A (en) system
JP2026069024A (en) system
JP2026038145A (en) system
JP2026028713A (en) system
JP2026040022A (en) system
JP2026028905A (en) system
JP2026019062A (en) system
JP2025047330A (en) system
JP2026029716A (en) system
JP2026028003A (en) system
JP2026041402A (en) system
JP2026037922A (en) system
JP2025071789A (en) system
JP2026036084A (en) system
JP2025048183A (en) system
JP2026040185A (en) system
JP2026029783A (en) system
JP2026028146A (en) system
JP2025046718A (en) system