KR20240102707A - 질의-답변 데이터의 확장 방법 및 그 장치 - Google Patents
질의-답변 데이터의 확장 방법 및 그 장치 Download PDFInfo
- Publication number
- KR20240102707A KR20240102707A KR1020220185013A KR20220185013A KR20240102707A KR 20240102707 A KR20240102707 A KR 20240102707A KR 1020220185013 A KR1020220185013 A KR 1020220185013A KR 20220185013 A KR20220185013 A KR 20220185013A KR 20240102707 A KR20240102707 A KR 20240102707A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- data set
- question
- dataset
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 도 1에서 설명한 방법을 이어서 설명하기 위한 개념도이다.
도 3은 본 발명에 따른 방법을 흐름도로 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 장치의 블록도이다.
Claims (8)
- 제1 데이터셋 및 제2 데이터셋을 수신하는 단계;
상기 제2 데이터셋을 기준으로 학습된 딥러닝 모델에 상기 제1 데이터셋을 입력한 결과로서, 상기 제1 데이터셋에서 소정의 부분데이터를 추출하는 단계;
상기 추출된 부분데이터를 부분데이터별로 확장하여 확장된 제1 데이터셋을 구축하는 단계; 및
상기 확장된 제1 데이터셋을 상기 제2 데이터셋을 기준으로 학습된 딥러닝 모델에 입력하여, 상기 확장된 제1 데이터셋에서 상기 제2 데이터셋에 대한 학습데이터가 추출되도록 제어하는 단계를 포함하는, 질의-답변 데이터의 확장 방법. - 제1항에 있어서,
상기 제1 데이터셋 및 상기 제2 데이터셋은 서로 다른 단말로부터 수신된 질의-답변 데이터이고,
상기 제2 데이터셋은,
특정 도메인의 질의-답변에 대한 데이터 및 상기 질의와 동일한 답변에 대응되는 확장질의에 대한 데이터를 포함하는, 질의-답변 데이터의 확장 방법. - 제1항에 있어서,
상기 제2 데이터셋을 기준으로 학습된 딥러닝 모델은, GPT-3 모델인, 질의-답변 데이터의 확장 방법. - 제1항에 있어서,
상기 확장된 제1 데이터셋을 구축하는 단계는,
상기 부분데이터별로 패러프레이징(paraphrasing)하고, 패러프레이징된 결과에서 중복된 결과를 제거하여, 상기 확장된 제1 데이터셋을 구축하는, 질의-답변 데이터의 확장 방법. - 제1항에 있어서,
상기 소정의 부분데이터를 추출하는 단계는,
상기 제1 데이터셋과 상기 제2 데이터셋에 대한 유사도(similarity)에 대한 스코어를 산출하고, 산출된 스코어를 기반으로 미리 정해진 개수의 부분데이터를 추출하는, 질의-답변 데이터의 확장 방법. - 제1항에 있어서,
상기 학습데이터가 추출되도록 제어하는 단계는,
상기 확장된 제1데이터셋을 상기 제2 데이터셋에 포함되어 있는 대표질의데이터(main question data)를 기준으로 학습된 딥러닝 모델에 입력하여, 상기 학습데이터가 추출되도록 제어하는, 질의-답변 데이터의 확장 방법. - 제1항에 따른 방법을 실행시키기 위한 프로그램을 저장하고 있는 컴퓨터 판독가능한 기록매체.
- 적어도 하나의 프로그램이 저장된 메모리; 및
상기 적어도 하나의 프로그램을 실행함으로써, 연산을 수행하는 프로세서를 포함하고,
상기 프로세서는,
제1 데이터셋 및 제2 데이터셋을 수신하고,
상기 제2 데이터셋을 기준으로 학습된 딥러닝 모델에 상기 제1 데이터셋을 입력한 결과로서, 상기 제1 데이터셋에서 소정의 부분데이터를 추출하고,
상기 추출된 부분데이터를 부분데이터별로 확장하여 확장된 제1 데이터셋을 구축하고,
상기 확장된 제1 데이터셋을 상기 제2 데이터셋을 기준으로 학습된 딥러닝 모델에 입력하여, 상기 확장된 제1 데이터셋에서 상기 제2 데이터셋에 대한 학습데이터가 추출되도록 제어하는, 질의-답변 데이터의 확장 장치.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020220185013A KR102935889B1 (ko) | 2022-12-26 | 2022-12-26 | 질의-답변 데이터의 확장 방법 및 그 장치 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020220185013A KR102935889B1 (ko) | 2022-12-26 | 2022-12-26 | 질의-답변 데이터의 확장 방법 및 그 장치 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20240102707A true KR20240102707A (ko) | 2024-07-03 |
| KR102935889B1 KR102935889B1 (ko) | 2026-03-09 |
Family
ID=91900265
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020220185013A Active KR102935889B1 (ko) | 2022-12-26 | 2022-12-26 | 질의-답변 데이터의 확장 방법 및 그 장치 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR102935889B1 (ko) |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102436549B1 (ko) | 2022-07-20 | 2022-08-25 | (주) 유비커스 | 딥러닝을 이용한 자연어처리 기반의 faq 및 챗봇을 위한 학습데이터를 자동으로 생성하기 위한 방법 및 이를 위한 장치 |
-
2022
- 2022-12-26 KR KR1020220185013A patent/KR102935889B1/ko active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102436549B1 (ko) | 2022-07-20 | 2022-08-25 | (주) 유비커스 | 딥러닝을 이용한 자연어처리 기반의 faq 및 챗봇을 위한 학습데이터를 자동으로 생성하기 위한 방법 및 이를 위한 장치 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR102935889B1 (ko) | 2026-03-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11687811B2 (en) | Predicting user question in question and answer system | |
| CN108021983A (zh) | 神经架构搜索 | |
| EP4030355A1 (en) | Neural reasoning path retrieval for multi-hop text comprehension | |
| US12282744B2 (en) | Statistical language models for simulating communication sessions | |
| CN114254127A (zh) | 学生能力画像方法、学习资源推荐方法及装置 | |
| CN111563192A (zh) | 实体对齐方法、装置、电子设备及存储介质 | |
| CN117808946B (zh) | 基于大语言模型的二次元角色构建方法及系统 | |
| US20190130251A1 (en) | Neural question answering system | |
| CN116894080A (zh) | 模型训练方法、问题应答方法、装置、设备及介质 | |
| US20230013796A1 (en) | Method and apparatus for acquiring pre-trained model, electronic device and storage medium | |
| US11501654B2 (en) | Automated decision making for selecting scaffolds after a partially correct answer in conversational intelligent tutor systems (ITS) | |
| CN112528045B (zh) | 基于开放百科图谱的领域图谱关系的判定方法及系统 | |
| CN117371428B (zh) | 基于大语言模型的文本处理方法与装置 | |
| CN118332084A (zh) | 一种基于问答模型的回复信息搜索、问答模型的训练方法、装置、电子设备及存储介质 | |
| CN116739003A (zh) | 电网管理智能问答实现方法、装置、电子设备及存储介质 | |
| CN119782768B (zh) | 问题提示词生成方法、系统及电子设备 | |
| CN119631077A (zh) | 利用受约束样例的对抗性语言模仿 | |
| CN115049899A (zh) | 模型训练方法、指代表达式生成方法及相关设备 | |
| KR102935889B1 (ko) | 질의-답변 데이터의 확장 방법 및 그 장치 | |
| US20240086768A1 (en) | Learning device, inference device, non-transitory computer-readable medium, learning method, and inference method | |
| Mirakyan et al. | Natural language inference over interaction space: ICLR 2018 reproducibility report | |
| Paiva et al. | A systematic approach for providing personalized pedagogical recommendations based on educational data mining | |
| CN120821823A (zh) | 一种基于语言模型的任务处理方法、装置 | |
| CN114357183B (zh) | 实体关系抽取方法、装置、设备、介质及程序产品 | |
| US20230186155A1 (en) | Machine learning method and information processing device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-2-2-P10-P22-nap-X000 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| R18 | Changes to party contact information recorded |
Free format text: ST27 STATUS EVENT CODE: A-3-3-R10-R18-OTH-X000 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-3-3-R10-R18-oth-X000 |
|
| D22 | Grant of ip right intended |
Free format text: ST27 STATUS EVENT CODE: A-1-2-D10-D22-EXM-PE0701 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| F11 | Ip right granted following substantive examination |
Free format text: ST27 STATUS EVENT CODE: A-2-4-F10-F11-EXM-PR0701 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
| U11 | Full renewal or maintenance fee paid |
Free format text: ST27 STATUS EVENT CODE: A-2-2-U10-U11-OTH-PR1002 (AS PROVIDED BY THE NATIONAL OFFICE) Year of fee payment: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| Q13 | Ip right document published |
Free format text: ST27 STATUS EVENT CODE: A-4-4-Q10-Q13-NAP-PG1601 (AS PROVIDED BY THE NATIONAL OFFICE) |