CN117056490B - 问题提取及答案生成方法、装置、介质和设备 - Google Patents
问题提取及答案生成方法、装置、介质和设备Info
- Publication number
- CN117056490B CN117056490B CN202311093501.4A CN202311093501A CN117056490B CN 117056490 B CN117056490 B CN 117056490B CN 202311093501 A CN202311093501 A CN 202311093501A CN 117056490 B CN117056490 B CN 117056490B
- Authority
- CN
- China
- Prior art keywords
- target
- page
- initial
- text
- answers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种问题提取及答案生成方法、装置、介质和设备,对银行数据文档中的文本信息进行分割和向量化,得到每页的多个文本向量;对每个文本向量进行摘要,得到多个目标摘要;对每个目标摘要使用预设的提问格式,送入自然语言处理模型,得到多个初始问题和答案;对初始问题和答案进行去重和排序,输出每个目标摘要对应的目标问题和答案。本发明能对银行数据文档进行解析,自动生成相关问题和答案,帮助用户快速理解文档内容,及时掌握行业信息动态。
Description
技术领域
本发明涉及银行技术领域,尤其是涉及一种问题提取及答案生成方法、装置、介质和设备。
背景技术
当前,智能文档解析是银行的重要业务场景,然而长银行数据文档解析是一项较为困难的处理场景。如果文档过长,用户并不清楚文档中有哪些内容,无法提出相应问题来让系统解答。这时,就可以为用户自动生成相关问题和答案,帮助用户快速理解文档内容,及时掌握行业信息动态。
发明内容
基于此,有必要提供问题提取及答案生成方法、装置、介质和设备,以解决文档过长的情况下,难以自动提取文档中的相关问题和答案的问题。
一种问题提取及答案生成方法,所述方法包括:
对银行数据文档中的文本信息进行分割操作及与转向量操作,以得到银行数据文档中每页对应的多个文本向量;
分别归纳形成每一文本向量所对应的目标摘要,以得到多个目标摘要;
按照预设的提问格式分别将每一目标摘要送入自然语言处理模型,以生成每一目标摘要对应的多个不同的初始问题与初始答案;
对所述初始问题与所述初始答案进行去重筛选,且基于字数对去重筛选后的初始问题与初始答案进行排序,并基于排序结果输出每一目标摘要对应的目标问题及目标答案。
在其中一个实施例中,所述对银行数据文档中的文本信息进行分割操作及与转向量操作,以得到银行数据文档中每页对应的多个文本向量,包括:
读取所述银行数据文档中每页的文本信息,并将目标页的文本信息与相邻页的浮动变量作为所述目标页的文本块,以得到多页的文本块;其中,所述目标页为银行数据文档中的任意一页,所述相邻页为所述目标页的上一页和/或下一页,所述浮动变量为所述相邻页中与所述目标页临近的预设长度的文本信息;
以字数和/或段落为划分单位对每页的文本块进行划分,以得到每页的子文本块;
使用预设的句子相似度模型将每页的子文本块嵌入为对应的文本向量。
在其中一个实施例中,所述分别归纳形成每一文本向量所对应的目标摘要,包括:
分别将每一向量块输入到预设的摘要生成模型中,并获取输出的初始摘要;其中,每一向量块由一子文本块和对应的文本向量构成;
分别基于句子边界和/或关键词对每一初始摘要进行提取,以得到每一初始摘要对应的少于预设字数阈值的目标摘要。
在其中一个实施例中,所述对所述初始问题与所述初始答案进行去重筛选,包括:
在所有的初始问题中,分别计算两两初始问题之间的余弦相似度并进行排序,以得到多个问题对组成的第一排序结果;
在所有的初始答案中,分别计算两两初始答案之间的余弦相似度并进行排序,以得到多个答案对组成的第二排序结果;
在所述第一排序结果中,对余弦相似度最大的前N个问题及对应的初始答案进行第一去重操作;其中,N为预设值,所述第一去重操作指示删除每一问题对中的任意一个初始问题及删除对应的初始答案;
在所述第二排序结果中,对余弦相似度最大的前M个答案及对应的初始问题进行第二去重操作;其中,M为预设值,所述第二去重操作指示删除每一答案对中的任意一个初始答案及删除对应的初始问题。
在其中一个实施例中,所述基于字数对去重筛选后的初始问题与初始答案进行排序,并基于排序结果输出每一目标摘要对应的目标问题及目标答案,包括:
返回字数最多的前L个答案作为目标答案,并将所述目标答案对应的问题作为目标问题与所述目标答案一同输出;其中,L为预设值。
一种问题提取及答案生成装置,所述装置包括:
文本向量生成模块,用于对银行数据文档中的文本信息进行分割操作及与转向量操作,以得到银行数据文档中每页对应的多个文本向量;
目标摘要生成模块,用于分别归纳形成每一文本向量所对应的目标摘要,以得到多个目标摘要;
结果输出模块,用于按照预设的提问格式分别将每一目标摘要送入自然语言处理模型,以生成每一目标摘要对应的多个不同的初始问题与初始答案;及对所述初始问题与所述初始答案进行去重筛选,且基于字数对去重筛选后的初始问题与初始答案进行排序,并基于排序结果输出每一目标摘要对应的目标问题及目标答案。
在其中一个实施例中,所述文本向量生成模块,具体用于:
读取所述银行数据文档中每页的文本信息,并将目标页的文本信息与相邻页的浮动变量作为所述目标页的文本块,以得到多页的文本块;其中,所述目标页为银行数据文档中的任意一页,所述相邻页为所述目标页的上一页和/或下一页,所述浮动变量为所述相邻页中与所述目标页临近的预设长度的文本信息;
以字数和/或段落为划分单位对每页的文本块进行划分,以得到每页的子文本块;
使用预设的句子相似度模型将每页的子文本块嵌入为对应的文本向量。
在其中一个实施例中,所述目标摘要生成模块,具体用于:
分别将每一向量块输入到预设的摘要生成模型中,并获取输出的初始摘要;其中,每一向量块由一子文本块和对应的文本向量构成;
分别基于句子边界和/或关键词对每一初始摘要进行提取,以得到每一初始摘要对应的少于预设字数阈值的目标摘要。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述问题提取及答案生成方法的步骤。
一种问题提取及答案生成设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述问题提取及答案生成方法的步骤。
本发明提供了问题提取及答案生成方法、装置、介质和设备,对银行数据文档中的文本信息进行分割和向量化,得到每页的多个文本向量;对每个文本向量进行摘要,得到多个目标摘要;对每个目标摘要使用预设的提问格式,送入自然语言处理模型,得到多个初始问题和答案;对初始问题和答案进行去重和排序,输出每个目标摘要对应的目标问题和答案。本发明能对银行数据文档进行解析,自动生成相关问题和答案,帮助用户快速理解文档内容,及时掌握行业信息动态。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为问题提取及答案生成方法的流程示意图;
图2为问题提取及答案生成装置的结构示意图;
图3为问题提取及答案生成设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
如图1所示,图1为一个实施例中问题提取及答案生成方法的流程示意图,本实施例中问题提取及答案生成方法提供的步骤包括:
S101,对银行数据文档中的文本信息进行分割操作及与转向量操作,以得到银行数据文档中每页对应的多个文本向量。
其中,银行数据文档是指包含银行相关数据和信息的文档,例如银行概况、业务介绍、财务报告等。分割操作是指将文本信息按照一定的规则或标准划分为若干个部分,每个部分包含一定的语义信息。例如,我们可以根据段落、句子、标点符号等来分割文本信息。转向量操作是指将文本信息转换为数值向量,以便于计算机处理和分析。例如,我们可以使用词嵌入技术,将每个词或短语映射到一个高维空间中的一个点,从而得到词向量或短语向量。
在一个具体实施中,通过如下的具体步骤来获得每页对应的多个文本向量,包括:
(1)、读取银行数据文档中每页的文本信息,并将目标页的文本信息与相邻页的浮动变量作为目标页的文本块,以得到多页的文本块。
其中,目标页为银行数据文档中的任意一页,相邻页为目标页的上一页和/或下一页,浮动变量为相邻页中与目标页临近的预设长度的文本信息。
这一步骤是为了将每一页的文本信息扩展一些上下文,以便于捕捉更多的语义信息。例如,假设银行数据文档有三页,每页有一段文字,如下:
第一部分:银行概况
银行是一种金融机构,主要从事存款、贷款、支付、结算、信用卡等业务。银行是金融体系的核心组成部分,对经济发展和社会稳定起着重要作用。
第二部分:银行业务
银行业务主要分为两大类:存款业务和贷款业务。存款业务是指银行接受客户存入的资金,并按照约定支付利息的业务。贷款业务是指银行向客户提供资金,并收取利息和手续费的业务。
第三部分:银行风险
银行风险是指银行在经营过程中可能遭受的损失或损害。银行风险主要包括信用风险、市场风险、流动性风险、操作风险等。银行需要采取有效的风险管理措施,以保障资产安全和盈利能力。
假设我们选择第二页作为目标页,那么我们可以将第二页的文本信息与第一页和第三页的最后一句话作为浮动变量,拼接起来作为第二页的文本块,如下:
银行是金融体系的核心组成部分,对经济发展和社会稳定起着重要作用。银行业务主要分为两大类:存款业务和贷款业务。存款业务是指银行接受客户存入的资金,并按照约定支付利息的业务。贷款业务是指银行向客户提供资金,并收取利息和手续费的业务。银行风险是指银行在经营过程中可能遭受的损失或损害。
同理,我们可以对其他两页也进行类似的操作,得到三个文本块。当然可以理解的是,这里的预设长度是可以根据需求自行设定的。
(2)、以字数和/或段落为划分单位对每页的文本块进行划分,以得到每页的子文本块。
这一步骤是为了将每个文本块进一步细化为若干个子文本块,以便于提取更精细的语义信息。例如,我们可以根据段落或者固定的字数来划分第二页的文本块,如下:
子文本块1:银行是金融体系的核心组成部分,对经济发展和社会稳定起着重要作用。
子文本块2:银行业务主要分为两大类:存款业务和贷款业务。
子文本块3:银行是金融体系的核心组成部分,对经济发展和社会稳定起着重要作用。
子文本块4:银行业务主要分为两大类:存款业务和贷款业务。存款业务是指银行接受客户存入的资金,并按照约定支付利息的业务。
子文本块5:贷款业务是指银行向客户提供资金,并收取利息和手续费的业务。
子文本块6:银行风险是指银行在经营过程中可能遭受的损失或损害。
子文本块7:存款业务是指银行接受客户存入的资金,并按照约定支付利息的业务。
子文本块8:银行风险是指银行在经营过程中可能遭受的损失或损害。
(3)、使用预设的句子相似度模型将每页的子文本块嵌入为对应的文本向量。
这一步骤是为了将每个子文本块转换为数值向量,以便于计算机处理和分析。例如选用simcse模型,simcse是一种基于对比学习的句子相似度模型,它可以通过自身预测自身的方式,学习到句子的语义表示。例如,我们可以使用simcse模型将第二页的所有子文本块嵌入为一个768维的向量,如下:
子文本块1->文本向量1:[0.12,-0.34,...,-0.45]
子文本块2->文本向量2:[-0.23,0.56,...,-0.67]
子文本块3->文本向量3:[0.34,-0.78,...,-0.89]
子文本块4->文本向量4:[-0.23,0.56,...,-0.67]
子文本块5->文本向量5:[0.45,-0.89,...,-0.12]
子文本块6->文本向量6:[0.67,-0.34,...,-0.45]
子文本块7->文本向量7:[0.78,-0.12,...,-0.56]
子文本块8->文本向量8:[0.45,-0.89...,-0.50]
这样,我们就得到了每页对应的多个文本向量,它们可以反映每个子文本块的语义信息,也可以用于后续的计算和分析。
S102,分别归纳形成每一文本向量所对应的目标摘要,以得到多个目标摘要。
其中,该步骤S102是一个自然语言处理的任务,它的目的是根据每个文本向量的语义内容,归纳出一个简短的目标摘要,以便于概括文本的主要信息。目标摘要可以是一句话,也可以是一个短语或一个词。
在一个具体实施中,形成对应的目标摘要的具体步骤,包括:
(1)、分别将每一向量块输入到预设的摘要生成模型中,并获取输出的初始摘要。
其中,每一向量块由一子文本块和对应的文本向量构成。这一子步骤是为了利用预设的摘要生成模型,例如gpt-2模型,根据每个向量块的文本信息和数值表示,生成一个初始摘要。
示例性的,在另一个银行卡的示例中:
向量块1->初始摘要1:银行卡是一种银行发行的电子支付工具,它可以储存用户的资金和个人信息,方便用户在自动取款机、POS机或网络平台上进行消费或转账等操作。银行卡通常有磁条和芯片两种形式,芯片卡相比磁条卡更安全和稳定。
向量块2->初始摘要2:银行卡的种类有多种,主要分为借记卡、信用卡和准贷记卡三大类。借记卡是指用户存入资金后才能使用的卡片,信用卡是指银行给用户提供一定额度的贷款,用户可以先消费后还款的卡片,准贷记卡是指银行给用户提供一定额度的预授权,用户可以在额度内透支消费的卡片。不同的卡种有不同的功能和费用,用户应根据自己的需求和能力选择合适的卡种。
向量块3->初始摘要3:银行卡的使用需要注意安全和合理,避免泄露密码或个人信息,及时还款或查询余额。使用银行卡时,应保管好卡片和密码,不要将密码写在卡片上或告诉他人,不要在不安全的设备或网站上输入银行卡信息。使用信用卡时,应注意还款期限和利息,按时还清欠款,避免产生逾期费或滞纳金。使用借记卡时,应注意查询余额和交易记录,及时发现并处理异常情况。
(2)、分别基于句子边界和/或关键词对每一初始摘要进行提取,以得到每一初始摘要对应的少于预设字数阈值的目标摘要。
其中,句子边界是指句子开始和结束的位置,通常用标点符号来划分;我们可以根据句子的长度和位置,选择最能代表原文主旨的句子,或者将多个句子进行合并或删减,以形成一个简洁的目标摘要。可选的,此处的预设字数阈值可以是50字。例如:
初始摘要1->目标摘要1:银行卡是一种电子支付工具,可以储存资金和信息,支持多种操作。芯片卡比磁条卡更安全。
而关键词是指能够反映文本主题或核心内容的词语。我们可以根据原文中出现的关键词或短语,选择最能反映原文主题和内容的词语,或者将多个词语进行组合或替换,以形成一个精炼的目标摘要。可选的,此处的预设字数阈值可以是50字。
初始摘要2->目标摘要2:银行卡分为借记卡、信用卡和准贷记卡。借记卡需存款,信用卡需还款,准贷记卡可透支。不同卡种有不同特点和费用。
S103,按照预设的提问格式分别将每一目标摘要送入自然语言处理模型,以生成每一目标摘要对应的多个不同的初始问题与初始答案。
具体的,假设我们有以下的目标摘要作为输入:银行卡是一种银行发行的电子支付工具,它可以储存用户的资金和个人信息,方便用户在自动取款机、POS机或网络平台上进行消费或转账等操作。银行卡通常有磁条和芯片两种形式,芯片卡相比磁条卡更安全和稳定。
那么我们可以使用不同的方法来生成与文本相关的初始问题与初始答案:例如基于预训练语言模型(pre-trained language model)的模型:这种模型可以利用大规模的语料库进行预训练,学习语言的通用知识和规律,然后在特定的任务上进行微调,提高生成质量和效率。例如,我们可以使用BERT、GPT-2等预训练语言模型,在文本前加上一个特殊的标记(如[Q]),然后让模型根据标记生成相应的问题。其中,可能的初始问题与初始答案:
初始问题:银行卡有哪两种形式?初始答案:银行卡通常有磁条和芯片两种形式。
初始问题:什么是银行卡?初始答案:银行卡是一种银行发行的电子支付工具,它可以储存用户的资金和个人信息,方便用户在自动取款机、POS机或网络平台上进行消费或转账等操作。
初始问题:芯片卡相比磁条卡有什么优势?初始答案:芯片卡相比磁条卡更安全和稳定。
S104,对初始问题与初始答案进行去重筛选,且基于字数对去重筛选后的初始问题与初始答案进行排序,并基于排序结果输出每一目标摘要对应的目标问题及目标答案。
可以理解的是,在步骤S103生成的初始问题及初始答案中可能存在重复或相似的内容,而这些重复的内容对于用户来说并非是必须的,因此还需进行一系列的筛选操作。
在一个具体实施中,对初始问题与初始答案进行去重筛选,包括:
(1)、在所有的初始问题中,分别计算两两初始问题之间的余弦相似度并进行排序,以得到多个问题对组成的第一排序结果;
这一步是为了找出相似度最高的初始问题对,也就是那些内容重复或者相近的初始问题。余弦相似度是一种通过计算两个向量的夹角余弦值来评估他们的相似度的方法。在这里,每个初始问题可以看作是一个由词语组成的向量,词语可以用词频、TF-IDF等方法进行权重赋值。计算两个初始问题之间的余弦相似度,就可以得到它们之间的相似程度,越接近1表示越相似,越接近0表示越不相关。将所有初始问题两两进行余弦相似度计算,并按照从大到小的顺序进行排序,就可以得到第一排序结果,它是由多个问题对组成的列表,每个问题对都有一个对应的余弦相似度值。
(2)、在所有的初始答案中,分别计算两两初始答案之间的余弦相似度并进行排序,以得到多个答案对组成的第二排序结果。
这一步是为了找出相似度最高的初始答案对,也就是那些内容重复或者相近的初始答案。余弦相似度的计算方法和上一步一样,只是将初始问题换成了初始答案。
(3)、在第一排序结果中,对余弦相似度最大的前N个问题及对应的初始答案进行第一去重操作;其中,N为预设值,第一去重操作指示删除每一问题对中的任意一个初始问题及删除对应的初始答案。
这一步是为了删除那些重复或者相近的初始问题及其对应的初始答案,以减少冗余信息。N是一个预设值,表示要删除多少个问题对。
(4)、在第二排序结果中,对余弦相似度最大的前M个答案及对应的初始问题进行第二去重操作;其中,M为预设值,第二去重操作指示删除每一答案对中的任意一个初始答案及删除对应的初始问题。
这一步是为了进一步删除那些重复或者相近的初始答案及其对应的初始问题,以进一步减少冗余信息。M是一个预设值,表示要删除多少个答案对。
在一个具体实施中,基于字数对去重筛选后的初始问题与初始答案进行排序,并基于排序结果输出每一目标摘要对应的目标问题及目标答案,包括:返回字数最多的前L个答案作为目标答案,并将目标答案对应的问题作为目标问题与目标答案一同输出;其中,L为预设值。
这一步是为了从去重筛选后的初始问题与初始答案中选择最能覆盖目标摘要内容的目标问题及目标答案,并输出。L是一个预设值,表示要选择多少个答案。根据初始答案的字数,按照从多到少的顺序进行排序,然后选取字数最多的前L个答案作为目标答案,并将它们对应的初始问题作为目标问题与目标答案一同输出。
上述问题提取及答案生成方法,对银行数据文档中的文本信息进行分割和向量化,得到每页的多个文本向量;对每个文本向量进行摘要,得到多个目标摘要;对每个目标摘要使用预设的提问格式,送入自然语言处理模型,得到多个初始问题和答案;对初始问题和答案进行去重和排序,输出每个目标摘要对应的目标问题和答案。可见,本发明能对银行数据文档进行解析,自动生成相关问题和答案,帮助用户快速理解文档内容,及时掌握行业信息动态。
在一个实施例中,如图2所示,提出了一种问题提取及答案生成装置,该装置包括:
文本向量生成模块201,用于对银行数据文档中的文本信息进行分割操作及与转向量操作,以得到银行数据文档中每页对应的多个文本向量;
目标摘要生成模块202,用于分别归纳形成每一文本向量所对应的目标摘要,以得到多个目标摘要;
结果输出模块203,用于按照预设的提问格式分别将每一目标摘要送入自然语言处理模型,以生成每一目标摘要对应的多个不同的初始问题与初始答案;及对所述初始问题与所述初始答案进行去重筛选,且基于字数对去重筛选后的初始问题与初始答案进行排序,并基于排序结果输出每一目标摘要对应的目标问题及目标答案。
在其中一个实施例中,所述文本向量生成模块201,具体用于:
读取所述银行数据文档中每页的文本信息,并将目标页的文本信息与相邻页的浮动变量作为所述目标页的文本块,以得到多页的文本块;其中,所述目标页为银行数据文档中的任意一页,所述相邻页为所述目标页的上一页和/或下一页,所述浮动变量为所述相邻页中与所述目标页临近的预设长度的文本信息;
以字数和/或段落为划分单位对每页的文本块进行划分,以得到每页的子文本块;
使用预设的句子相似度模型将每页的子文本块嵌入为对应的文本向量。
在其中一个实施例中,所述目标摘要生成模块202,具体用于:
分别将每一向量块输入到预设的摘要生成模型中,并获取输出的初始摘要;其中,每一向量块由一子文本块和对应的文本向量构成;
分别基于句子边界和/或关键词对每一初始摘要进行提取,以得到每一初始摘要对应的少于预设字数阈值的目标摘要。
结果输出模块203,具体用于:在所有的初始问题中,分别计算两两初始问题之间的余弦相似度并进行排序,以得到多个问题对组成的第一排序结果;
在所有的初始答案中,分别计算两两初始答案之间的余弦相似度并进行排序,以得到多个答案对组成的第二排序结果;
在所述第一排序结果中,对余弦相似度最大的前N个问题及对应的初始答案进行第一去重操作;其中,N为预设值,所述第一去重操作指示删除每一问题对中的任意一个初始问题及删除对应的初始答案;
在所述第二排序结果中,对余弦相似度最大的前M个答案及对应的初始问题进行第二去重操作;其中,M为预设值,所述第二去重操作指示删除每一答案对中的任意一个初始答案及删除对应的初始问题。
结果输出模块203,具体用于:返回字数最多的前L个答案作为目标答案,并将所述目标答案对应的问题作为目标问题与所述目标答案一同输出;其中,L为预设值。
图3示出了一个实施例中问题提取及答案生成设备的内部结构图。如图3所示,该问题提取及答案生成设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该问题提取及答案生成设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现问题提取及答案生成方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行问题提取及答案生成方法。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的问题提取及答案生成设备的限定,具体的问题提取及答案生成设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:对银行数据文档中的文本信息进行分割操作及与转向量操作,以得到银行数据文档中每页对应的多个文本向量;分别归纳形成每一文本向量所对应的目标摘要,以得到多个目标摘要;按照预设的提问格式分别将每一目标摘要送入自然语言处理模型,以生成每一目标摘要对应的多个不同的初始问题与初始答案;对所述初始问题与所述初始答案进行去重筛选,且基于字数对去重筛选后的初始问题与初始答案进行排序,并基于排序结果输出每一目标摘要对应的目标问题及目标答案。
一种问题提取及答案生成设备,包括存储器、处理器以及存储在该存储器中并可在该处理器上执行的计算机程序,该处理器执行该计算机程序时实现如下步骤:对银行数据文档中的文本信息进行分割操作及与转向量操作,以得到银行数据文档中每页对应的多个文本向量;分别归纳形成每一文本向量所对应的目标摘要,以得到多个目标摘要;按照预设的提问格式分别将每一目标摘要送入自然语言处理模型,以生成每一目标摘要对应的多个不同的初始问题与初始答案;对所述初始问题与所述初始答案进行去重筛选,且基于字数对去重筛选后的初始问题与初始答案进行排序,并基于排序结果输出每一目标摘要对应的目标问题及目标答案。
需要说明的是,上述问题提取及答案生成方法、装置、设备及计算机可读存储介质属于一个总的发明构思,问题提取及答案生成方法、装置、设备及计算机可读存储介质实施例中的内容可相互适用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种问题提取及答案生成方法,其特征在于,所述方法包括:
对银行数据文档中的文本信息进行分割操作及与转向量操作,以得到银行数据文档中每页对应的多个文本向量,具体包括:读取所述银行数据文档中每页的文本信息,并将目标页的文本信息与相邻页的浮动变量作为所述目标页的文本块,以得到多页的文本块;其中,所述目标页为银行数据文档中的任意一页,所述相邻页为所述目标页的上一页和/或下一页,所述浮动变量为所述相邻页中与所述目标页临近的预设长度的文本信息;以字数和/或段落为划分单位对每页的文本块进行划分,以得到每页的子文本块;使用预设的句子相似度模型将每页的子文本块嵌入为对应的文本向量;
分别归纳形成每一文本向量所对应的目标摘要,以得到多个目标摘要;
按照预设的提问格式分别将每一目标摘要送入自然语言处理模型,以生成每一目标摘要对应的多个不同的初始问题与初始答案;
对所述初始问题与所述初始答案进行去重筛选,且基于字数对去重筛选后的初始问题与初始答案进行排序,并基于排序结果输出每一目标摘要对应的目标问题及目标答案。
2.根据权利要求1所述的方法,其特征在于,所述分别归纳形成每一文本向量所对应的目标摘要,包括:
分别将每一向量块输入到预设的摘要生成模型中,并获取输出的初始摘要;其中,每一向量块由一子文本块和对应的文本向量构成;
分别基于句子边界和/或关键词对每一初始摘要进行提取,以得到每一初始摘要对应的少于预设字数阈值的目标摘要。
3.根据权利要求1所述的方法,其特征在于,所述对所述初始问题与所述初始答案进行去重筛选,包括:
在所有的初始问题中,分别计算两两初始问题之间的余弦相似度并进行排序,以得到多个问题对组成的第一排序结果;
在所有的初始答案中,分别计算两两初始答案之间的余弦相似度并进行排序,以得到多个答案对组成的第二排序结果;
在所述第一排序结果中,对余弦相似度最大的前N个问题及对应的初始答案进行第一去重操作;其中,N为预设值,所述第一去重操作指示删除每一问题对中的任意一个初始问题及删除对应的初始答案;
在所述第二排序结果中,对余弦相似度最大的前M个答案及对应的初始问题进行第二去重操作;其中,M为预设值,所述第二去重操作指示删除每一答案对中的任意一个初始答案及删除对应的初始问题。
4.根据权利要求1所述的方法,其特征在于,所述基于字数对去重筛选后的初始问题与初始答案进行排序,并基于排序结果输出每一目标摘要对应的目标问题及目标答案,包括:
返回字数最多的前L个答案作为目标答案,并将所述目标答案对应的问题作为目标问题与所述目标答案一同输出;其中,L为预设值。
5.一种问题提取及答案生成装置,其特征在于,所述装置包括:
文本向量生成模块,用于对银行数据文档中的文本信息进行分割操作及与转向量操作,以得到银行数据文档中每页对应的多个文本向量;
所述文本向量生成模块,具体用于读取所述银行数据文档中每页的文本信息,并将目标页的文本信息与相邻页的浮动变量作为所述目标页的文本块,以得到多页的文本块;其中,所述目标页为银行数据文档中的任意一页,所述相邻页为所述目标页的上一页和/或下一页,所述浮动变量为所述相邻页中与所述目标页临近的预设长度的文本信息;以字数和/或段落为划分单位对每页的文本块进行划分,以得到每页的子文本块;使用预设的句子相似度模型将每页的子文本块嵌入为对应的文本向量;
目标摘要生成模块,用于分别归纳形成每一文本向量所对应的目标摘要,以得到多个目标摘要;
结果输出模块,用于按照预设的提问格式分别将每一目标摘要送入自然语言处理模型,以生成每一目标摘要对应的多个不同的初始问题与初始答案;及对所述初始问题与所述初始答案进行去重筛选,且基于字数对去重筛选后的初始问题与初始答案进行排序,并基于排序结果输出每一目标摘要对应的目标问题及目标答案。
6.根据权利要求5所述的问题提取及答案生成装置,其特征在于,所述文本向量生成模块,具体用于:
读取所述银行数据文档中每页的文本信息,并将目标页的文本信息与相邻页的浮动变量作为所述目标页的文本块,以得到多页的文本块;其中,所述目标页为银行数据文档中的任意一页,所述相邻页为所述目标页的上一页和/或下一页,所述浮动变量为所述相邻页中与所述目标页临近的预设长度的文本信息;
以字数和/或段落为划分单位对每页的文本块进行划分,以得到每页的子文本块;
使用预设的句子相似度模型将每页的子文本块嵌入为对应的文本向量。
7.根据权利要求5所述的问题提取及答案生成装置,其特征在于,所述目标摘要生成模块,具体用于:
分别将每一向量块输入到预设的摘要生成模型中,并获取输出的初始摘要;其中,每一向量块由一子文本块和对应的文本向量构成;
分别基于句子边界和/或关键词对每一初始摘要进行提取,以得到每一初始摘要对应的少于预设字数阈值的目标摘要。
8.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。
9.一种问题提取及答案生成设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311093501.4A CN117056490B (zh) | 2023-08-28 | 2023-08-28 | 问题提取及答案生成方法、装置、介质和设备 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311093501.4A CN117056490B (zh) | 2023-08-28 | 2023-08-28 | 问题提取及答案生成方法、装置、介质和设备 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN117056490A CN117056490A (zh) | 2023-11-14 |
| CN117056490B true CN117056490B (zh) | 2026-03-24 |
Family
ID=88653332
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311093501.4A Active CN117056490B (zh) | 2023-08-28 | 2023-08-28 | 问题提取及答案生成方法、装置、介质和设备 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN117056490B (zh) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114925184A (zh) * | 2022-05-16 | 2022-08-19 | 阿里巴巴(中国)有限公司 | 问答对生成方法、装置及计算机可读存储介质 |
| CN114970563A (zh) * | 2022-07-28 | 2022-08-30 | 山东大学 | 融合内容和形式多样性的中文问题生成方法和系统 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11222167B2 (en) * | 2019-12-19 | 2022-01-11 | Adobe Inc. | Generating structured text summaries of digital documents using interactive collaboration |
| CN112800177B (zh) * | 2020-12-31 | 2021-09-07 | 北京智源人工智能研究院 | 基于复杂数据类型的faq知识库自动生成方法和装置 |
| CN114579796B (zh) * | 2022-05-06 | 2022-07-12 | 北京沃丰时代数据科技有限公司 | 机器阅读理解方法及装置 |
| CN114997138B (zh) * | 2022-06-20 | 2024-07-19 | 壹沓科技(上海)有限公司 | 一种化学品说明书解析方法、装置、设备及可读存储介质 |
| KR102436549B1 (ko) * | 2022-07-20 | 2022-08-25 | (주) 유비커스 | 딥러닝을 이용한 자연어처리 기반의 faq 및 챗봇을 위한 학습데이터를 자동으로 생성하기 위한 방법 및 이를 위한 장치 |
-
2023
- 2023-08-28 CN CN202311093501.4A patent/CN117056490B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114925184A (zh) * | 2022-05-16 | 2022-08-19 | 阿里巴巴(中国)有限公司 | 问答对生成方法、装置及计算机可读存储介质 |
| CN114970563A (zh) * | 2022-07-28 | 2022-08-30 | 山东大学 | 融合内容和形式多样性的中文问题生成方法和系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN117056490A (zh) | 2023-11-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12481828B1 (en) | User interface for use with a search engine for searching financial related documents | |
| Cecchini et al. | Making words work: Using financial text as a predictor of financial events | |
| Bian et al. | Icorating: A deep-learning system for scam ico identification | |
| Tsai et al. | Discovering finance keywords via continuous-space language models | |
| CN110457302A (zh) | 一种结构化数据智能清洗方法 | |
| CN109344234A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
| US20260004330A1 (en) | Document processing platform | |
| Boskou et al. | Assessing internal audit with text mining | |
| Barua et al. | Swindle: Predicting the probability of loan defaults using catboost algorithm | |
| Oral et al. | Fusion of visual representations for multimodal information extraction from unstructured transactional documents: B. Oral, G. Eryiğit | |
| Radygin et al. | Application of text mining technologies in Russian language for solving the problems of primary financial monitoring | |
| Loukas et al. | EDGAR-CRAWLER: From Raw Web Documents to Structured Financial NLP Datasets | |
| CN121351802A (zh) | 一种基于上下文标记与模型级联的文档切分方法及系统 | |
| WO2021075998A1 (ru) | Система классификации данных для выявления конфиденциальной информации в тексте | |
| CN117056490B (zh) | 问题提取及答案生成方法、装置、介质和设备 | |
| KR20230072151A (ko) | 세무 회계 서비스 플랫폼 | |
| CN115034891B (zh) | 基于自然语言处理的借贷记账方法、装置、设备及介质 | |
| Blanco Lambruschini et al. | A novel architecture for long-text predictions using bert-based models | |
| Zhang et al. | A semantic search framework for similar audit issue recommendation in financial industry | |
| Basak et al. | British stock market, Brexit and media sentiments-A big data analysis | |
| CN113868431B (zh) | 面向金融知识图谱的关系抽取方法、装置及存储介质 | |
| Taylor et al. | e-commerce and sentiment analysis: Predicting outcomes of class action lawsuits | |
| CN116503878A (zh) | 一种业务决策处理方法及装置 | |
| Sun et al. | Using an ensemble LSTM model for financial statement fraud detection | |
| KR20230169538A (ko) | 금융 마이데이터 기반 기계학습을 위한 말뭉치를 이용한 거래 적요 데이터 분석 장치 및 방법과 이를 위한 컴퓨터 프로그램 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |