本篇论文提出三个方面的方法,包括新的模型架构、IR 导向的预训练任务、生成大规模训练数据,以解决神经检索器面临的问题,并探讨了多模式查询的未来研究方向和相应的解决方法。
May, 2022
本文提出了一种用于快速启动训练数据集的过程,利用搜索引擎在句法图上获取正例,我们将此技术应用于 TACRED 和 DocRED 的关系,其结果模型与手动注释数据和远程监督方法所训练的模型相比具有竞争力,并且优于使用 NLG 数据增强技术所训练模型的模型。扩展基于搜索的方法使用 NLG 方法可以进一步提高结果。
Feb, 2021
本文研究将深度神经网络模型与词汇模型相结合应用于搜索引擎的检索阶段,并在 TREC 数据集上进行了实证研究,结果表明该方法得到了很好的效果,并揭示了语义方法、词汇方法以及二者结合的不同特点。
Oct, 2020
论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法,采用层级文档编码器和基于注意力机制的提取器的通用框架,能够训练不同的摘要模型(提取句子或单词),在大规模语料库上进行实验结果表明,该方法在不需要语言注解的情况下取得了与现有技术相当的效果。
Mar, 2016
通过语义文本匹配任务范式,本论文提出了一种新的神经抽取式摘要系统构建方法。经过与原有抽取式摘要方法数据集的实验对比,该方法取得了更好的抽取结果,并通过对 CNN / DailyMail 数据集的实验,创造了 44.41 的新高水平。我们相信,这种基于匹配的摘要框架的潜力还未完全被利用。
Apr, 2020
本研究提出一种利用基础文档和少量标注数据进行深度学习提取式问答的方法,并通过对三个不同领域数据集的实验验证了其有效性。
Apr, 2018
本文通过将问题建模为序列标注,并利用半监督学习方法和数据选择方案,提出了一个基于神经标注模型的关键短语提取和分类算法,该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。
Aug, 2017
使用检索式建模的思想,为会话助手的多领域任务定向语义解析问题引入了 RetroNLU 方法,通过在序列到序列模型中扩展检索部件,我们的技术在语义解析的不同语言表达复杂度下均比基线更为出色,尤其是在数据稀缺环境下,只需 40%的数据即可达到基线模型准确度的匹配,超越基线方法 1.5%的绝对宏 - F1。
Sep, 2021
本项研究探讨了信息抽取中文档体类别和长度对常用方法的影响,特别是对具有文本挖掘任务价值的命名实体识别和语义角色标注有着重要的启示。
Jun, 2023
本文介绍了语义扩展检索系统中影响最大的语义关联作用,并提出在准确性和噪音引入之间寻找最佳平衡的方案,最后通过构建自然语言处理系统并利用系统的多种知识资源进行评估。
Mar, 2022