神经抽象总结的实体通识表示
本文提出了一种基于实体驱动事实感知的框架,用于训练端到端的基于 Transformer 的编码 - 解码模型以摘要生物医学文章。在使用知识库中的命名实体和事实进行指导的情况下,EFAS 能够实现比标准源文档到摘要设置更准确的实体级事实准确性、N-gram 新颖性和语义等价性,而 ROUGE 指标的表现相当。
Mar, 2022
该研究提出了一种名为 SENECA 的抽象概括框架,利用实体信息生成信息丰富且连贯的摘要,该框架采用增强学习连接两个部分,即实体感知内容选择和抽象产生,并通过奖励训练以增加连贯性、简洁性和清晰度,自动和人工评估表明,该模型在 ROUGE 和新闻数据集上优于先前的最新技术,并且其产生的摘要较为信息丰富和连贯。
Sep, 2019
本文提出了一种基于神经模型的监督式方法 NEST,用于在大规模知识图谱中联合编码图结构和文本,并生成高质量多样化的实体摘要,通过采用程序化标注数据进行训练,克服手动标注摘要数据的昂贵问题。研究表明,该方法在两个公共基准测试中明显优于现有技术。
May, 2020
本论文描述了 USTC_NELSLIP 系统,在 2016 年 TAC 知识库填充 (KBP) 竞赛中提交的 Trilingual Entity Detection and Linking (EDL) 赛道,使用了两种方法进行实体发现和提及检测 (即使用 条件 RNNLM 和基于注意力的编码器解码器框架),将实体链接 (EL) 系统分为两个模块:基于规则的候选生成和神经网络概率排名模型。此外,还使用一些简单的字符串匹配规则进行 NIL 聚类,在结束时,我们的最佳系统在整个类型提及 CEAF 加度量中取得了 0.624 的 F1 值。
Nov, 2016
本文提出了一种新颖的基于 Transformer 编码器 - 解码器结构的体系结构,通过将实体级知识与来自 Wikidata 的结构全球知识结合,改善了摘要不够准确和连贯的问题,实验证明该模型对长文本摘要具有较好的 ROUGE 分数的提高效果。
Jun, 2020
本篇论文提出了一种基于实体的文本摘要方法,采用实体构建句子 - 实体图,连接知识图谱和图神经网络实现摘要,提高了提取式和生成式基线的性能。
Feb, 2023
该研究利用自然语言处理技术预测股票价格波动,旨在早期发现能够捕捉市场机会的经济、政治、社会和技术变化。通过从新闻文章中识别重要事实和事件,并使用这些事实与实体形成元组,以获取特定实体的市场变化摘要,最后结合所有摘要形成整篇文章的最终摘要。使用大型语言模型 GPT 3.5 进行摘要提取,并分析维基百科数据和《经济学家》的文章以建立公司和实体之间的关系。该研究旨在开发一种全面的系统,通过提前发现市场趋势和事件,为金融分析师和投资者提供更加明智的决策工具。
Oct, 2023
将语音文字(S2T)摘要分为级联和端到端两种模型,并使用预训练的 T2T 摘要提取器进行迁移学习,进而将其应用于在线上传的广播新闻中。结果表明,端到端模型要略逊于级联模型,但都优于提取式基线模型。
Jun, 2023
我们提出了一种基于聚类的主题建模方法,使用概念实体作为语言无关的表示,并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示,该方法在连贯性度量方面始终优于其他主题模型。
Jan, 2023