GUMsley:对 12 种英语流派中摘要的实体显著性评估
本文提出了 GUMSum 数据集,旨在评估抽象概括的英语摘要。该数据集高度约束,注重替换潜力、事实和忠实度,结果显示 GPT3 达到了令人印象深刻的得分,但仍然表现不如人类,并且不同类型的错误揭示了生成好概括的挑战。
Jun, 2023
在文本文档中,通过对中的有限实体进行鲜明实体识别可以在多个下游应用领域中实现重要性提取,本研究通过细调中型语言模型以交叉编码器结构取得重大性能提升,同时展示了零 - shot 指令调整语言模型在此任务上表现不佳,凸显其独特且复杂性质。
Sep, 2023
本文提出了一种利用实体而非句子进行事件时间轴摘要的新方法,该方法为回顾性事件考虑提供重要的记忆提示,并在个性化事件探索方面起到指针作用,同时提出了一种用于实体排名的学习方法,并以 Wikipedia 为基础的创新性软标签方法来捕捉实体的集体关注度。实验证明了所提出方法的有效性。
Jan, 2017
通过微调预训练的 Transformer 模型,利用实体标签或上下文实体表示,探索高效和有效的显著性实体检测方法。实验证明,这些直接的技术在不同规模和显著性定义的数据集上明显优于先前的工作。还研究了知识蒸馏技术,以有效地降低这些模型的计算成本,而不影响其准确性。最后,进行了广泛的分析和切除实验以描述所提出模型的行为。
May, 2024
本文提出一种核实体显著性模型(KESM),通过更好地估计文档中实体的显著性(重要性),提高文本理解和检索。KESM 通过知识增强的分布式表示来表示实体,通过核函数建模实体和单词之间的交互,并结合核分数来估计实体显著性。该模型的整个过程都是通过学习实体显著性标签来完成的。显著性模型还通过模拟候选文档中查询实体的显著性,提供有效的排名特征,从而提高了即席搜索的准确性。我们在两个实体显著性语料库和两个 TREC 即席搜索数据集上的实验结果表明,KESM 比基于频率和特征的方法更为有效。我们还提供了示例,展示了 KESM 如何将其从实体显著性中学到的文本理解能力应用于搜索。
May, 2018
本文研究了使用链接实体以指导神经文本摘要器生成简洁更好摘要的方法,并提出了 Entity2Topic (E2T) 方法。通过 E2T 应用于基于 Aufmerksamkeit 机制的简单序列到序列模型,在 Gigaword 和 CNN 摘要数据集上至少获得 2 个 ROUGE 点的显著性能提升。
Jun, 2018
通过使用 SEASON(Salience Allocation as Guidance for Abstractive SummarizatiON)技术,本文探讨了抽象文本摘要的领域,这是一种通过利用显著性分配技术来增强摘要的模型。通过将其与 BART、PEGASUS 和 ProphetNet 等知名模型进行比较,研究评估了 SEASON 的有效性,所有这些模型都经过了不同的文本摘要任务的微调。本论文使用多种评估指标(如 ROUGE、METEOR、BERTScore 和 MoverScore)来评估为生成抽象摘要而微调的这些模型的性能。这些指标的分析提供了对每个模型在摘要新闻数据集、对话数据集和财务文本数据集方面所展示出的优点和不足的深入洞察。本文提供的结果不仅有助于评估 SEASON 模型的有效性,还阐明了显著性分配技术在各种类型数据集中的复杂性。
Feb, 2024
通过强化学习方法,采用 ROUGESal 和 Entail 两种新的奖励函数优化传统指标 ROUGE,实现多重奖励同时优化的方式来提高摘要生成的效果。实验证明,该方法在 CNN/Daily Mail 数据集上达到了新的最高性能水平,并在测试集合 DUC-2002 中有很大的提高。
Apr, 2018
该研究利用自然语言处理技术预测股票价格波动,旨在早期发现能够捕捉市场机会的经济、政治、社会和技术变化。通过从新闻文章中识别重要事实和事件,并使用这些事实与实体形成元组,以获取特定实体的市场变化摘要,最后结合所有摘要形成整篇文章的最终摘要。使用大型语言模型 GPT 3.5 进行摘要提取,并分析维基百科数据和《经济学家》的文章以建立公司和实体之间的关系。该研究旨在开发一种全面的系统,通过提前发现市场趋势和事件,为金融分析师和投资者提供更加明智的决策工具。
Oct, 2023
本研究提出了一种多任务学习的方法,通过附加生成问题和蕴含语句的任务来提高摘要的准确性和逻辑推断能力,并提出了高层语义层次共享的多任务结构和软共享机制,明显提高了文本摘要的表现。
May, 2018