重新思考以句子并列为测试基础的文本整合
本文提出新的统一框架,比较了常见的 IR 度量和神经模型在多个句子对分数任务和数据集上的性能,并尝试通过发布新的数据集来改进比较。我们提出了一种统一的开源软件框架,具有易于插拔的模型和任务,使我们能够尝试使用训练好的句子模型进行多任务复用并在 Ubuntu 对话数据集上提出了新的最优结果。
Mar, 2016
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
基于三层框架的科学情感总结方式,本研究提出了评估生成的元评价的质量的评估指标,并在广泛实验证明通过将此框架作为 LLMs 的提示生成元评价的假设在实证中是可行的。
Feb, 2024
本研究旨在构建一个人类方法的框架,通过在统一空间中对单句和句对进行排名,以填补句子选择和融合的差距,支持通过压缩单句和融合句对来概括文献。在单篇和多篇文献总结数据集上开展广泛的实验,并报告了关于句子选择和抽象的发现。
May, 2019
我们提出了一种基于抽象的多文档摘要框架,可以通过探索比句子更细粒度的句法单元(即名词 / 动词短语)来构建新的句子。与现有的基于抽象的方法不同,我们的方法首先构建了一个由输入文档中的短语表示的概念和事实池。然后通过选择和合并信息短语生成新的句子,以最大化短语的显著性并同时满足句子构造约束。我们采用整数线性优化来同时进行短语选择和合并,以实现摘要的全局最优解。在基准数据集 TAC 2011 上进行的实验结果表明,我们的框架在自动金字塔评估度量标准下优于最先进的模型,并在手动语言质量评估上取得了相当好的结果。
Jun, 2015
本研究提出了一种新型的框架,将模板检索和句子生成相结合,以处理普通和罕见异常情况,同时确保检测到的医学术语之间的语义一致性,该方法在两个医学报告基准测试上取得了明显的优势。
Jan, 2021
本文描述了我们针对 SemEval2020 Task 4 C 任务提交的 mUlti-task learNIng for cOmmonsense reasoNing (UNION) 系统,该系统提出了一种统一的端到端框架,利用了多个现有的常识数据集,并提出了辅助自动评估度量,以高效、准确、及时地执行模型选择。该系统不仅在指标上表现良好,而且在人类评估上得到了最高得分,同时仍保持着 15.7 的 BLEU 得分。
Jun, 2020
该研究提出了一个统一框架,通过相同的语言建模目标,在单个体系结构中学习不同的任务,实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现,这种生成方法(在单个统一的体系结构下)显示出了与最先进的特定任务模型相当的性能,并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。
Feb, 2021
本研究报道了一项新颖的训练模型,以让句子更加简洁。我们定义了这项任务,并展示它与其他相关任务(如摘要和简化)不同。通过发布两个由两个和五个人类注释者注释的测试集来进行评估。我们证明简洁性是一项难以完成的任务,而这项任务经常无法使用零 - shot 设置和大型神经语言模型。鉴于这些方法的局限性,我们提出了一种基于来回翻译的合成数据生成方法。使用这些数据,从头开始训练 Transformers 或对 T5 模型进行微调,可以得到我们最强的基线,可以通过在从多注释机器翻译测试集派生的人工简洁数据集上进行微调来进一步改进。
Nov, 2022