DiscoFuse:基于篇章语境的大规模句子融合数据集
该论文提出了一个可以评估处理自然语言时的句子内语篇特征的精细化预训练模型,该模型包含 9 个文献领域的测试集,涵盖了许多超出了跨句子属性的问题。
Jul, 2023
使用 Discobert 模型从已修剪的子句中提取文本,通过基于结构的话语图来捕获在 BERT 中不能很好捕获的长程依赖关系,该模型在流行的摘要基准测试中表现出显着的优越性。
Oct, 2019
该论文介绍了我们在 DISRPT2021 共享任务中的贡献,我们的系统 DisCoDisCo 基于 Transformer 的神经分类器,在上下文化的词嵌入上增加手工制作的特征,并依靠标记词序列的方法实现话语分割和联结检测,利用富有特征、无编码器的句子对分类器实现关系分类,我们的结果在前两个任务上优于上一次 2019 共享任务的 SOTA 成绩,并且在关系分类上的结果表明对 2021 年新基准测试具有强大的性能。消融实验表明,包括 CWEs 以外的特征对于两个任务都是有帮助的,多个预训练 Transformer 基于语言模型的局部评估表明,基于 Next Sentence Prediction(NSP)任务预训练的模型是实现关系分类的最佳选择。
Sep, 2021
通过理解各种语篇连词,我们提出了 DiscoSense,这是一个公共常识推理基准。我们使用条件对抗过滤 (CAF) 生成引人入胜的干扰项,CAF 是对对抗过滤 (AF) 的扩展。我们表明,目前最先进的预训练语言模型在 DiscoSense 上表现良好,这使得该数据集成为评估下一代公共常识推理系统的理想数据集。
Oct, 2022
介绍了一种基于 Centering 理论和 BERT 的参数化的 Discourse 评估度量,DiscoScore,在结构连贯性、事实一致性等方面优于当前流行的评估度量 BARTScore。
Jan, 2022
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
SiloFuse 是一种用于跨多个私有数据存储中进行高质量合成的新型生成框架,通过分布式潜在表扩散架构确保个体隐私,以及通过实验证明其相对于集中式扩散合成器的优越性和对特征重排和客户端数量变化的鲁棒性。
Apr, 2024
本文提出 DiscoDVT:一种基于离散变分 Transformer 的话语感知模型,用于帮助预训练语言模型生成保持长距离连贯性的长文章。通过学习一个可以概括全文结构的离散变量序列,并利用其指导每个解码步骤的生成过程。试验表明,离散编码与话语结构有显著联系,提高长段连贯性。
Oct, 2021
本研究提出了一种方法,利用未标注的语料库中的关于话语标记的信息,自动发现带有相关话语标记的句子对,构建了一个包含 174 个话语标记的数据集,并用于学习迁移句子嵌入。尽管语句表示学习通过话语标记预测取得了跨转移任务的最先进结果,但仍存在进一步提高的空间,因为仍不清楚我们的模型是否利用了句子间的语义关系。
Mar, 2019
本文提出 DiscoEval 测试套件,以评估句子表示是否包含更广泛的上下文信息,并使用来自维基百科的自然注释构建能够建模语篇的句子编码器的各种训练目标。在 DiscoEval 和其他句子评估任务上对经过预训练的句子编码器进行了基准测试,并表明这些训练目标有助于在文档结构中编码不同的信息方面。此外,BERT 和 ELMo 表现出良好的性能,并显示出不同特性的单个隐藏层。
Aug, 2019