DiscoScore：使用 BERT 和上下文连贯性评估文本生成

ACLJan, 2022

DiscoScore：使用 BERT 和上下文连贯性评估文本生成

DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence

Wei Zhao, Michael Strube, Steffen Eger

TL;DR介绍了一种基于 Centering 理论和 BERT 的参数化的 Discourse 评估度量，DiscoScore，在结构连贯性、事实一致性等方面优于当前流行的评估度量 BARTScore。

Abstract

Recently, there has been a growing interest in designing text generation systems from a discourse coherence perspective, e.g., modeling the interdependence between sentences. Still, recent BERT-based

text generation discourse coherence bert-based metrics discoscore evaluation metrics

发现论文，激发创造

语境感知神经提取式文本摘要

使用 Discobert 模型从已修剪的子句中提取文本，通过基于结构的话语图来捕获在 BERT 中不能很好捕获的长程依赖关系，该模型在流行的摘要基准测试中表现出显着的优越性。

Oct, 2019

Disco-Bench: 一种考虑语篇的语言模型评估基准

该论文提出了一个可以评估处理自然语言时的句子内语篇特征的精细化预训练模型，该模型包含 9 个文献领域的测试集，涵盖了许多超出了跨句子属性的问题。

Jul, 2023

COSMic: 一个针对图像描述的一致性感知生成度量

本研究提出了一种基于计算话语理论的生成度量，用于评估图像描述生成模型的语义和语用成功，与最近提出的学习指标相比，在人类评分预测方面表现更好。

Sep, 2021

论述性神经机器翻译的连贯性建模

本研究提出一种使用话语上下文和奖励机制来从话语角度提高翻译质量的模型，能够有效提高翻译质量和话语连贯性。

Nov, 2018

利用蕴涵关系评估对话系统中的一致性

本文提出了基于分布式句子表示的可解释计算指标，用于评估开放领域对话系统的主题、话题的连贯性，减少了人工判断实验的时间成本和不可伸缩性，并结合先进的蕴含技术，介绍了可计算的人工判断形式，实现了对大规模数据集上对话质量的无偏估计。

Apr, 2019

使用 BERT 评估文本生成

BERTScore 是一种针对文本生成的自动评估指标，利用上下文嵌入计算 token 的相似性，能够更好地与人类判断相关，并提供比现有度量更强的模型选择性能。

Apr, 2019

使用语篇结构进行机器翻译评价的 DiscoTK

本文提出了新颖的自动度量标准，使用议论结构和卷积核比较自动翻译的议论树和人类参考的议论树，并通过五种转换技术和增强基于修辞结构理论的基础议论树表示的方法，并将其得分结合成一个综合评分。最后，从 ASIYA MT 评估工具包中添加其他指标，并在实际人员评估上权衡组合的权重。在 WMT12 和 WMT13 度量标准共享任务数据集上的实验表明，与这些年参与的最佳系统相比，在部分和系统级别上与人类判断的相关性表现更好。

Nov, 2019

结构度量解锁：引入 PDD，一种用于位置语篇连贯性的自动度量

提出一种新的，用于量化两篇长篇文章之间的话语分歧的自动度量标准，该指标在代表性领域的三个数据集上进行了广泛的实验，证明与人类的偏好和 GPT-4 的连贯性评估更加一致，并且胜过了现有的评估方法。

Feb, 2024

通过密集注释的平行语料库以话语为中心评估机器翻译

本论文提出了一个带有丰富语篇注释的新数据集，并探讨了源语言和目标语言的语篇结构相似性和差异性以及其对机器翻译的挑战和机会，该资源可公开使用以促进未来在文档级机器翻译和其他语言翻译任务的研究。

May, 2023

BBScore：一种基于布朗桥的评估文本连贯性的度量方法

本文介绍了一种新颖的布朗桥连贯度量指标 (BBScore)，它能够评估文本的连贯性，不仅能在局部上测量文本连贯性，还能在整体上测量文本连贯性，同时避免了端到端模型训练的需要。该指标在与附加的简单分类组件结合时，展示出与最先进技术相当的表现水平，并在标准人工辨别任务中成功区分了由大型语言模型和人类撰写的文档。此外，我们还展示了这种方法在检测不同大型语言模型的撰写风格方面的效果，凸显了它的潜在泛化能力。

Dec, 2023