DiscoScore:使用 BERT 和上下文连贯性评估文本生成
使用 Discobert 模型从已修剪的子句中提取文本,通过基于结构的话语图来捕获在 BERT 中不能很好捕获的长程依赖关系,该模型在流行的摘要基准测试中表现出显着的优越性。
Oct, 2019
该论文提出了一个可以评估处理自然语言时的句子内语篇特征的精细化预训练模型,该模型包含 9 个文献领域的测试集,涵盖了许多超出了跨句子属性的问题。
Jul, 2023
本研究提出了一种基于计算话语理论的生成度量,用于评估图像描述生成模型的语义和语用成功,与最近提出的学习指标相比,在人类评分预测方面表现更好。
Sep, 2021
本文提出了基于分布式句子表示的可解释计算指标,用于评估开放领域对话系统的主题、话题的连贯性,减少了人工判断实验的时间成本和不可伸缩性,并结合先进的蕴含技术,介绍了可计算的人工判断形式,实现了对大规模数据集上对话质量的无偏估计。
Apr, 2019
BERTScore 是一种针对文本生成的自动评估指标,利用上下文嵌入计算 token 的相似性,能够更好地与人类判断相关,并提供比现有度量更强的模型选择性能。
Apr, 2019
本文提出了新颖的自动度量标准,使用议论结构和卷积核比较自动翻译的议论树和人类参考的议论树,并通过五种转换技术和增强基于修辞结构理论的基础议论树表示的方法,并将其得分结合成一个综合评分。最后,从 ASIYA MT 评估工具包中添加其他指标,并在实际人员评估上权衡组合的权重。在 WMT12 和 WMT13 度量标准共享任务数据集上的实验表明,与这些年参与的最佳系统相比,在部分和系统级别上与人类判断的相关性表现更好。
Nov, 2019
提出一种新的,用于量化两篇长篇文章之间的话语分歧的自动度量标准,该指标在代表性领域的三个数据集上进行了广泛的实验,证明与人类的偏好和 GPT-4 的连贯性评估更加一致,并且胜过了现有的评估方法。
Feb, 2024
本论文提出了一个带有丰富语篇注释的新数据集,并探讨了源语言和目标语言的语篇结构相似性和差异性以及其对机器翻译的挑战和机会,该资源可公开使用以促进未来在文档级机器翻译和其他语言翻译任务的研究。
May, 2023
本文介绍了一种新颖的布朗桥连贯度量指标 (BBScore),它能够评估文本的连贯性,不仅能在局部上测量文本连贯性,还能在整体上测量文本连贯性,同时避免了端到端模型训练的需要。该指标在与附加的简单分类组件结合时,展示出与最先进技术相当的表现水平,并在标准人工辨别任务中成功区分了由大型语言模型和人类撰写的文档。此外,我们还展示了这种方法在检测不同大型语言模型的撰写风格方面的效果,凸显了它的潜在泛化能力。
Dec, 2023