bert-based metrics | BriefGPT

关键词bert-based metrics

搜索结果 - 4

EMNLPxDial-Eval: 多语言开放领域对话评估基准
使用预训练语言模型和高质量标注的对话数据，最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上，对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此，为了解决这个问题，我们引入了一个基于英文对话评估数据集的 xDial-E
PDF9 months ago
EMNLPBERT 基准评估指标的可重复性问题
研究探讨最近四种基于 BERT 的方法是否具有可重复性，发现研究结果通常由于未进行文档化的预处理、缺失代码、报告基准度量产生更弱的结果等原因而失败，一个问题源于将分数与错误的 csv 文件列相关联而使得分数高 5 点。同时，该研究还证明了预
PDF2 years ago
ACLDiscoScore：使用 BERT 和上下文连贯性评估文本生成
介绍了一种基于 Centering 理论和 BERT 的参数化的 Discourse 评估度量，DiscoScore，在结构连贯性、事实一致性等方面优于当前流行的评估度量 BARTScore。
PDF2 years ago
ACL通过多引用对抗数据集和大规模预训练来改善对话评估
为了更好地训练和评估基于模型的度量方法，我们引入了 DailyDialog++ 数据集，并提出了一种新的基于 BERT 的度量方法 DEB，该方法预训练与 Reddit 对话中并且对我们的数据集进行了微调。DEB 的性能显著优于现有模型，并
PDF4 years ago