- 深入研究索赔分解
研究探讨了生成文本的外部知识支持度评估方法,发现该评估方法对于存证方法的选择非常敏感,并提出了一种改进方法来提高分解质量。
- 巩固大型语言模型的三个水印砖块
该研究以三个理论和实证考虑为基础,为大型语言模型提出了水印的方法,其中包括新的统计测试、经典基准的效果比较以及高级侦测方案的开发。
- ACLMixCE: 通过混合正向和反向交叉熵训练自回归语言模型
本文提出使用 MixCE 目标函数来学习自回归语言模型,该目标函数结合了前向交叉熵和反向交叉熵,以更好地生成类人文本。实验表明,在合成数据和真实数据上,使用 MixCE 训练的模型生成的文本比使用传统方法更好。
- AAAI真假文本?:探究人类识别人写与机器生成文本边界的能力
本文研究了如何使用最先进的神经语言模型使人工创作的文本过渡为文本生成,并且展示了该任务上的众议员的技能差异。通过比较多种变量的影响,我们收集了 RoFT 数据集,以鼓励未来在人工检测和评估生成的文本方面进行更多的研究。
- T5Score: 生成式评估度量的判别微调
该研究提出了一个结合监督学习和无监督信号的框架,使用 T5Score 作为度量标准,对生成文本进行评估,并通过实验数据表明 T5Score 在各个数据集上均取得了最佳表现。
- EMNLP避免平庸陷阱:通过集中注意力促进文本生成中的多样性和新颖性
本文提出了一种名为‘Trap of Mediocrity’的机制,并引入了一种基于结构透明的注意力正则化损失函数,能够有效地提高生成文本的多样性和新颖性,同时维持着在各种有条件和无条件的生成任务中相当的质量。
- 生成文本的无参考评估的局限性
我们的研究表明:参考文本的自由度量在评估生成文本方面存在固有的偏见和限制,因此建议将其作为分析和理解模型行为的诊断工具,而不是评估模型任务表现的指标。
- GRUEN 用于生成文本的语言质量评估
本研究提出了一种新的基于 GRUEN 模型的评估语法、无冗余、焦点、结构和连贯性等语言生成质量的自动评估指标。该指标不需要人工参考,具有无监督,确定性和适应性等优点,并通过实验验证了与人类评判高度相关的结果。
- ACLdeltaBLEU: 一种针对本质多样化目标的生成任务的鉴别指标
我们引入了判别式 BLEU (deltaBLEU),这是一种新的度量生成文本内在质量的度量方法;它能够在多样化的输出任务中为多参考文本 BLEU 加权,对于生成对话回复的任务,该度量方法与人类判断有较高相关性且在 Spearman's rh