automatic evaluation of various text quality criteria produced by data-driven
intelligent methods is very common and useful because it is cheap, fast, and
usually yields repeatable results. In this paper, we pres
为了加快语言模型作为对话助手的发展,我们提出了一种新的自动评估任务:HumanRankEval(HRE)。它由一个大规模、多样化和高质量的问题集组成,每个问题都有几个由人类撰写和评分的答案。通过对 HRE 排列这些答案并计算它们与相应人类排名的相关性,我们支持了 HRE 的有效性,并研究了它在不同大小的预训练和指导调整语言模型中的效率。我们展示了 HRE 与人类判断相关,并且在指导调整后对模型变化特别敏感。
本研究提出了一种方法来准确区分 AI 生成和人工撰写的书评,通过使用迁移学习,该方法能够在不同主题上识别生成的文本,并提高对写作风格和词汇变化的检测能力。实验结果表明,能够检测文本的原始来源,达到了 96.86% 的准确率。为了确保人工生成内容的完整性和真实性,扩大对大型语言模型在文本识别方面的能力和限制的理解对于有效地应用类似的模型以及确保内容的整体和真实性将是有价值的。