text evaluation | BriefGPT - AI 论文速递

关键词text evaluation

搜索结果 - 7

从模型中心到人本中心：基于语言模型的应用中文本评估的修订距离度量
我们的研究将焦点从以模型为中心的评估方法转变为以人为中心的评估方法，提出了一种名为 “修订距离” 的度量方法，通过计算大型语言模型生成的修订编辑数来评估文本，并在易写作任务和具有挑战性的学术写作任务中提供更准确、详细的反馈，同时在缺乏参考文
PDF3 months ago
ALLURE：一种用于迭代上下文学习的 LLM 文本评估的系统性审核和改进协议
ALLURE 是一种系统性方法，用于审计大型语言模型的理解和推理错误，通过比较 LLM 生成的评估与注释数据，并迭代地将显著偏差的实例纳入评估器，利用上下文学习（ICL）增强和改进 LLM 对文本的鲁棒评估，从而最终降低对人工注释者在评估过
PDF9 months ago
ChatEval：基于多智能体辩论的 LLM 评估器改进
通过多代理辩论框架，构建了一个名为 ChatEval 的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明 ChatEval 不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估
PDFa year ago
大型语言模型输出的评估：话语和记忆
通过对九个流行的大型语言模型的各种生成输出进行经验评估，发现输出中包含的记忆文本比例、独特文本比例和总体输出质量存在关联性，其中高质量的输出中包含的记忆文本比例较高。并提出缓解策略和质量文本的评估方法。
PDFa year ago
GPTScore：任意评估
本文提出了一种新的评估框架 GPTScore，利用生成预训练模型的崭新能力对生成的文本进行评分，实验结果表明该方法能够高效地实现对文本的定制化、多方面评估，不需要注解样本。
PDFa year ago
RISE: 利用检索技巧进行摘要评估
使用信息检索中的技术，我们提出了 RISE 方法，可自动评估生成的文本摘要在不需要参考摘要的情况下。在 SummEval 基准测试和跨语言数据集实验中，RISE 表现出更高的人类相关性和数据效率，可视为一种有效的自动化评估摘要方法。
PDF2 years ago
PLM perplexity 不可靠于文本质量评估
本文阐述了困惑度 (PPL) 在生成文本质量评估中存在的问题，如过度强调其在短文本中的不利作用，以及重复文本区间和标点符号对其表现的影响，实验发现困惑度不可靠。最后，讨论了使用语言模型评估文本质量的关键问题。
PDF2 years ago