使用 LLMs 的 Pairwise 比较进行零样本自然语言生成评估
本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型,同时还提出了使用技能等级系统来评估模型质量,并将其作为性能指标,在训练过程中进行优化。实验结果表明,该方法与人类偏好的相关性更高,训练成果更优秀,有效性得到了证明。
Feb, 2020
自然语言生成(NLG)的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法,探讨了它们的优势和劣势,讨论了人机合作的 NLG 评估,并提出了该领域的几个开放问题和未来的研究方向。
Feb, 2024
自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用 LLM 进行 NLG 评估的全面概述,包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的 NLG 评估技术。
Jan, 2024
研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能,并提出了一种常见的评估设置,其中包括输入模板和后处理策略,通过与详细分析相结合的自动结果来报告研究结果。
May, 2024
通过比较点对和逐点评估方法,研究发现逐点评估方法对不必要的偏好具有更强的鲁棒性,而逐点评估器在判断错误时仍能准确识别低质量输出的缺点,这表明大型语言模型在点对评估设置中更受其偏见的影响;为了缓解这个问题,该研究提出了一种将逐点推理方法整合到点对评估中的混合方法,实验结果表明我们的方法在对抗样本中提高了点对评估器的鲁棒性,并在正常样本上保持了准确性。
Jun, 2024
该论文探讨了使用大型语言模型(LLMs)进行自动对话质量评估的方法,并在公共和专有数据集上尝试了各种配置。结果表明,更大的模型产生了更准确的对话标签;算法选择背景上下文示例优于随机选择;在输出最终标签之前,使用 “思维链”(CoT)推理和标签提取过程进行合理化,可以提高性能;精细调整的 LLMs 优于开箱即用的模型。研究结果表明,合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。
Jun, 2024
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
大语言模型的评估和排名是一个重要的问题,本研究提出了一种新的方法,在没有任何参考数据的情况下,通过考虑三元组模型相互评估来排名这些模型,实验证明该方法可靠地恢复接近真实的排名,为实际使用提供了可行的低资源机制。
Feb, 2024
使用大型语言模型作为评估者,提出了一种对生成的反话进行评估的新方法,通过在锦标赛格式中对生成的反话进行成对比较,建立了一个模型排名流程,并与人类偏好达到了 0.88 的相关性。此外,通过细致的评估和性能分析,发现以聊天为导向的零 - shot 生成模型在此任务中是最佳选择,前提是它们不因安全问题而拒绝生成答案。
Jun, 2024
为了解决开放式自然语言生成任务中评估标准不一致的挑战,我们提出了一种协同评估流程 CoEval,涉及特定任务标准的清单设计和文本的详细评估,其中大型语言模型生成初步的构思,而人类进行审查,结果显示,通过利用大型语言模型,CoEval 能够高效地评估长文本,节省时间并减少人类评估的异常值,人类审查仍然起着重要作用,以最终确保可靠性。
Oct, 2023