Oct, 2024
核对所有项目:生成的检查清单改善大型语言模型的评估与生成
TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and
Generation
TL;DR本研究针对大型语言模型(LLMs)评估的灵活性和可解释性不足的问题,提出了一种名为TICK(针对指令评估与检查清单)的全自动评估协议。通过生成特定指令的高质量检查清单,研究表明该方法显著提高了LLM判断与人类偏好的准确性,并展示了结构化自我改进在提升生成质量方面的潜力。