文本生成的更好LLM评估器:提示输出排序和优化的影响
ChainForge是一个开源的可视化工具包,用于大型语言模型的提示工程和按需假设测试,它提供了一个图形界面,用于跨模型和提示变体之间的响应比较。
Sep, 2023
通过评估多个用户定义的标准,使用自然语言描述系统的评估器提供的反馈,从而使开发人员能够通过迭代改进引导语。与手动评估相比,EvalLM有助于参与者构建更多样化的标准,检查两倍数量的输出,并在减少59%的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。
Sep, 2023
这篇研究通过引入一个具有挑战性的元评估基准LMMBar,调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力,发现不同评估器对LMMBar的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
大语言模型的关键因素在于提示设计对其性能会产生巨大影响,通过许多方面的分析研究,我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性,这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。
Oct, 2023
通过分析提示策略、评分聚合和解释性等多个方面,本研究探索了基于开源大型语言模型(LLMs)的度量方法在自然语言生成品质评估中的潜力,并提供了有关开源LLMs评估能力的实验结果和有效的提示策略。
Nov, 2023
通过综合分析来自3个评估基准的39项任务、20种不同的大型语言模型和650万个实例的单提示评估结果的脆弱性,我们提出使用一套多样的提示来评估大型语言模型,为特定的使用场景(例如LLM开发人员与对特定下游任务感兴趣的开发人员)设计定制化的评估指标,从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时,我们实施了这些标准并对多个模型进行了评估,为当前大型语言模型的真正优势和限制提供了深入的见解。
Dec, 2023
通过系统评估多种LLM模型和不同提示策略的方法,我们展示出基于第二系统推理提示的复杂方法在减少偏见的平均输出中表现更好,对下游任务具有竞争性能,这为以最终用户为焦点的评估框架在LLM使用方面提供了研究方向和潜力。
May, 2024
研究通过大型语言模型(LLMs)研究提示设计对对话评估的影响。我们的研究实验了不同的提示结构,发现呈现原因和评分的顺序显著影响LLMs的评分,使用先给出原因的方法能够得到更全面的评估结果,该发现对于提高LLM的评估准确性和一致性至关重要。
Jun, 2024
LLM 和基于 LLM 的度量方法的稳定性和变异性,探索了不同提示策略影响机器翻译和摘要评估的研究,发现了最稳定的提示模式和潜在限制。
Jun, 2024