利用大型语言模型和行为测试的评估框架来检测机器翻译系统的行为,提出了一种通过针对不同场景生成多样的源句子、使用候选集进行验证的方法,并揭示使用准确率等传统度量指标难以察觉的重要差异和潜在错误。
Sep, 2023
通过使用工具和自然语言反馈,MINT基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力,并从20个开源和闭源的语言模型分析中发现,在工具交互和自然语言反馈的情况下,LLMs的性能有所提升。
这篇研究通过引入一个具有挑战性的元评估基准LMMBar,调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力,发现不同评估器对LMMBar的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试,本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。
Nov, 2023
通过研究LLM在各种关键基准测试中的表现,我们探索了减少LLM性能评估所需评估次数的策略,并发布了评估工具和微型基准测试,证明这些工具和测试足以可靠高效地复现原始评估结果。
Feb, 2024
基准测试作为评估大型语言模型(LLMs)的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设,即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成立;相反,我们认为感兴趣的分布因具体用例而异。我们发现(1)模型在测试提示中的性能相关性是非随机的,(2)考虑到测试提示之间的相关性,可以改变主要基准测试中的模型排名,(3)导致这些相关性的解释因素包括语义相似性和常见的LLM失败点。
Apr, 2024
基于辩论的自动化基准评估框架可有效评估和比较大型语言模型(LLMs)的性能,同时消除了依赖人类群体的昂贵需求。
Jun, 2024
我们提出了一种新的大语言模型(LLMs)测评范式——Benchmarking-Evaluation-Assessment,将LLMs的评估位置从“考试室”转移到“医院”,通过对LLMs进行“体检”,利用特定任务解决作为评估内容,深入分析LLMs存在的问题,并为优化提供建议。
Jul, 2024
本研究解决了在大型语言模型(LLM)测试时间计算的规模问题,探讨如何利用固定的计算资源显著提高模型在复杂提示上的表现。论文提出了一种“计算最优”的扩展策略,能够根据提示的难度动态分配计算资源,经过验证,此策略比现有基准提高了超过4倍的计算效率,并在特定情况下超越了14倍大模型的性能。
Aug, 2024
本研究解决了大型语言模型(LLM)在性能优化和资源消耗方面的挑战。通过系统文献综述,提出了多种方法来加快LLM的训练和推理,同时保持准确性。研究表明,可以在不损失性能的情况下,显著降低计算和内存成本,推动LLM的广泛应用。
Sep, 2024