- LongIns: 一个对 LLMs 具有挑战性的基于长文本上下文的考试
利用 LongIns benchmark dataset 在长背景下评估大型语言模型的推理性能及上下文窗口长度对其表现的影响。
- 纵观文本和图像生成的整体评估
我们介绍了 InterleavedBench 作为第一个精心策划的用于评估混合文本图像生成的基准,并引入了使用 GPT-4o 提供准确且可解释的评估的强无参考度量 InterleavedEval。通过广泛的实验和严格的人工评估,我们表明我们 - Nemotron-4 340B 技术报告
我们发布了 Nemotron-4 340B 系列模型,包括 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward。这些模型是在 NVIDIA 开放模型许 - 测评基准中方差的量化
通过定义和衡量一系列度量评估基准中的方差,包括初始化中的随机性和训练过程中的单调性,本研究提供了对各种方差度量的实证估计,并为从业者提供了考虑和建议。研究发现,简单的改变策略任务(如 MMLU)为较小规模(约 7B)的模型降低了方差,而受人 - Suvach -- 生成的印地语 QA 基准
为了在印度语中评估问答(QA)的当前评估基准,常常依赖于现有英语数据集的机器翻译。这种方法存在机器翻译中固有的偏见和不准确性,导致可能不能反映印度语 EQA 模型真实能力的数据集。本文提出了一个专门设计用于评估印度语 EQA 模型的新基准, - LiveCodeBench:大规模语言模型对代码进行全面无污染评估
本文提出了一个面向代码的综合、无污染评估系统 LiveCodeBench,其中收集了来自 LeetCode、AtCoder 和 CodeForces 三个竞赛平台的问题,着重评估 LLMs 在代码生成以外的自修复、代码执行和测试输出预测等更 - InfiCoder-Eval:对代码大型语言模型的问题回答能力进行系统评估
利用 InfiCoder-Eval 这个大规模的自由形式问答(QA)基准测试,我们系统评估了超过 80 种代码 LLMs,并取得了一系列富有洞察力的发现,同时展示了进一步改进代码 LLMs 的可能方向。
- F-Eval: 使用精细评估方法评估基本能力
我们提出了 F-Eval,这是一个双语评估基准,旨在评估大型语言模型的基本能力,包括表达能力、常识和逻辑。我们进行了 13 个先进 LLM 的评估,结果显示我们的评估方法与其他评估者相比具有更高的相关系数和更大的区别,并讨论了不同模型大小、 - Airavata: 引入印度语指令调整的 LLM
通过将多样化的指令调整的印地语数据集应用于 OpenHathi,我们发布了适用于辅助任务的 Airavata 模型,并共享了 IndicInstruct 数据集,为进一步研究印地语 LLM 提供支持。此外,我们还提供了评估基准和一种评估印地 - 评估语言模型代理的方法与谈判
通过协商游戏来共同评估语言模型的性能和对齐情况,发现开源模型目前无法完成这些任务,合作协商游戏具有挑战性,最强大的模型并非总是 “赢家”。
- 当下现状?对多指令语言模型评估的呼吁
通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性,我们提出使用一套多样的提示来评估大型语言模型,为特定的使用场景(例如 LLM 开发人员与对特定下游任务感兴趣的开发人员 - 现代大语言模型中数据污染问题研究
我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。
- 组合优化问题中预测 - 优化范式的反思与基准测试
该研究论文提供了现有方法的综合分类和整合,建立了统一的评估基准,并阐明了端到端训练在不同场景下的改进情况及其表现不佳的背景。此外,还介绍了一个用于工业组合式广告问题的新数据集,以帮助更方便的评估和部署,鼓励在学术界和工业界进一步的改进。
- EMNLP别忽视语法性别:针对印度 - 英语机器翻译的偏见评估
神经机器翻译中存在性别偏见,而评估基准主要关注英语作为源语言的翻译,我们提出了为源语言中的语法性别标记量身定制偏见评估测试集的方法,以确定 NMT 模型是否能通过语法性别线索来区分性别。
- BizBench:商业和金融的定量推理基准
评估金融推理能力的基准和挑战性问题 BizBench,通过三个财务领域的代码生成任务对大型语言模型进行了全面深入的评估,并表明 BizBench 是金融和商业领域量化推理的一个具有挑战性的基准模型。
- 不要让您的 LLM 成为一个评估基准作弊者
大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现,评估基准泄漏会极大地提高评估结果,从而导致对模型性能的不可靠评估。最后,为大型语言模型的开发者和基准维护者提出了一些建议。
- 什么是好的视觉指导?为视觉指导调整综合复杂视觉推理指导方法
通过对复杂视觉推理任务进行重点指导,我们设计了一个系统性的方法来自动创建高质量的复杂视觉推理指导,实验证明我们的数据集显著提高了所有比较的多模态大型语言模型的性能。
- LLM-Deliberation:用互动多智能体协商游戏评估 LLMs
使用可评分的协商游戏作为新的评估框架,系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。
- AI 海洋中的塞壬之歌:大型语言模型中的幻觉调查
本文调查了近期关于大型语言模型(LLMs)幻觉的检测、解释和缓解的努力,并着重讨论了 LLMs 所带来的独特挑战,提出了 LLM 幻觉现象的分类和评估基准,并分析了现有的缓解 LLM 幻觉方法,探讨了未来研究的潜在方向。
- 不是所有指标都有罪:利用 LLM 改进 NLG 评估的修辞转换技术
本文提出了 Para-Ref,一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法,并在机器翻译、文本摘要和图像标题等任务中的实验结果表明,该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的