- TofuEval: 评估 LLL 在主题焦点对话摘要的虚幻现象
单个文档新闻摘要在保真度方面取得了显著进展,但我们提出一种新的评估基准,研究在以话题为焦点的对话摘要领域中存在的事实一致性问题和虚构错误类型。
- MRKE: 基于知识编辑的 LLMs 的多跳推理评估
利用修改的 HotpotQA 数据集为基础,我们引入了第一个基于新的无与伦比的知识的 LLM 多跳问答评估基准,并注释和评估了形式为子问题和中间答案的推理链,以此促进对 LLM 在多跳问答任务上的可信评估的发展。
- MoRAL: MoE 展进 LoRA 用于 LLMs 的终身学习
提出了一种结合 Mixture-of-Experts 和 Low-Rank Adaptation 的方法 MoRAL,用于有效地进行大型语言模型的终身学习,使用问题 - 答案对作为输入以提高鲁棒性和效率,并通过新的评估基准和指标对其进行了全 - CPSDBench:一个用于中国公安领域的大型语言模型评估基准和基线
通过构建一个专门针对中国公安领域的评估基准系统(CPSDbench),本研究旨在评估主流大型语言模型(LLMs)在公安任务中的性能,并介绍了一组创新的评估指标,以更准确地衡量 LLMs 在处理公安问题的任务中的效能。通过深入分析和评估,不仅 - AI 代码生成器与安全:友还是敌?
人工智能代码生成器在软件安全研究中取得了新的进展,我们回顾了人工智能代码生成器在安全领域的应用案例,并引入了一个评估基准。
- NoFunEval: 搞笑的事实上代码语言模型在功能正确性以外的要求上遭遇困难
我们提出了一个新的评估标准 NoFunEval,用于评估代码语言模型在非功能需求和功能需求的简单分类实例上的表现,发现它们在测试中普遍表现不佳,对其训练设置存在根本的盲点。
- 通过遮罩扩散实现的互动视频生成
最近,在文本到视频生成方面取得了很大的进展,目前的模型能够生成高质量、逼真的视频。然而,这些模型缺乏用户交互控制和生成视频的能力,这可能开启新的应用领域。本论文提出了一种通过扩展性 - 自适应控制来加强扩散型视频生成模型的输出的方法。该模块 - VBench: 视频生成模型综合基准套件
通过 VBench 系统,我们提供了一个全面的视频生成评估基准,将视频生成质量分解为特定的、分层的、分离的维度,并为每个维度提供了定制的提示和评估方法;我们还提供了人类喜好注释的数据集,验证了我们基准与人类知觉的一致性;在各个评估维度和各种 - 大型语言模型的指令跟随评估
通过引入 Instruction-Following Eval (IFEval) 作为一种简单易复制的评估基准来解决大型语言模型中遵循指令能力的评估问题。该基准专注于一组 “可验证指令”,并构建了约 500 个提示,每个提示包含一个或多个可 - 对话评估工作台:将 LLMs 作为类人对话系统进行评估
本文提出了 DialogBench,这是一个用于评估 LLMs 作为类似人类对话系统的能力的对话评估基准,包含 12 个对话任务。通过对 28 个 LLMs 进行广泛的测试,结果表明虽然细化调整能改善 LLMs 的人类对话系统相似度,但对于 - Davidsonian 场景图:提升文本图像生成的细粒度评估可靠性
评估文本到图像模型的难点在于信实性,本研究提出了一种基于问答生成的评估框架,使用预训练模型自动生成问题和答案,并通过与基于视觉问答的答案比较来评分图像的一致性,同时引入 Davidsonian Scene Graph (DSG) 作为一个模 - 大型语言模型能否理解古代汉语?对 ACLUE 进行初步测试
ACLUE 是一个评估基准,通过评估八个现代语言模型在理解古代汉语方面的能力,观察到它们在现代汉语和古代汉语之间的性能存在显著差异,其中 ChatGLM2 表现最出色,获得了平均 37.4% 的得分。
- 基于聊天式大型语言模型的上下文干扰
大型语言模型对社会产生了巨大影响,但黑盒子情景下,用户只能在当前交互中明确提及来添加或修改内部知识,而不具备修改模型内部知识的能力。本文提出了一个研究,展示了模型在不同上下文中持续流动的信息之间可能出现干扰,从而忘记先前学到的知识,导致模型 - Safurai 001:面向代码 LLM 评估的新定性方法
Safurai-001 是一个新型的大型语言模型,具有显著的编码辅助潜力。通过在数据工程方面的进展以及指令优化,它旨在提供更具对话性的互动。该论文还介绍了基于 GPT4 的多参数评估基准,以全面了解模型的功能和性能。评估结果表明,Safur - SciEval: 一个用于科学研究的多级大型语言模型评估基准
这篇论文提出了 SciEval 基准评估体系,以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学,覆盖了四个维度,系统评估科学研究能力。研究者进行了全面的实验证明,尽管 GP - MM-Vet:评估大型多模态集成模型的能力
我们提出了一个评估基准 MM-Vet,它检查了复杂的多模态任务上的大型多模态模型(LMMs)。我们根据洞察力设计了 MM-Vet,该洞察力表明解决复杂任务的有趣能力通常是通过一种通用模型能够整合不同的核心视觉语言(VL)能力实现的。
- 面向放射学的通用基础模型
本研究旨在构建放射学基础模型(RadFM),通过数据、模型设计和评估的多方面视角构建基础模型。我们的贡献包括:(一)构建一个大规模的医疗多模态数据集 MedMD,包含 1600 万份 2D 和 3D 医学扫描,这是首个包含 3D 医学扫描的 - Disco-Bench: 一种考虑语篇的语言模型评估基准
该论文提出了一个可以评估处理自然语言时的句子内语篇特征的精细化预训练模型,该模型包含 9 个文献领域的测试集,涵盖了许多超出了跨句子属性的问题。
- MME: 多模态大语言模型综合评估基准
本文介绍了第一代 MLLM 评估基准 - MME 模型,并对 10 种先进的 MLLM 模型进行了全面评估,同时对模型优化的潜在方向进行了研究。
- ACL通过语义适当应用词汇限制实现准确翻译
本文研究了将用户提供的术语融入翻译中的词汇约束机器翻译(LNMT)模型,并提出了具有挑战性的评估方法和 PLUMCOT 方法来解决模型中挑战性的词汇约束问题,并提出了一个评估基准,结果表明 PLUMCOT 在处理 “看不见” 的约束条件方面