- 多阶段逻辑推理能力评估的目标:Multi-LogiEval
为了评估大型语言模型在人类式的多步逻辑推理方面的能力,我们提出了一种综合评估数据集 Multi-LogiEval,该数据集囊括了多步逻辑推理、各种推理规则和深度,并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明,随着推理步 - 文化协作:AI 辅助的互动式红色对抗测试,应对在低动态范围线性模型中文化多元知识的挑战
CulturalTeaming 是一个人工智能系统,与人类合作创建多元文化知识评估数据集,通过与人类的互动合作,利用大型语言模型的自动化功能,提高文本注释者的能力并改善他们的体验,从而评估大型语言模型的多元文化知识,并揭示了现代大型语言模型 - 一幅图千言万语,但是否人人听得懂?关于进行图像翻译以便符合文化相关性的研究
在这项工作中,我们建立了三个流程,使用最先进的生成模型来将图像进行跨文化翻译,并构建了一个包含概念和应用的评估数据集,通过多方位的人工评估来评估翻译后的图像的文化相关性和意义保持。我们发现,目前图像编辑模型在这一任务上失败,但通过利用 LL - Entity6K:用于真实世界实体识别的大型开放域评估数据集
开放域现实世界实体识别的评估数据集 Entity6K 对于评估模型的实体识别能力具有重要的作用。
- FineMath:面向中文大语言模型的细粒度数学评估基准
为了全面评估大型语言模型(LLMs)的数学推理能力,我们需要精心策划评估数据集,涵盖不同难度级别的各种数学概念和问题。为此,我们在本文中提出了 FineMath,一个用于评估中文 LLMs 的细粒度数学评估基准数据集。FineMath 涵盖 - 基于机器学习的调用图修剪的有效性:一项实证研究
本研究利用实际的 Java 程序数据集和动态调用图构建方法,通过机器学习技术进行精确的静态调用图修剪,从而大幅提高调用图的精确度和计算效率。
- 大型语言模型中的可信源对齐
本文提出了大语言模型(LLMs)的一个属性 —— 受信任的来源对齐(TSA),用于衡量模型在面对不确定性或争议时与受信任的发布者内容的一致性。在 FactCheckQA 评估数据集上应用该属性,作者发现随着模型规模的增大,模型在对齐受信任来 - 大型语言模型是否能理解真实世界的复杂指令?
通过广泛的实验证明,我们提出了 CELLO—— 一个评估大型语言模型理解复杂指令能力的基准,包括八个复杂指令特征,并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准和相应的度量方法,以比较代表性的面向中文和面向英文模型在跟随复杂 - DiariST: 带有说话者分离的流式语音译文
该论文提出了 DiariST,第一个基于神经传感器的流式语音翻译和说话人分离解决方案,它集成了用于多说话人语音识别的标记级别序列化输出训练和 t 向量,通过新的评估数据集 DiariST-AliMeeting 和新的衡量 ST 质量的度量方 - SIB-200:一个简单、包容和大规模的 200 + 种语言和方言的主题分类评估数据集
我们创建了一个大规模的开源基准数据集 SIB-200,用于解决自然语言理解方面缺乏评估数据集的问题,并在全监督、跨语言迁移和大型语言模型等多个环境中评估,结果显示在众多世界语言中,高资源语言和低资源语言之间仍存在很大差距。我们的研究表明,缺 - NICE 2023 零 - shot 图像标题挑战
NICE 项目是挑战计算机视觉社区发展准确性和公平性都达到最新水平的强大图像字幕模型,通过测试使用一个包含多个领域的大量可视化概念的新评估数据集,没有提供特定的训练数据,要求适应在训练过程中没有见过的新型图像描述。该报告包括 NICE 数据 - 改变你所期望的 (现在以 3D 呈现)
该论文旨在检测不同摄像机位置和不同时间实例获得的同一 3D 场景的两幅 “自然环境中” 的图像之间发生的变化,通过贡献一个基于合成数据训练的、类别不可知的变化检测模型,使用 “登记与差异” 方法,能够在没有精细调整的情况下对真实世界图像进行 - ACLGENTLE: 英文自然语言处理和语言学评估的具有多元体裁的多层次挑战集合
本文介绍了全新的 GENTLE 混合体英语挑战语料库,由 8 种不同的文本类型组成,手动注释了多种流行的 NLP 任务,如语法依赖分析,实体识别,共指消解和语篇分析。我们发现,最先进的 NLP 系统在 GENTLE 上的表现有所下降,至少在 - (QA)$^2$: 带问题假设的问答系统
本文提出了(QA)$^2$(包含有问题上有问题的问题的问题回答)的开放域评估数据集,用于测试有问题上有问题的问题的回答系统。该论文研究问题上有问题的问题,旨在解决现有的 QA 系统不能正确回答该类问题的问题。
- 为检测词语插入和删除错误预训练中文 BERT 模型
本研究通过引入特殊的 [null] token 建立了一个简单而有效的预训练模型来解决中文 BERT 模型在词插入和删除方面的表现缺陷。通过设计预测任务,模型能够联合给定上下文同时预测非存在词和实际词汇,并进一步创造了一个评估数据集以促进词 - 语言能力对语法错误修正的质量评估的重要性
本研究探讨了受监管质量评估模型对语法错误修正的影响,并发现评估数据的熟练程度会影响评估模型的性能,以此确保更加稳健的评估模型。
- 高质量 QA-SRL 注释的受控众包
本文提出了一种改进的众包协议用于进行复杂的语义注释,这种协议涉及到工人的选择和培训,以及数据整合阶段以获得高质量的注释结果并生成一个新的黄金标准评估数据集,旨在促进自然语义注释的未来可复制研究。
- 提高学术写作效率:从初稿中生成流畅句子
本文提出了句子级修订任务(SentRev)作为新的写作辅助任务,旨在帮助作者在早期修订阶段产生流利,完整的句子。为了开发和评估 SentRev 模型,我们建立了一个新的自由可用的众包评估数据集,同时还建立了该模型的基准性能。
- 神经代码搜索评估数据集
本文介绍了一种自然语言代码搜索模型的性能评估方法,并提供了包含查询和代码碎片对的评估数据集,以作为未来工作的标准基准。此外,本文还提供了最近工作中两种代码搜索模型的研究结果。
- GYAFC 数据集:正式语体转换的语料库、基准和度量标准
本研究创造出最大的专门风格转换语料库,针对形式化语言的风格,显示了使用机器翻译技术作为未来工作的强有力基线,并讨论了使用自动指标的挑战。