- 从心理测量学角度攻击大型语言模型以评估隐性偏见
大型语言模型(LLMs)的普及引发了对其可能产生的不道德内容的增加关注。本文通过利用精心设计的指令进行攻击,以评估 LLMs 对特定群体的潜在偏见。我们提出了三种攻击方法(伪装、欺骗和教授),并构建了四种常见偏见类型的评估数据集。对典型 L - Latxa: 为巴斯克语建立的开放式语言模型和评估工具套件
我们介绍了 Latxa,这是一系列从 7 到 700 亿参数的巴斯克语言模型。Latxa 基于 Llama 2,并在新的巴斯克语语料库上进行持续预训练。我们还引入了 4 个多项选择评估数据集,并在广泛的评估中,Latxa 在各个方面的性能都 - CLIP 是否总是比 ImageNet 模型具有更好的泛化能力?
在这篇研究中,通过构建一个包含真实背景上的动物照片的真实世界数据集 CounterAnimal,评估了大规模视觉语言模型 CLIPs 在应对背景引起的干扰时的性能。实验发现,CLIPs 在不同背景下的性能存在显著下降,而 ImageNet - Wikibench: 基于社区驱动的维基百科 AI 评估数据整理
AI 工具越来越多地在社区环境中部署。然而,用于评估 AI 的数据集通常由社区之外的开发者和注释者创建,这可能对 AI 性能产生误导性结论。本研究调查了如何赋予社区推动 AI 评估数据集的有意设计和策划的能力,我们在维基百科进行了探索。我们 - 走向多模态多语种翻译的红色团队
自然语言处理性能评估变得越来越复杂,本文首次研究了基于人工方法的团队鉴定在机器翻译中的应用,为理解和改进翻译模型的性能迈出了重要一步。
- ANGO:面向中文领域的下一级生成导向语言模型评估基准
这篇文章介绍了中国的一种多选题评估基准 ANGO,通过引入关键点分类标准,将每个问题与多个关键点对应,从而有效提高评估结果的可解释性。基于真人表现,我们构建了可量化的问题难度标准,并将 ANGO 问题分为 9 个难度级别,为模型训练提供更精 - 色情分類的最新技術:一項比較分析
本文通过比较分析已有的以裸露程度为基础对图像进行分类的技术,特别关注其在内容审核中的应用。该研究着重评估了基于 CNN 模型、视觉变换器以及来自 Stable Diffusion 和 LAION 的知名开源安全检查工具。研究发现了当前评估数 - CSMeD:填补自动引文筛选中系统文献综述的数据集空白
在本研究中,我们分析引用筛选评估数据集,揭示了许多可用数据集存在的问题,例如太小、数据泄漏以及对于将自动化文献筛选系统视为分类任务而不是检索或问答任务有限适用性。为了解决这些挑战,我们介绍了 CSMeD,这是一个集合了九个公开释放的文献综述 - 小型语言模型是通过记忆还是泛化来回答上下文问题的?
使用语言模型进行问题回答的过程中,我们提出了一种基于输入和标签之间的语义相似性的方法,用于区分模型对评估样本的直接记忆和通过一些泛化方法预测标签的能力。通过应用该方法,我们在评估数据集的无法记忆子集中观察到了显著的性能改善。
- EMNLP语义相似性分类任务中模型与评估数据集策划的界限定位
该研究展示了预训练模型和开放评估数据集的局限性对于评估二元语义相似性分类任务的性能的影响,强调了数据的收集方式的重要性,同时强调了不同数据集、嵌入技术和距离度量之间的性能差异。
- 评估结果的有效性:评估组成性基准测试的一致性
近年来,NLP 模型取得了巨大的进展,尤其是通过这方面的大量数据集进行性能评估。然而,有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现,这些数据集根据 8 种组 - EMNLP通过群体评议和自我投票改进大型语言模型中的民族代表多样性
大型生成语言模型的关键挑战是多样性,本文通过提出度量多样性的评估数据集和指标,并应用集体批判和自我投票等方法,有效提高模型对人群和文化的多样性。
- GDL-DS:基于分布偏移的几何深度学习基准
提出了 GDL-DS,一个综合的基准评估,旨在评估 GDL 模型在具有分布偏移的场景中的性能,涵盖多样的科学领域,包括粒子物理学、材料科学和生物化学,并研究了三个层次的信息访问从测试数据中获取,对于 DGL 研究者和领域从业者在应用中使用 - 考虑所有标签来评估预训练语言模型在自然语言推理中的性别偏见
本文提出了一种考虑自然语言推理任务中所有标签的评估方法来评估预训练语言模型中的偏见,并通过对多种语言的模型进行元评估,证明该方法能够更准确地评估偏见。此外,本文还是首次在日语和中文的自然语言推理任务中构建评估数据集并测量预训练语言模型的偏见 - PrOnto: 对 859 种语言的语言模型评估
该论文提出了一种新的评估数据集创建方法,将英语 New Testament OntoNotes 数据库中的数据与其他语言中的 New Testament 翻译进行对齐,在无需手动注释的情况下将注释从英语映射到目标语言,以创建适用于预训练语言 - 理解偏见需真正均衡的数据集?影响准确性的因素并非身份和图像数量
本文讨论人脸识别准确率差异的问题,指出虽然许多数据集都平衡了各个人群中身份的数量和图像的数量,但身份和图像数量并不是影响一对一人脸匹配准确性的决定因素,因此需要一个更具有偏差意识的工具包来创建跨人群的平衡评估数据集。
- EMNLP跨媒体 - 3600:一款大规模多语言多模态评估数据集
本文提出了 Crossmodal-3600 数据集,其中包含 3600 张图片,涵盖了 36 种语言中所使用的地区,并使用人工参考标题对其进行了注释。该数据集被应用于大规模多语言图片字幕模型的选择,并在使用 XM3600 作为自动度量的黄金 - EMNLPAPEACH:通过对众筹仇恨言论评估数据的分析攻击贬损用语
本文提出了一种名为 APEACH 的方法,该方法可以在韩国社交媒体上收集用户生成的仇恨言论样本,通过轻量的后期标注,建立一组对预训练模型具有良好泛化性能的数据集,从而减少预训练语言模型与评估集之间的词汇重叠,提高模型表现。
- ACLParsiNLU: 波斯语语言理解挑战套件
本文介绍第一个波斯语 NLU 基准数据集 ParsiNLU,并在此基础上与人类表现进行比较,为波斯语理解的研究和进展提供了有价值的洞察力。
- AQuaMuSe: 自动为基于查询的多文档摘要生成数据集
本文提出了一种名为 AQuaMuSe 的可扩展方法,用于自动从问答数据集和大型文档语料库中挖掘基于查询的多文档摘要示例,其中包括种类独特的可提取和抽象式摘要数据集,并提供了详细的数据集评估和基线摘要模型实验。