- 用大型经验研究代替人类法官?跨 20 个 NLP 评估任务
评估 NLP 模型时,使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH,并对 11 个当前的 LLM 进行全面评估,涵盖公开权重和专有模型, - 评估用于大型视觉语言模型的幻觉基准的质量
大规模视觉语言模型(LVLMs)的幻觉问题是当前研究的主要关注领域,本研究提出了一种用于评估幻觉质量的基准测量框架(HQM),通过可靠性和有效性的指标对现有幻觉基准进行评估,并构建了一种高质量的 LVLMs 幻觉基准(HQH)。研究在多个代 - 利用估计目标框架提高人工智能 / 机器学习评估的有效性和实用性
使用改编自国际临床试验指南的估计框架,提出一种改进评估方法的方法,用于评估 AI 或机器学习模型的有效性和实用性,以揭示其潜在问题、原因和解决方案。
- ECBD: NLP 的证据中心基准设计
综合证据为中心的基准设计(ECBD)框架确定角色,以帮助从案例研究中收集与能力相关的证据,同时发现了基准设计和文档编写的常见趋势可能会威胁基准测试的有效性。
- 使用主动学习量化本地模型的有效性
通过主动学习减少所需数据量并学习模型错误来获得本地有效性估计,而不是全局指标太不敏感或评估本地有效性成本过高。使用模型验证基准,提供实证证据表明该方法能够在使用相对较少的数据量时生成具有足够辨别性能的错误模型,同时相比于替代方法,对于本地有 - 评估数学推理能力的准确性以外的因素
通过有效性和冗余性评估推理质量,我们提出了 ReasonEval 方法,该方法在数学任务中表现优异,并发现提高最终答案准确性并不一定能改善复杂数学问题推理步骤的整体质量。
- 保证覆盖的预测集合 —— 针对外部数据的
我们研究了 OOD 通用化情境下的置信集预测问题,并提出了一种在 OOD 情境中形成可靠预测集的方法,并在模拟数据上进行了实验证实了我们理论的正确性和方法的有效性。
- VISREAS: 复杂视觉推理与无法回答的问题
验证图像问题的可回答性及其对应于图像的性能对于实际应用中的问题回答至关重要。我们通过创建一个新的组合视觉问答数据集(VISREAS)来满足这一需求,并引入了一个新的基线模型(LOGIC2VISION),该模型通过生成并执行伪代码来进行推理, - 使用结构化叙述提示生成的 GPT-4 人生事件叙述:验证研究
通过使用 OpenAI 的 GPT-4,使用零样本结构化叙述提示生成了 24,000 个叙述,然后手动分类和评估它们在传达出生、死亡、雇佣和解雇事件方面的有效性。在九种机器学习模型中,所有模型在将有效叙述分类为有效方面表现出色,但同时在将无 - 数字空间中的情感分析:对评论的概述
情感分析是应用于数字文本数据的常见方法,总结了现有工作,但忽视了对有效性和科学实践的讨论。我们通过综合 38 个系统性综述和 2,275 项主要研究,提出了一个针对系统评价方法和报告标准的专属质量评估框架,发现了多样的应用和方法、有限的报告 - 基于机器学习的科学报告标准
机器学习方法在科学研究中越来越普及,然而,这些方法的应用也伴随着有效性、可重复性和泛化性的失败。为了解决这些问题,本研究提出了基于共识的 REFORMS 检查表,该检查表由来自计算机科学、数据科学、数学、社会科学和生物医学科学等 19 名研 - Weisfeiler 和 Lehman 度量建模:探究 WL 检验的有效性
揭示了从图形理论和基准审计中发掘 $k$-WL 不保证等距、可能与现实世界的图形任务无关,并且可能无法促进泛化或可靠性,同时提出了基于基准测试的表达能力的外延定义和测量,为构建此类基准测试提供了指导性问题,这对于进展图形机器学习至关重要。
- 大型语言模型中的人格特质
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
- CasTGAN: 级联生成对抗网络用于逼真的表格数据合成
本文提出了一个级联表格生成对抗网络框架(CasTGAN),可生成更逼真的表格数据,模型能捕捉实际数据的限制和相关性,并通过对辅助学习者进行扰动来提高模型抵抗特定攻击的整体稳健性。
- 早期阶段围绕 AI 和政策设计的辩论,重新归位有效性的考虑
本文主要讨论 AI 决策工具的有效性与组织政策设计的关系,并呼吁早期多利益相关方的讨论与决策,为新项目提供指导。
- 从哥德尔不完备定理到机器人信仰的完备性(扩展摘要)
该研究通过研究不完整理论的推理过程和机器学习的趋势来描述其对一致性的影响,其中包括不可证明的真实语句,实践中有效性的虚如其表,以及机器学习不完整理论的理论.
- AI 招聘中使用的人格预测有效性的外部稳定性审核框架
本篇研究针对应聘自动化招聘系统中采用心理测量学的算法性格测试的有效性,使用一种外部稳定性审计方法,通过对两种系统 Humantic AI 和 Crystal 进行测试,发现这些系统在重要方面存在实质性不稳定性,因此不能被视为有效的测试工具。
- ACL针对对抗性输入的神经自动化论文评分和连贯性建模
研究 AES 中的对手输入问题,提出了基于神经网络的局部连贯模型,与现有 AES 模型联合训练,实现了对对手输入的有效识别,从而提高了神经作文评分模型的准确性。
- ICLR学习复杂离散结构的有效性生成模型
我们提出了一种基于深度循环验证模型的方法,以帮助深度生成模型在生成离散对象时可以有效地生成有效序列并模拟离散结构。我们使用强化学习的思想来设计这个模型,通过评估每个元素对序列有效性的影响,对序列模型进行有效约束。我们成功地使用该模型分别生成 - NIPS带或不带有效性保证的大规模概率预测器
本文从理论和实践出发,研究了一种将机器学习算法转化成概率预测器的方法,并保证其有效性和计算效率;理论上完全校准的概率预测器产生不精确的概率,但合并后的精确概率预测器相较于现有方法表现更准确。