- 搞定预测分析中的正确问题:AUC 不是问题
对于 ACM FAccT 最近发表的使用 AUC ROC 在多个领域进行预测分析的文章,我们对该文章进行了批评。具体来说,我们强调了该文章在度量标准比较、AUC ROC 的解释和目标误设、将准确率指标作为与 AUC ROC 比较的金标准以及 - AI 数据准备:360 度调查
通过全面调查和分析超过 120 篇学术论文及 AI 专家的文章,本研究提出了对结构化和非结构化数据集的 AI 数据就绪度 (DRAI) 测量指标的分类法,旨在为 AI 训练的质量和准确性提供新的标准。
- 评估信息提取的质量
大规模语言模型的进展显著提高了从非结构化和半结构化数据源中提取信息的效率。本文引入了一个自动框架,用于评估信息提取的质量和完整性,重点关注实体及其属性的信息提取。讨论了如何处理大规模语言模型的输入 / 输出大小限制,并分析了在迭代提取信息时 - 巧妙之道:利用下游分析能力导航大型语言模型预训练
通过详细分析不同预训练模型中的不同能力表现,我们确认了特定下游指标在不同大小的模型中展示相似的训练动态,多达 670 亿参数。此外,我们还复现了 Amber 和 OpenLLaMA,并发布了它们的中间检查点,以为研究界提供宝贵的资源,促进对 - PCToolkit: 大型语言模型的统一即插即用提示压缩工具包
Prompt Compression Toolkit 是一个用于在大型语言模型中压缩提示的统一插拔解决方案,提供先进的压缩算法、多样化数据集和全面性能评估指标。
- 近似机器遗忘是否得到适当评估?从审计到副作用
通过引入明确定义和有效的度量标准来解决黑箱取消学习审核任务的挑战,该论文分析了当前近似机器取消学习算法的实用性、韧性和公平性,并旨在将数据遗忘的理论权利转化为可审计的现实。
- COLING粒度变更准确性:对话状态追踪的更精确性能度量
当前对话状态跟踪 (DST) 系统评估的指标存在三个主要限制:i) 错误地假定对话中的槽位均匀分布,ii) 忽略对个别对话进行部分评分,iii) 经常通过重复计算模型成功或失败的预测来高估或低估性能。为了解决这些缺点,我们引入了一种新的指标 - 结构化合成表格数据的评估
通过提出一个带有单一、数学目标的评估框架,该论文意在解决合成表格数据质量评估的问题,允许通过结构化的方式推断度量的完整性,并统一从忠实性、下游应用和基于模型的方法等多个角度出发的度量,展示了显式表达结构的合成数据生成器在小型数据集上的卓越表 - ACL重温语法错误修正的元评估
本文提出了 SEEDA,这是一个用于语法错误修正的新数据集,包含了 12 个最先进的系统和两个不同焦点的人工纠错评估,通过在句子级别元评估中对齐粒度来改进相关性,并指出传统度量在评估具有多个编辑的流畅修正句子方面相对较差。
- a-DCF:一种与架构无关的度量标准,适用于抗欺诈的说话人验证
提出了一种适用于欺骗性溯源的 ASV 评估的通用检测成本函数(a-DCF),通过基于架构异构的欺骗性溯源固定 ASV 解决方案的基准评估,证明了 a-DCF 的优点。
- 基于视觉语言模型的字幕评估方法及其视觉上下文提取
通过提取和组织图像的详细内容,包括物体、属性和关系,我们的方法将人类编写的参考文本替换为视觉上下文,并帮助视觉语言模型更好地理解图像,从而提高图像标题评估性能,并在多个数据集上进行的元评估验证了 VisCE2 在捕捉标题质量方面胜过常规预训 - LongWanjuan: 往长文本质量的系统测量
通过评估连贯性、凝聚性和复杂性三个基本语言维度,我们系统性地衡量了长文本的质量,并引入了一套度量旨在评估长文本质量的指标,包括统计和预训练语言模型为基础的指标。利用这些指标,我们提出了 LongWanjuan,一个专门为增强语言模型在长文本 - 联邦去学习:稳定性和公平性视角
本文研究了数据异质性下联邦去学习(FU)的多方面影响。我们引入了 FU 评估的关键指标,集中在验证、全局稳定性和局部公平性,并研究其内在的权衡。此外,我们通过优化框架对数据异质性下的去学习过程进行了形式化。我们的主要贡献在于对 FU 中的权 - 神经风格迁移的评估:综述
神经风格迁移的评估方法和指标存在着不一致性和局限性,为了促进方法之间更有意义、更公平的比较,以及对研究结果的理解和解释的提升,我们提供了对现有评估技术的深入分析,并提出了标准化评估实践的建议。
- 基于矩阵熵的大型语言模型评估
通过信息论和几何原理,我们引入了矩阵熵作为一种新的度量标准,以量化大型语言模型中的数据压缩能力,展示其在单模态和多模态设置中的适用性,并发现它可以作为传统损失缩放定律的补充。同时,我们基于矩阵熵提出了一种评估方法,用于评估对齐质量,并发现现 - 算法追责中的公平:以实质机会平等为视角
此篇论文提出了两个关于算法追溯的公平性概念,与机会的实质平等以及时间相关,通过建立一个基于代理的模拟追溯框架,展示了在克服初始差异情况下所需的努力,并提出了一种提高追溯公平性的干预措施,并与现有策略进行了比较。
- 无处不在的大型语言模型对动态对抗性问题生成的阻碍和加速
为了理解大型语言模型对敌对问题生成过程的影响,我们使用语言模型和检索模型丰富写作指导,提出新的衡量指标和激励机制,以提出好的、具有挑战性的问题,并展示了一个新的敌对问题数据集。
- Seg-metrics:计算分割度量的 Python 包
针对医学图像分割 (MIS) 研究中存在的有选择地强调指标的趋势,我们引入了一种称为 exttt {seg-metrics} 的开源 Python 包,用于标准化的 MIS 模型评估。与现有的包不同, exttt {seg-metrics - ACL自然语言处理中的分类评估指标问题讨论
在自然语言处理(NLP)分类任务中,衡量模型泛化能力的常规度量指标(如准确率、F - 度量或 AUC-ROC)的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标,并证明随机猜测的归 - 神经自动语音识别中的幻听:识别错误和幻听模型
此研究报告探讨了深度神经网络产生的幻觉是一类输出错误,在自动语音识别中幻觉的定义为模型生成的转录与源话语在语义上无关,但仍然流畅和连贯,幻觉与模型产生的自然语言输出相似性带来了误导的危险,并影响系统的可信度。为了解决这个问题,作者提出了一种