- ACL分散 - 合并:通过减少对齐税来推动指令调优的极限
通过我们的研究,我们提出一个假设:数据偏差可能是大型语言模型在细调过程的后期出现性能下降的原因之一。为了解决这个问题,我们引入了一个简单的分散然后合并的框架。尽管简单,我们的框架在一系列标准的知识和推理基准测试中优于各种复杂的方法。
- 消费者和生产者群体公平优化的个性化框架:在推荐系统中
近年来,人们越来越认识到,当机器学习算法用于自动化决策时,它们可能会对个人或群体造成不公平待遇,涉及法律、道德或经济方面的问题。本文提出了一个名为 CP-FairRank 的基于优化的重新排序算法,它在综合目标框架中无缝地集成了消费者和生产 - 高效图像探索与用户引导图像标题生成的视觉分析
运用预训练的大规模语言 - 图像模型,本文尝试解决可视化分析中的两个问题:大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题,我们能深入了解视觉内容的语义基础,并 - 通过少量专家示范融合奖励函数,实现忠实准确的知识导向对话生成
开发值得信赖的对话式信息搜索系统依赖于能够基于相关知识文本生成忠实准确响应的对话模型。我们通过引入一种新的奖励函数利用强化学习算法来克服数据偏见和冗余信息的两个主要挑战,并在两个对话式信息搜索数据集上的实证实验中展示了我们的方法可以与其他强 - 结构和构象多样性在机器学习势能中的作用
在机器学习的原子间势(MLIPs)领域中,研究数据偏差、特别是构象和结构多样性与模型泛化之间的复杂关系对于改善量子力学(QM)数据生成的质量至关重要。我们通过两个不同的实验来研究这些动态:一个是固定预算的实验,其中数据集大小保持恒定;另一个 - 偏置节点分类的因果性和独立性增强
针对节点分类中的离群分布泛化问题以及数据偏差的挑战,本文提出了一种称为 Causality and Independence Enhancement (CIE) 的框架,可以应用于各种图神经网络,通过消除不同类型的数据偏差,提高分类性能,并 - 基于多头神经网络的环境多样性用于不变性学习
提出了一个包含多头神经网络的不变学习框架,名为 EDNIL,用于吸收数据偏差并提高模型对分布转变的鲁棒性。该算法无需先前环境知识或对预训练模型的强假设,并具有与变体和不变特征的性质研究相连接的理论基础。实验证明,使用 EDNIL 训练的模型 - 社交媒体中的强韧仇恨言论检测:跨数据集实证评估
针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调,分析了数据集通用性的差异,并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。
- 基于机器学习的医院再入院健康差异预测、诊断和缓解模型
研究探讨了使用机器学习方法提前预测糖尿病患者住院需求的重要性,同时阐述了在数据收集和模型预测中消除社会相关的数据偏差的必要性。该研究提出了一种机器学习流程,能够检测并缓解数据和模型预测中的偏差,从而获得更加公正的预测结果。实验证明,及时消除 - WWW交叉成对排名用于无偏物品推荐
本文提出了一个名为交叉成对排序(CPR)的新学习范式,它在不了解暴露机制的情况下实现了无偏推荐,相比现有的去偏方法具有更好的模型泛化和训练效率。
- ICLR发现图神经网络不变量的理性
提出了一种新的发现不变因果解释的策略来构建固有可解释性的图神经网络,在合成数据集和实际数据集上的实验证明了该策略在图分类方面的可解释性和广义能力优于现有的基线模型。
- ICCV快速学习无奖惩数据的样本加权
本文提出了一种学习样本快速再加权方法(FSR),该方法通过历史记录学习构建代理奖励数据和特征共享以降低优化成本,无需额外奖励数据和昂贵的二阶计算,并在标签噪声鲁棒性和长尾识别方面达到具有竞争力的结果,同时显着提高了训练效率。
- ICCV超越琐碎的反事实解释:拥有多样有价值的解释
该论文提出了 DiVE 方法,通过在分散的潜在空间中学习扰动并使用多样性强制损失进行约束,从而揭示与模型预测相关的多个有价值的解释,以防止模型产生微不足道的解释。实验证明,与之前的最新方法相比,我们的模型可以提高高质量有价值解释的成功率。
- 让人民参与进来:争夺基准机器学习数据集
研究了机器学习数据集背后的历史、价值观和规范,以及影响数据收集选择的价值观,并描述了机器学习中基准数据集的运作方式和为这些数据集提出的四个研究问题,从而更好地了解数据构建中的劳动,为研究人员提供新的争论途径。
- ECCVREVISE: 衡量和减轻视觉数据集中偏差的工具
本研究旨在解决机器学习模型中存在的数据偏见问题。我们开发了 REVISE 工具,可针对视觉数据集展开预防性分析。该工具可以从物体、人物和地理等三个层面揭示潜在的偏见,并对分析结果提出可操作的建议。
- AAAINeuroX: 用于分析神经网络中个体神经元的工具包
提供一款工具箱以便于神经网络模型的解释和理解,为用户提供了几种方法来识别与模型本身或外部任务相关的显著神经元,用户可以可视化选择的神经元,删除它们来测量它们对模型准确性的影响,并操纵它们来控制模型在测试时的行为。
- 论基于 GAN 的数据增强在延续偏见方面对工程师的想象
使用生成对抗网络(GAN)生成合成数据进行数据增强已成为许多应用程序的流行方法,但这种技术具有的内在缺陷应引起从业人员的重视,例如 GAN 增强数据可能会强化和甚至放大训练数据中的偏差,这应该成为普通从业人员的警示。
- ACL视觉指向表达识别:系统实际学习了什么?
本文通过对指称表达识别最先进系统的经验分析来探究这些系统处理语言和视觉的方式,并发现这些系统可能忽略语言结构,依赖于数据选择和注释过程中引入的浅层相关性。
- 利用社交媒体预测未来:系统文献综述
这篇系统综述研究了过去十年的相关文献,发现了社交媒体数据在预测方面存在的局限性和常见错误,并提出了旨在帮助研究者利用社交媒体数据进行预测的最佳实践建议。