- KDD推荐系统中基于策略代理的公平暴露优化进行成效去偏差
在该研究中,我们开发了一种基于战略代理人的公平曝光优化动态排序方法,旨在解决推荐系统中的数据偏差和长尾物品可见性的问题。通过使用可微分的排序算子同时优化准确性和公平性,我们确保了推荐性能的同时增强了长尾物品的可见性,实验证明了该方法的有效性 - 大型文献计量数据库中 SDG 分类的执行性
通过利用大型语言模型,本研究探讨了多样的可持续发展目标分类对文献计量数据注入的 “数据偏见”,结果表明模型架构、分类出版物、微调过程和自然语言生成中存在广泛的任意性,从而对使用语言模型在研究实践中的应用引发了顾虑。
- ICLR朝着无偏评估电子病历 SQL 中无法回答问题的检测
为了测试系统的可信度,将无法回答的问题纳入电子病历问答系统是至关重要的,因为提供不存在的答案可能会误导医生的诊断。然而,我们的工作中发现了 EHR QA 系统中这些无法回答问题存在的数据偏见,它们往往可以通过特定的 N-gram 模式过滤来 - StyleChat: 基于 LMM 的记忆式学习在风格化对话生成中的应用
通过构建 38 种风格的语料库,研究团队提出了一种基于记忆和多任务学习策略的对话生成框架 StyleChat,它能够有效地解决基于大规模语言模型的风格化对话生成中的数据偏差问题,并在测试中取得了优秀的表现。
- 对抗噪声标签的无偏样本选择
在这篇论文中,我们揭示了现有的样本选择方法在实践中存在的数据和训练偏差问题,并提出了一种鲁棒的网络架构和混合采样策略来解决这些问题,以实现对带有噪声标签的学习任务的准确建模。
- 差异特征未报告对算法公平性的影响
本研究提出了一个分析可追踪的差异特征低报告模型,并用此模型来表征此类数据偏差对算法公平性的影响。我们证明在实际数据环境中,低报告通常导致不公平的增加,而我们提出的解决方案方法成功地减轻了不公平的增加。
- 基于分段增强对比表示学习的医学报告生成
通过医学图像分割(SAM)模型实现对器官、异常、骨骼等的分割,利用一种监督对比损失函数缓解数据偏差并提高医学图像报告的质量。实验证明所提模型在 IU X-Ray 公共数据集上表现出的卓越性能。
- 通过 AIF360 对重新加权样本进行偏差缓解的综合验证
这篇研究论文系统地研究了对传统机器学习模型中重新加权样本的有效性,通过对 Adult Income 和 COMPUS 数据集上的五个模型进行二分类,并使用五个公平度量评估预测结果,揭示了实现传统机器学习模型公正性的重新加权样本的复杂性,以及 - 基于知识驱动的自动驾驶
本文探讨了知识驱动的自动驾驶技术,并强调了当前自动驾驶系统存在的数据偏差敏感性、处理长尾场景的困难以及缺乏可解释性等限制。然而,具有认知、泛化和终身学习能力的知识驱动方法被视为克服这些挑战的有希望途径。本文通过利用大型语言模型、世界模型、神 - 识别性问题:揭示偏向的学习排序中隐藏的可恢复条件
应用无偏学习排序 (Unbiased Learning to Rank, ULTR) 于训练基于偏差点击日志的无偏排序模型,在明确用户行为生成过程并根据检验假设拟合点击数据的基础上,研究发现点击数据完美拟合时可以恢复真实潜在相关性,但实际上 - 扩散模型中的流形导向采样用于无偏图像生成
本文提出了一种通过使用流形引导来减轻扩散模型中数据偏置的方法,该方法可以在不改变模型架构或需要标签或重新训练的情况下,改善生成图像的品质和无偏性。
- 基于语言模型的分析器中的结构歧义及其消解:以荷兰从句关系为例
本文研究荷兰语定语从句的结构歧义,通过研究基于语境的消歧任务,探讨前一句话的存在如何解决定语从句的歧义,应用此方法于两种句法分析结构,结果表明基于证明网的神经符号句法分析器比基于通用依赖的方法更容易纠正数据偏见,然而两种设定都受到相应的初始 - 数据偏差管理
本篇论文探讨了数据偏见对最终用户的影响、偏见的来源以及如何处理数据偏见的问题。提出了‘bias management’的概念,强调应该从识别、测量、索引、面向和调整偏见的角度入手,而不是在所有情况下都要消除数据偏见。
- 自适应松弛优化的鲁棒问答
本文提出了一种简单且有效的新型损失函数,结合自适应松弛优化,以使问题回答模型在和数据相关的问题中取得最好的表现。该方法旨在同时处理在分布内和分布外的性能问题,并通过实验证明其在大多数情况下可以使 QA 方法获得最先进的内外分布表现。
- WWW在去偏推荐中利用少量无偏评级平衡未观察到的混杂因素
本文提出了一种理论上保证的模型无关均衡方法,该方法可以针对现有的去偏差方法进行应用,以抵抗未观测到的混淆和模型错误,并通过交替校正学习偏差数据的模型参数,以自适应学习平衡系数,充分利用无偏数据。在实际应用中,该方法证明了其有效性。
- ImageCaptioner$^2$: 图像自动描述模型用于评估自序偏差放大
本文提出了一种新的评估图像字幕偏见的量化评估度量 ImageCaptioner2,通过对生成的字幕进行基于提示的图像字幕评估,以评估基于图像的字幕算法的偏见,通过在 MS-COCO 字幕数据集,Artemis V1 和 Artemis V2 - AAAI预测模型中潜在的传播采样偏差可证明检测
本文研究了在从(可能有偏见的)训练数据中学习预测模型,并通过某种审计方法事后评估公平性的一般性情况,通过定量而非定性地评估数据偏差的下游影响并证明检测的理论保证。
- 关于在数据偏差下测试和比较公平分类器
本文针对注入数据偏差的理论模型,从理论和经验上研究了它对公平分类器准确性和公正性的影响,并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验,我们检查了标准公平工具 - ICLRFedFA: 联邦特征增强
本文提出了一种名为 FedFA 的鲁棒联邦学习算法,通过运用统计学的方法对每个客户端的数据进行加强,从而解决非 i.i.d. 数据分布带来的特征偏移和本地数据偏差问题。
- 评估临床试验中的数据偏倚
该论文提出了一种解决数据偏见问题的方法,即通过定义可能存在于数据集中的数据偏见类型并使用适当的度量对其进行表征和量化,提供识别、衡量和减轻不同数据来源数据偏见的指南,适用于前瞻性和回顾性临床试验。