通过合成数据奖励激励机器学习合作
FedMRL 是一个新颖的联邦多智能体深度强化学习框架,旨在解决联邦学习中的数据异质性问题,并通过引入公平性的损失函数和多智能体强化学习方法来提高性能,并利用自组织映射实现服务器端的自适应权重调整,以应对客户端本地数据分布的偏差。实验证明 FedMRL 在医学图像诊断方面显著优于现有技术。
Jul, 2024
通过神经放弃方法来进行深度神经网络(DNN)的后期处理偏见缓解是本文的研究重点。我们提出了 NeuFair,这是一族用于缓解预训练 DNN 中的不公平性的后处理随机算法。我们的结果显示,NeuFair 提高了公平性达 69%,并超过了最先进的后处理偏见技术。
Jul, 2024
目前发展中的生成式人工智能对所有真实图像和视频的可信性带来了严重的影响,因此有必要建立一种能够高度自信地区分真实数据和合成数据的方法,本文目的是介绍目前已知的用于检测和加密的策略,并衡量其优劣之处,并提出额外的改进方法以弥补不足之处。
Jul, 2024
通过网页抓取和合成数据,采用三种已公开可用的端到端模型(Whisper、OWSM 3.1 和 SeamlessM4T)进行精调,结果表明,使用合成数据进行精调可以大幅提高翻译准确性,SeamlessM4T 可以与使用最先进语音识别和机器翻译模型的级联语音翻译系统相媲美甚至超越。
Jul, 2024
通过使用合成数据进行后训练,AgentInstruct 可以自动创建大量多样且高质量的合成数据,提供给语言模型以不同技能的教学,进而显著提升模型在多个基准测试上的性能。
Jul, 2024
利用物理模型和合成数据进行预训练的方法,以减少实验数据稀缺性对大型语言模型(LLM)微调的影响,并在学习聚合物可燃性指标方面得到准确的微调结果。
Jul, 2024
使用合成数据生成的模型对其他大型语言模型产生的影响与其它模型通过提炼数据的方式发生关系,研究了合成数据整合的后果,进而详细研究了合成数据来源对模型内部偏见、校准以及生成的文本属性和偏好等方面的影响。研究发现,模型在某些属性上表现出惊人的敏感性,即使合成数据的提示看起来 “中性”。这引发了一个问题,即这种敏感性是否可以被利用于有益的目的。我们的研究结果呼唤讨论:我们是否可以在测试时通过利用数据生成过程明确地引导模型朝着我们想要的属性方向发展?这在过去被认为是不可行的,因为收集具有特定特征或目标的数据成本很高。然而,合成数据质量的提高以及向遵循多样化指令的通用模型的转变,使这个问题具有及时性。我们提出了 “主动继承” 的概念,用于描述根据不可微分目标故意限制合成数据。我们展示了如何通过主动继承来引导模型生成具有良好的非可微分属性,例如高词汇多样性或低毒性。
Jul, 2024
通过引入 FairMedFM,一个公平性基准,对医学影像中基础模型的公平性性能进行综合评估,我们揭示了不同 FMs 之间的偏见存在、不同 FMs 的效用与公平性权衡以及现有不公平缓解方法的有限效果。
Jul, 2024
神经网络模拟器在气候和天气预测任务中已成为一种非常有价值的工具,但其无法保证提供公正的预测结果,因此需要在神经网络中采用明确的公平性表示方法。本研究提出一种自定义损失函数,通过惩罚具有不同质量预测结果的模拟器,在人类发展指数 (HDI) 等区域或类别上捕捉不平等,从而实现更加公正的气候模型模拟预测。实验结果表明,使用这种损失函数训练的神经气候模拟器提供更加公正的预测结果,平衡性度量随着权重增加而改善。在训练过程中,公平性和准确性之间存在权衡,但通过适当选择公平性优先超参数,可以最小化性能损失。
Jun, 2024