利用大型语言模型使元数据更加 FAIR
使用语义网技术提升数据空间的可用性,但复杂性对数据空间的采用和成本产生重大挑战,大型语言模型的出现引发了如何支持公平的数据空间采用的问题,本研究通过一个具体示例展示了大型语言模型在数据空间中的潜力,并推导出一个探索这一新兴领域的研究议程。
Mar, 2024
大型语言模型(LLMs)中的进展凸显了道德实践和数据完整性的必要性。我们介绍了一个将 FAIR(可发现、可访问、可互操作、可重用)数据原则嵌入到 LLM 训练中的框架。这种方法标志着向符合 FAIR 标准的实践的转变。我们的框架提出了将 FAIR 数据原则整合到 LLM 训练中的指导方针。这一倡议包括研究人员和开发人员的检查清单。我们还通过一个案例研究展示了其实际应用,重点是在符合 FAIR 原则的数据集中识别和减轻偏见。这项工作是对人工智能伦理和数据科学的重要贡献,倡导在 LLMs 中采用平衡和道德的培训方法。
Jan, 2024
本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法,以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对,并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。
Dec, 2022
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
对公平语言模型进行了全面的综述,介绍了现有文献中关于公平语言模型的最新进展,讨论了导致公平语言模型偏见的因素,总结了评估偏见的度量标准和促进公平的现有算法,并提供了用于评估偏见的资源。
Mar, 2024
本文研究了在历史文献收藏品中训练语言模型时加入元数据的好处,通过对 19 世纪报纸的案例研究,扩展了 Rosin 等人 2022 年提出的时间遮蔽方法,并比较了将时间、政治和地理信息插入蒙版语言模型中的不同策略。实验证明,向语言模型展示相关元数据具有积极的影响,并可能产生更健壮、更公正的模型。通过在一系列评估任务上进行系统评估,包括伪困惑度、元数据蒙版填充和监督分类。
Nov, 2022
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法,并讨论了公平性发展中的挑战和未来方向。
Aug, 2023
利用大型语言模型(LLM)在各种下游应用中进行分类等工作至关重要,通过公平性可以确保包容性,基于种族、性别等因素实现平等代表和促进负责任的人工智能部署。本研究引入了一个框架来概述与各种公平性定义相一致的公平性规定,每个定义均由不同程度的抽象调控。我们通过在流程中将公平规则纳入,并使用 RAG 选择上下文演示来探索上下文学习的配置和过程。通过与不同 LLM 的实验比较,发现 GPT-4 在准确性和公平性方面的结果都优于其他模型。本研究是利用 LLMs 通过上下文学习实现预测任务公平性的早期尝试之一。
Feb, 2024
本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据,特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明,所提出的标签分配方法可以为未标记文本生成通用和高度特定的文本标签,其中有多达 44% 的标签与机器学习关键词提取算法建议的标签匹配。
Nov, 2023