非正式数据转换有害

AAAIJan, 2020

Informal Data Transformation Considered Harmful

Eric Daimler, Ryan Wisnesky

TL;DR本文认为，人工智能系统受限于所学数据的完整性而非算法的复杂性，并就如何实现企业级更好数据完整性提出非正常方法，即在企业级数据转换（迁移，集成，组合，查询，查看等）过程中形式化自动保证数据的完整性不断得到保留，不需要对数据和依赖于数据的程序进行反复验证，避免了数据湖方法的缺陷。

Abstract

In this paper we take the common position that ai systems are limited more by the integrity of the data they are learning from than the sophistication of their algorithms, and we take the uncommon position that the solution to achieving better →

ai systems data integrity enterprise data management automatic guarantee

发现论文，激发创造

科学面对互操作性作为成功与恶的必要条件

在人工智能系统实现互操作性的过程中，新的伦理问题凸显出来，它们连接了我们生活中的不同领域，而这些领域之间的不同的社会奖励因此会发生改变，同时也会影响到不同领域的正义。然而，将看似相互独立的领域进行联系是知识和科学进步的必要步骤。

Feb, 2022

改变数据，改变世界

该研究论文讨论了关于 NLP 在深度学习模型和训练数据上的投资，目前我们的模型学到了很多假的模式、社会偏见和标注错误现象。虽然算法解决方案的成功有限，但还有一种替代方案被积极讨论，即更加细心地设计数据集来传递特定的信号，本文探讨了有关数据整理的正反两面观点，并认为基本上数据整理已经在发生和改变世界，问题只在于我们想要在这个过程中投入多少思考。

May, 2021

克服 AI 集成系统开发和部署中的想象力失败

介绍了计算系统杂交网络可能造成的几种潜在的伤害形式，探讨了这些潜在的伤害对不同利益相关方的影响，并提出了有效的伤害预防框架应该考虑包括计算系统特征、利益相关方和潜在伤害的广泛范围等在内的因素。

Nov, 2020

关于具有公平性、隐私和监管规范的负责任机器学习数据集

在当前人工智能时代，本研究讨论了负责任的机器学习数据集的重要性，并提出了一个评估数据集的负责任框架。通过公平性、隐私保护和合规性等方面的考虑，我们分析了超过 100 个数据集，发现没有一个数据集能免于公平性、隐私保护和合规性问题。我们对数据集的文档化提供了改进建议，并认为在全球范围内的数据保护法规定下，科学界的数据集创建方法需要修订。

Oct, 2023

公平 AI 的数据质量维度

本文讨论了人工智能系统中的偏见问题，尤其是在涉及人类时，AI 算法反映了由于错误标记的数据来源的技术性误差。作者提出了通过实施数据质量维度以减轻偏见分类错误的潜在改进，涉及到两种性别：非二元性和跨性别者的分类。

May, 2023

ICLR 国际隐私、可追溯性、可解释性、鲁棒性和结构化数据推理工作坊（PAIR^2Struct）

这篇论文探讨了人工智能等技术在决策敏感的应用中，遵循数据隐私、可解释性、鲁棒性、推理等原则，同时着重探讨在结构化数据的应用方面如何设计可靠的方法来确定和使用相关变量进行决策。

Oct, 2022

迈向负责任的人工智能开发生命周期：来自信息安全的启示

提出了一个框架，将信息安全领域和安全开发生命周期的概念应用到人工智能系统的开发中，以解决公正度、可解释性和科技伦理等方面的问题。

Mar, 2022

以数据为中心的人工智能：观点与挑战

本文讨论了数据在构建 AI 系统中的作用，强调了数据质量和可靠性的重要性。作者提出三个任务：培训数据开发、评估数据开发和数据维护，并列举了一些挑战和展望。

Jan, 2023

通过数据转换提升机器学习系统的鲁棒性

本文研究在机器学习分类器中针对规避攻击采用数据变换作为一种防御方法。我们提出并探索了包括主成分分析的降维和数据反白化在内的各种数据转换策略，以增强机器学习的韧性，在多个真实数据集上评估和演示了数据的线性转换作为一种抵御规避攻击的有效防御机制，并在不同应用领域得到了验证。

Apr, 2017

提高可操作数据的信息

本文研究了基于数据的决策中出现的操纵问题，提出了减少数据使用来减轻信息损失并提高分配精度的方法。

Aug, 2019