道德语音识别数据集的注意事项

May, 2023

Considerations for Ethical Speech Recognition Datasets

Orestis Papakyriakopoulos, Alice Xiang

TL;DR本文以自动语音识别为例，研究具备道德操守的语音数据集应具备的特征，包括多样性、包容性、关键元数据等，以提高模型鲁棒性与可用性，同时保护用户隐私、提升可解释性、促进社会技术与情境模型设计，旨在鼓励研究者与实践者建立更多人性化的数据集，提高模型效果。

Abstract

Speech AI Technologies are largely trained on publicly available datasets or by the massive web-crawling of speech. In both cases, data acquisition focuses on minimizing collection effort, without necessarily taking the data subjects' protection or user needs into consideration. This results to models that are not robust when used on users who deviate from t

automatic speech recognition ethical datasets diversity inclusion model explainability

发现论文，激发创造

促进精神健康与神经疾病研究中的公平和多样性言语数据集

我们综述了用于心理健康和神经学障碍的语音数据集，以突出可能存在的陷阱和改进机会，提倡公平和多样性，为建立这个领域的语音数据集提供了一个包含伦理关切的综合清单。

Jun, 2024

数据驱动对话系统中的伦理挑战

探讨机器对话系统研究中的潜在道德问题，包括数据驱动系统中的隐性偏见、对抗性案例的出现、隐私侵犯的潜在来源、安全问题、增强学习系统的特殊考虑以及可重复性问题，并建议需要进一步研究的领域。

Nov, 2017

使用 Common Voice 数据集建立公平的语音识别系统

本文使用法语 Common Voice 数据集对 wav2vec~2.0 模型的偏见进行计量，通过对多种固定大小的、精心制作的训练集进行微调，证明了演讲者多样性的重要性，并对 Common Voice 语料库进行了彻底分析，发现了应该被这个数据集的用户考虑的重要缺陷。

Jun, 2023

关于具有公平性、隐私和监管规范的负责任机器学习数据集

在当前人工智能时代，本研究讨论了负责任的机器学习数据集的重要性，并提出了一个评估数据集的负责任框架。通过公平性、隐私保护和合规性等方面的考虑，我们分析了超过 100 个数据集，发现没有一个数据集能免于公平性、隐私保护和合规性问题。我们对数据集的文档化提供了改进建议，并认为在全球范围内的数据保护法规定下，科学界的数据集创建方法需要修订。

Oct, 2023

收集人类中心图像数据集的道德考虑

本篇研究探讨人本主义图像数据集的伦理问题，提出关键的伦理考虑和实践建议，旨在解决数据收集中的隐私和偏见，促进更负责任的数据管理实践。

Feb, 2023

自动说话人识别中的偏差

本文通过 VoxCeleb 说话人识别挑战的案例，深入实证研究和分析机器学习的发展过程中的偏差问题，发现每个开发阶段都存在偏差，建议采取实践性措施和未来研究方向以缓解这一问题。

Jan, 2022

语音识别公平性：性能差异的发现和缓解

本文研究语音识别中的不公平现象，通过划分发言者的群组并采取公平措施，比较利用地理和人口学信息与扩展的讲者嵌入技术的群组探测方法，发现在过采样和建模讲者群体成员方面均能缩小不同发言者群体间的差距并提高整体精确度。

Jul, 2022

构建数据驱动对话系统的可用语料库调查

通过调查可用于数据驱动型对话系统学习的公开数据集，讨论了这些数据集的重要特征，如何使用它们学习不同的对话策略以及它们的其他潜在用途。同时还研究了数据集之间的迁移学习方法和外部知识的应用，并讨论了适当的评估指标选择。

Dec, 2015

Casual Conversations v2: 设计一个大型的基于同意的数据集，用于测量算法偏差和鲁棒性

本文提供了一个设计分类和子分类的方法，以便收集一个全面的数据集，以用于测试和开发鲁棒和公平的 AI 系统。

Nov, 2022

缓解数据集的危害需要有管理：来自于 1000 篇论文的经验教训

探讨了机器学习数据集的隐私、偏差和伦理应用等方面的顾虑，并分析了三个有争议的人脸和人识别数据集的伦理问题，最后提出了分散化的方法来减少数据集生命周期中的伦理问题。

Aug, 2021