通过对 AI 模型的 32,111 份文档进行全面分析,我们发现 AI 模型的文档化做法存在不足,其中环境影响、限制和评估等方面填写的比例最低,而训练部分则是填写最完整的。此外,我们发现数据的讨论相当重要,有时甚至比模型本身还要强调。通过将详细的模型卡添加到之前没有或只有少量模型卡的 42 个热门模型,我们发现添加模型卡 moderately 相关于周下载量的增加。通过大规模数据科学和语言学分析,我们的研究为分析模型文档化的社区规范和实践打开了新的视角。
Feb, 2024
本文提出了一个名为 “模型卡” 的框架,以鼓励对训练的机器学习模型进行透明的报告,并为不同应用领域提供基准评估。模型卡旨在推进机器学习和人工智能技术的负责任民主化,提高了解 AI 技术工作情况的透明度。
Oct, 2018
使用大型语言模型(LLMs)提出了一种自动化生成方法,以处理当前人类生成的模型和数据卡中的信息不完整问题,并建立了 CardBench 数据集和 CardGen 流水线,实现了生成模型和数据卡的完整性、客观性和真实性的提升,是负责任的 AI 文档实践中迈出的重要一步,确保更好的可追溯性和问责制。
May, 2024
通过在 NLP 领域中使用具有自由文本理性化功能的对话系统,研究人员对 NLP 任务进行了改进,并通过评估模型性能和用户研究,证明了理性化和特征归因在解释模型行为方面的有效性。
Oct, 2023
本文提出了数据卡片 (Data Cards) 的概念以促进人性化的大规模模型开发过程中透明、有目的性和人性化的数据记录方法,数据卡片是必要的用户文档,提供关于机器学习数据各个方面的基本事实的结构化总结。本文描述了将数据卡片落实到实际应用的多种框架,并通过两个案例研究报告了支持领域、组织结构和观众群体的可采用特性,最后总结了 20 个数据卡片的部署经验。
Apr, 2022
通过使用数据和可视设计探针进行调查研究,我们发现了专家在使用语义交互来更新简单分类模型时的行为模式,并确定了他们的需求和关注点,研究结果显示设计探针是一种主动收集可交互机器学习系统所需功能的有效工具。
通过提供 500 个问题 - 答案配对的数据集,我们研究了语言模型生成模型卡片的能力,并发现目前 ChatGPT-3.5、LLaMa 和 Galactica 对研究论文的理解和生成准确的文本回答方面存在显著差距。我们认为这个数据集可以用来训练模型自动从论文中生成模型卡片,减少人工工作量。
Sep, 2023
探讨了交互式可视化在解释自然语言处理模型中的作用、与目标用户和 NLP 管道的关系,提供了几个使用 XNLP 可视化的具体示例,并指出了该领域的广泛研究机会。
Jan, 2023
本文阐述了目前 AI 文档标准的局限性,并提出动态文档作为评估 AI 系统的新范式。通过对比传统环境影响声明框架与目前算法文档标准之间的区别,以及结合模型卡和两个算法影响评估案例的分析,最后评估了动态 AI 文档规范的最新提议。
Mar, 2023
本文介绍了一些最流行的自然语言处理的深度学习可视化技术,并强调其可解释性和可解释性。