机器学习模型归因挑战

Feb, 2023

Machine Learning Model Attribution Challenge

Elizabeth Merkhofer, Deepesh Chaudhari, Hyrum S. Anderson, Keith Manville, Lily Wong...

TL;DR参赛者需要从细致调整的机器学习模型的文本输出中识别出潜在的基础模型，最佳解决方案是人工开发基于公共文档的特征，或者自动的统计方案需要减少调用 API 次数。

Abstract

We present the findings of the machine learning model attribution Challenge. Fine-tuned machine learning models may derive from other trai

machine learning model attribution fine-tuned models large language models api calls

发现论文，激发创造

用人工询问技术来归属语言模型

本文介绍了解决机器学习模型归因挑战（MLMAC）的解决方案，探讨了相似的词汇和生成的文本以及四种不同的方法来衡量对文本的重合度。

Nov, 2022

匹配对：将微调模型归属于它们的预训练大型语言模型

该论文研究了生成式大型语言模型的 fine-tuning 对模型授权和版权保护的影响，并提出了一种基于不同知识水平和归属策略的模型追溯方法。

Jun, 2023

大型语言模型自动评估归因

本文探讨了大型语言模型在自动评估引用时的两种方法：引导 LLM 和微调更小的 LM。我们手动策划了一组测试样例以涵盖 12 个领域并评估了其自动评估的结果，旨在为这一重要问题的未来研究打下基础。

May, 2023

属性问答：针对属性化大语言模型的评估和建模

本文研究基于属性的 LLM 发展，在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属（attribution）以及现有方法在归属方面的表现如何，并提出了建立带归属特性的 LLMs 的可能方向。

Dec, 2022

图像数据归因的简单有效基础线

数据归因是理解机器学习模型的关键方法之一，我们提出了一种基于自监督学习预训练的最小化基线方法，对图像数据进行归因，这种方法计算成本低、内存占用少、易于扩展，且在 CIFAR-10 和 ImageNet 上实现了与现有方法相媲美甚至更好的性能。

Nov, 2023

语言模型洞察：上下文问答中的归因方法

基于大语言模型的隐藏状态，我们提出了一种新的环境下问答的归因方法，绕过重复训练模型和检索模型开销，提供精细的归因并保持结果质量，在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能，且适用于各种 LLM 架构。

May, 2024

大型语言模型上的神经作者归属性：风格分析

通过实证分析大型语言模型（LLMs）的写作特征、对比专有和开源模型的异同、并探索通过语言的词汇、句法和结构方面的风格特征整合实现对 AI 生成文本的追溯，为神经网络作者归属提供经验性洞见，为应对 AI 生成的错误信息的威胁铺平道路。

Aug, 2023

低资源环境下的预训练语言模型解释与归因分析

通过分析从基于提示的模型中提取的归因得分的合理性和忠实性，并将其与从微调模型和大型语言模型中提取的归因得分进行比较，我们发现使用基于提示的范例（无论是基于编码器的模型还是解码器的模型）比在低资源环境下微调模型产生更合理的解释，并且 Shapley Value Sampling 在产生更合理和忠实的解释方面始终优于注意力和积分梯度。

Mar, 2024

从文本到来源：大型语言模型生成内容的检测结果

通过探索跨模型检测、模型归因以及分类器的效果与模型规模之间的关系，该研究在大型语言模型的使用中提供了宝贵的见解。

Sep, 2023

自动归因评估的难度有多大？

通过提供引用的证据，现代生成式搜索引擎增强了大型语言模型（LLM）响应的可靠性。为了弥补缺乏这些方法的标准化基准的差距，我们提出了 AttributionBench，这是一个由各种现有归因数据集编制的综合基准。我们在 AttributionBench 上进行了大量实验，揭示了即使对于最先进的 LLM 也存在自动归因评估的挑战。

Feb, 2024