多样性衡量：语言模型查询失败的领域无关代理

Aug, 2023

多样性衡量：语言模型查询失败的领域无关代理

Diversity Measures: Domain-Independent Proxies for Failure in Language Model Queries

Noel Ngu, Nathaniel Lee, Paulo Shakarian

TL;DR大型语言模型中的错误预测常依赖于特定领域的信息。本文介绍了基于对给定提示的响应的多样性量化误差的度量方式，独立于底层应用。我们描述了如何使用熵、基尼不纯度和质心距离这三种度量方法。我们在多个数据集和温度设置上进行了一系列实验，证明了这些度量与失败概率强相关。此外，我们还提供了实证结果，展示了如何将这些度量应用于少样本提示、思维链推理和错误检测。

Abstract

error prediction in large language models often relies on domain-specific information. In this paper, we present measures for

error prediction large language models quantification of error diversity of responses measures

发现论文，激发创造

再三思考：衡量消除问答模型预测快捷方式的效率

本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

May, 2023

领域差异：调查与实证分析

通过文献调研和实证研究，我们开发了一个包含信息论、几何和高阶测量的分类体系，并识别出它们之间的关系，并识别了三种新应用。我们发现，在 130 个域适应场景，3 个不同的 NLP 任务和从文献调查中确定的 12 个分歧措施之间进行的相关分析，具有当前上下文单词表示法的高阶措施是有效的。

Oct, 2020

指导调整数据集的多样性测量与子集选择

本研究旨在选择数据子集用于大型语言模型的微调，以更有效地按照指令执行。我们使用决定性点过程来捕捉指令微调数据集的多样性和质量，提出使用以对数行列式距离衡量数据集的多样性。实验证明，在归一化权重梯度空间中所提出的多样性度量与下游指令跟随性能有关，可用于确定数据选择何时最有帮助，并分析数据集的策略。我们在各种指令微调数据集上展示了我们方法的实用性。

Feb, 2024

文本多样性的标准化测量：工具和分数的比较分析

通过对英文文本的计算性高压缩算法和 $n$-gram 重叠同质性得分的测量，我们发现多种测量指标的组合（如压缩比、长 $n$-gram 的自我重复、Self-BLEU 和 BERTScore）足以报告多样性得分，并可应用于生成模型、调试指导型数据集和人工生产文本的分析。

Mar, 2024

领域私有转换器

本篇论文提出了一种新颖的方法 —— 领域隐私，用以衡量条件语言模型在不同域之间泄露的可能性，并根据基于标记级别的域分类开发策略函数和一种高效的微调方法以提高已训练模型的域隐私；实验表明，我们的方法具有与不同 ially 私有语言模型的方法相当的弹性。

May, 2023

多语言少样本转移数据选择的关键是模型中的多样化和不确定性

本文探索了各种数据选择策略，依靠多个度量，利用了渐变嵌入和损失嵌入方法，以提高针对多语言预训练模型的 POS 标记、NER 和 NLI 任务的 Few-shot 迁移的性能。实验证明，所提出的方法始终优于随机数据选择基线，即使仅使用更少的标记数据进行零 - shot 迁移，也能显著提高性能。

Jun, 2022

LMD3：语言模型数据密度依赖性

我们开发了一种基于训练数据密度估计的分析语言模型任务性能的方法。通过对有控制介入的细调数据进行释义实验，我们发现支持特定测试查询的训练分布的增加可导致密度的可测增加，这也是干预引起的性能增加的重要预测因素。通过预训练数据的实验，我们可以通过密度测量解释模型困惑度的相当大的方差。我们得出结论，我们的框架能够提供目标模型预测与其训练数据子集的依赖性的统计证据，并且可以更一般地用于表征给定测试任务的训练数据的支持或缺乏支持。

May, 2024

局部独立预测模型集合

本文通过介绍新的多样性度量方法介绍了一种新的模型集成方法，该方法特别适用于数据限制和协变量转移，可显著提高模型的多样性和泛化性能。

Nov, 2019

通过群体评议和自我投票改进大型语言模型中的民族代表多样性

大型生成语言模型的关键挑战是多样性，本文通过提出度量多样性的评估数据集和指标，并应用集体批判和自我投票等方法，有效提高模型对人群和文化的多样性。

Oct, 2023

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023