领域差异：调查与实证分析

ACLOct, 2020

Domain Divergences: a Survey and Empirical Analysis

Abhinav Ramesh Kashyap, Devamanyu Hazarika, Min-Yen Kan, Roger Zimmermann

TL;DR通过文献调研和实证研究，我们开发了一个包含信息论、几何和高阶测量的分类体系，并识别出它们之间的关系，并识别了三种新应用。我们发现，在 130 个域适应场景，3 个不同的 NLP 任务和从文献调查中确定的 12 个分歧措施之间进行的相关分析，具有当前上下文单词表示法的高阶措施是有效的。

Abstract

domain divergence plays a significant role in estimating the performance of a model in new domains. While there is a significant literature on divergence measures, researchers find it hard to choose an appropriate divergence for a given →

domain divergence divergence measures taxonomy nlp application correlation analysis

发现论文，激发创造

超越顶级一致性：使用差异来预测分布转移下的性能

模型泛化性和预测分布在数据的广泛应用中至关重要，本研究通过基于 Hellinger 距离、Jensen-Shannon 和 Kullback-Leibler 散度的模型差异概念，发现散度得分相对于最高 1 的概念在测试误差估计和检测率上提供更好的结果，实验涉及标准视觉和基础模型。

Dec, 2023

多样性衡量：语言模型查询失败的领域无关代理

大型语言模型中的错误预测常依赖于特定领域的信息。本文介绍了基于对给定提示的响应的多样性量化误差的度量方式，独立于底层应用。我们描述了如何使用熵、基尼不纯度和质心距离这三种度量方法。我们在多个数据集和温度设置上进行了一系列实验，证明了这些度量与失败概率强相关。此外，我们还提供了实证结果，展示了如何将这些度量应用于少样本提示、思维链推理和错误检测。

Aug, 2023

机器学习中的创新和词汇使用模式

本研究深入研究了机器学习研究演变的动态景观，利用隐狄利克雷分配方法识别了在机器学习领域中出现的关键主题和基本概念，通过综合分析追踪了这些主题的演化轨迹，并利用 Kullback-Leibler 散度度量方法量化研究贡献的新颖性和多样性，从而了解杰出研究人员的关键作用以及机器学习领域特定学术场所的重要性。

Nov, 2023

基于新离散度测量的可经验估计分类界限

本文研究了信息分裂函数在统计学和信息理论中的作用，并提出了一种新的非参数 f 分裂测量方法，可以用于改进最小二分法分类错误的上限，并设计了特征选择算法以验证理论上的结果。

Dec, 2014

语言数据集漂移的表征与测量

本文提出三个语言数据漂移维度：词汇、结构和语义漂移，通过词频差异、句法差异和不可被词频捕捉的语义变化等度量，研究发现该方法比以前的方法更能够预测模型准确性，特别是在预测模型在测试集上的表现时。

May, 2023

使用贝叶斯优化学习选择迁移学习的数据

使用贝叶斯优化方法进行学习数据选择度量，可以显著提高情感分析、词性标注和语法分析等三个领域的性能。学习的度量方法不仅能够与模型、领域和任务相适应，而且能够在某种程度上用于跨模型、领域和任务的转移。

Jul, 2017

人工智能与人类协作及认知信任的差异量化

预测协作可能性和衡量对人工智能系统的认知信任比以往任何时候都更加重要。为了解决这个问题，我们提出了几种基于分歧度量（如 KL，JSD）的决策相似度度量方法，这些方法通过对人类获取的标签和各种模型所得到的标签进行计算。我们在一个文本蕴涵任务上进行了用户研究，用户被提供了来自各种模型的软标签，并被要求选择与他们最接近的选项。然后，用户看到了与他们最相似的模型的相似性 / 差异，并被询问他们对所选择系统的协作可能性和认知信任的看法。最后，我们对提出的决策相似度度量方法与调查结果之间的关系进行了定性和定量分析。我们发现人们倾向于与他们最相似的模型进行协作（通过 JSD 来衡量），然而这种协作并不一定意味着相似的认知信任水平。我们在我们的资源库中发布了与用户研究（如设计，输出）、模型和度量有关的所有资源。

Dec, 2023

基于差异的领域可迁移性用于零样本分类

本文探讨使用统计量来衡量不同任务间的相似性，从而减少 fine-tuning 的测试所需的任务对数量，并在 58 个任务和 6600 多个任务对组合上实验证明其可以提高任务的效率并显著降低运行时间。

Feb, 2023

一种信息理论，全尺度比较网络的方法

提出了一种新的网络比较度量 —— 网络画像差异，该方法可以比较各种类型的网络并揭示多层和时间网络的重要特征。

Apr, 2018

文档聚类评价：与随机基准的差异

本文介绍了一种利用随机基线进行文档聚类评估的方法，可以区分不合适的聚类并对聚类质量指标进行归一化处理，可用于任何聚类评估。

Aug, 2012