领域差异:调查与实证分析
模型泛化性和预测分布在数据的广泛应用中至关重要,本研究通过基于 Hellinger 距离、Jensen-Shannon 和 Kullback-Leibler 散度的模型差异概念,发现散度得分相对于最高 1 的概念在测试误差估计和检测率上提供更好的结果,实验涉及标准视觉和基础模型。
Dec, 2023
大型语言模型中的错误预测常依赖于特定领域的信息。本文介绍了基于对给定提示的响应的多样性量化误差的度量方式,独立于底层应用。我们描述了如何使用熵、基尼不纯度和质心距离这三种度量方法。我们在多个数据集和温度设置上进行了一系列实验,证明了这些度量与失败概率强相关。此外,我们还提供了实证结果,展示了如何将这些度量应用于少样本提示、思维链推理和错误检测。
Aug, 2023
本研究深入研究了机器学习研究演变的动态景观,利用隐狄利克雷分配方法识别了在机器学习领域中出现的关键主题和基本概念,通过综合分析追踪了这些主题的演化轨迹,并利用 Kullback-Leibler 散度度量方法量化研究贡献的新颖性和多样性,从而了解杰出研究人员的关键作用以及机器学习领域特定学术场所的重要性。
Nov, 2023
本文研究了信息分裂函数在统计学和信息理论中的作用,并提出了一种新的非参数 f 分裂测量方法,可以用于改进最小二分法分类错误的上限,并设计了特征选择算法以验证理论上的结果。
Dec, 2014
本文提出三个语言数据漂移维度:词汇、结构和语义漂移,通过词频差异、句法差异和不可被词频捕捉的语义变化等度量,研究发现该方法比以前的方法更能够预测模型准确性,特别是在预测模型在测试集上的表现时。
May, 2023
使用贝叶斯优化方法进行学习数据选择度量,可以显著提高情感分析、词性标注和语法分析等三个领域的性能。学习的度量方法不仅能够与模型、领域和任务相适应,而且能够在某种程度上用于跨模型、领域和任务的转移。
Jul, 2017
预测协作可能性和衡量对人工智能系统的认知信任比以往任何时候都更加重要。为了解决这个问题,我们提出了几种基于分歧度量(如 KL,JSD)的决策相似度度量方法,这些方法通过对人类获取的标签和各种模型所得到的标签进行计算。我们在一个文本蕴涵任务上进行了用户研究,用户被提供了来自各种模型的软标签,并被要求选择与他们最接近的选项。然后,用户看到了与他们最相似的模型的相似性 / 差异,并被询问他们对所选择系统的协作可能性和认知信任的看法。最后,我们对提出的决策相似度度量方法与调查结果之间的关系进行了定性和定量分析。我们发现人们倾向于与他们最相似的模型进行协作(通过 JSD 来衡量),然而这种协作并不一定意味着相似的认知信任水平。我们在我们的资源库中发布了与用户研究(如设计,输出)、模型和度量有关的所有资源。
Dec, 2023
本文探讨使用统计量来衡量不同任务间的相似性,从而减少 fine-tuning 的测试所需的任务对数量,并在 58 个任务和 6600 多个任务对组合上实验证明其可以提高任务的效率并显著降低运行时间。
Feb, 2023