人工智能与人类协作及认知信任的差异量化

Dec, 2023

人工智能与人类协作及认知信任的差异量化

Quantifying Divergence for Human-AI Collaboration and Cognitive Trust

Müge Kural, Ali Gebeşçe, Tilek Chubakov, Gözde Gül Şahin

TL;DR预测协作可能性和衡量对人工智能系统的认知信任比以往任何时候都更加重要。为了解决这个问题，我们提出了几种基于分歧度量（如 KL，JSD）的决策相似度度量方法，这些方法通过对人类获取的标签和各种模型所得到的标签进行计算。我们在一个文本蕴涵任务上进行了用户研究，用户被提供了来自各种模型的软标签，并被要求选择与他们最接近的选项。然后，用户看到了与他们最相似的模型的相似性 / 差异，并被询问他们对所选择系统的协作可能性和认知信任的看法。最后，我们对提出的决策相似度度量方法与调查结果之间的关系进行了定性和定量分析。我们发现人们倾向于与他们最相似的模型进行协作（通过 JSD 来衡量），然而这种协作并不一定意味着相似的认知信任水平。我们在我们的资源库中发布了与用户研究（如设计，输出）、模型和度量有关的所有资源。

Abstract

Predicting the collaboration likelihood and measuring cognitive trust to AI systems is more important than ever. To do that, previous research mostly focus solely on the model features (e.g., accuracy, confidence

collaboration likelihood cognitive trust decision-making similarity measures user study qualitative and quantitative analysis

发现论文，激发创造

合成表格数据验证：一种基于差异的方法

通过使用发散估计来构建考虑真实数据和合成数据的联合分布的验证指标，本研究在多个领域中使用生成模型的不断增加突出了评估真实数据和合成数据之间相似性的健壮且标准化的验证指标的需求。通过使用概率分类器来近似数据集之间的密度比率，我们特别计算了两种发散：著名的 Kullback-Leibler (KL) 发散和 Jensen-Shannon (JS) 发散。

May, 2024

用事实分布量化关系相似度

本文提出了一种基于条件概率分布的相似性量化方法，采用简单的神经网络参数化分布，并给出了一个采样的实现方法。实验证明，该方法与人类判断结果相关度显著高，并能有效地检测 Open IE 模型提取的冗余关系和分类中的错误，并可用于负采样和 softmax 分类以减轻错误。

Jul, 2019

利用大型语言模型预测人类相似性评价

利用语言模型和在线招募，提出了一种基于文本描述的高效通用程序，以预测相似度判断，其数量只随刺激物数量线性增长，可极大减少数据需求，且在六个自然图像数据集上的结果优于基于视觉信息的先前方法。

Feb, 2022

领域差异：调查与实证分析

通过文献调研和实证研究，我们开发了一个包含信息论、几何和高阶测量的分类体系，并识别出它们之间的关系，并识别了三种新应用。我们发现，在 130 个域适应场景，3 个不同的 NLP 任务和从文献调查中确定的 12 个分歧措施之间进行的相关分析，具有当前上下文单词表示法的高阶措施是有效的。

Oct, 2020

利用句子嵌入和语义相似度在评估可信 AI 时寻求共识

本研究使用自然语言处理中的句子嵌入和语义文本相似度，以支持利用卫生保健中使用的人工智能系统的可靠性评估的跨学科专家团队之间的沟通，并解决了不同领域之间描述同一问题但使用不同术语的通信障碍。

Aug, 2022

言语是否足矣？语言近似人类相似度评价

通过评估 611 个预训练模型的性能，我们提出了一种基于语言的相似性逼近方法，该方法比经典方法更便宜，也比基于深度神经网络的方法性能更优。此外，我们还开发了一种新型自适应标签收集流程，并提供了一个简明指南和所有数据。

Jun, 2022

在类似尺度上比较人类和模型：走向共指消解中的认知性别偏见评估

本文利用双过程理论研究了模型偏见与人类行为之间的关系，通过两个众包实验研究了人类与模型在性别偏见上的表现，发现在真实数据上，人类比模型更倾向于性别偏见，而在合成数据上，模型比人类更倾向于性别偏见。

May, 2023

人与机器理解之间的不协调性

通过一项大规模众包研究，本文揭示和量化了通过图像分类任务来人与计算机理解背景的分歧，并回答了哪些复杂机器学习模型更接近于人类使用特征以进行准确预测，任务的难度如何影响机器选择特征的能力，并与人类相比，人类是否一致更擅长选择使图像识别更精确的特征。以上发现对于人机协作具有重要的意义，考虑到人工智能领域的长期目标是使机器能够像人类一样学习和推理。

Jan, 2021

人机信任问卷的元分析：趋同性度量与新兴模型

这篇论文通过对多个经过验证和可靠的人机互动信任测量工具的元分析，提出了一个一致的人机互动信任模型，为今后的研究提供了一个综合框架，并确定了信任测量的边界和需进一步调查的领域。

Mar, 2023

关于干预型 Kullback-Leibler 散度

这篇研究论文介绍了一种新的方法，即干预 Kullback-Leibler（IKL）离散度，来量化因果模型之间的结构和分布差异，以提高在动态环境下的智能代理的转移知识能力。

Feb, 2023