基于网络摄像头的凝视数据评估作为人类理由注释的替代方法

COLINGFeb, 2024

基于网络摄像头的凝视数据评估作为人类理由注释的替代方法

Evaluating Webcam-based Gaze Data as an Alternative for Human Rationale Annotations

Stephanie Brandl, Oliver Eberle, Tiago Ribeiro, Anders Søgaard, Nora Hollenstein

TL;DR人的凝视数据在评估重要性评分时作为一种有效的替代品，能够提供有价值的语言洞察力，并且在解释方法的排名上与人工评估的理据相媲美。

Abstract

rationales in the form of manually annotated input spans usually serve as ground truth when evaluating explainability methods in NLP. They are, however, time-consuming and often biased by the annotation process.

rationales explainability methods gaze data multilingual transformer-based language models task difficulty

发现论文，激发创造

WebQAmGaze：一个多语言的网络摄像头阅读时注视追踪数据集

创建了 WebQAmGaze—— 一个多语言低成本的阅读时眼动追踪数据集，旨在支持公平和透明的 NLP 模型的开发。WebQAmGaze 包括来自 332 个参与者的网络摄像头眼动跟踪数据，这些参与者以自然的方式阅读英语、西班牙语和德语文本。数据预处理后，我们发现对相关段落的注视似乎提示了对问答理解正确性的影响。此外，我们进行了数据采集的比较分析。结果显示，Webcam-ET 获取的特征与商用 ET 设备的特征之间具有中等相关性。我们认为，这些数据可以推进基于网络摄像头的阅读研究，并开辟了更便宜、更易用的数据采集途径，对学习问答背后认知的过程以及将这些见解应用到语言理解的计算模型中都有帮助。

Mar, 2023

利用人类注视数据监督视频字幕生成神经注意模型

本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能，通过提出一种名为 GEAN 的视频字幕模型，并采用人眼注视追踪数据来提供生成句子的时空注意力，以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估，证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能，并展示了该方法在 VAS 数据集和标准数据集（如 LSMDC 和 Hollywood2）中实现了领先的性能，成为最先进的视频字幕生成方法。

Jul, 2017

再审视用于可解释 NLP 的人工标注

通过对可解释 NLP 中两个广泛使用数据集上人类注释行为及其质量进行的实验表明，工作者的资质和注释过程的细节有着显著影响，并且特定的可解释性方法会随着不同指导下获得的 ground truth rationales 而有所不同。因此，研究人员需要提供完整的注释细节并谨慎解释使用这些注释所得到的实验结果的重要性。

Apr, 2022

通过人类注视引导的神经注意力提高自然语言处理任务

我们提出了一种新型混合文本显著性模型 (TSM)，首次将阅读的认知模型和显式的人类注视监督相结合，将 TSM 的预测与人类注视的真实数据高度相关，并提出了一种新的联合建模方法，将 TSM 的预测集成到网络的注意层中，从而实现了人类注视引导的神经注意力与 NLP 任务的结合，其在 QUora 问题对语料库的释义生成任务中优于当前技术水平的 PERFOMANCE BY MORE THAN 10% BLEU-4，并在 Google 句子压缩语料库中实现了最先进的性能，从而介绍了一种实用的方法，将数据驱动模型和认知模型之间桥接起来，并展示了将人眼引导的神经关注集成到 NLP 任务中的新方法。

Oct, 2020

与人类视线互动的神经图像字幕生成

通过研究人类注视和深度神经网络注意力机制之间的相互作用，我们提出了一种新的注视辅助图像字幕模型，将人的注视信息集成到基于注意力的 LSTM 结构中，能够将算法选择性地分配到注视和非注视的图像区域，这种方法通过对 COCO / SALICON 数据集的评估，显示了我们方法改善了图像字幕性能，并且注视可以补充机器的注意力，提高了语义场景理解的任务。

Aug, 2016

基于 Transformer 的人类注视行为在视频中的预测模型

基于眼动追踪数据的视频分析自动化是一个重要的任务。本文提出了一种基于转换器增强学习算法的模拟人类视线行为的新方法，通过观看视频并模拟人类注视行为，该方法能有效地复制人类注视行为并应用于实际任务。

Apr, 2024

机器学习本地解释的人类基准评估

本文提出了一个针对图像和文本领域使用的人类注意力基准，使用多层人类注意力蒙版的评估方法评估了使用 Grad-cam 和 LIME 技术获得的模型显著性解释，并通过比较单层对象分割掩码评估的主观评分和基准阈值不可知的评估方法的效果，表明我们的基准更加有效。同时，本文的实验还揭示了主观评分中的用户偏见。

Jan, 2018

TurkerGaze: 使用基于网络摄像头的眼动跟踪进行众包显著性研究

本文介绍了一种基于网络摄像头的注视追踪系统，支持大规模的众包眼动追踪。该系统通过谨慎的算法和游戏协议设计，以相对较低的成本和研究人员的少量努力获得了与传统实验室设置相当的视觉显著性预测数据。使用该工具，作者建立了一个自然图像的显著性数据集，并提供了一个 Web 服务器，研究人员可以上传图像以从 AMTurk 获取眼动追踪结果。

Apr, 2015

从人类的理性推论中推导机器的关注

本文研究了基于注意力机制对低资源场景下自动学习映射的问题，并提出了一种可以实现从资源丰富的领域到低资源领域的映射方法，在基准数据集上取得了 15% 以上的平均误差降低率。

Aug, 2018

以哪些正确的理由来诉求正确？

本文采用人类理性注释，跨越情感分析和常识推理三个数据集，并涵盖男女老少不同族裔人群，探究了模型预测与人类理性对齐的程度，并指出了现存的一些主观性问题。作者发现模型存在偏见，更倾向于与年龄较大或白人注释器的理性对齐。

Jun, 2023