HCI+NLP 系统设计和评估方法

ACLFeb, 2021

Methods for the Design and Evaluation of HCI+NLP Systems

PDF

Hendrik Heuer, Daniel Buschek

TL;DR介绍了五种方法论提案，并将其位于 ML-based 的 NLP 模型的背景下，以在 HCI 和 NLP 交叉的位置上培育跨学科合作和进步。

Abstract

hci and nlp traditionally focus on different evaluation methods. While

hci nlp evaluation methods methodological proposals interdisciplinary collaboration

发现论文，激发创造

分级评估框架：人工评估的最佳实践

通过对现有文献进行广泛分析，我们发现在自然语言处理的人工评估方法中存在一些缺陷，这促使我们开发了一种层次化评估框架，该框架具有更全面地表示自然语言处理系统性能的显著优点，并应用于评估机器阅读理解系统及其与人工智能共生模型中的输入和输出的质量之间的关联。

Oct, 2023

将人类纳入自然语言处理环节：一项调查

介绍了人与自然语言处理模型 (NLP) 的交互式 (HITL) 的短暂但激动人心的历史，总结了近期以任务、目标、人机交互和反馈学习方法为重点的各种 HITL NLP 框架，并讨论了将来在 NLP 开发中整合人类反馈的方向。

Mar, 2021

机器学习与符号方法的协同：自然语言处理中混合方法的综述

综述了机器学习和符号方法在自然语言处理中的缺点和优势以及其通过混合方法的桥梁作用，讨论了混合方法在需要自然语言理解、生成和推理的广泛领域的最新研究，同时探讨了现有资源和面临的挑战，并提出了未来方向的路线图。

Jan, 2024

交互式自然语言处理

该论文对 iNLP 的定义、分类、评估方法、应用和未来研究方向进行了综合性调查，旨在为研究人员提供广泛的视野和工具，以促进与人类、知识库、模型和环境的交互、交流和合作。

May, 2023

我们所引证的人：“自然语言处理” 与其他学术领域之间的影响桥梁

量化分析了 NLP 和其他 23 个学科领域（相互）之间的影响程度，结果显示 NLP 的学科交叉合作程度下降，自 1980 年的 0.58 降至 2022 年的 0.31（历史最低），同时 NLP 的学术引用越来越内向，主要引用计算机科学领域的论文，而对语言学、数学和心理学等领域的引用较少，这些研究结果凸显了 NLP 需要紧急反思与其他学科领域的合作交流。

Oct, 2023

全球语言技术表现中的系统性不平等

本论文介绍了一种估算全球语言技术的实用性的框架，并量化了 NLP 研究现状中存在的差异性，探讨了其相关的社会和学术因素，并为基于证据的政策制定提出了定制的建议，旨在促进更全球和公平的语言技术。

Oct, 2021

编程自然语言处理调查

本文综述了自然语言处理在编程方面的研究，并从推理模型到最新竞争级模型全面调查了现有的相关工作，具有技术类别的完整性，方便查找和比较未来的工作。

Dec, 2022

并非所有断言都是平等的：选择正确的统计方法评估假设

该论文探讨了自然语言处理中假设评估的问题，提出使用贝叶斯方法评估假设，并提供了针对该领域的最佳实践和指南。

Nov, 2019

谁在思考？使用 XAI 操作手册推动以人为中心评估 LLMs

本文探讨了人类中心的大型语言模型评估，并提出了心理模型，用例使用价值和认知参与三个研究重点，旨在加速人类中心式大型语言模型评估的进展。

Mar, 2023

重新思考模型评估作为缩小社会技术差距的一种方式

在这篇论文中，作者认为生成模型和大型语言模型（LLM）的发展给模型评估带来了新的挑战与责任，因此呼吁研究人员应开发基于真实世界的社会需求的评估方法，并兼顾现实与成本的平衡，以缩小模型使用中的社会技术差距，同时为大型语言模型的评估提供开放性问题和机会。

Jun, 2023