人类和机器学习模型的标记可追踪性：一项注释研究

Apr, 2023

人类和机器学习模型的标记可追踪性：一项注释研究

Tokenization Tractability for Human and Machine Learning Model: An Annotation Study

Tatsuya Hiraoka, Tomoya Iwakura

TL;DR本研究比较了六种不同的 tokenization 方法在日语常识问答数据集上人工注释和机器学习模型的表现，分析了 tokenization 的合适性和响应时间等因素和表现的关系，结果表明人类和机器学习模型的 tokenization 不完全一致。

Abstract

Is tractable tokenization for humans also tractable for machine learning models? This study investigates relations between tractable tokenization for humans (e.g., →

tractable tokenization human-machine comparison machine learning models nlp appropriateness

发现论文，激发创造

多语言推特情感分类：人类标注员的角色

该研究分析使用不同语言的大量手动标记的推文作为训练数据构建自动分类模型时，训练数据的质量和数量对于分类模型的质量比所使用的模型类型更为重要，并且当训练集的大小足够大时，模型的性能接近于标注者一致性，但定期监视标注者的一致性是非常重要的，从而改善训练数据集和模型性能，最后我们还表明，有强有力的证据表明，人们认为情感类别（消极的，中性的和积极的）是有序的。

Feb, 2016

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

人类解释总是有帮助的吗？走向对人类自然语言解释客观评估

该研究提出了一种新的度量人工注释解释质量的指标，即帮助性指标，以比较传统的模拟能力评分。在五个数据集和两种模型架构上对该指标进行了评估，结果表明其能够客观地评估注释解释的质量，同时传统的模拟能力评分则不能。

May, 2023

基于大型语言模型的短文本人可解释聚类

大语言模型在内容生成能力方面取得了巨大的增长，本研究展示了这些模型还可以成功地对人类生成的内容进行聚类，通过独特性和可解释性两个度量标准来定义成功。该研究验证了这一成功，通过人工审阅和 ChatGPT 的比较，提供了一种自动化的方法来弥合挑战短文本聚类的 “验证差距”。比较人工和机器方法，我们确定了每种方法固有的偏见，并质疑依赖人工编码作为 “黄金标准”。我们将该方法应用于 Twitter 个人资料描述信息，并发现人类自我描述的特点方式，与先前专家工作相吻合，但也有表达身份特点的有趣差异，这与表达身份的媒介特性有关。

May, 2024

人还是机器？自动化自然语言生成文本人类相似性评估

本文提出了一种基于大型预训练语言模型和概率分布的区分程序来自动评估自然语言生成方法产生的文本样本的人类相似度分数，与人类判断的自动评估进行了验证。

Jun, 2020

CoAnnotating: 基于不确定性指导的工作分配方法 —— 人员与大型语言模型协同数据标注

使用大规模语言模型和人工标注相结合的新范式 CoAnnotating，在未标注的文本上进行人工标注和语言模型标注，以达到更好的质量和成本效益。

Oct, 2023

训练，分类，解释：学习诊断翻译模型

本文介绍了一种基于神经文本分类器的方法，将自然语言处理中翻译模型的自动化评估与人类评估相结合，并揭示人机差异，其中包含翻译质量和人工智能的深入讨论。

Mar, 2019

使用 LLMs 探索定性研究

本研究对语言模型（LLMs）的理解能力进行了比较和对照，发现人类分析师和 LLMs 的分类和推理能力存在显著差异，但二者合作可能会产生协同效应，从而丰富了定性研究。

Jun, 2023

基于生成式人工智能的自动标注需要验证

通过验证人类生成的标签，我们提出了一种工作流程，以有效利用 LLM 的注释潜力，然后使用 GPT-4 复制 27 个注释任务，发现文本注释的 LLM 性能很有前途，但高度依赖数据集和注释任务类型，从而强调了必须逐任务验证的必要性。我们提供易于使用的软件，用于实现我们的工作流程，以便自动化注释的 LLM 部署。

May, 2023

从人类评判到预测模型：解析混合代码句子的可接受性

当前分析或生成混合代码句子的计算方法没有明确建模混合代码句子的 “自然性” 或 “可接受性”，但依赖于训练语料库来反映可接受的混合代码句子的分布。建模混合文本的可接受性可以帮助区分自然的混合文本，并实现质量控制的混合文本生成。为此，我们构建了 Cline 数据集，其中含有英语 - 印地语 (en-hi) 混合文本的人工可接受性判断。Cline 是其类别中最大的数据集，包含 16,642 个句子，其中包括两个来源的样本：合成混合文本和从在线社交媒体上收集的样本。我们的分析表明，用于过滤 / 筛选 / 比较混合文本语料库的流行混合代码指标（如 CMI、转换点数、突发度）与人工可接受性判断之间的相关性较低，凸显了我们数据集的必要性。使用 Cline 进行的实验证明，仅基于混合代码指标训练的简单多层感知机 (MLP) 模型被细调的预训练多语言大型语言模型 (MLLMs) 在具有挑战性的数据设置中表现更佳。具体而言，XLM-Roberta 和 Bernice 在不同配置中优于 IndicBERT。与 ChatGPT 的零和几个样本能力的比较表明，基于更大数据集进行细调的 MLLMs 优于 ChatGPT，在混合代码任务中提供了改进的空间。使用我们的模型检查点进行从英语 - 印地语到英语 - 特鲁古语的零样本转移可接受性判断，超过了随机基线，可以应用于其他混合语言对，并提供了进一步的研究方向。我们公开发布了我们的人工标注数据集、训练检查点、混合文本语料库和数据生成以及模型训练的代码。

May, 2024