特定受众的操作指南：语料库与初步发现

ACLSep, 2023

特定受众的操作指南：语料库与初步发现

How-to Guides for Specific Audiences: A Corpus and Initial Findings

Nicola Fanton, Agnieszka Falenska, Michael Roth

TL;DR研究了 wikiHow 平台上针对特定受众的指导书如何在实践中有所不同，结果显示指导书存在细微的偏见，旨在引起对这些不平等现象的关注，并为未来工作解决问题迈出第一步。

Abstract

instructional texts for specific target groups should ideally take into account the prior knowledge and needs of the readers in order to g

instructional texts target groups prior knowledge how-to guides subtle biases

发现论文，激发创造

教学文本修订中的模糊性的计算分析

通过对 WikiHow 教学文章的修订版本进行分析，本文研究了指导指令中的模糊性，并采用神经模型的配对排名任务，展示了对指令版本的改进。

Sep, 2023

文本的文体变化：选择、体裁和个人

本章提出了更明智的文本风格变异统计目标，主要分别从文本学和应用角度阐述了在受众阅读经验的基础上制定的目标所必须具备的关键概念：相关性、有效性和实用性，并探讨了文本风格的变异因素是个体选择而非纯文本特征本身，而读者对特定文本的评价通常基于文体类型的分类。

May, 2022

我们如何用语言来进行事物：将文本作为社会和文化数据进行分析

本文描述了我们在计算机文本分析方面的经验，并提出了一些最佳实践来处理厚重的社会文化概念，以促进跨学科合作。

Jul, 2019

全球为何阅读维基百科：超越英语使用者

本文通过在 14 种不同语言版本的维基百科上进行大规模的调查和用户行为跟踪分析，比较研究读者对维基百科的使用情况和行为习惯，发现不同语言版本的维基百科普遍存在一些共同但也有实质性的差异，其中某些使用情况与特定的行为模式密切相关，并且特定的维基百科使用情况更常见于一些具有特定社会经济特征的国家。这些发现对于维基百科的编辑和其他 Web 技术的开发具有重要意义，有助于更好地了解读者的动机和行为。

Dec, 2018

WikiHow：一个大规模的文本摘要数据集

本研究介绍了一种基于在线知识库的数据集 WikiHow，包含超过 230,000 个文章和摘要对，用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。

Oct, 2018

通过自然语言众包指导实现跨任务的推广

通过理解人类可读的指令来学习新任务的挑战一直是人工智能领域的难题，本文基于自然指令数据集通过使用生成式预训练语言模型对任务特定指令进行编码和输出生成，研究横向任务泛化并发现模型在使用指令时对于未见过的任务泛化更好，但与认为上限还存在显著改进空间。

Apr, 2021

规范和相互期望 - 理解 Web 文体的来源

通过观察读者和作者的行为，而非对信息对象本身进行分析，研究流派变化和演变的知识源，此方法可以将流派视为社会学构建，也可以将流派视为可观察的文本客观特征。

May, 2022

使用文本分析和社交媒体环境进行新闻媒体画像：关注写作内容和读者特征

通过对媒体的语言和社会背景进行分析，我们通过整体媒体特征对新闻机构进行刻画从而自动检测出可能的 “假新闻”，并且将多种信息来源进行整合可以得到更好的结果。

May, 2020

提出正确问题：从个人叙述中推断征求建议的意图

该研究介绍了一个新的任务，使用 NLP 系统自动推断个人叙述中寻求建议的目的，构建了一个包含 20,000 多个人体验的数据集，并利用人类注释确定该任务需要应用人类的常识和社交智慧。

Apr, 2019

不要责怪标注者：偏见已经开始于标注指导

本研究探讨了近年来 NLU 领域中提高模型性能所依赖的标准化测试数据集的 inherent 问题： crowdsourcing 具有的 instruction bias（人工标注者所遵循的指示信息），该倾向导致被标注的数据集存在过多类似的样本，从而高度统计偏向性，使得模型无法在实际应用场景中良好泛化，进而提出一系列解决方案。

May, 2022