SQUINKY! 句子级正式性、信息量和含意的语料库

Jun, 2015

SQUINKY! 句子级正式性、信息量和含意的语料库

SQUINKY! A Corpus of Sentence-level Formality, Informativeness, and Implicature

Shibamouli Lahiri

TL;DR本文介绍了一个由人工注释者对 7,032 个句子进行形式、信息性和暗示性评分的语料库，讨论了百度 Bert 的在多粒度下的历史记录。该语料库是使用 Amazon Mechanical Turk 进行注释的，是迄今为止发布的最大的形式、信息性和暗示性注释语料库。

Abstract

We introduce a corpus of 7,032 sentences rated by human annotators for formality, →

corpus human annotators formality informativeness implicature

发现论文，激发创造

人类和计算机话语结构的新型语料库

本文提供了一个包含 445 篇人工和计算机生成的文档的语料库，其中包含约 27,000 个从句，注释了语义从句类型和相关关系，以便对人工和自然语篇模式进行微妙的比较。它涵盖了正式和非正式的话语，包括使用 Fine-tuned GPT-2 和 GPT-3 (分别为 Zellers 等人 2019 年和 Brown 等人 2020 年发表的技术) 生成的文档。通过提供初步的证据，我们展示了该语料库对于对生成文本进行详细的话语分析的有用性：较少数量、更短和更不连贯的从句关系与计算机生成的叙述和论述的较低感知质量相关联。

Nov, 2021

英文新闻文章句子级主观性检测语料库

该研究介绍了一个用于句子级别主体性检测的新语料库，其中包括英语政治事务的主观句子和客观句子，同时开发了新的标注指南和使用最新的多语言转换模型，使得该语料库能够用于英语和其他语言的主体性检测，并在其他语言丰富资源的情况下，提高了该任务的结果。

May, 2023

用于学习自然语言推理的大规模注释语料库

通过引入 Stanford 自然语言推理语料库，我们成功解决了机器学习研究在自然语言推理方面的巨大缺乏，该语料库是由人类按照基于图像字幕的新颖本体任务撰写的标记句子对，包含 570k 个句子对，是同类资源的两个量级以上，在规模方面取得了重大进展，这使得词汇分类器优于一些复杂的现有蕴含模型，并且让一种基于神经网络的模型在自然语言推理基准测试中首次表现亮眼。

Aug, 2015

面向语句理解的广覆盖挑战语料库

介绍了一个用于机器学习模型开发和评估的数据集，以句子理解为主题并提到该数据集是目前最大的语料库之一，具有覆盖十种不同英语写作和口语体裁的数据，可评估跨体裁领域适应系统。

Apr, 2017

自然故事语料库

为了比较人类语言处理模型，许多研究使用富自然语言材料的语料库来预测参与者反应，但这些研究所使用的许多语料库是基于自然文本的，因此缺少许多频率低的句法结构，而这些句法结构是区分处理理论所必需的。本文提出一种新的语料库，包含许多低频句法结构且易于被母语人士理解，该语料库已标注手动修正的语法树，并包括了自定速度阅读时间的数据。

Aug, 2017

德语自动易读性评估和文本简化语料库

该研究提供了一个从网络资源中编制而来的德语语料库，可用于自动易读性评估和自动文本简化，并包含文字结构、排版和图片信息，可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。

Sep, 2019

语料库考虑注释模型的建立与扩展

旨在全面涵盖多样性的标注任务中，仅依赖于大多数类别标签的模型可能会无意中忽视宝贵的少数派观点，因此需要探索各种标注者建模技术的有效性，并比较它们在七个语料库中的性能。通过研究发现，常用的用户标记模型始终胜过更复杂的模型，并引入了一种复合嵌入方法，展示了模型性能与给定数据集的一致性之间的明显差异。这些发现揭示了语料统计和标注者建模性能之间的关系，为语料构建和多视角自然语言处理的未来工作提供了启示。

Apr, 2024

自然语言推理数据中的注释问题

该研究通过大规模数据集研究了自然语言推理，并揭示了某些语言现象与推理类别高度相关的结论，进一步表明自然语言推理模型的成功被高估了，这个任务仍是一个难题。

Mar, 2018

自动事实检查中不同任务的丰富注释语料库

基于机器学习的自动事实核查是识别网络上的虚假信息的一种有希望的方法，针对现有的事实核查语料库规模小、注释不详细、局限于单一领域等问题，本研究提出了一个大规模、多领域的可信事实核查语料库，并进行了模型构建和分析。

Oct, 2019

众包标注的西班牙语幽默分析语料库

该论文提出了一个由 27,000 个写在西班牙语 Tweet 中的幽默值和滑稽得分的人工标注语料库，可用于幽默检测和解决主观性问题。

Oct, 2017