SQUINKY! 句子级正式性、信息量和含意的语料库
本文提供了一个包含 445 篇人工和计算机生成的文档的语料库,其中包含约 27,000 个从句,注释了语义从句类型和相关关系,以便对人工和自然语篇模式进行微妙的比较。它涵盖了正式和非正式的话语,包括使用 Fine-tuned GPT-2 和 GPT-3 (分别为 Zellers 等人 2019 年和 Brown 等人 2020 年发表的技术) 生成的文档。通过提供初步的证据,我们展示了该语料库对于对生成文本进行详细的话语分析的有用性:较少数量、更短和更不连贯的从句关系与计算机生成的叙述和论述的较低感知质量相关联。
Nov, 2021
该研究介绍了一个用于句子级别主体性检测的新语料库,其中包括英语政治事务的主观句子和客观句子,同时开发了新的标注指南和使用最新的多语言转换模型,使得该语料库能够用于英语和其他语言的主体性检测,并在其他语言丰富资源的情况下,提高了该任务的结果。
May, 2023
通过引入 Stanford 自然语言推理语料库,我们成功解决了机器学习研究在自然语言推理方面的巨大缺乏,该语料库是由人类按照基于图像字幕的新颖本体任务撰写的标记句子对,包含 570k 个句子对,是同类资源的两个量级以上,在规模方面取得了重大进展,这使得词汇分类器优于一些复杂的现有蕴含模型,并且让一种基于神经网络的模型在自然语言推理基准测试中首次表现亮眼。
Aug, 2015
介绍了一个用于机器学习模型开发和评估的数据集,以句子理解为主题并提到该数据集是目前最大的语料库之一,具有覆盖十种不同英语写作和口语体裁的数据,可评估跨体裁领域适应系统。
Apr, 2017
为了比较人类语言处理模型,许多研究使用富自然语言材料的语料库来预测参与者反应,但这些研究所使用的许多语料库是基于自然文本的,因此缺少许多频率低的句法结构,而这些句法结构是区分处理理论所必需的。本文提出一种新的语料库,包含许多低频句法结构且易于被母语人士理解,该语料库已标注手动修正的语法树,并包括了自定速度阅读时间的数据。
Aug, 2017
该研究提供了一个从网络资源中编制而来的德语语料库,可用于自动易读性评估和自动文本简化,并包含文字结构、排版和图片信息,可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。
Sep, 2019
旨在全面涵盖多样性的标注任务中,仅依赖于大多数类别标签的模型可能会无意中忽视宝贵的少数派观点,因此需要探索各种标注者建模技术的有效性,并比较它们在七个语料库中的性能。通过研究发现,常用的用户标记模型始终胜过更复杂的模型,并引入了一种复合嵌入方法,展示了模型性能与给定数据集的一致性之间的明显差异。这些发现揭示了语料统计和标注者建模性能之间的关系,为语料构建和多视角自然语言处理的未来工作提供了启示。
Apr, 2024
基于机器学习的自动事实核查是识别网络上的虚假信息的一种有希望的方法,针对现有的事实核查语料库规模小、注释不详细、局限于单一领域等问题,本研究提出了一个大规模、多领域的可信事实核查语料库,并进行了模型构建和分析。
Oct, 2019