- ESG-FTSE: 一份具有 ESG 相关标签和用例的新闻文章语料库
我们创建了 ESG-FTSE 语料库,其中包含了带有 ESG 相关标注的新闻文章。我们开创了 ESG 标注方案,并进行了相关实验,证明该语料库可以用于准确的 ESG 预测。
- PropSegmEnt: 一个用于命题级别分割和蕴含识别的大规模语料库
本论文提出了 PropSegmEnt,这是一个超过 35K 的已由人类专家标注的命题语料库,用于 NLI 任务中的命题分割和关系分类,证明了这个框架有助于理解和解释 NLI 标签的组合性。
- 克罗地亚新闻文章中引用、指代消解和情感标注:一项探索性研究
本文提供了一个克罗地亚语语料库,在 SETimes 新闻语料库中进行引语,指代关系解决和情感注释的注释,并分析了与英语的语言特定差异。生成的带引文特征注释的语料库可用于自然语言处理领域的多个任务。
- CGELBank:作为英语句法注释框架的 CGEL
通过 CGELBank 项目,我们将英语语法的剑桥文法形式化引入树库中,探讨了在语料库标注中出现的一些语言分析问题,并与 UD 和 PTB 树库进行了定量和定性比较,我们认为 CGEL 提供了分析的全面性和注释的可用性之间的一个很好的权衡, - EMNLP通过修辞角色进行法律文件的语义分割
本文提出了一种新的法律文件语料库,标注了 13 个语义连贯性单元标签(称为修辞角色),并使用该语料库进行了深度学习模型,其中包括多任务学习的实验,以自动处理法律文件并将其分成相关信息单元。
- 关于日语单词的定义
本研究讨论了当前 Universal Dependencies 在日语依存句法分析中使用 Short Unit Words 作为基础单元的问题,提出其并非传统意义上的句法单词,探讨采用其作为标注准则的成本和收益。
- ACLBCSAT:基于单词级别标注的泰卢固语情感分析基准语料库
本文旨在使用词级情感注释生成 Telugu 语的系统注释语料库,旨在验证和研究利用机器学习算法,词级情感注释在自动情感识别任务中的可能性以及通过注释目标语料库中提取的二元组提高准确性,此外,我们通过语言专家对 11,000 个形容词、253 - 湿实验方案的机器阅读注释语料库
通过对 622 份湿实验室协议的语料库进行注释,以促进协议转换为机器可读格式,并受益于生物研究。实验结果表明,该语料库对于开发浅层语义分析的机器学习方法具有实用性。我们向研究界提供我们的注释湿实验室协议语料库。
- 网络安全实体抽取的自动标注
本文介绍了一种利用结构化数据来自动标注文本的精确方法,并提供一个标注了网络安全实体的语料库。我们使用平均感知器上的最大熵模型对我们的语料库进行训练,训练时间不到 17 秒,并实现了接近完美的精确度、召回率和准确性。
- ACL用于解析器评估的语料库标注
通过语料库标注方案与英文文本标注,我们描述了一种避免当前方法的缺点的解析器评估方法,并展示了该语料库如何用于评估健壮的解析器,以及与现有资源的关系。
- 基于语料库的定冠词使用调查
一项研究报告,通过对 33 篇包含 1412 个定冠词的报纸文章的分类实验,评估语料库中关于定冠词解释的注释信息的可行性,并提出问题,包括标准化的注释比较方法的局限性以及许多新话题的存在。