- EMNLP印度法院裁决的命名实体识别
本文介绍了一个包含 14 种法律实体类型的 46545 个已注释的法律命名实体语料库,同时构建了一个提取法律命名实体的基准模型。
- SMAuC -- 科学多作者语料库
本研究介绍了 SMAuC,这是一个新的元数据丰富的语料库,旨在用于科学写作的作者分析。SMAuC 拥有三百万多个出版物,是迄今最大的开放作者分析语料库,其同时也包含了人文科学和自然科学等多种科学文体,以及独特且已厘清的作者 ID 元数据。我 - EMNLPStanceosaurus:多语言虚假信息立场分类
Stanceosaurus 为一个包含 28,033 个英语、印地语和阿拉伯语推文的新语料库,对 251 个虚假言论的立场进行了注释,并引入了更为精细的五类标签策略以区分隐含立场,预训练的基于变压器的立场分类器在未见训练数据的其他地区的言论 - EMNLPSciFact-Open: 面向开放领域的科学主张验证
本文介绍了一种新型测试集 SciFact-Open,通过信息检索中的池化技术和四种先进的科学主张验证模型的预测,评估了科学主张验证系统在 50 万个研究摘要的语料库上的表现,发现在 SciFact-Open 上进行测试要比在更小的语料库上进 - EMNLPM2D2:一种大规模多领域语言建模数据集
M2D2 是一个细粒度的、大规模的多域语料库,用于研究语言模型中的域适应。该语料库包含来自维基百科和语义学者的 145 个域,共计 8.5B 个标记。使用来自维基百科和 ArXiv 分类的本体结构,我们将每个数据源中的域组织到 22 个组中 - ACLRedHOT: 社交媒体上注释的医疗问题、经验和声明的语料库
此研究介绍了 Reddit Health Online Talk (RedHOT),这是一个包含来自 Reddit 的 22,000 条丰富注释的社交媒体帖子,涵盖 24 种健康状况的语料库。研究人员标注了医疗声明、个人经验和问题的范围,以 - 聚合众包和自动判断来扩充小说和维基百科文本的先行参照语料库
通过玩游戏来标注语料库是一种有效的方法,本文提出了一种用于指代和共识关系的语料库,相对于先前发布的语料库,它具有更广泛的领域、更多的标记、更长的文档和更高的标注速度。
- 连续向量空间中的数学表达式的语义表示
本文介绍了一种在连续向量空间中表示数学表达式的方法,使用序列到序列架构的编码器生成向量表示,并比较了这种方法与自编码器的差异。最后,为了加快未来的项目,我们发布了一组等价的超越和代数表达式对的语料库。
- Longtonotes: 更长的 OntoNotes 指代链
本研究建立了一个新的语料库 LongtoNotes,其中包含了英语文本中多种类型,长度不同的文档,并在其中评估了最新的神经共指系统,分析了模型结构 / 超参数与文档长度对性能和效率的影响,还提出了长文档共指建模中的改进问题。
- COLING通过获取并行拟人化数据对无生命实体进行人格化:PINEAPPLE
本文提出了 PINEAPPLE 模型,通过 seq2seq 模型和语料库 PersonifCrop 生成拟人化文本,实现了人物属性生成, 同时测试表明,模型 fine-tuning 能够带来显著的拟人化质量提升。
- 母亲总是有办法解释让我明白:一个用于学习构建解释的对话语料库
本文介绍了一个对话式解释语料库,用于 NLP 研究人类解释过程,并探讨基于 BERT 的基线结果。
- naab: 一份即插即用的波斯语语料库
提供一份 130GB 的 Farsi 語言文本語料庫 naab,它包括 25 億段落和 15 兆個單詞,以及一個用於生成自定義語料庫的預處理器。
- 叶片临床试验语料库:用于从临床试验入选条件生成查询的新资源
本研究介绍了 Leaf Clinical Trials(LCT)语料库,它是一个超过 1,000 个临床试验符合性标准描述的人工注释语料库,使用高度细分的结构化标签捕捉一系列生物医学现象。此外,我们还提出了基准信息提取结果,以供未来工作参考 - 一份法语多方对话资源
本文介绍了一种名为 Dialogues in Games (DinG) 的法语口语游戏对话语料库,由多名玩家手动转录而成,旨在为法语提供一个长对话的高质量资源,以便于学习。在 DinG 中,参与者关注的焦点在游戏上,防止他们谈论自己。同时, - RuCoCo:一个新的俄语语料库,带有指代标注
我们提出了一个带有指代消解注释的新语料库,俄语指代消解语料库 (RuCoCo)。RuCoCo 旨在在保持高注释者一致性的同时获取大量标注的文本。我们的语料库包含了俄语的新闻文本,其中部分是从头开始注释的,而其余部分则是由机器生成的注释被人工 - 借用还是语码切换?在语言混合中注释更精细的差异
本文介绍了一个新的 Twitter 数据语料库,其中包含被注释为西班牙语和英语之间的代码切换或借用的 9,500 个推文,旨在清晰定义代码切换和借入之间的界限,并可用于研究和建模 Twitter 上的西班牙语 - 英语借用和代码切换,最终给 - 使用网络抓取的数据微调 Kalaallisut - 英语机器翻译系统
本文介绍了如何利用多语言网站数据,构建 Kalaallisut 语言和英语之间的机器翻译模型并生成合成语料库,同时也讨论了如何利用单语 Kalaallisut 数据以及未来的研究方向和可能性。
- ArgRewrite V.2: 一个带标注的论证性修订语料库
ArgRewrite V.2 是一个修订语料库,包含用于自动修订目标预测和标杆的注释的论证性修订,这些修订是在关于自动驾驶汽车的论证性文章的两个循环修订中收集的。
- ACL建立一个包含表达和经验情感标注的对话语料库
本文介绍了一种使用两种不同情绪注释的对话语料库构建方法,并讨论了该方法在日语对话语料库上的效果。研究结果表明,辨别说话者和听话者情绪有困难,使用多任务学习可以提高情绪辨识能力。
- 自动文档修订:语法错误纠正、流畅性编辑及更多
本文介绍了一个基于 TETRA 语料库的文档级修订助手。我们探索了无需参考评估和可解释的方法来评估文档修订的质量。实验结果表明,即使修订的差异微小,经过微调的预训练语言模型也能够区分文档修订后的质量,这为未来探索自动文档修订模型和评估指标奠