- MONOVAB:一个用于孟加拉多标签情感检测的注释语料库
近年来,情感分析和情绪识别在孟加拉语中变得越来越流行,该语言是全球使用第七多的语言。然而,由于语言的结构复杂,这一领域难以准确地提取情绪。本研究通过构建一个基于 Facebook 抓取的注释语料库的全面方法来解决这一主题领域的挑战和难题,为 - 面向物联网的最终用户开发:厨房设备编程的语义解析烹饪配方案例研究
本研究提供了一个独特的注释语料库,旨在支持将烹饪食谱指令转换为厨房物联网设备可理解的机器命令。我们基于该语料库开发了基于机器学习的序列标注方法,如条件随机场和神经网络模型,在从指令中解析并提取我们感兴趣的元组方面取得了可行的结果。然而,我们 - FRACAS: 一份用于新闻中归属关系的法语标注语料库
本文介绍了一个手动注释的法语新闻语料库,用于引述提取和来源归属。语料库详细描述了数据选择和注释指南,统计了引述类型的平衡情况,并展示了参与手动标注的 8 名注释员之间的高的注释者一致性。
- ACL-Fig: 用于科学图像分类的数据集
该研究提出了利用深度学习框架分类科学图表的流程,通过构建一个包含注释的大规模科学图表库,开创了科学图表自动注释的先河。
- 环环相扣:一个视频多模态隐喻检测的语料库和方法
本研究提供了第一个公开可用的多模式隐喻标注语料库,并尝试了多种模态和多模式方法,发现基于文本内容的模型能够最有效地检测隐喻,并且在误差分析中发现视觉线索对隐喻歧义消歧有帮助,但太微妙难以捕捉,并将数据上传到 Zenodo 平台。
- EMNLP法律语言中代理人特定义务模态检测
LEXDEMOD 是一份包含英语合同注释的语料库,其标注了关于合同方或代理人的义务性情态语气以及情态触发器,用于支持法律领域中自然语言理解。使用基于 Transformer 的语言模型,我们在 LEXDEMOD 上进行了两个任务的基准测试, - EMNLParXivEdits: 理解科学写作中的人类修订过程
本文提供了一个完整的计算框架,对科学写作中的文本修订进行了研究,通过构建一个新的带有金标准句子对齐的带注释语料库来揭示了科研人员修订论文的常见策略,并利用自动方法在文档、句子和单词级别上提取修订内容。
- TArC: 突尼斯阿拉伯语语料库的首个完整版本发布
本研究在于使用阿拉伯语拉丁写法(Arabizi)对突尼斯阿拉伯语进行编码,在此基础上创建了一个包含语料库和 NLP 工具的资源,用于提供各级语言信息的词语分类、音译、标记、词形归总等,并讨论了使用计算和语言方法进行研究路径和实验的策略等问题 - 俄文文本自动摘要:抽取式和抽象式方法的比较
本文研究使用翻译的微文本、劝说性文章和 UKP 句子语料库的版本来微调 RuBERT 模型,然后使用此模型对经济新闻语料库进行注释,进而微调 ruGPT-3 模型,生成论证文本,并证明这种方法可以使论证生成的准确性提高超过 20 个百分点( - 我们是谁?明确议会辩论中第一人称复数代词的指代
本研究探讨了第一人称复数代词在政治演讲中作为修辞手法的使用。我们使用注释模式对代词指代进行消歧,并使用我们的模式来创建一个来自德国联邦议院辩论的带注释语料库。然后使用我们的语料库来学习自动解决议会辩论中的代词指称。我们探索使用弱监督的数据增 - 修订和重新提交:基于文本的同行评审合作的互文模型
提出了第一个基于文本协作的互文模型,涵盖了同行评审的三个重要现象:实用标记、链接和长文档版本对齐,在期刊风格的发表后开放的同行评审中,我们实例化了我们提出的模型并提供了详细的洞察力。
- 构建临床自然语言处理任务的分层注释:进展笔记理解
该研究介绍了一个分层注释架构,通过三个阶段来解决临床文本理解、临床推理和摘要等问题,从而创造出一个基于公开可用的日常记录数据集的注释语料库,以训练和评估未来的 NLP 模型。
- 关于种族灭绝相关的法庭记录中基于主题的段落分类的新数据集
本文介绍了第一份带有注释的种族屠杀相关法庭记录的语料库 GTC,并运用最新的基于 transformer 的方法建立了段落标识及暴力相关证词提取的基准性能用于分类任务,探索了领域内的迁移学习。
- 面向中文临床文本的医疗信息标注和提取统一框架
该研究提供了一个医学信息提取的工程框架,其中包括医疗实体识别、关系提取和属性提取。通过深度学习技术和注释语料库,该系统可以高准确率地提取医学实体、关系和属性。
- ACL社交媒体上图像和文字表达情感的互补性
本文提供具有新颖性的英文 Reddit 帖子语料库,研究多模式社交媒体上图文情感信息的互补性,发现对于某些情感信息如愤怒和悲伤,多模式模型可以更好地预测;而对于某些信息如恶心、喜悦和惊讶,仅以文本信息便足够预测。
- 文本匿名化基准测试(TAB):用于文本匿名化的专用语料库和评估框架
本文提出了 TAB(Text Anonymization Benchmark),这是一个新的、开源的语料库,其中包含以前未见过的注释信息,以评估文本匿名化方法的性能,以保护个人信息的隐私,并根据专门设计的评估度量来评估一些基线文本匿名化模型 - YACLC: 一个中文学习者语料库,具有多维注释
提出构建多维度标注的大规模中文学习者语料库 - YACLC,以提高中国国际教育和中文自动语法纠错研究的效果。
- ACLMIMICause: 从临床注释中自动提取因果关系类型的表示方法
本文提供了一个注释指南并开发出一个带有基线分数的注释语料库来识别生物医学概念之间在医疗笔记中的暗示或明确的因果关系。在医疗文本中高度的评分一致性显示了我们注释指南的质量,而提供的基线 F1 分数则为未来研究向理解医疗文本中的叙述走向奠定了方 - KDD波兰国境警卫队犯罪文字检测
研究波兰犯罪文本在互联网上的检测,使用预训练的波兰语变形器语言模型进行微调得到最佳性能;使用大型标注的互联网片段语料库作为训练数据,并在 Gonito 平台上创建了一个新的犯罪文本检测任务。
- 多模態仇恨自動偵測演算法評估
该研究探讨了使用语义和多模态上下文来检测隐含和明确的仇恨言论,并且发现使用这种方法可以提高模型性能。同时还针对一批 5000 个多模态内容样本进行了高质量的注释,并将其释放为公开可用的语料库和代码。