FRACAS: 一份用于新闻中归属关系的法语标注语料库

Sep, 2023

FRACAS: 一份用于新闻中归属关系的法语标注语料库

FRACAS: A FRench Annotated Corpus of Attribution relations in newS

Ange Richard, Laura Alonzo-Canul, François Portet

TL;DR本文介绍了一个手动注释的法语新闻语料库，用于引述提取和来源归属。语料库详细描述了数据选择和注释指南，统计了引述类型的平衡情况，并展示了参与手动标注的 8 名注释员之间的高的注释者一致性。

Abstract

quotation extraction is a widely useful task both from a sociological and from a Natural Language Processing perspective. However, very little data is available to study this task in languages other than English. In this paper, we present a manually →

quotation extraction source attribution annotated corpus french language inter-annotator agreement

发现论文，激发创造

德国新闻文章中的引用归属数据集

为分析包括在线新闻文章在内的丰富数据中的人类交流，有效提取说话者、言论内容、受众等是至关重要的。然而，缺乏在德语新闻文章中用于此任务的标注数据严重限制了可能系统的质量和可用性。为解决这一问题，我们提供了一个基于 WIKINEWS 的新的、可自由获取的、创作公共许可证的数据集，用于德语新闻文章中的引用归属。该数据集采用细粒度的注释架构，提供了经过策划的高质量注释，跨越 1000 个文档（250,000 个标记），使得数据集可以应用于多种下游任务。注释不仅指明了谁说了什么，还说明了如何、在什么上下文中以及面向谁的引用的类型。我们具体描述了注释架构，描述了数据集的创建过程，并提供了定量分析。此外，我们描述了适用的评估指标，应用了两个现有的引用归属系统，对它们的结果进行讨论来评估我们数据集的实用性，并概述了在下游任务中使用我们数据集的用例。

Apr, 2024

FRASIMED：基于跨语言 BERT 注释投影的临床法语标注资源

通过跨语言注释投射的方法，利用一种语言不可知的基于 BERT 的方法，本研究论文介绍了一种生成翻译版本注释数据集的方法，有效增加低资源语料库的数据量，无需人力投入，只利用已有的开放数据资源。通过对跨语言注释投射方法的评估，证明了该方法的有效性和高准确性。作为该方法的实际应用，本文介绍了一个包含 2051 个合成法语临床案例的法语医疗实体检测注释语料库（FRASIMED），该语料库可供研究人员和从业者在临床领域开发和改进法语自然语言处理应用。

Sep, 2023

一份包含人类和机器洞见的法国虚假新闻多标签数据集

我们提供了一个被 8 名注解者使用 11 个标签注释的 100 份文件的语料库，该文件语料库从 17 个被专家机构认为不可靠的法国新闻来源中选取。通过收集比通常更多的标签和注解者，我们可以确定人类认为是伪新闻特征，并将其与自动分类器的预测进行比较。我们使用 Gate Cloud 进行主题和体裁分析，显示语料库中类似讽刺的文本的普遍性。然后，我们使用主观性分析器 VAGO 以及其神经版本，以澄清主观标签和伪新闻标签之间的关联。可在以下 URL 在线获取注释数据集：this https URL

Mar, 2024

法语书面叙述中直接引语的自动标注

本研究旨在为法语语言创建统一的框架，以设计和评估直接言语的自动标注模型，探索了基于规则或深度神经网络的方法，并设计了全面评估以便针对泛化提供更好的方案。

Jun, 2023

Quote Erat Demonstrandum: 一个用于浏览 Quotebank 语料库的 Web 界面

该论文介绍了一个自适应的 Web 界面，用于搜索新闻中的名言佳句，它们提供了一种最直接，最不被过滤的信息传播路径，是记者和研究人员的宝贵资源。

Jul, 2022

研究在 FRANK QA 系统中使用释义生成进行问题改写的应用

通过评估释义生成方法实现提高 FRANK 问答系统可回答的自然语言问题的多样性，该研究分析了 LC-QuAD 2.0 数据集上的自动度量和人工判断，并讨论了它们之间的相关性，同时对包含错误的数据点进行了错误分析。通过将最佳执行的释义生成方法（一种英 - 法反向翻译）模拟到 FRANK 中进行测试，作者得出两个主要结论：需要清理 LC-QuAD 2.0 数据以消除评估中的错误，而且由于 FRANK 的解析器存在限制，释义生成不是我们可以依赖的一种提高 FRANK 回答自然语言问题多样性的方法。

Jun, 2022

提升文学小说中自动引用标注的准确性

当前文献关注文学小说中引文归属问题，以引文归属为中心，研究四个相互关联的子任务：人物识别、指代消解、引文辨别和说话人归属。在大量注释了核心指代和引文的文学小说数据集（项目言对小说语料库）上评估了最先进的模型，并针对说话人归属任务进行训练和评估，表明一个简单的连续预测模型具有与最先进模型相当的准确性分数。

Jul, 2023

FreCDo：用于法语跨领域方言识别的大型语料库

本文介绍一个收集于比利时、加拿大、法国和瑞士的公共新闻网站上的包含 413,522 个法语文本样本的新颖语料库。该文章通过对不同的新闻网站检索不同的关键词，消除了主题、写作风格和发布来源等潜在偏见，从而建立了一个法语跨领域方言识别任务；作者也通过四个竞争基线、基于微调的 CamemBERT 模型、基于微调 CamemBERT 特征的 XGBoost、基于微调 CamemBERT 特征的 SVM 分类器和基于单词 n-grams 的 SVM 进行了实验；最后，作者还分析了 CamemBERT 学到的最有区分度的特征。

Dec, 2022

FQuAD: 法语问答数据集

本文介绍了一种名为 FQuAD 的法语本地阅读理解数据集，并成功训练出基线模型，通过 F1 得分和准确匹配比率很好地回答了问题。同时，研究人员为追踪法语问答模型的进展提出了排行榜。

Feb, 2020

克罗地亚新闻文章中引用、指代消解和情感标注：一项探索性研究

本文提供了一个克罗地亚语语料库，在 SETimes 新闻语料库中进行引语，指代关系解决和情感注释的注释，并分析了与英语的语言特定差异。生成的带引文特征注释的语料库可用于自然语言处理领域的多个任务。

Dec, 2022