FreCDo：用于法语跨领域方言识别的大型语料库

Dec, 2022

FreCDo：用于法语跨领域方言识别的大型语料库

FreCDo: A Large Corpus for French Cross-Domain Dialect Identification

Mihaela Gaman, Adrian-Gabriel Chifu, William Domingues, Radu Tudor Ionescu

TL;DR本文介绍一个收集于比利时、加拿大、法国和瑞士的公共新闻网站上的包含 413,522 个法语文本样本的新颖语料库。该文章通过对不同的新闻网站检索不同的关键词，消除了主题、写作风格和发布来源等潜在偏见，从而建立了一个法语跨领域方言识别任务；作者也通过四个竞争基线、基于微调的 CamemBERT 模型、基于微调 CamemBERT 特征的 XGBoost、基于微调 CamemBERT 特征的 SVM 分类器和基于单词 n-grams 的 SVM 进行了实验；最后，作者还分析了 CamemBERT 学到的最有区分度的特征。

Abstract

We present a novel corpus for french dialect identification comprising 413,522 French text samples collected from public news websites in Belgium, Canada, France and Switzerland. To ensure an accurate estimation

french dialect identification corpus camembert model svm classifier n-grams

发现论文，激发创造

克莱尔法语对话数据集

Claire French Dialogue Dataset (CFDD) is a multilingual, open source corpus of roughly 160 million words from transcripts and stage plays in French, created to further the development of language models, with descriptions of its composition, subcorpora breakdown, and standardization process.

Nov, 2023

从 FreEM 到 D'AlemBERT: 一份大语料库和语言模型用于早期现代法语

本文介绍了为早期现代法语（16 至 18 世纪）开发 NLP 工具的努力，包括创建针对该语言的 FreEM_max 语料库以及基于 RoBERTa 的语言模型 D'AlemBERT 的训练和测试，发现该模型具有传递学习的能力，在较少资源的时间段表现也得到提升，同时公开了 D'AlemBERT 和 FreEM_max 语料库的子部分。

Feb, 2022

FREDSum: 法国政治辩论的对话摘要语料库

最近深度学习的进展，特别是编码器 - 解码器架构的发明，极大地改进了抽象摘要系统的性能。大部分研究集中在书面文件上，然而忽视了多方对话摘要的问题。本文提供了一组法国政治辩论的数据集，以增强多语对话摘要资源。我们的数据集包括手工转录和注释的政治辩论，涵盖一系列主题和观点。我们强调高质量的转录和注释对于训练准确有效的对话摘要模型的重要性，并强调支持非英语语言的对话摘要所需的多语资源。我们还使用最先进的方法提供了基准实验，并鼓励在这一领域进行进一步研究。我们的数据集将向研究社区公开提供。

Dec, 2023

CJaFr-v3: 一个免费可获取的经过过滤的日法对齐语料库

本文介绍了一个包含 1500 万对日文 - 法文句子的平行语料库，展示了资源的数量和质量，以及他们进行过的过滤方式和评估结果。通过该语料库训练和评估了一些标准的 MT 系统，证明了其实用性和过滤质量的有效性。

Aug, 2022

CamemBERT: 一种美味的法语语言模型

本研究通过利用网络爬虫数据构建法语单语语料库，研究了训练法语单语 Transformer-based 语言模型的可行性，并在词性标注、句法分析、命名实体识别和自然语言推理等任务上取得了准确的结果。

Nov, 2019

法国方言的数据收集与分析

本文探讨了创建和分析用于数据挖掘和文本分析研究的新数据集，为利兹大学国家方言语料库的联合研究项目做出了贡献。研究使用机器学习分类器对各个法语国家的法语方言文本样本进行分类，并遵循 CRISP-DM 方法论的步骤对数据进行了采集、质量问题和文本分析数据转换的探索。最后，在应用适当的数据挖掘技术后，讨论了评估方法、最佳特征和分类器以及结论。

Aug, 2022

FQuAD: 法语问答数据集

本文介绍了一种名为 FQuAD 的法语本地阅读理解数据集，并成功训练出基线模型，通过 F1 得分和准确匹配比率很好地回答了问题。同时，研究人员为追踪法语问答模型的进展提出了排行榜。

Feb, 2020

基于 WEKA 的：五个国家法语的主要特征和分类器

本研究描述了一个法语方言识别系统，可以适当地区分不同的地区法语方言。通过使用 Sketch Engine 构建包含摩纳哥、法语使用的比利时、法语使用的瑞士、法语使用的加拿大和法国等五个地区的语料库。语料库内容涵盖与生活密切相关的吃、喝、睡觉和生活四个主题。然后通过 python 编码的预处理器和 Waikato Environment for Knowledge Analysis (WEKA) 数据分析工具（其中包含许多用于机器学习的过滤器和分类器）进行了实验结果。

Nov, 2022

FRASIMED：基于跨语言 BERT 注释投影的临床法语标注资源

通过跨语言注释投射的方法，利用一种语言不可知的基于 BERT 的方法，本研究论文介绍了一种生成翻译版本注释数据集的方法，有效增加低资源语料库的数据量，无需人力投入，只利用已有的开放数据资源。通过对跨语言注释投射方法的评估，证明了该方法的有效性和高准确性。作为该方法的实际应用，本文介绍了一个包含 2051 个合成法语临床案例的法语医疗实体检测注释语料库（FRASIMED），该语料库可供研究人员和从业者在临床领域开发和改进法语自然语言处理应用。

Sep, 2023

FFSTC：方贝到法语口语翻译语料库

介绍了首次推出的 Fongbe 到法语语音翻译语料库 (FFSTC)，该语料库包含约 31 小时的 Fongbe 语言内容，包括法语转录和相应的 Fongbe 语音录音，并通过使用 Fairseq 的 transformer_s 和 conformer 模型进行基线实验来评估数据质量和有效性，结果表明 transformer_s 模型得分 8.96，conformer 模型得分 8.14，为 FFSTC 语料库建立了基准。

Mar, 2024