CJaFr-v3: 一个免费可获取的经过过滤的日法对齐语料库
本文介绍了一个新的基于网络的英日平行语料库 JParaCrawl v3.0,其包括超过 2100 万个独特的平行句对,证明它可以提高各种领域机器翻译模型的准确性,并将在将来公开发布。
Feb, 2022
本文介绍了构建并通过相关实验验证了英日平行语料库 JParaCrawl 的优越性以及使用其进行预训练和微调的方法,该方法在特定领域上可达到实例训练模型的水平并缩短训练时间。
Nov, 2019
使用众包的方法,我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对(平行顶级页面对),并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后,我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix(12.4M)上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小,但我们发现这两个模型的准确度相当,证实了使用众包进行平行数据的网络挖掘是可行的。
May, 2024
本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法,并利用 BERT 的多语言能力度量语句的平行性,使用生成预训练(GPT)语言模型作为领域过滤器来平衡数据领域,通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验,证明该方法明显优于基准线,并取得了新的最新成果。
May, 2020
本研究展示了一个新的、独特的、可自由获取的平行语料库,包含欧盟(EU)主要法律文件。该语料库包含了所有 20 种正式语言以及欧盟候选国的语言。该研究还表明,该语料库可用于训练和测试多标签分类算法和关键词分配软件。此外,该平行语料库中的大量文本也适合跨语言研究,并可以用于测试和基准测试不同语言之间的文本分析软件(例如对齐、句子分割和术语提取)。
Sep, 2006
本文介绍一个收集于比利时、加拿大、法国和瑞士的公共新闻网站上的包含 413,522 个法语文本样本的新颖语料库。该文章通过对不同的新闻网站检索不同的关键词,消除了主题、写作风格和发布来源等潜在偏见,从而建立了一个法语跨领域方言识别任务;作者也通过四个竞争基线、基于微调的 CamemBERT 模型、基于微调 CamemBERT 特征的 XGBoost、基于微调 CamemBERT 特征的 SVM 分类器和基于单词 n-grams 的 SVM 进行了实验;最后,作者还分析了 CamemBERT 学到的最有区分度的特征。
Dec, 2022
Claire French Dialogue Dataset (CFDD) is a multilingual, open source corpus of roughly 160 million words from transcripts and stage plays in French, created to further the development of language models, with descriptions of its composition, subcorpora breakdown, and standardization process.
Nov, 2023
通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构,这种方法可以应用于多种语言对,并在 BUCC 共享任务中获得有竞争力的结果,用于识别可比较语料库中的平行句子。
May, 2018
本文旨在通过引入一个新构建的日英商务会话平行语料库,提高会话文本的机器翻译质量,并分析了该语料库,列举了自动翻译的具有挑战性的实例。同时,本文还试图将语料库添加到机器翻译训练中,并展示了基于该语料库训练的系统的优势。
Aug, 2020