大型训练数据集下的古今中文翻译

Aug, 2018

大型训练数据集下的古今中文翻译

Ancient-Modern Chinese Translation with a Large Training Dataset

Dayiheng Liu, Jiancheng Lv, Kexin Yang, Qian Qu

TL;DR本文提出了一种基于古汉语和现代汉语特点的 Ancient-Modern Chinese 从句对齐方法，综合了基于词汇和统计信息的两种方法，用于创建了一个包含 124 万个双语对的大规模语料库，并分析了在此数据集上各种机器翻译模型的性能，并为该任务提供了强大的基准。

Abstract

Ancient Chinese brings the wisdom and spirit culture of the Chinese nation. Automatic translation from ancient Chinese to modern Chinese helps to inherit and carry forward the quintessence of the ancients. However, the lack of large-scale parallel corpus limits the study of

ancient-modern chinese machine translation parallel corpus lexical-based information statistical-based information

发现论文，激发创造

时间感知的古代汉语文本翻译与推理

本文旨在解决翻译古代中文文本所面临的语言困境和信息缺失，提出采用多标签预测任务，预测翻译和具体年代，并以现代中文翻译为基础扩展为多语言输出，实验证明该框架在产生高质量翻译输出方面的有效性。

Jul, 2021

无监督的普通话 - 粤语机器翻译

本研究探讨了基于无监督机器翻译的普通话和粤语之间的翻译，通过构建包含约 100 万个粤语句子的语料库，以及采用基于字符的分词和 Transformer 架构的模型，实现了最佳的翻译效果。

Jan, 2023

大型语言模型能否理解古代汉语？对 ACLUE 进行初步测试

ACLUE 是一个评估基准，通过评估八个现代语言模型在理解古代汉语方面的能力，观察到它们在现代汉语和古代汉语之间的性能存在显著差异，其中 ChatGLM2 表现最出色，获得了平均 37.4% 的得分。

Oct, 2023

Tencent WMT22 大规模非洲语言多语言机器翻译系统

本文介绍了腾讯的多语言机器翻译系统，该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题，其中在 WMT22 的有限数据情况下，取得了第一名的成绩。

Oct, 2022

实现有效的古代中国翻译：数据集，模型和评估

我们提出了针对古代汉语的《尔雅》翻译方法，该方法通过从各种来源收集、清理和分类古代汉语材料，形成迄今为止最广泛的古代汉语资源。我们设计了两个同时运作的任务：双音节对齐替代（DAS）和双层掩蔽语言模型（DMLM）。在不同场景下，我们建立了基准来评判古代汉语翻译质量，并评估了各种现有模型的古代汉语翻译能力。我们的模型在五个领域展现了卓越的零 - shot 性能，与 GPT-3.5 模型相比具有 + 12.0 BLEU 的得分，并且在人工评估结果上优于 ERNIE Bot。随后的微调进一步展示了《尔雅》模型的卓越转移能力，获得了 + 6.2 BLEU 的提升。我们在此链接上发布了上述所有资源。

Aug, 2023

评估 ChatGPT 在古代汉语上的能力

该研究探索了 ChatGPT 在处理古代汉语方面的能力，通过翻译古代汉语为现代汉语和识别古代汉语姓名的两个任务来评估其对古代汉语的理解能力。研究发现：ChatGPT 在古代汉语方面的熟练程度尚未达到令人满意的水平，并且在输入三个上下文句子时，在古代汉语到现代汉语的翻译上表现最佳。为了帮助复现我们的工作，我们展示了本研究中使用的 Python 代码片段。

Dec, 2023

现代语言中的历史文本概括

我们引入历史文本摘要的任务，其中历史形式的语言文档被概括为相应的现代语言。基于跨语言迁移学习技术，我们提出了一个摘要模型，可以即使没有跨语言（历史到现代）平行数据，也可以进行训练，并对最先进的算法进行基准测试。我们报告了自动和人工评估，突出了我们数据集的独特性和价值，并证明了我们的迁移学习方法在这项任务上优于标准的跨语言基准。

Jan, 2021

PhoMT: 一个高质量和大规模的越南语 - 英语机器翻译基准数据集

本文介绍了一个高质量、大规模的越南语 - 英语平行数据集，进行了机器翻译的比较实验，结果表明在预训练序列到序列去噪自编码器 mBART 上的微调获得了最好的性能，这是第一个大规模的越南语 - 英语机器翻译研究，希望这个公开的数据集和研究能成为未来越南语 - 英语机器翻译研究和应用的起点。

Oct, 2021

古代汉语 CWS 和 POS 的基于不确定性的检索框架

提出古代汉语词分割和词性标注框架，通过捕捉词性语义和引入外部知识重新预测基线模型的不确定样本，有效提升性能。

Oct, 2023

利用众包进行网络挖掘的日中平行语料库

使用众包的方法，我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对（平行顶级页面对），并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后，我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix（12.4M）上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小，但我们发现这两个模型的准确度相当，证实了使用众包进行平行数据的网络挖掘是可行的。

May, 2024