时间感知的古代汉语文本翻译与推理

ACLJul, 2021

时间感知的古代汉语文本翻译与推理

Time-Aware Ancient Chinese Text Translation and Inference

Ernie Chang, Yow-Ting Shiue, Hui-Syuan Yeh, Vera Demberg

TL;DR本文旨在解决翻译古代中文文本所面临的语言困境和信息缺失，提出采用多标签预测任务，预测翻译和具体年代，并以现代中文翻译为基础扩展为多语言输出，实验证明该框架在产生高质量翻译输出方面的有效性。

Abstract

In this paper, we aim to address the challenges surrounding the translation of ancient chinese text: (1) The linguistic gap due to the difference in eras results in translations that are poor in quality, and (2)

ancient chinese text multi-label prediction linguistic gap chronological context quality translation

发现论文，激发创造

大型训练数据集下的古今中文翻译

本文提出了一种基于古汉语和现代汉语特点的 Ancient-Modern Chinese 从句对齐方法，综合了基于词汇和统计信息的两种方法，用于创建了一个包含 124 万个双语对的大规模语料库，并分析了在此数据集上各种机器翻译模型的性能，并为该任务提供了强大的基准。

Aug, 2018

上下文感知神经机器翻译中的挑战

这篇论文探讨了上下文感知神经机器翻译的挑战与方法，并提出了一种更逼近真实情境的段落级翻译任务 para2para，同时提供了新的中英小说数据集以促进未来研究。

May, 2023

实现有效的古代中国翻译：数据集，模型和评估

我们提出了针对古代汉语的《尔雅》翻译方法，该方法通过从各种来源收集、清理和分类古代汉语材料，形成迄今为止最广泛的古代汉语资源。我们设计了两个同时运作的任务：双音节对齐替代（DAS）和双层掩蔽语言模型（DMLM）。在不同场景下，我们建立了基准来评判古代汉语翻译质量，并评估了各种现有模型的古代汉语翻译能力。我们的模型在五个领域展现了卓越的零 - shot 性能，与 GPT-3.5 模型相比具有 + 12.0 BLEU 的得分，并且在人工评估结果上优于 ERNIE Bot。随后的微调进一步展示了《尔雅》模型的卓越转移能力，获得了 + 6.2 BLEU 的提升。我们在此链接上发布了上述所有资源。

Aug, 2023

古代汉语 CWS 和 POS 的基于不确定性的检索框架

提出古代汉语词分割和词性标注框架，通过捕捉词性语义和引入外部知识重新预测基线模型的不确定样本，有效提升性能。

Oct, 2023

DuTongChuan：用于同传的上下文感知翻译模型

本文介绍了 DuTongChuan，一种用于同传的新颖上下文感知的翻译模型，它能够不断阅读自动语音识别模型中的流文本并同时确定信息单元的边界，进而使用两种简单而有效的解码策略：部分解码和上下文感知解码将检测到的信息单元翻译为流畅的翻译实现语音到语音的实时翻译，具有优秀的语篇连贯性和较短的延迟，并在百度平台的各种产品中成功运用和释放为服务。

Jul, 2019

现代语言中的历史文本概括

我们引入历史文本摘要的任务，其中历史形式的语言文档被概括为相应的现代语言。基于跨语言迁移学习技术，我们提出了一个摘要模型，可以即使没有跨语言（历史到现代）平行数据，也可以进行训练，并对最先进的算法进行基准测试。我们报告了自动和人工评估，突出了我们数据集的独特性和价值，并证明了我们的迁移学习方法在这项任务上优于标准的跨语言基准。

Jan, 2021

开眼整夜睡眠！使用交替记忆进行跨时代序列分段

本研究提出了 CROSSWISE，一种跨时代学习框架，可以用于中文分词，通过 Switch-memory 模块来整合不同年代的语言知识，并在四个语料库上的实验表明其性能显著提高。

Sep, 2022

评估 ChatGPT 在古代汉语上的能力

该研究探索了 ChatGPT 在处理古代汉语方面的能力，通过翻译古代汉语为现代汉语和识别古代汉语姓名的两个任务来评估其对古代汉语的理解能力。研究发现：ChatGPT 在古代汉语方面的熟练程度尚未达到令人满意的水平，并且在输入三个上下文句子时，在古代汉语到现代汉语的翻译上表现最佳。为了帮助复现我们的工作，我们展示了本研究中使用的 Python 代码片段。

Dec, 2023

穿越数个世纪的迁移学习：机器和历史学家集成方法解密王室秘书日记

该研究介绍了朝鲜历史文献中的命名实体识别和分类，通过将语言模型调整到历史文献上，与使用预训练的多语言模型进行对比实验，发现短语标记明显改善了 NER 模型在预测不同时间段撰写的未见过的实体时的性能。

Jun, 2023

基于深度多任务学习的双语稀缺情境神经机器翻译

本文提出了一种基于多任务学习方法，利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题，并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中，实现了在英法、英波斯和英越三种翻译任务上的有效性验证。

May, 2018