本文提出了一种基于古汉语和现代汉语特点的 Ancient-Modern Chinese 从句对齐方法,综合了基于词汇和统计信息的两种方法,用于创建了一个包含 124 万个双语对的大规模语料库,并分析了在此数据集上各种机器翻译模型的性能,并为该任务提供了强大的基准。
Aug, 2018
这篇论文探讨了上下文感知神经机器翻译的挑战与方法,并提出了一种更逼近真实情境的段落级翻译任务 para2para,同时提供了新的中英小说数据集以促进未来研究。
May, 2023
我们提出了针对古代汉语的《尔雅》翻译方法,该方法通过从各种来源收集、清理和分类古代汉语材料,形成迄今为止最广泛的古代汉语资源。我们设计了两个同时运作的任务:双音节对齐替代(DAS)和双层掩蔽语言模型(DMLM)。在不同场景下,我们建立了基准来评判古代汉语翻译质量,并评估了各种现有模型的古代汉语翻译能力。我们的模型在五个领域展现了卓越的零 - shot 性能,与 GPT-3.5 模型相比具有 + 12.0 BLEU 的得分,并且在人工评估结果上优于 ERNIE Bot。随后的微调进一步展示了《尔雅》模型的卓越转移能力,获得了 + 6.2 BLEU 的提升。我们在此链接上发布了上述所有资源。
Aug, 2023
提出古代汉语词分割和词性标注框架,通过捕捉词性语义和引入外部知识重新预测基线模型的不确定样本,有效提升性能。
Oct, 2023
本文介绍了 DuTongChuan,一种用于同传的新颖上下文感知的翻译模型,它能够不断阅读自动语音识别模型中的流文本并同时确定信息单元的边界,进而使用两种简单而有效的解码策略:部分解码和上下文感知解码将检测到的信息单元翻译为流畅的翻译实现语音到语音的实时翻译,具有优秀的语篇连贯性和较短的延迟,并在百度平台的各种产品中成功运用和释放为服务。
Jul, 2019
我们引入历史文本摘要的任务,其中历史形式的语言文档被概括为相应的现代语言。基于跨语言迁移学习技术,我们提出了一个摘要模型,可以即使没有跨语言(历史到现代)平行数据,也可以进行训练,并对最先进的算法进行基准测试。我们报告了自动和人工评估,突出了我们数据集的独特性和价值,并证明了我们的迁移学习方法在这项任务上优于标准的跨语言基准。
Jan, 2021
本研究提出了 CROSSWISE,一种跨时代学习框架,可以用于中文分词,通过 Switch-memory 模块来整合不同年代的语言知识,并在四个语料库上的实验表明其性能显著提高。
Sep, 2022
该研究探索了 ChatGPT 在处理古代汉语方面的能力,通过翻译古代汉语为现代汉语和识别古代汉语姓名的两个任务来评估其对古代汉语的理解能力。研究发现:ChatGPT 在古代汉语方面的熟练程度尚未达到令人满意的水平,并且在输入三个上下文句子时,在古代汉语到现代汉语的翻译上表现最佳。为了帮助复现我们的工作,我们展示了本研究中使用的 Python 代码片段。
Dec, 2023
该研究介绍了朝鲜历史文献中的命名实体识别和分类,通过将语言模型调整到历史文献上,与使用预训练的多语言模型进行对比实验,发现短语标记明显改善了 NER 模型在预测不同时间段撰写的未见过的实体时的性能。
Jun, 2023
本文提出了一种基于多任务学习方法,利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题,并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中,实现了在英法、英波斯和英越三种翻译任务上的有效性验证。
May, 2018