Kanbun-LM：运用语言模型阅读和翻译日本文献中的古代汉文

May, 2023

Kanbun-LM：运用语言模型阅读和翻译日本文献中的古代汉文

Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models

Hao Wang, Hirofumi Shimizu, Daisuke Kawahara

TL;DR研究建立了世界首个古汉语至关文数据集，并进一步探讨了在这些语言任务上AIML中的现有语言模型的表现及最佳评估方法。

Abstract

Recent studies in natural language processing (NLP) have focused on modern languages and achieved state-of-the-art results in many tasks. Meanwhile, little attention has been paid to ancient texts and related tasks. cla

发现论文，激发创造

时间感知的古代汉语文本翻译与推理

本文旨在解决翻译古代中文文本所面临的语言困境和信息缺失，提出采用多标签预测任务，预测翻译和具体年代，并以现代中文翻译为基础扩展为多语言输出，实验证明该框架在产生高质量翻译输出方面的有效性。

Jul, 2021

打破语言障碍：通过神经机器翻译将中国佛经翻译为英文

本文提出了一种基于神经机器翻译的实用佛经翻译模型，经过三个标准的削减实验获得了极具前景的翻译成果。

Sep, 2022

WYWEB: 一个用于中国古典文献NLP评估的基准数据集

本文介绍WYWEB评估基准，它由9个古汉语NLP任务组成，包括句子分类、序列标注、阅读理解和机器翻译，并评估了现有的预训练语言模型在这个基准上的表现，并提出了一些补充数据集和工具，以进一步促进古代汉语NLU的进展。

May, 2023

实现有效的古代中国翻译：数据集，模型和评估

我们提出了针对古代汉语的《尔雅》翻译方法，该方法通过从各种来源收集、清理和分类古代汉语材料，形成迄今为止最广泛的古代汉语资源。我们设计了两个同时运作的任务：双音节对齐替代（DAS）和双层掩蔽语言模型（DMLM）。在不同场景下，我们建立了基准来评判古代汉语翻译质量，并评估了各种现有模型的古代汉语翻译能力。我们的模型在五个领域展现了卓越的零-shot性能，与GPT-3.5模型相比具有+12.0 BLEU的得分，并且在人工评估结果上优于ERNIE Bot。随后的微调进一步展示了《尔雅》模型的卓越转移能力，获得了+6.2 BLEU的提升。我们在此链接上发布了上述所有资源。

Aug, 2023

大型语言模型能否理解古代汉语？对ACLUE进行初步测试

ACLUE是一个评估基准，通过评估八个现代语言模型在理解古代汉语方面的能力，观察到它们在现代汉语和古代汉语之间的性能存在显著差异，其中ChatGLM2表现最出色，获得了平均37.4%的得分。

Oct, 2023

Mergen：蒙古族-朝鲜族机器翻译模型的首次训练结果

通过利用珍贵的资源，尝试开发了首个满-韩机器翻译模型Mergen，改进了满-韩语之间的翻译结果，有效提高了满语的保存与传承工作。

Nov, 2023

同古：基于知识的大型语言模型理解古代汉语

TongGu is a CCU-specific LLM that utilizes ACCN-INS dataset, RAT, and CCU-RAG techniques to enhance Classical Chinese comprehension and reduce hallucinations.

Jul, 2024

古代韩国档案翻译：基于统计短语对齐、LLM上下文学习和跨方法论方法的比较分析

通过比较三种翻译古代文本的方法（短语对齐、上下文LLM学习和使用源-目标语料库的句子片段令牌的统计机器翻译方法），本研究指出所提出的方法在BLEU分数上取得了36.71的性能，超过了SOLAR-10.7B上下文学习和最好的Seq2Seq模型的分数。进一步的分析和讨论在论文中提出。

Jul, 2024

评估大规模语言模型在古典中文诗歌翻译中的表现：有效性、流畅性和优雅性

本研究针对大规模语言模型在古典中文诗歌翻译中存在的有效性、流畅性和优雅性不足的问题，提出了一个新的基准。提出的检索增强机器翻译方法（RAT）和基于GPT-4的自动评估指标，能更有效地评估翻译质量，并提升现有模型在此领域的表现。

Aug, 2024

预测古代汉字文本中的标点符号：一种多层LSTM和基于注意力的方法

本研究解决了古代汉字文本缺乏标点符号导致的语义理解困难问题。研究提出了一种基于双向多层LSTM和多头注意力机制的新方法，显著提升了对古代汉字文本标点位置和类型的预测准确性。研究结果表明，该方法在处理古代汉字文本时的表现优于未采用这些组件的RNN模型，具有重要的学术价值和实践意义。

Sep, 2024