使用多语句子嵌入的方法自动从85种语言的维基百科文章中提取平行句子,共提取了1.35亿个平行句子,并且在1886种语言对上训练神经机器翻译基线系统,取得了较高的BLEU分数。WikiMatrix bitexts可以对离散的语言进行机器翻译训练,而不需要通过英语来进行桥接。
Jul, 2019
通过使用边际化双语挖掘技术在多语言句子空间内,我们能够针对百亿级别的单语语料库,挖掘出 45 亿双语句子。使用这些挖掘的数据,我们在TED、WMT和WAT的测试集上,超越了WMT'19的最佳结果,并且对于远程语言对(如俄语/日语),我们的表现非常出色。
Nov, 2019
介绍了Samanantar,这是最大的公共平行语料库集合,包括英语和11种印度语言之间的 49.7 百万句子对,同时提取自公共平行语料库和网络,并在Samanantar上训练多语种 NMT 模型,从而在公开可用的基准测试上优于现有模型和基准线,希望能够推进印度语言的NMT和多语种NLP研究。
Apr, 2021
本文提出了GCDT,这是目前最大的汉语层次化语篇树库,基于修辞结构理论,覆盖五种文本类型,使用与当代英语RST树库相同的关系清单。通过使用中英文多语言嵌入来训练语言关系,本文还介绍了这个数据集的分析实验,包括中英文RST解析和在英语GUM数据集上的RST解析,其中包括最先进(SOTA)的中文RST解析分数。
Oct, 2022
这篇论文描述了BWB这个由专家将汉语小说翻译成英文的大型平行语料库,以及一个用于探究机器翻译系统建模各种语篇现象的标注测试集,希望这个资源能够为更多的文档级机器翻译工作提供指导和灵感。
该论文提出了一个可以评估处理自然语言时的句子内语篇特征的精细化预训练模型,该模型包含9个文献领域的测试集,涵盖了许多超出了跨句子属性的问题。
Jul, 2023
利用层次化的分析树和递归超图揭示了大语言模型和人类所生成的不同文本的独特语篇模式,并发现了人类写作在不同领域中的结构多样性,强调了在文本分析中加入层次化的语篇特征的重要性。
Feb, 2024
对于计算机来识别修辞手法是非常重要的,本论文提供了对于较少人知悉的修辞手法的计算方法的全面概述,突出了从语言和计算的角度看待修辞手法的重要性,详细介绍了不同的修辞手法,包括数据集、定义、修辞功能和检测方法,同时也指出了数据集稀缺、语言限制和基于规则方法的依赖等挑战。
Jun, 2024
本研究针对跨语言语篇解析中的数据不足和修辞结构理论应用不一致的问题,提出了一种针对英语GUM RST语料库的平行俄语注释。通过创新的端到端RST解析器,我们在英语和俄语语料库上实现了先进的效果,展示了在单语和双语环境中的有效性,具有重要的跨语言解析潜力。
Sep, 2024
本研究解决了现有修辞理解和生成数据集中对不同修辞设备之间相互关系的忽视,提出了包含4个常用粗粒度类别和23个细粒度类别的中文作文修辞数据集(CERD)。实验结果表明,使用大语言模型联合微调多个任务可以显著提高修辞生成和理解的效果,从而提升写作能力和语言应用技能。