针对希伯来语自然语言处理的多语言序列到序列模型
本文提出使用多语言数据建立先前模型,结合迁移学习的方法,通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别,同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现,实验结果表明,将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度,并且加入 RNNLM 辅助也可以带来显著的性能提升。
Oct, 2018
该研究针对资源较少的斯洛文尼亚语,训练了两个不同尺寸的 T5 类型序列到序列模型,并分析其在 11 个任务中的表现,结果显示 SloT5 模型在分类任务上大多落后于单语斯洛文尼亚 SloBERTa 模型,但在生成性任务上很有用。
Jul, 2022
多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面,并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外,还探讨了不同模型类型的独特特征,包括仅编码器模型、仅解码器模型和编码器 - 解码器模型。同时,还讨论了多语言大型语言模型的一个重要局限性,即多语言之间的相互影响问题,并探究了克服这一问题的当前尝试。
Jun, 2024
本文介绍了 AlephBERT,一个用于现代希伯来语的大型预训练语言模型,使用该模型在多个希伯来语任务和基准测试中提供了新的最先进结果,包括分词、词性标注、完整的形态标注、命名实体识别和情感分析,并公开了模型。
Apr, 2021
利用大型语言模型的丰富语言知识和强大的推理能力,我们提出了一种新的生成式翻译范式 ——“GenTranslate”,可以从 N 个候选译文中生成更高质量的翻译结果,并且在各种语音和机器翻译基准测试中明显优于现有模型。
Feb, 2024
本文介绍了在西班牙语语料库上预训练的著名编码器 - 解码器架构 ——BART、T5 和 BERT2BERT 风格模型。通过对各种序列到序列任务(包括摘要、改写和生成式问答)的综合评估,我们发现所有模型的性能竞争力,其中 BART 和 T5 在所有评估任务中表现最好。此外,我们还将所有模型公开提供给研究社区,促进西班牙语语言处理领域的未来探索和发展。
Sep, 2023
该研究表明,预训练的单一语言模型(LM4MT)可以与强大的编码器 - 解码器 NMT 模型在标准机器翻译基准测试中取得可比较的性能,LM4MT 还可以轻松利用源侧文本作为额外的监督。LM4MT 可以为源语言和目标语言提供统一的表示形式,在跨语言知识转移方面表现更好,并在基于中间语言和零样本翻译任务中获得显著的优势。
Jun, 2021
大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距,但人工评估表明 BLEU 分数相比于英语有所下降,对于评估非任务特定系统其适用性存疑。
Feb, 2024
本文提出了一种基于深度神经网络(DNN)的序列学习方法,使用多层长短时记忆(LSTM)解码目标序列并展现了其在英法翻译任务中优于传统短语模型翻译的成果,同时还发现调整源语句中单词的顺序可以有利于优化问题的解决。
Sep, 2014
本论文通过使用基于 mBART 的句子级序列到序列模型,将自然语言处理中的标准化问题归结为机器翻译问题,利用多语言预训练技术进行 fine-tuned,优于操作原始社交媒体文本的模型,在下游任务中实现性能提升。
Oct, 2021