- ACLSumTra: 跨语言少样本摘要的可微分管道
跨语言概括是生成与输入文档不同语言(例如从英语到西班牙语)的摘要,使目标语言的使用者能够获得其内容的简洁概述。本文提出重新审视了概括和翻译流程,其中概括和翻译任务按顺序执行,并通过利用许多可用的公共资源进行单语概括和翻译,从而获得了非常有竞 - Nemotron-4 15B 技术报告
Nemotron-4 15B 是一种 150 亿参数的大型多语言语言模型,在英语、多语言和编码任务中表现出强大的性能,甚至超过四倍大且专门用于多语言任务的其他模型。
- 构建医学多语言语言模型的研究
我们旨在开发一个开源、多语言的医学语言模型,以使更广泛、语言多样的受众从不同地区受益。我们构建了一个新的多语言医学语料库 MMedC,其中包含约 255 亿个标记,涵盖 6 种主要语言,可用于现有通用语言模型的自回归训练。我们还提出了一个新 - ZGUL:使用多源适配器的零样本泛化到未见过的语言
通过使用语言适配器(LAs)解决 NLP 任务中的零射击跨语言转移问题,并结合多个源语言的语言适配器进行训练和测试,展示了在 POS 标注和 NER 任务上相对标准微调和其他强基线模型平均 F1 分数提高了 3.2 个点的改进。
- 多语言语言模型的跨语言短语断点预测迁移学习
本文采用跨语言迁移学习的方式,使用预训练的多语言语言模型,在少量标注数据的情况下,研究了短语断点预测的效果,发现跨语言迁移可以是一种有效的方法,尤其是在低资源语言中,因此建议使用跨语言迁移来改善语音合成前端。
- 俄语轻量级核指代消解:基于分层语篇特征的方法
本研究提出了一种新方法,通过引入修辞信息到神经共指消解模型中,来明确捕获层次化语篇中的指代选择, 并使用多语言实体感知语言模型 LUKE,在 RuCoCo-23 共指消解任务上评估了该方法的性能。实验表明,使用修辞距离的最佳模型在开发集 ( - 通过词汇修剪实现高效的多语言语言模型压缩
本文提出了一种叫做词汇修剪的方法,可将多语言语言模型压缩至任何语言,得到与原始模型同样的性能,同时比原始模型更小。我们在七种语言中评估了该方法,并表明该方法可以将最佳的单语言模型性能与多语言模型的优越性结合起来。
- 扩展 BLOOM 的预训练,以改进对繁体中文的支持:模型、方法和结果
本文介绍了多语言语言模型 BLOOM-zh,以强化对繁体中文的支持。通过在传统中文和英语领域中增加 74 亿个标记的预训练,BLOOM-zh 在大多数传统中文基准测试中优于其前身。
- 使用大型语言模型进行大规模多语言浅层融合
利用单一多语言语言模型(LM)来进行多语言浅层融合任务,并将其应用于最先进的端到端模型,相对于类似推理期间的密集 LM ,GLaM 可将英语长尾测试集的 WER 降低 4.4 %,平均相对 WER 降低 3.85%,并且最高降低 10%。
- XLM-V: 克服多语言掩码语言模型中的词汇瓶颈
本文介绍了一种新方法,通过降低语言之间的词汇共享并分配单独语言的词汇容量,实现非常大的多语言词汇量的扩展,用于构建 XLM-V 多语言模型,其表现优于 XLM-R 模型。
- AAAI在 BLOOM 中:人工创作歌词和艺术中的创造力和亲和力
本研究利用大型多语言语言模型(BLOOM-176B)生成中文歌词,并使用人工评审员对结果进行了连贯性和创造性的评估,发现现有计算度量方法(MAUVE)在评估创造性写作方面存在局限性。本文通过使用中文稳定扩散模型产生高质量歌词指导的唱片封面设 - TwHIN-BERT:用于多语种推文具有社交增强的预训练语言模型
TwHIN-BERT 是一种多语言语言模型,使用来自 Twitter 的专业领域数据进行训练,并通过具有基于 Twitter 异构信息网络(TwHIN)中丰富的社交互动的社交目标的训练使其不同于以前的预训练语言模型。我们在各种多语言社交推荐 - 利用时延神经网络进行自动语音语言识别
本研究构建并训练了一种基于自动语音识别技术的语言识别系统,可自动识别阿拉伯语、西班牙语、法语和土耳其语,并通过投票方式进行预测,准确率很高。
- 将 BigScience 多语言模型适应未知语言
这篇论文评估将新语言添加到 BigScience 预训练的多语言模型中的不同策略,并研究影响模型语言适应性以及计算成本和性能预期之间的权衡。
- EMNLP利用无监督多语言上下文化表示进行低资源序列标注
本文提出了多语言语言模型与深度语义对准(MLMA),用于产生跨语言标注的语言无关表示,方法不需要平行数据或一个词一个词匹配,只需要单语语料库,并利用深度上下文表示。实验结果表明,本方法在欧洲语言以及英语和汉语等远距离语言对上实现了新的最新