BriefGPT.xyz
大模型
Ask
alpha
关键词
embedding initialization
搜索结果 - 3
低资源跨语言迁移的词汇扩展
通过在不同角度研究目标词汇规模、初始化方法以及可用于适应的目标数据量,我们在语料资源有限的环境中发现,基于简单启发式的词向量初始化方法更高效、更稳定,能够在目标词汇规模和适应数据变化时胜过常用的随机初始化和更复杂依赖外部数据和模型的最先进方
→
PDF
15 days ago
UniBridge:面向低资源语言的统一交叉语言迁移学习方法
UniBridge 是一个跨语言迁移学习的综合方法,通过优化嵌入和词汇表进行改进,在资源有限的语言中特别有效。该方法解决了语言模型的两个关键要素:嵌入的初始化和最优词汇表的选择。实验结果表明,UniBridge 显著提高了多种语言的 F1
→
PDF
18 days ago
专注:有效的嵌入初始化策略用于针对单一语言进行预训练的多语言模型优化
使用高资源语言预训练的模型权重作为启动可以降低获取低资源语言高质量语言模型所需的数据和计算量,为了适应新语言,需要调整预先训练的词汇表和嵌入。本文研究了多语言源模型设置,提出了 FOCUS - Fast Overlapping Token
→
PDF
a year ago
Prev
Next