BriefGPT.xyz
大模型
Ask
alpha
关键词
subword embedding
搜索结果 - 2
词汇基础的子词切分
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用 Morfessor 的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词
→
PDF
15 days ago
使用通用编码将文本映射到相同的语音 - 正字空间中的机器翻译
为了解决印地语交互下,由于语言间巨大的形态学复杂度而导致的低资源语言之间的翻译问题,本文提出了一种基于常见多语种拉丁编码的方法。使用这种方法,结合 Byte Pair Embedding,可以更好地利用印地语相似性,并通过将不同但相似的语言
→
PDF
a year ago
Prev
Next