BriefGPT.xyz
Ask
alpha
关键词
unsupervised tokenization
搜索结果 - 2
无监督跨语言分词的自调参数
该研究探讨了对于英语、俄语和汉语的无监督分词问题可行的元学习方法,通过实现基于不同人类独立健身函数的元学习方法以及三个度量的加性和乘性组合来测试不同语言的无监督分词模型并找到了适合每种语言的最佳设置。
PDF
a year ago
EMNLP
无监督标记学习
本研究发现,相比于互信息和条件概率等统计度量方法,所谓的 “过渡自由度” 度量方法在无监督分词方面表现更佳,跨多语料库提供了 0.71 到 1.0 的 F - 度量分数。我们发现,不同的语言需要该度量方法的不同分支(如导数、方差和 “峰值”
→
PDF
2 years ago
Prev
Next