BriefGPT.xyz
大模型
Ask
alpha
关键词
tokenization algorithms
搜索结果 - 2
探索音频单元标记化的好处
本文展示了在三项预测任务中使用音素单元和 DAU 分词的优势,包括字素到音素、字素到 DAU 和使用 DAU 语言建模的无监督语音生成,并且证明了分词在性能、训练和推理速度上的显著改进,同时提供了理论解释。
PDF
a month ago
一种在端到端 ASR 系统中修复分词器词汇大小的成本最小化方法
通过在 LibriSpeech 100 小时数据集上的实验证明,当仔细选择标记数量时,端到端 ASR 系统的性能会有所提升。
PDF
2 months ago
Prev
Next