Oct, 2022

用于恩格尼语的亚词分语言建模

TL;DR该研究提出了一种基于语言模型的子词分段语言模型(SSLM),在训练期间学习如何分段单词,以优化语言模型的性能。通过统一子词分割和语言建模,SSL 模型学习到优化语言建模性能的子词。结果表明,学习子词分割是现有子词分割器的有效替代方案,可以发现类似词素的子词,以提高其语言模型的能力。