Oct, 2022

优于空格:无自定义分词器语言的信息检索

TL;DR本研究提出对于不同语言的信息检索及词法匹配的算法 (BM25 等) 使用 WordPiece 分词器的方法,通过对来自不同语言的数据进行实验,证明该方法能够在多数情况下优于白空格分词器,并能更进一步提高自定义分词器的效果。