May, 2023
使用一系列有问题且具有挑战性的生物医学句子比较分词器输出的变化
Comparing Variation in Tokenizer Outputs Using a Series of Problematic and Challenging Biomedical Sentences
Christopher Meaney, Therese A Stukel, Peter C Austin, Michael Escobar
TL;DR本研究通过比较不同分词器应用于生物医学句子时的输出,探究了各分词器性能的差异,结果表明对于包含专业术语和固定搭配的句子,规则匹配和神经网络分词器实现了类似的表现,但空格分词器的效果与其他分词器相比有所不同。