EMNLPOct, 2023

词汇、次词及形态素:令人惊讶度与阅读时间之间真正的关系是什么?

TL;DR基于 LLMs 的预测基于子词标记而不是词素分解,我们通过比较使用拼写、词素和 BPE 标记的惊异估计与阅读时间数据来仔细测试这一重要假设,我们的结果重现了以前的研究发现并提供了证据,表明使用 BPE 标记的预测相对于词法和拼写分割并没有出现问题,但经过更详细的分析发现依赖于 BPE 标记可能存在潜在问题,同时也提供了相关研究的有希望结果,并提出了一种评估词素预测的新方法。