Apr, 2024
重温次词标记化:大型语言模型中的词缀否定案例研究
Revisiting subword tokenization: A case study on affixal negation in
large language models
TL;DR本文旨在研究测量后缀否定对现代英语大型语言模型(LLMs)的影响。通过负性语素表达被否定的含义,这对LLMs来说可能会具有挑战性,因为它们的分词器往往不具备形态的可行性。通过使用不同的子词分词方法,我们进行了大量实验,得出了有关分词性能和否定敏感性之间相互作用的几个见解。尽管分词准确性和否定检测性能之间存在一些有趣的不匹配,但我们证明模型总体上能够可靠地识别后缀否定的含义。