Dec, 2023
您是在与 ['xem'] 或者 ['x', 'em'] 交谈吗? 关于标记化和处理LLM中的性别错误的研究
Are you talking to ['xem'] or ['x', 'em']? On Tokenization and
Addressing Misgendering in LLMs with Pronoun Tokenization Parity
TL;DR通过研究语料数据稀缺对子词分词及大型语言模型中单词表示的影响,以及Byte-Pair Encoding (BPE)分词器在缺少特定词汇时与新代词性别错误相关性,提出了保持词语功能结构的新方法PTP来改善大型语言模型中的新代词一致性,实验证明PTP能够使新代词一致性从14.5%提升至58.4%。