Dec, 2023

您是在与 ['xem'] 或者 ['x', 'em'] 交谈吗?关于标记化和处理 LLM 中的性别错误的研究

TL;DR通过研究语料数据稀缺对子词分词及大型语言模型中单词表示的影响,以及 Byte-Pair Encoding (BPE) 分词器在缺少特定词汇时与新代词性别错误相关性,提出了保持词语功能结构的新方法 PTP 来改善大型语言模型中的新代词一致性,实验证明 PTP 能够使新代词一致性从 14.5% 提升至 58.4%。