ICMLOct, 2023

Nugget:文本的神经集成嵌入

TL;DRNugget 是一种将语言编码为基于动态选择的子集输入标记的表示方法,通过自动编码和机器翻译等任务学习这些紧凑单元来直观地将语言分成有意义的单元,并在涉及语义比较的任务中明显优于相关方法,同时该方法还允许扩大语言模型的上下文窗口,为未来的语言模型打开了新的前景。