Mar, 2022

信号在噪音中:使用字符感知语言模型探索随机字符序列中的编码含义

TL;DR本文提出使用 $garble$,即由随机字符序列组成的 $n$-grams,作为语境来研究字词含义,同时探讨了 $garble$ 字向量、终极语言和伪词的嵌入,并通过 CharacterBERT 模型识别嵌入空间中将这些 $n$-grams 进行分离的轴,进而发现含义和原始信息之间的内在联系。