Aug, 2023

EntropyRank:基于侧信息优化的语言模型文本压缩的无监督关键词抽取

TL;DR这篇研究论文介绍了一种无监督的方法,利用预训练的语言模型和香农的信息最大化从文本中提取关键词和关键短语。通过提取在语言模型下具有最高条件熵的短语,该方法能够解决与信息理论相关的问题,并在使用语言模型和熵编码器对文本进行压缩时,提供预期的最小二进制码长度。这种方法在各种关键短语提取竞赛中的结果与最常用的方法相当。