ACLMay, 2023

主题模型的强化学习

TL;DR本文采用增强学习技术,用连续动作空间得到的强化学习策略替换 ProdLDA 中变分自编码器,采用给 ELBO 损失加权,使用上下文嵌入以及监控每个训练步骤的主题多样性和连贯性等方法,以 11 个数据集为实验对象。我们的无监督模型优于所有其他无监督模型,并与大多数使用监督标记的模型表现相当甚至更好。经验研究表明,我们对 ProdLDA 所做的更改提高了性能,而强化学习配方进一步提高了性能。