Jun, 2021

文本的无监督表示解缠:对合成数据集的评估

TL;DR通过从图像领域选择代表性的成功应用模型来突显在无监督设置中实现文本领域的表征分离的挑战,我们评估了这些模型在 6 个分离度量、下游分类任务和同伦方面的性能。我们提出了两个具有已知生成因素的合成数据集,以促进评估。我们的实验强调了文本领域中存在的差距,并说明了一些因素,如表征稀疏性(作为归纳偏差)或与解码器的表征耦合,可能会影响分离效果。据我们所知,我们的工作是关于无监督表征分离和文本交叉领域的第一次尝试,并为研究该方向的未来发展提供了实验框架和数据集。