Oct, 2023

个性化的改写提示增强文本生成图像

TL;DR我们提出了一种将大型预训练模型视为搜索引擎的新视角,从而使以前用于提高搜索引擎性能的技术得以重新应用。通过个性化查询重写技术的示例,我们在文本到图像生成领域使用了这种视角。尽管该领域取得了显著进展,但仍然很难创建与个体用户的期望和偏好密切对齐的个性化视觉表示。这个过程需要用户用对模型理解且准确捕捉他们的愿景的文字来表达,这对许多用户来说很困难。在本文中,我们通过利用用户与系统的历史互动来提高用户提示的质量来解决这个挑战。我们提出了一种基于具有超过 300k 个提示的 3115 个用户的新大规模文本到图像数据集的用户提示重写方法。我们的重写模型增强了用户提示与其预期视觉输出之间的表达和对齐。实验证明了我们方法的优越性,这在我们的新离线评估方法和在线测试中得到了证明。我们的方法为应用更多搜索引擎技术来构建真正个性化的大型预训练模型打开了令人兴奋的可能性。