Jan, 2023

MTTN: 多对多文本叙事用于提示生成

TL;DR为了提高生成文本模型的效果,本研究创建了一个衍生且合成自真实提示的、与 Microsoft-COCO 和 Flickr 等流行图像 - 文本数据集索引的大规模数据集 MTTN,其包括超过 240 万个句子,分成 5 个阶段,共计超过 1200 万个对,并且具有超过 300,000 个独有词汇,目的是反映全球互联网语言的使用方式,从而使更强大的生成文本模型更能够利用。