Mar, 2023

从大规模网络视频中学习真实世界的对话

TL;DR我们引入了 CHAMPAGNE,这是一个可以考虑到视觉上下文的对话生成模型,使用收集的大规模语料库 YTD-18M 进行训练,获得了最先进的结果。