利用预训练生成语言模型的视频对话
本研究提出了一种使用多模态转换网络(MTN)来编码和整合不同模态信息的视频对话系统。在对话生成过程中,我们提出了一个训练程序来模拟标记级解码,从而提高了生成响应的质量。我们在 DSTC7 上获得了最优秀的表现,并且我们的模型具有很好的泛化性能。
Jul, 2019
介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型,用于理解和生成关于视频的人类对话,并介绍了使用手动和半自动管道获得的新数据集,可用于训练和评估基于视频的对话模型,并在定量评估框架下分析了该模型的优劣。
Jun, 2023
我们使用预训练的语言模型来研究基于知识的对话生成,通过知识选择模块和无监督方法来优化知识选择和响应生成,实验结果表明,我们的模型在自动评估和人类判断方面都显著优于现有方法。
Oct, 2020
本文研究了基于视频对话生成,提出一种方法,可以将视频数据集成到预训练语言模型中,通过多模态推理实现各种模态之间的互补信息,实验结果表明,该模型能够在自动和人工评估方面显著优于现有的最先进模型。
Oct, 2022
提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT),通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标,以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。
Jan, 2022
本文提出了一种新方法,将预训练的视频 - 语言模型中的视频编码器嫁接到生成式的预训练语言模型上,并通过跨模态和内模态关系的一致性融合机制集成不同组件,以实现多模标题的生成。经过实验证明,嫁接模型在从实际应用程序收集的全新数据集上取得了强大的结果。
Nov, 2022
该研究提出了一种有效的方法,将预训练的纯文本语言模型转移到视觉领域,使其能够处理和生成任意交错的图像和文本数据,并在上下文图像检索和多模态对话等方面实现了强有力的效果。
Jan, 2023
本研究探讨了数据稀缺对于多领域任务导向对话系统快速发展的限制,并提出了一种基于 TransferTransfo 和生成模型预训练的对话模型,并在 MultiWOZ 数据集上进行了验证,结果显示该模型可以有效地绕过显式策略和语言生成模块来实现对于任务的导向和推理。该方法有望缓解数据稀缺问题,进而支持构建更具吸引力和更流畅的任务导向的对话代理人。
Jul, 2019
对比传统的视觉问答,基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战,我们提出了一种迭代的跟踪与推理策略,将文本编码器、视觉编码器和生成器相结合。在核心部分,我们的文本编码器具有路径追踪和聚合机制,能够从对话历史中提取对解读提问至关重要的细微差别。同时,我们的视觉编码器采用迭代推理网络,精心设计以从视频中提取和强调关键的视觉标记,增强视觉理解的深度。通过使用预训练的 GPT-2 模型作为响应生成器,将这些丰富的信息整合在一起,生成连贯和与上下文相关的答案。我们在两个有名的数据集上进行的实证评估证实了我们提出设计的实力和适应性。
Oct, 2023
本文介绍了一种新的基于指令训练的大语言模型框架 DirecT2V,该模型可以通过用户提供的单个抽象提示生成一帧帧的视频,并通过新颖的数值映射方法和双 softmax 过滤来维护临时一致性和防止物体折叠。实验结果证明了 DirecT2V 框架在从抽象用户提示中生成视觉上一致和连贯的视频方面的有效性,从而解决了零样本视频生成的挑战。
May, 2023