介绍了一项自动实时评论的任务,并通过构建大规模实时评论数据集和引入基于视觉和文本上下文的两个神经模型,实现了比以前的模型更好的性能,最终展示了第一个 LiveBot。
Sep, 2018
本研究提出了一种基于预训练编码器 - 解码器框架并整合外部知识的方法,旨在为生成长视频的现场评论提供支持。作者共收集了一个 MovieLC 数据集,并开源了相关代码,实验结果表明,该模型在客观度量和人类评估方面具备较高的效率。
Apr, 2023
本研究对于自动直播评论生成应用 LiveBot 进行了复现和改进,并提出了一种新的基准实现方案,以解决由于项目代码中一些小问题引起的数据差异。
Jun, 2020
本文介绍了基于现场足球比赛视频和 Twitch.tv 聊天记录的多说话者、视觉语境下的对话数据集,利用此数据集开发出具有多模态对话技能和视觉定位应用的对话模型,并通过多项评估指标和人类评估研究验证其效果。
本文介绍了一个包含视频、标题和评论的新数据集,并 presents 了一种基于 attention-based 机制的方法,该方法可以让模型从用户评论等有时不相关的数据中学习,并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。
Oct, 2022
通过引入 1.33 亿真实的中文对话数据集 LiveChat,并提出基于先进技术的检索式基线方法,本研究在多方对话范围内针对回应建模和宾语识别等两个关键任务进行研究,并验证了利用人物特征和更大的平均会话数对任务的积极影响,同时还提出了当前挑战的未来方向。
Jun, 2023
通过学习视频流进行大规模语言模型增强,提供视觉能力及实时对话功能,以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。
Jun, 2024
本文介绍了一个新型的多模式聊天对话数据集 - TikTalk,通过视频社交应用的生成视频和相应的对话对构建对话语料库,通过三种模态的数据(文本、视觉和音频),为聊天机器人的深入理解和响应的生成提出了挑战,实验结果表明,TikTalk 仍有大量改进的空间。
Jan, 2023
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
通过使用面部特征作为控制信号,我们提供了一个两阶段和跨模态可控的视频生成流程,以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明,该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。
Feb, 2024