LiveChat: 从视听多模态环境生成视频评论

Oct, 2023

LiveChat: 从视听多模态环境生成视频评论

LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts

Julien Lalanne, Raphael Bournet, Yi Yu

TL;DR通过创建大规模的音视频多模式对话数据集，以促进直播评论技术的发展，我们还提出了一种能够生成与视频中的时空事件以及正在进行的多模式对话上下文相吻合的实时评论的新颖多模式生成模型。

Abstract

live commenting on video, a popular feature of live streaming platforms, enables viewers to engage with the content and share their commen

live commenting video live streaming platforms ai agents multimodal dialogue dataset

发现论文，激发创造

基于视觉和文本环境生成实时视频评论的 LiveBot

介绍了一项自动实时评论的任务，并通过构建大规模实时评论数据集和引入基于视觉和文本上下文的两个神经模型，实现了比以前的模型更好的性能，最终展示了第一个 LiveBot。

Sep, 2018

基于知识增强的实时视频评论生成模型

本研究提出了一种基于预训练编码器 - 解码器框架并整合外部知识的方法，旨在为生成长视频的现场评论提供支持。作者共收集了一个 MovieLC 数据集，并开源了相关代码，实验结果表明，该模型在客观度量和人类评估方面具备较高的效率。

Apr, 2023

基于视觉和文本语境生成直播视频评论的响应

本研究对于自动直播评论生成应用 LiveBot 进行了复现和改进，并提出了一种新的基准实现方案，以解决由于项目代码中一些小问题引起的数据差异。

Jun, 2020

基于游戏的视频上下文对话

本文介绍了基于现场足球比赛视频和 Twitch.tv 聊天记录的多说话者、视觉语境下的对话数据集，利用此数据集开发出具有多模态对话技能和视觉定位应用的对话模型，并通过多项评估指标和人类评估研究验证其效果。

Sep, 2018

利用用户评论提升视频文字检索

本文介绍了一个包含视频、标题和评论的新数据集，并 presents 了一种基于 attention-based 机制的方法，该方法可以让模型从用户评论等有时不相关的数据中学习，并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。

Oct, 2022

LiveChat: 从直播流自动构建的大规模个性化对话数据集

通过引入 1.33 亿真实的中文对话数据集 LiveChat，并提出基于先进技术的检索式基线方法，本研究在多方对话范围内针对回应建模和宾语识别等两个关键任务进行研究，并验证了利用人物特征和更大的平均会话数对任务的积极影响，同时还提出了当前挑战的未来方向。

Jun, 2023

视频 LLM-online：用于流媒体视频的在线视频大语言模型

通过学习视频流进行大规模语言模型增强，提供视觉能力及实时对话功能，以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。

Jun, 2024

TikTalk: 一个实际闲聊的多模态对话数据集

本文介绍了一个新型的多模式聊天对话数据集 - TikTalk，通过视频社交应用的生成视频和相应的对话对构建对话语料库，通过三种模态的数据（文本、视觉和音频），为聊天机器人的深入理解和响应的生成提出了挑战，实验结果表明，TikTalk 仍有大量改进的空间。

Jan, 2023

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

上下文感知的说话人脸视频生成

通过使用面部特征作为控制信号，我们提供了一个两阶段和跨模态可控的视频生成流程，以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明，该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。

Feb, 2024