关于生成 AI 和 LLM 在视频生成、理解和流媒体方面的调查

Jan, 2024

关于生成 AI 和 LLM 在视频生成、理解和流媒体方面的调查

A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming

Pengyuan Zhou, Lin Wang, Zhi Liu, Yanbin Hao, Pan Hui...

TL;DR本研究综述了生成人工智能（Generative AI）和大语言模型（LLMs）在视频技术领域中的应用，包括视频生成、理解和流媒体，强调了这些技术在产生高度逼真视频方面的创新应用，在实现现实世界动态与数字创作之间存在重大差距的时候迈出了重要一步。同时，作者还深入探讨了 LLMs 在视频理解方面的先进能力，展示了它们从视觉内容中提取有意义信息的有效性，从而提升了我们与视频的互动。在视频流媒体领域，本文讨论了 LLMs 如何为更高效、以用户为中心的流媒体体验做出贡献，将内容传递适应个体观众的偏好。通过梳理生成 AI 和 LLMs 在与多媒体、网络和人工智能社区相关的视频技术任务中的当前成就、持续挑战和未来可能性，本文突显出这些技术在推动视频技术领域发展方面的巨大潜力。

Abstract

This paper offers an insightful examination of how currently top-trending AI technologies, i.e., generative artificial intelligence (Generative AI) and large language models (LLMs), are reshaping the field of

generative artificial intelligence large language models video technology video generation video streaming

发现论文，激发创造

大型语言模型与视频游戏：初步范围评估

基于近年来大型语言模型 (LLMs) 在游戏设计、开发和研究中的潜力，本文针对与游戏相关的 LLM 的最新研究进行了初步调研，总结了 2022 年至 2024 年初间与 LLMs 和视频游戏相关的 76 篇论文，主要关注游戏人工智能、游戏开发、叙事以及游戏研究和评论，为未来的研究和评论奠定了基础。

Mar, 2024

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

LLMs 满足多模态生成和编辑的综述

多模态生成技术的调查，介绍了不同领域中的重要进展，包括图像、视频、3D 和音频，研究了方法和数据集，还提出了使用现有生成模型进行人机交互的工具增强型多模态代理，同时探讨了人工智能安全问题和新兴应用及未来前景。

May, 2024

朝向高效的生成式大型语言模型服务：从算法到系统的调研

人工智能中生成式大型语言模型的高效部署方法的综述

Dec, 2023

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为 VideoLLM 的新框架，它利用了自然语言处理（NLP）预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的 LLM 中。在实验中，作者评估了 VideoLLM 在多个任务上的表现，证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

MovieLLM：使用 AI 生成的影片增强长视频理解能力

MovieLLM 提出了一种新颖的框架，利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉，从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题，显著提高了多模态模型对复杂视频叙事的理解能力，克服了现有数据集的限制。

Mar, 2024

生成 AI 在循环中：将 LLM 和 GPT 集成到下一代网络

通过将大型语言模型（LLMs）与机器学习（ML）模型相结合，我们提出了 “生成式 AI 在环” 的概念，利用 LLMs 的语义理解、上下文感知和推理能力来辅助人类处理移动通信网络中的复杂或意外情况，并通过合成数据来增强基于 ML 的网络入侵检测，这进一步展示出我们提出的想法的优势。

Jun, 2024

视频 LLM-online：用于流媒体视频的在线视频大语言模型

通过学习视频流进行大规模语言模型增强，提供视觉能力及实时对话功能，以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。

Jun, 2024

生成型人工智能和大型语言模型的全球学术指南概览

本研究通过系统调查、基于文本挖掘的全球和国家指南、独立研究以及八十所大学层面的指导，提供了对教育中生成式人工智能（GAI）和大型语言模型（LLMs）的机会和挑战进行细致的理解。研究强调了在这些技术的整合过程中平衡方法的重要性，以 harness 利用其技术优势的同时，考虑伦理问题，并确保公平的获取和教育结果。最后，本文提出了促进负责任创新和道德实践，指导将 GAI 和 LLMs 整合到学术中的建议。

May, 2024

生成 AI 之世界：深度伪造和大型语言模型

我们生活在生成式人工智能（GenAI）的时代。Deepfakes 和大型语言模型（LLMs）是 GenAI 的两个例子。然而，由于生成性质，它们的道德使用成为一个重要关注点。此篇文章试图探究它们之间的相互关系。

Feb, 2024