CS-lol: 电子竞技直播场景观众评论数据集

SIGIRJan, 2023

CS-lol: 电子竞技直播场景观众评论数据集

CS-lol: a Dataset of Viewer Comment with Scene in E-sports Live-streaming

Junjie H. Xu, Yu Nakano, Lingrong Kong, Kojiro Iizuka

TL;DR本研究通过创建一个包含游戏场景和观众评论的大型数据集 CS-lol，来探索电竞直播中观众评论和场景的关系，提出了难度较高的观众评论检索任务，并在基线检索方法中取得了优异的成果。

Abstract

Billions of live-streaming viewers share their opinions on scenes they are watching in real-time and interact with the event, commentators as well as other →

live-streaming e-sports viewers comments retrieval

发现论文，激发创造

大规模数据集上的电子竞技数据即时解说生成

本研究提出了一项从结构化数据记录中生成游戏评论的任务，利用一种大规模的电子竞技数据集和多种基线编码器 - 解码器模型以及一种层次模型来生成各个层面的比赛评论，结果表明层次模型优势明显，并且揭示了几个新任务带来的挑战。

Dec, 2022

Game-MUG：多模态定向游戏情境理解与评论生成数据集

介绍 GAME-MUG，一个包含多模态游戏情境理解和观众参与评论生成数据集的新数据集，以及使用鲁棒性联合多模态双学习模型作为基线的新观众对话增强评论数据集。通过覆盖游戏情境和观众对话的学习，引入时间序列事件日志，检查模型对游戏情境 / 事件的理解能力和评论生成能力，展示多模态方面覆盖和联合集成学习方法的有效性。

Apr, 2024

基于知识增强的实时视频评论生成模型

本研究提出了一种基于预训练编码器 - 解码器框架并整合外部知识的方法，旨在为生成长视频的现场评论提供支持。作者共收集了一个 MovieLC 数据集，并开源了相关代码，实验结果表明，该模型在客观度量和人类评估方面具备较高的效率。

Apr, 2023

LiveChat: 从视听多模态环境生成视频评论

通过创建大规模的音视频多模式对话数据集，以促进直播评论技术的发展，我们还提出了一种能够生成与视频中的时空事件以及正在进行的多模式对话上下文相吻合的实时评论的新颖多模式生成模型。

Oct, 2023

SoccerNet-Caption：足球转播实时密集视频字幕生成

本文提出了一种基于密集视频字幕的评论生成任务，旨在为足球比赛提供文字评论，以便广播公司能够将视频内容总结成同步且有意义的文字评论，从而更好地满足足球粉丝的需求，增强足球内容的可理解性和可访问性。

Apr, 2023

LiveChat: 从直播流自动构建的大规模个性化对话数据集

通过引入 1.33 亿真实的中文对话数据集 LiveChat，并提出基于先进技术的检索式基线方法，本研究在多方对话范围内针对回应建模和宾语识别等两个关键任务进行研究，并验证了利用人物特征和更大的平均会话数对任务的积极影响，同时还提出了当前挑战的未来方向。

Jun, 2023

利用观众聊天反应预测视频亮点

本文提出采用多模态、多语言分析方法预测体育视频集锦的问题，并分析基于联合视觉特征和以实时观众的英文和繁体中文的复杂俚语文本分析的方法。作者基于北美和台湾的 Twitch.tv 频道的英雄联盟冠军系列记录创建了一个新的数据集，并表明了采用基于字符级卷积神经网络（CNN-RNN）模型的强大结果。该数据集将进一步用于研究。

Jul, 2017

基于视觉和文本环境生成实时视频评论的 LiveBot

介绍了一项自动实时评论的任务，并通过构建大规模实时评论数据集和引入基于视觉和文本上下文的两个神经模型，实现了比以前的模型更好的性能，最终展示了第一个 LiveBot。

Sep, 2018

知识增强型体育比赛摘要

本文介绍了 K-SportsSum，它是一个由大规模比赛实时评论和体育新闻构成的新数据集，并提出了一种知识增强式总结器，利用实时评论和知识来生成更具信息量的体育新闻，实验证明了我们的模型达到了新的最高水平。

Nov, 2021

CSL：一个大规模的中文科技文献数据集

本研究介绍了 CSL，一个包含 39.6 万篇中国科技文献的大型数据集，为中国自然语言处理和监督学习提供了有意义的语料库和标注。同时，本研究还基于 CSL 提出了一个基准用于评估模型在科技领域任务中的表现，如摘要生成、关键词提取和文本分类，并分析已有 NLP 模型在这些任务上的表现，揭示了进行中文科技 NLP 任务所面临的挑战。

Sep, 2022