CS-lol: 电子竞技直播场景观众评论数据集
本研究提出了一项从结构化数据记录中生成游戏评论的任务,利用一种大规模的电子竞技数据集和多种基线编码器 - 解码器模型以及一种层次模型来生成各个层面的比赛评论,结果表明层次模型优势明显,并且揭示了几个新任务带来的挑战。
Dec, 2022
介绍 GAME-MUG,一个包含多模态游戏情境理解和观众参与评论生成数据集的新数据集,以及使用鲁棒性联合多模态双学习模型作为基线的新观众对话增强评论数据集。通过覆盖游戏情境和观众对话的学习,引入时间序列事件日志,检查模型对游戏情境 / 事件的理解能力和评论生成能力,展示多模态方面覆盖和联合集成学习方法的有效性。
Apr, 2024
本研究提出了一种基于预训练编码器 - 解码器框架并整合外部知识的方法,旨在为生成长视频的现场评论提供支持。作者共收集了一个 MovieLC 数据集,并开源了相关代码,实验结果表明,该模型在客观度量和人类评估方面具备较高的效率。
Apr, 2023
通过创建大规模的音视频多模式对话数据集,以促进直播评论技术的发展,我们还提出了一种能够生成与视频中的时空事件以及正在进行的多模式对话上下文相吻合的实时评论的新颖多模式生成模型。
Oct, 2023
本文提出了一种基于密集视频字幕的评论生成任务,旨在为足球比赛提供文字评论,以便广播公司能够将视频内容总结成同步且有意义的文字评论,从而更好地满足足球粉丝的需求,增强足球内容的可理解性和可访问性。
Apr, 2023
通过引入 1.33 亿真实的中文对话数据集 LiveChat,并提出基于先进技术的检索式基线方法,本研究在多方对话范围内针对回应建模和宾语识别等两个关键任务进行研究,并验证了利用人物特征和更大的平均会话数对任务的积极影响,同时还提出了当前挑战的未来方向。
Jun, 2023
本文提出采用多模态、多语言分析方法预测体育视频集锦的问题,并分析基于联合视觉特征和以实时观众的英文和繁体中文的复杂俚语文本分析的方法。作者基于北美和台湾的 Twitch.tv 频道的英雄联盟冠军系列记录创建了一个新的数据集,并表明了采用基于字符级卷积神经网络(CNN-RNN)模型的强大结果。该数据集将进一步用于研究。
Jul, 2017
介绍了一项自动实时评论的任务,并通过构建大规模实时评论数据集和引入基于视觉和文本上下文的两个神经模型,实现了比以前的模型更好的性能,最终展示了第一个 LiveBot。
Sep, 2018
本文介绍了 K-SportsSum,它是一个由大规模比赛实时评论和体育新闻构成的新数据集,并提出了一种知识增强式总结器,利用实时评论和知识来生成更具信息量的体育新闻,实验证明了我们的模型达到了新的最高水平。
Nov, 2021
本研究介绍了 CSL,一个包含 39.6 万篇中国科技文献的大型数据集,为中国自然语言处理和监督学习提供了有意义的语料库和标注。同时,本研究还基于 CSL 提出了一个基准用于评估模型在科技领域任务中的表现,如摘要生成、关键词提取和文本分类,并分析已有 NLP 模型在这些任务上的表现,揭示了进行中文科技 NLP 任务所面临的挑战。
Sep, 2022