将实时互动会话建模为定时记录的转录

May, 2024

将实时互动会话建模为定时记录的转录

Modeling Real-Time Interactive Conversations as Timed Diarized Transcripts

Garrett Tanzer, Gustaf Ahdritz, Luke Melas-Kyriazi

TL;DR使用预训练的纯文本语言模型，通过建模定时记录的转录文本并使用因果拒绝采样进行解码，我们提出了一种简单但通用的方法来模拟实时互动对话。我们通过两个案例研究（即即时通讯对话和口语交流）展示了该方法的潜力，这些案例研究需要分别以约 30 tok/s 和 20 tok/s 的速率生成文本以保持实时互动。这些功能可以使用相对较少的数据添加到语言模型中，并在商品硬件上运行。

Abstract

chatbots built upon language models have exploded in popularity, but they have largely been limited to synchronous, turn-by-turn dialogues. In this paper we present a simple yet general method to simulate real-ti

chatbots language models real-time interactive conversations timed diarized transcripts causal rejection sampling

发现论文，激发创造

直白真实对话：面对面交流的口语对话模型

本研究介绍了一种新颖的面对面口语对话模型，利用用户输入的音频 - 视觉语音并生成回应的音频 - 视觉语音，旨在创建一种不依赖中间文本的化身聊天机器人系统，并引入 MultiDialog，这是第一个包含约 340 小时近 9000 个对话的大规模多模态（音频和视觉）口语对话语料库。

Jun, 2024

从书面对话向人类般的 AI 代理之间的口语对话生成迈进

该论文描述了 CHATS - CHatty Agents Text-to-Speech，这是一种基于书面对话生成口语对话的离散标记系统，通过仅使用说话方的转录，同时为说话方和倾听方生成语音，消除了对倾听方的转录需求，同时可以促进自然交谈的轮换和流畅对话的生成。

Oct, 2023

超越回合制游戏：利用 Duplex 模型实现实时对话

大型语言模型的双工模型可以实现用户和 AI 的实时对话，通过时间分割多路复用和动态调整，提供即时反馈，改进了用户满意度。

Jun, 2024

TimeChat：长视频理解的时间敏感多模态大型语言模型

该研究提出了 TimeChat，一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现：1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器，和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频 Q-Former。此外，我们构建了一个调整指令的数据集，包括 6 个任务和总共 12.5 万个实例，以进一步提高 TimeChat 的指令遵循性能。在各种视频理解任务上的实验结果，如密集字幕生成、时间定位和重点检测，展示了 TimeChat 强大的零样本时态定位和推理能力。例如，在 YouCook2 上，它在 F1 评分上提升了 9.2，在 CIDEr 上提升了 2.8，在 QVHighlights 上的 HIT@1 提升了 5.8，在 Charades-STA 上的 R@1 (IoU=0.5) 提升了 27.5，与业界领先的视频大型语言模型相比，具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。

Dec, 2023

Conversational SimulMT: 大型语言模型的高效实时翻译

这篇论文提出了一种基于 LlM 的对话式 SimulMT 框架，通过多轮对话解码提高 LLM 的推理效率，在两个 SimulMT 基准测试中展示了 LLM 在翻译质量上的优越性以及与专用 SimulMT 模型相当的计算延迟。

Feb, 2024

InterviewBot：用于大学招生面试的实时端到端对话系统

本论文提出了一种名为 InterviewBot 的对话机器人，它可以动态地将对话历史和定制话题集成到一个连贯的嵌入空间中，以进行 10 分钟的混合域（开放和封闭）会话，以评估外国学生申请美国大学的学术和文化准备情况。我们采用基于神经网络的端到端对话模型，使用 7,361 个人与人面试的音频记录来自动转录，其中 440 个手动进行了校正，以进行微调和评估。为了克服基于转换器的编码器 - 解码器模型的输入 / 输出大小限制，提出了两种新方法，即上下文关注和话题存储，使模型能够进行相关和一致的交互。我们的最终模型经过统计比较和实时邀请专业面试官和不同的学生与其互动进行测试，发现其流畅性和上下文感知能力非常令人满意。

Mar, 2023

生产就绪的聊天机器人：生成或提取

该研究提出了一个混合模型，结合了神经会话模型和基于规则的图形对话系统，通过聊天对话协助用户安排提醒，该系统相较于基于规则的基准系统表现出显著的改进，并结合了神经生成模型，使其足够稳健以应对实际应用场景。

Nov, 2017

PLACES：用于社交对话综合的激励语言模型

使用专家编写的少量对话作为上下文示例，通过提示生成社交对话数据集，可在多方交流任务中创建更多的合成数据。与人类收集的对话相比，合成的多方交流在所有度量维度上都获得了更多的好评。

Feb, 2023

TIMEDIAL: 对话中的时间常识推理

本文首次探讨了预训练语言模型在对话中的时间推理能力，并通过引入新任务 TIMEDIAL 和多项选择 cloze 测试集验证了模型的表现，同时指出模型在考虑对话上下文以及模型对于上下文中时间模式依赖性的主观推断方面存在差距，为未来时间概念建模和上下文推理方面的研究提出建议。

Jun, 2021

DialSim：一个用于评估对话代理的长期对话理解能力的实时模拟器

通过引入实时对话模拟器 DialSim，可以对最新的对话代理进行评估并分析它们的局限性，为未来的对话人工智能领域的改进提供有价值的见解。

Jun, 2024