May, 2024

将实时互动会话建模为定时记录的转录

TL;DR使用预训练的纯文本语言模型,通过建模定时记录的转录文本并使用因果拒绝采样进行解码,我们提出了一种简单但通用的方法来模拟实时互动对话。我们通过两个案例研究(即即时通讯对话和口语交流)展示了该方法的潜力,这些案例研究需要分别以约 30 tok/s 和 20 tok/s 的速率生成文本以保持实时互动。这些功能可以使用相对较少的数据添加到语言模型中,并在商品硬件上运行。