StyleChat: 基于 LMM 的记忆式学习在风格化对话生成中的应用
本文利用大型语言模型(LLM)通过个性化对话生成,基于个人特点和人格特质创建了一个合成对话数据集,从而证明了个性化对话模型和与 PersonaChat 相比的表现优势。
Jan, 2024
在口语对话中,即使两个当前对话相同,它们的回应在不同的语言风格中可能仍然不同。这篇论文提出了一种 Spoken-LLM 框架,旨在教导 LLMs 理解和适当回应不同的语言风格,并使用 StyleTalk 数据集进行训练,通过两个阶段的训练使 Spoken-LLM 更好地学习语言风格,实验证明 Spoken-LLM 表现优于纯文本基准和先前的语音 LLMs 方法。
Feb, 2024
该论文探讨了使用大型语言模型(LLMs)进行自动对话质量评估的方法,并在公共和专有数据集上尝试了各种配置。结果表明,更大的模型产生了更准确的对话标签;算法选择背景上下文示例优于随机选择;在输出最终标签之前,使用 “思维链”(CoT)推理和标签提取过程进行合理化,可以提高性能;精细调整的 LLMs 优于开箱即用的模型。研究结果表明,合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。
Jun, 2024
在第二语言学习中,基于情景的对话实践对于语言学习者实现口语流利至关重要,本文提出了基于情境的对话模型,通过在大型语言模型(LLMs)上进行微调,旨在结合开放式对话的吸引力和基于情景任务的集中练习。利用 LLMs 的泛化能力,我们证明了我们的情境对话模型在训练话题和未遇到的话题上都有效,为支持广泛的会话主题提供了有希望的解决方案。此外,对话系统领域的研究仍缺乏可靠的自动评估指标,引发人工评估作为黄金标准(Smith 等,2022)的问题,而且通常成本较高。为了解决现有评估方法的局限性,我们提出了一种新颖的自动评估方法,利用经过微调的 LLMs 来高效而有效地评估情境对话模型的性能。
Mar, 2024
本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力,发现在显式信仰状态跟踪方面,它们表现不如专门的任务特定模型,但是如果给出正确的插槽值,它们表现出将对话引导到成功结局的能力,并且在有真实信仰状态分布或域内示例的情况下,这种能力得到了改进。
Apr, 2023
通过使用基于 LLM 的代理体系结构和将对话与人物和时间事件图进行关联,我们介绍了一个机器 - 人类管道来生成高质量的非常长期的对话,并通过人类注释者对其进行检验和编辑,以确保其长程一致性和对事件图的关联。通过这个管道,我们收集了一个包含 300 个回合和平均 9K 个记号的非常长期对话的数据集。基于该数据集,我们提出了一个全面的评估基准来衡量模型中的长期记忆,在问题回答、事件摘要和多模态对话生成任务方面。我们的实验结果表明,LLM 在理解冗长对话和理解对话中的长程时间和因果动态方面存在挑战。使用长上下文 LLM 或 RAG 等策略可以提供改进,但这些模型仍然远远落后于人类的性能。
Feb, 2024
大型语言模型在会话摘要方面的能力有待探索,本研究评估了使用大约 100 亿个参数的语言模型在会话摘要上的性能,展示了其对各种提示的表现,并且证明了模型生成的摘要取决于指令,LLMs 在不同指令下的性能差异,如果提示选择不当,有时会导致 ROUGE 分数的显著下降,还通过人工评估对模型进行了评估,并讨论了模型在会话摘要方面的限制。
Nov, 2023
最近大型语言模型(LLMs)的出现吸引了相当多的注意力。本研究提出利用对话摘要任务评估对话理解性能,并从生成的摘要中推导出事实性问题作为对话理解的更灵活的测量方式。评估结果表明,大多数 LLMs 生成的摘要中有 27% 的事实不一致,即使最强模型 ChatGPT 也有 16% 的错误摘要,而对于更具挑战性的事实问题回答,所有评估的 LLMs 的平均准确率仅为 62.8%。详细分析表明,LLMs 对话理解能力中最令人挑战的问题仍然是对话的主题 / 客体的理解,为了刺激和提高 LLMs 对话理解能力,我们提出了一种通过自动构建多任务数据进行微调的范式,实验结果显示我们的方法在 DIAC-FactQA 上获得了 8.9% 的准确率提升。
Nov, 2023
本研究使用提示技术,对大量文本进行文体分析,得到了一组可解释的文体表示方法 LISA embeddings,为解决当前使用神经网络进行文体表示学习所面临的可解释性困境提供了新的解决方案。
May, 2023