OrchestraLLM: 较高效的对话状态跟踪语言模型编排
本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力,发现在显式信仰状态跟踪方面,它们表现不如专门的任务特定模型,但是如果给出正确的插槽值,它们表现出将对话引导到成功结局的能力,并且在有真实信仰状态分布或域内示例的情况下,这种能力得到了改进。
Apr, 2023
该论文探讨了使用大型语言模型(LLMs)进行自动对话质量评估的方法,并在公共和专有数据集上尝试了各种配置。结果表明,更大的模型产生了更准确的对话标签;算法选择背景上下文示例优于随机选择;在输出最终标签之前,使用 “思维链”(CoT)推理和标签提取过程进行合理化,可以提高性能;精细调整的 LLMs 优于开箱即用的模型。研究结果表明,合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。
Jun, 2024
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
使用多模态信息、上下文和情感知识调整的对话型大型语言模型 (DialogueLLM),通过对 13,638 个多模态(文本和视频)情感对话进行微调,克服了大型语言模型在情感识别方面的局限性,并在三个基准情感对话识别数据集上进行了全面评估。
Oct, 2023
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
使用 Small and Large Integrated for Dialogue Evaluation(SLIDE)框架,结合小型专门模型(SLM)和大型语言模型(LLMs)来解决开放领域对话系统中的一对多问题和领域特定场景下的性能不佳问题。该方法通过对比学习、语义敏感度度量和结合 SLM 和 LLMs 的评估结果等技术,实现了分类和评估任务的最新性能,并且 SLIDE 评估器与人工判断更好地相关。
May, 2024
使用大型语言模型(LLMs)辅助人类客服代理商自动生成现成或有改动的响应已成为许多公司降低雇用客服代理商成本的方式。本文通过使用成本框架评估一个 NLP 模型的实用性,将其应用于特定品牌的案例研究并比较三种 LLM 的专业化策略,发现模型的响应可用性可以补偿推理成本的巨大差异,并将研究结果推广到更广泛的企业领域。
Jun, 2023