大型语言模型是假定的语义基础还是猜测?
这篇实验研究分析了信息寻求对话中大型语言模型在分类明示或隐含对话转换以及预测对接知识元素方面的能力,并揭示了大型语言模型在这两个任务中遇到的挑战,讨论了通过流程架构和知识库改进大型语言模型的对话接地理解的研究工作,在对话中处理对接知识的复杂性方面,旨在开发更加有效的对话系统。
Jun, 2024
大型语言模型的可靠性和控制性方面的关键问题是如何通过知识增强模型进行接地,该研究提出了一种严格的接地定义,并引入新的数据集和接地度量标准来评估该定义,通过实验对 13 种不同大小和训练方法的大型语言模型进行研究,以提供改进接地能力的见解。
Nov, 2023
对于 LLMs 的研究表明它们具有语义基础和生成文本的意义理解能力,并且通过应用心灵哲学和语言的含义理论的核心假设,发现 LLMs 在功能性、社会性和因果性的语义基础中都呈现基本证据,并发展出世界模型。因此,LLMs 并非随机模仿者或语义僵尸,而至少在初级情况下已经理解了它们所生成的语言。
Feb, 2024
大型语言模型(LLMs)显示出它们在人类世界的丰富语义知识方面的强大自动推理和规划能力。然而,接地问题仍然阻碍了 LLMs 在真实环境中的应用。为了自主将 LLM 接地到环境中,我们提出了自主驱动接地(SDG)框架,用于自动和渐进地通过自主驱动技能学习将 LLM 接地。通过在著名的指令遵循任务集 - BabyAI 中进行验证,SDG 在最具挑战性的任务中达到了与成百上千次演示成本的模仿学习方法相媲美的性能,证明了学习到的技能的有效性,显示出我们框架的可行性和效率。
Sep, 2023
这篇论文关注通过一种名为 AGREE 的新框架,综合地改善大型语言模型在真实世界中的应用,以解决其生成的 “幻觉” 答案不符事实的问题。通过在生成的自身立足回答中考虑所生成的支持信息,设计了一种迭代的测试时间调整能力来有效实现该框架,并通过提供引用来调整大型语言模型对检索文档中主张的立足。结果表明,基于调整的 AGREE 框架相较于基于提示的方法,生成了更好的基于立足的回答和更准确的引用。
Nov, 2023
通过冻结已训练好的 Large Multimodal Models(LMMs)并结合人机对话,我们提出了一种简单且有效的设计 F-LMM,可以在完全保留 LMMs 的通话能力的同时,在指示物镜分割和全景叙述理解等测试中实现有竞争力的性能。
Jun, 2024
本文介绍了一个新颖的大型语言模型(LLM),在混合主动对话环境中对话,并通过制定规程计划引导用户,并在需要时激活安全保障措施。实验结果表明,该模型取得了 2.1 倍的改进,并在未知领域中显示出良好的泛化能力。
Feb, 2024
此研究提供了通过使用对话中的对接行为和对接单元进行标注的两个对话语料库及其对接程度的度量,以测试当前的语言模型在对话的对接行为分类中的性能,并旨在进一步研究使与机器的对话更易理解和更可靠的资源。
Mar, 2024
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
本论文提出了一种利用大型语言模型进行机器人交互的方法,用于解决理解语义知识和实现机器人任务之间的矛盾问题,其中引入了基于概率过滤的策略来采用语言模型和基于物理环境的模型两者的优势,通过指导解码策略可以实现复杂的机器人长视程任务。
Mar, 2023