LLMs 是优秀的动作识别器
本研究提出了一种基于骨架的动作识别的语言监督训练方法。该方法利用了大规模的语言模型作为知识引擎,生成描述动作的文本描述,为不同的身体部位生成特征向量,并通过语言编码器监督骨架编码器进行动作表示学习,相对于其他模型,达到了新的技术水平。
Aug, 2022
使用大型语言模型(LLMs)作为多个专家代理系统,通过在零样本、少样本、上下文引导提示的情况下启动 LLMs 的灵活性,我们试图解决抽象和推理语料库(ARC)挑战。通过将输入图像转换为多个适合的基于文本的抽象空间,我们利用 LLMs 的联想能力推导出输入输出关系,并将其映射到工作程序形式的行动,类似于 Voyager / Ghost in the MineCraft。此外,我们使用迭代环境反馈来指导 LLMs 解决任务。我们的方法在训练集问题的 111 个问题中实现了 50 个解决方案(45%),仅使用三个抽象空间 - 网格、对象和像素。我们相信通过更多的抽象空间和可学习的行动,我们将能够解决更多问题。
Oct, 2023
本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务,并提出了一种条件方法,将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明,该方法在可执行性方面显著优于大型语言模型基线。
Jan, 2022
这篇论文介绍了一个严格设计的框架,用于创建能够有效锚定知识并采用闭环推理过程的大型语言模型,以提升其进行深入分析的能力,同时解剖了该框架的组成部分对模型性能的贡献,从而为改进推理能力提供了理论保证。
Nov, 2023
大语言模型(LLMs)与知识表示学习(KRL)的整合标志着人工智能领域的重要进展,增强了捕捉和利用复杂知识结构的能力,这种协同作用利用了 LLMs 的高级语言和语境理解能力,提高了 KRL 的准确性、适应性和有效性,从而扩大了其应用和潜力。尽管越来越多的研究关注将 LLMs 嵌入知识表示领域,但对这些增强模型的基本组件和过程的全面回顾明显缺失。我们的调查通过对这些模型进行基于三种不同 Transformer 架构的分类,并分析来自各种 KRL 下游任务的实验数据,评估每种方法的优点和缺点。最后,我们确定并探索这个新兴但未充分开发的领域的潜在未来研究方向,提出了持续进展的路径。
Jul, 2024
本文概论了基于大型语言模型的推荐系统,提出了两种主要类型(分别为判别型 LLM 推荐 DLLM4Rec 和生成型 LLM 推荐 GLLM4Rec),分别从方法、技术和性能等方面对现有的 LLM 推荐系统进行了系统的分类和评估,并指出了主要挑战和有价值的发现。
May, 2023
人类与动物之间的区别在于人类可以使用和创造工具,而使大型语言模型具备学习外部工具使用的能力可以成为实现人工智能的重要一步。本研究引入了一种新的工具调用管道,设计用于控制庞大的真实世界应用程序接口,通过 ` 从摘要到行动 ' 的 Sum2Act 管道,在复杂的真实用户查询中模拟人类解决问题的过程,从而提高了大型语言模型的性能,优于现有的方法。
Feb, 2024
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。
Jul, 2023