使用 clasp 进行多线程 ASP 求解
本文介绍了一种名为 Contrastive Language, Action, and State Pre-training (CLASP) 的方法,采用分布式输出使文本命令和行为单元之间的对齐变得更加准确,从而帮助了解决机器人学习中的相关问题。该模型在对未知数据集进行检索和图像描述生成等任务中表现出了优秀的性能。
Apr, 2023
该研究提出 GRASP,这是一个用于评估基于视频多模式大型语言模型(LLMs)的语言理解和物理理解能力的新的基准。通过利用 Unity 模拟技术,这一评估通过两级方法完成。初始级别测试语言理解能力,通过评估模型将简单文本描述与视觉信息联系起来的能力。第二级别评估模型对直观物理原理(如物体的永恒性和连续性)的理解能力。除了发布基准系统,研究还使用它来评估几种最新的多模式 LLMs。我们的评估揭示了当前模型在语言理解和直观物理方面的重大缺陷。这些发现的限制凸显了像 GRASP 这样的基准对于监测未来模型在这些能力上的进展的重要性。
Nov, 2023
研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性,得到一个高效模型 ——tinyCLAP,该模型仅使用原 Microsoft CLAP 参数的 6%,在测试的三个声音事件检测数据集上,零样本分类性能仅降低不到 5%。
Nov, 2023
利用对二进制代码进行对比学习,提高其在迁移学习中的性能,通过对齐二进制代码和自然语言解释来生成更好的嵌入表示,而无需特定任务的训练。
Feb, 2024
提出一种基于自然语言监督学习的音频概念学习方法 CLAP,通过两个编码器和对比学习将音频和文本描述连接到多模态空间中,从而实现了零样本性能,其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。
Jun, 2022
本文提出了一个利用 prompt-based fine-tuning 的 Guiding model with RelAtional Semantics (GRASP) 方法,在不添加额外层次的情况下,通过一种关注 argument 的 prompt 标记策略和关系线索检测任务,从语料库中提取出相关语义线索,并在 DialogRE 数据集上实现了 F1 和 F1c 得分的最先进性能。
Aug, 2022
该论文提出了 AdaGrasp 方法,通过使用大量的末端执行器、模拟训练以及视觉观察来学习一种单一的抓取策略并解决机器人在处理碎片化视角和杂乱无章的环境中遇到的挑战。
Nov, 2020
这项研究关注于在人类中心环境中操作的机器人,通过整合视觉定位和抓握能力,根据用户指令高效操纵物体。首先创建了一个基于 OCID 数据集中杂乱室内场景的难题基准,其中生成指代表达式并与 4 自由度的抓握姿势相连接,然后提出了一种新颖的端到端模型(CROG),利用 CLIP 的视觉定位能力直接从图像 - 文本对中学习抓握综合。实验结果表明,CROG 在挑战性基准测试中显著改善了定位和抓握能力,经过模拟和硬件的广泛机器人实验证明了该方法在具有杂乱物体的挑战性交互抓握场景中的有效性。
Nov, 2023
使用大型语言模型和混淆策略生成音频剪辑的时序对比性描述,并设计新的时序对比损失函数来改进对比性语音 - 文本预训练模型 (T-CLAP),结果在多个下游任务中显示出更强的捕捉音频事件时序关系的能力并显著超越了最先进的模型。
Apr, 2024
我们提出了一种新颖的方法 - CLAA - 用于 API 审查中的 API 方面检测,该方法利用了经过监督对比损失目标函数训练的 Transformer 模型。我们使用性能和影响分析来评估 CLAA。性能分析方面,我们利用了从 Stack Overflow 收集的开发者讨论的基准数据集,并将结果与最先进的 Transformer 模型进行比较。我们的实验表明,对比学习可以显著提高 Transformer 模型在检测性能、安全性、可用性和文档等方面的性能。在影响分析方面,我们进行了经验和开发者研究。在随机选择和手动标记的 200 个在线评论上,CLAA 的准确率达到 92%,而 SOTA 基线的准确率为 81.5%。根据我们涉及 10 位参与者的开发者研究,使用 “Stack Overflow + CLAA” 在 API 选择过程中提高了准确性和信心。
Jul, 2023