- 再认对齐的奇特案例:揭示紧急通讯中的视觉语言任务
自然语言有组成性和现实联系的普遍特性。通过模拟涉及指称游戏的新兴交流,研究人员经常研究语言特性的出现。然而,相较于探索人类语言语言特性的类似实验,这些实验的结果并不一致。我们在这里考虑了表征对齐作为这些结果的一个潜在因素。具体而言,我们评估 - LAMBDA:一个基于大型模型的数据代理
LAMBDA 是一种新型开源的、无代码的多智能体数据分析系统,通过使用创新设计的数据智能体,循环生成自然语言的代码,结合人工智能,并且具备知识集成机制,能够提供个性化数据分析,增强数据科学实践和分析范式的执行效率。
- IDAT:用于构建和评估交互式任务求解智能体的多模态数据集和工具包
利用自然语言实现人工智能代理与人类之间的无缝交互仍然是人工智能研究的一个关键目标。本文通过 NeurIPS 的 IGLU 竞赛,解决了开发能够理解和执行基于自然语言的指令的交互式代理的挑战。尽管取得了进展,但仍存在着适当数据集的稀缺性和有效 - 用于对话式数据探索的表格数据自动生成问题
以自然语言为基础的对话式数据探索系统,通过选择感兴趣的列和识别有趣的数据切片,并利用自己微调的预训练语言模型 (T5) 生成相关的自然语言问题来向用户推荐问题,展示了在真实数据集的对话设置中该系统的实用性。
- 用大型语言模型解决一般的自然语言描述优化问题
使用 OptLLM 框架,将自然语言查询转化为数学问题,并使用外部求解器进行决策,提供多轮对话支持优化问题的建模和求解。实验证明 OptLLM 在各种 LLM 上有效,并且经过精调的模型相对于基于提示的模型具有更高的准确性。
- 面向策略学习的文本感知扩散
使用文本条件的扩散模型进行密集的无示范奖励信号计算,以从自然语言中学习零样本目标实现和持续运动行为的策略学习,并在机器人操纵任务中竞争性表现。
- DTGB:用于动态文字属性图的综合基准
动态文本属性图(DyTAGs)广泛应用于各种真实场景,在其中每个节点和边缘都与文本描述相关联,且图结构和文本描述均随时间变化。为了填补这一空白,我们介绍了动态文本属性图基准(DTGB),这是一个从不同领域的大规模、时间演化的图集合,其中的节 - 动态词:运动预测的表征工程
通过自然语言将运动特征量化为可解释的方式,并测量其在隐藏状态中的嵌入程度,从而使我们能够控制基于 Transformer 的运动预测模型的文本输入,为与这些模型进行交互和理解提供独特的界面。
- 基于文档的知识发现与微服务架构
基于微服务架构的知识发现中的关键挑战和应对方法,包括数字化、关键词提取、文档相似度计算、自然语言数据库查询以及独立提供抽取的信息,还提供了相应的参考设计指南。
- CVPR以语言为驱动的抓取检测
本论文介绍了 Grasp-Anything++,一种新的以自然语言为驱动的抓握检测数据集,包含超过 100 万个样本、300 多万个物体和 1000 万个抓握指令。我们提出了基于扩散模型的新型语言驱动抓握检测方法,通过对抓握指令进行去噪处理 - 大型语言模型与以文本为中心的多模态情感分析:调查
与传统情感分析相比,多模态情感分析需要同时考虑来自多模态源的情感信号,它更符合人类在现实场景中处理情感的方式。本文综述了近期文本为中心的多模态情感分析任务中的研究,审视了大型语言模型在文本为中心的多模态情感分析中的潜力、方法、优势和局限性, - 语言引导的技能发现
使用大型语言模型的语义知识,Language Guided Skill Discovery (LGSD) 基于用户提示输出一组语义上独特的技能,使得四足机器人能够通过改变提示在平面上访问不同的用户预期区域,并且在机器人运动和操作环境中,与五 - 大型视觉语言模型对图表理解和推理的挑战:LVLM 的能力与限制的广泛调查
本研究通过对大型视觉语言模型(LVLMs)的全面评估,揭示了它们在图表理解和推理任务中的优势和局限性,并提供了未来研究的启示。
- 视频 - 语言评论家:用于语言条件机器人的可转移奖励函数
基于视频 - 语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在 Meta-World 任务中,通过在 Open X-Embodiment 数据上训练奖励模型, - ParSEL: 带有语言的参数化形状编辑
通过自然语言请求,ParSEL 系统能够有效地实现对 3D 对象的可控制编辑,通过生成参数化的编辑程序,用户可以准确控制编辑操作的大小,通过整合计算机代数系统进行几何分析,AEP 算法能够搜索与各种可能用户编辑兼容的分析编辑操作,从而生成完 - HecVL:零样本手术阶段识别的分层视频语言预训练
通过使用自然语言实现手术模型的普适性训练,本研究提出了一种名为 HecVL 的新型分层视频 - 文本预训练方法,其中通过构建层次化的视频 - 文本配对数据集,通过剪辑级、阶段级和视频级的文本信息学习了多模态嵌入空间,并使用对比学习的框架进行 - ACL语言模型是否捕捉隐含的话语意义?对韩语形态学的穷尽义务暗示进行的调查
韩语中的不同对象标记具有语义特征和与语义特征正交的话语特征,我们评估大规模语言模型是否能够将话语意义与韩语中的不同对象标记相关联,结果表明语法标记的话语意义比话语标记更具挑战性。
- MMCoRE: 使用 LLM 作为自然语言编程、 伪代码编程和 AI 代理的流程编程的解释器
开发了一种使用大语言模型 (LLM) 作为解释器来解释和执行自然语言指令的 Code Representation and Execution (CoRE) 系统,统一了自然语言编程、伪代码编程和流程编程。
- 基于 LLM 的习得函数的贝叶斯优化在自然语言偏好了解中的应用
设计一个基于贝叶斯优化框架的自然语言查询方法,通过与用户进行对话来主动获取自然语言反馈,以减少对项目效用的不确定性,从而识别出最佳推荐。
- 关于基于嵌入的方法在代码生成中测量功能正确性的局限性
使用嵌入式度量指标如 CodeBERTScore 来测量功能正确性和编辑工作量的能力分析。