- ACLGOLD: 几何问题解决器与自然语言描述
通过分别处理图形符号和几何基元来增强几何关系的提取,并将提取的关系转化为自然语言描述,从而高效利用大型语言模型解决几何数学问题。实验证明,GOLD 模型在 UniGeo 数据集上表现优于 Geoformer,并分别在计算和证明子集中提高了 - 基于大规模标签解释学习的少样本命名实体识别
利用自然语言描述学习实体类型解释,通过大规模扩展实体类型和描述,可以显著提高零样本和少样本命名实体识别。
- 语言编码:机器学习流水线中的变革性代码生成的协同框架
通过 Linguacodus 框架,将自然语言描述无缝转化为可执行代码,实现了自动化代码生成,为机器学习在各个领域的应用带来了巨大的潜力。
- Couler: 云端统一的机器学习工作流优化
通过使用自然语言描述生成机器学习工作流,Couler 系统实现了云端的统一机器学习工作流优化,并通过自动缓存、自动并行化和自动超参数调整等方式提高了工作流计算效率,降低了冗余计算成本和提高了深度学习工作流训练的容错性。
- 多模态指导的细粒度视觉感知语言模型优化
提出了 AnyRef 模型,它能从多模态参考中生成像素级的物体感知和自然语言描述,从而提供更大的灵活性,超越了文本和区域提示,无需特定的设计。通过提出的重新聚焦机制,生成的定位输出可以更好地聚焦在参考对象上,从而隐含地融入了像素级的监督。该 - EMNLP预测化学结合文本检索
本文研究了在化学领域中使用自然语言描述来增强预测模型。使用文献手动提取的大量结构化数据来训练化学信息模型是传统的方法。本文引入了一种新的方法 TextReact,该方法直接利用从文献中检索到的文本增强预测化学。TextReact 检索与给定 - 从整体和特定区域叙述中综合合成场景图的 GPT4SGG
从自然语言描述中学习场景图已被证明是生成场景图的一种廉价且有前途的方法。为了解决从非结构化标题数据中提取有意义的关系三元组、从解析过的三元组中定位未定位对象的模糊问题以及标题数据的稀疏性和偏向性等问题,我们提出了一个简单而有效的框架 GPT - StyleCap:基于语音和语言自我监督学习模型的自动口语样式字幕生成
StyleCap 提出了一种生成自然语言描述语音中出现的语言风格的方法,通过训练神经网络来预测前缀向量,并使用一个大型语言模型(LLM)的文本解码器从语音表示向量生成说话风格提示。
- 利用声学特性引导音频的情感表示
通过使用自然语言描述和基于声学特性的提示来更好地表示情绪的表达,我们提出了一种方法来自动生成这些提示并训练模型从音频和提示的组合中更好地学习情绪表示。使用声调、强度、说话速度和发音速度等与情绪相关的声学特性自动生成 ' 声学提示 ',通过对 - ICCV面向所有人的漫画:为漫画条目生成易读的文本描述
本文旨在创建对视觉障碍人士可访问的漫画的自然语言描述,方法包括使用计算机视觉技术提取漫画图片的信息以及通过多模态大型语言模型生成描述。通过定量和定性指标测试方法的性能,实验结果令人鼓舞和有前景。
- ICCVMulti3DRefer: 文本描述与多个 3D 对象的关联
我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer,扩展了 ScanRefer 数据集和任务,并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外,我们利用 CLIP - CLIP 引导下的 StyleGAN 反演方法用于文本驱动的真实图像编辑
本文提出了一种新的基于文本的图像编辑方法 CLIPInverter,通过在预训练的 GAN 反演网络中集成轻量级文本适配器层,以目标描述的 CLIP 嵌入为条件进行初始反演步骤的条件化,通过使用 CLIP 引导的细化步骤来对结果残留潜在编码 - ACL基于跨度选择的线性注意力变换器用于有效和健壮的基于模式指导的对话状态跟踪
通过自然语言描述对话模式,采用 SPLAT 模型实现对话状态跟踪,提高泛化性和效率。
- 自动扩展扩散的视觉数据集
本研究介绍了一种基于自然语言描述的图像增广方法(ALIA),通过大规模视觉模型与语言模型的结合,自动生成域名描述,实现对样本数据的增广。该算法有效提高了训练数据的多样性,经过测试在细粒度和复杂分类中表现良好。
- L-CAD: 基于语言的任意级别描述着色
本文提出了一种利用自然语言描述进行基于语言的彩色生成,通过与预训练的跨模态生成模型相结合,实现了对任意级别的颜色描述的处理,能够有效处理复杂环境下的样例感知着色。
- CVPR自然语言描述生成高保真 3D 人脸
本研究提出了一种基于自然语言描述生成高质量三维人脸模型的方法,通过建立 Describe3D 数据集以及使用两阶段框架来解决描述语言空间与形状 / 外观空间映射关系的问题,并且实验结果表明,该方法可以以比以往更高的精度和质量生成符合输入描述 - ICML提纲先行:句法引导的粗到细代码生成
通过提出 ChainCoder 程序合成语言模型,从粗到细地分多步生成 Python 代码,以此缓解编程思考的困难,该模型能与自然语言描述和语法对齐的 I /O 数据样本同时编码,这一方法已超越现有技术,并生成更高质量的解决方案。
- 从自然语言问题描述生成功能正确的代码编辑
本文提出了将自然语言编程描述翻译为正确代码修改的任务 NL2Fix,为此引入了包含高级 Bug 修复描述的 Defects4J-NL2Fix 数据集,并对多种最先进的 LLMs 进行了实证评估,结果表明这些 LLMs 能够对 64.6% 的 - 通过语言进行视觉抽象和推理
本研究提出了一种基于自然语言描述任务的方法框架来解决人工智能中的 Abstraction and Reasoning Corpus (ARC) 问题,虽然尚未击败当前最先进的 DSL 模型,但我们证明了我们的方法具有巨大的潜力,可以解决以前 - 一般编程语言中代码生成的澄清问题
通过收集并提出一个名为 CodeClarQA 的新数据集,研究人员证实使用澄清问题可以有效解决自然语言描述中模糊不清的部分,从而提高生成的可执行程序代码的准确性。