- 零 - shot 实体和关系分类的描述增强
当给定少量标记数据时,零样本学习方法可以利用外部信息(例如文本描述)来对输入文本数据进行实体和关系分类。然而,最近的研究表明这些方法对提供的实体(或关系)描述非常敏感,即使描述的微小修改也可能导致决策边界的变化。本文正式定义了识别零样本推断 - TextGaze: 自然语言驱动的可操控注视生成人脸
本文提出了一种新颖的可控凝视的人脸生成任务,方法使用文本描述输入来生成具有相应凝视特征的人脸图像,并通过面部草图和 3D 人脸模型实现了凝视的文本到人脸的转换。实验证明了方法的有效性,同时作者将提供数据集和代码以供今后研究使用。
- STaRK: 在文本和关系知识库上评估 LLM 检索的基准
回答真实世界中的用户查询,如产品搜索,通常需要从半结构化知识库或涉及混合结构化和非结构化信息的数据库中准确检索信息。我们开发了 STARK,一个基于文本和关系知识库的大规模半结构化检索基准,以填补此间隙,并验证了此基准的质量和实际应用的多样 - 文本引导的图像聚类
通过使用图像标题生成和视觉问答 (VQA) 模型生成文本,并基于生成的文本进行聚类,本研究在八个不同的图像聚类数据集中展示了得到的文本表示经常优于图像特征。此外,我们提出了一种基于计数的聚类解释方法,在聚类准确性不太高的情况下,基于关键词的 - 信贷风险与大型语言模型:从 P2P 贷款的贷款描述中构建风险指标
通过利用借款人在贷款申请过程中提供的文本描述,本文提出了一种新颖的方法来解决信息不对称的挑战。我们运用大型语言模型(LLM)来处理这些文本描述,通过转移学习将 LLM 适应到特定的任务中,从而显著改善信用风险分类器的性能。然而,基于 LLM - 寻找咒语:通过提示工程实现精确的文本到图像扩散合成
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
- iKUN:无需重新训练即可与追踪器对话
通过插入可插拔的知识统一网络 iKUN,本文介绍了一种基于输入文本描述的多目标跟踪方法,其中使用知识统一模块 KUM 来自适应性地提取视觉特征,并引入了神经卡尔曼滤波器 NKF 来动态调整过程噪声和观测噪声,同时提出了测试时相似性校准方法来 - GAvatar:具有隐含网格学习的可动态变形的三维高斯化身
使用高斯飞溅生成逼真的可动化虚拟角色,并通过基于文本描述的图像生成方法,解决了网格或 NeRF 表示所带来的灵活性和效率方面的限制,具有出色的外观和几何质量,并具有极快的渲染速度(100 FPS)以及 1K 分辨率。
- 奇妙之旅:从任何地方到任何地方
模块化的 WonderJourney 框架用于生成连续的 3D 场景,利用 LLM 生成场景的文本描述,使用文本驱动的点云生成流程生成连贯的 3D 场景序列,通过大型 VLM 验证生成的场景,展示了多样化的视觉效果。
- 多模式三维场景理解的最新进展:综合调研和评估
本文对多模态 3D 场景理解的最新进展进行了系统调查,介绍了各种多模态任务的背景和困难,分类了现有方法,并对它们的优势和限制进行了探索,提供了在几个基准数据集上的对比结果和深入分析,最后讨论了未解决的问题并提出未来研究的几个潜在方向。
- ICCVTextPSG: 从文本描述生成全景场景图
从纯文本描述中生成全景场景图,通过区域分组器、实体对齐器、段合并器和标签生成器构建无显式链接、无预定义概念集的场景理解框架,有效地提高了性能和鲁棒性。
- 利用预训练语言模型预测文本增强时序知识图中的时间间隔
我们提出了一种名为 TEMT 的新框架,利用预训练语言模型(PLMs)来增强文本的时间性知识图谱完成。TEMT 利用存储在 PLM 参数中的知识,能够产生丰富的事实语义表示,并且对以前未见过的实体进行推广。TEMT 将 KG 中的文本和时间 - GPT-MolBERTa: 用于分子性质预测的 GPT 分子特征语言模型
利用自然语言处理模型 GPT-MolBERTa,通过分析分子的详细文本描述来预测其性质,并展示模型的可解释性。
- ICCV语言作为媒介:通过仅文本进行多模态视频分类
通过利用大型语言模型(如 GPT-3.5 或 Llama2)的广泛知识,结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述,我们提出了一种新的模型不可知方法,用于生成捕捉多模态视频信息的详细文本描述。 - ICCV关注词语和要点:文本到形状协调性的基准测试
自动改进与形状关联的文本描述以及通过交叉注意机制,提出了一个量化指标来评估文本与形状的一致性,并通过用户研究和现有指标的比较来验证提出方法,从而构建了一个新的细粒度基准,推动文本条件下的三维生成模型的研究。
- ICML用多模态对比学习从自然语言中提取分子性质
将自然语言和图形表示相结合,通过对齐神经图形表示和特性文本描述的表示,提高了下游分子属性分类任务的性能,实现了与仅以图形方式进行预训练的模型相比的 + 4.26% AUROC 的增益,并相对于最近提出的分子图 / 文本对比训练的 MoMu - GUIDO: 从自然语言文本中发现和排序指南的混合方法
通过使用 BERT-based 句子分类器和依存句法分析,本文提出了一种名为 GUIDO 的混合方法来提取处理模型,取得了较纯粹基于规则的方法显著更好的结果,平均行为相似度得分为 0.93,并且相比于纯机器学习方法,标注成本低。
- CrysMMNet: 晶体属性预测的多模态表示
本研究提出了一种多模态框架,该框架将结构数据和文本描述结合起来进行分析,以更好地对材料进行建模并预测其性质。
- 扩展 GUI 原型设计的扩散模型
本文提出了一种利用 Stable Diffusion 生成移动 UI 界面的方法,从而通过文本描述和 UI 组件来提高 GUI 原型设计的效率和速度。
- 基于先验知识引导的文本 - 三维生成模型
本文提出一种新颖的文本生成 3D 模型方法(T2TD),通过引入相关形状或文本信息作为先验知识来提高 3D 模型生成模型的性能,并采用多层变压器结构逐步融合相关形状和文本信息,证明了该方法在 3D 模型生成质量上显着提高,且表现优于现有文本