- 每句话都实现基础:通过交替引用 - 索取生成提升检索增强 LML 模型
本文介绍了一种名为 ReClaim (Refer & Claim) 的细粒度 ATG 方法,该方法与传统的粗粒度属性不同,允许模型在长篇问答任务中为每个回答句子添加句级细粒度引用,通过逐步生成引用和答案来提高大语言模型在知识密集型任务中生成 - 细粒度多页文档理解的任意焦点
本文提出了一种名为 Fox 的高效流水线、混合数据和调优策略,以推动 LVLM 在单页 / 多页文档上的细粒度文档理解,引入新颖任务以提升文档理解,并通过多模式视觉词汇和跨视觉数据的应用来实现多种视觉词汇和文档内图像理解的全面反应。
- 基于草图的图像检索的双模态提示
在本研究中,我们提出了一种双模态的提示 DP-CLIP 网络,通过采用自适应提示策略,以有效地适应新类别并捕捉每个目标类别内的独特鉴别线索,从而实现了在零样本和细粒度领域内的检索任务的创新。
- 广义零样本学习的双重专家蒸馏网络
通过引入 Dual Expert Distillation Network (DEDN) 方法以及 Dual Attention Network (DAN) 骨干网络,该研究在视觉属性建模方面实现了新的最先进水平。
- 利用 2:4 稀疏加速 Transformer 预训练
使用 NVIDIA Ampere GPU 利用 2:4 稠密 / 稀疏矩阵相乘的性质对 Transformer 的预训练进行加速,通过修改稀疏优化过程中的估计器和在预训练末端进行简单而有效的稠密微调,以及利用卷积计算可转置的 2:4 掩码和 - 通过识别语义方向在 T2I 模型中实现连续、个体化的属性控制
通过观察在常用的基于标记级别的 CLIP 文本嵌入中存在与高级属性进行主题特定的精细控制的方向,我们提出了一种有效的无优化方法和一种稳健的优化方法,以从对比文本提示中识别出特定属性的这些方向。我们演示了这些方向可以用于以组合方式增强提示文本 - 细粒度文本分类模型和数据集的视觉分析
通过 SemLa,我们设计了一种专门用于细粒度文本分类的视觉分析系统,可以揭示数据集中的语义结构并可视化文本样本的微妙差异,从而解释模型的推理过程。
- 量化语言中的刻板印象
本文通过注释数据集来量化语言中的刻板印象,并使用预训练语言模型来预测句子的刻板印象。然后,探讨刻板印象与仇恨言论、性别歧视、情感以及弱势和优势群体等常见社会问题之间的联系和差异,并验证了当前研究的总体发现。此外,本研究表明,细粒度的刻板印象 - ICLREmerDiff:扩散模型中的新兴像素级语义知识
使用稳定扩散模型从特征图中提取语义信息,构建高分辨率细分割地图,以展示像素级语义知识的存在。
- EMNLPMultiCoNER v2: 用于细粒度和嘈杂的命名实体识别的大型多语言数据集
我们提出了 MULTICONER V2 数据集,这是一个用于细粒度命名实体识别的数据集,涵盖了 12 种语言中的 33 个实体类别,在单语和多语环境下使用。该数据集的目标是解决 NER 中的实际挑战,包括有效处理包括电影标题等复杂实体的细粒 - MM一个面向细粒度情感分析的多层次韵律模型
该研究通过从上下文级别的文本中预测适合的韵律特征,提出了一种多尺度文本韵律模型(D-MPM),该模型利用多尺度文本预测这些韵律特征,从而指导语音合成模型合成更具表现力的语音。
- ACL阅读小说时虚构人物性格理解
这篇论文介绍了一个名为 PersoNet 的数据集,该数据集是研究角色个性的第一个标记数据集,并且通过在线阅读应用程序中用户笔记的注释策略进行了标注。实验和人类研究表明,我们的数据集构建既高效又准确,并且我们的任务需要长期的上下文才能为机器 - ACL精细视觉语言理解进展的衡量
本文通过对四个具有挑战性的细粒度基准进行实验研究,发现 X-VLM 是最好的模型,同时强调新的损失函数和丰富的数据源对于学习细粒度技能非常重要。
- ACLSemEval-2023 任务 2: 细粒度多语种命名实体识别(MultiCoNER 2)
该研究介绍了 SemEval-2023 Task 2 的发现,该任务主要聚焦于跨越 12 种语言的复杂名词实体的识别方法(如 WRITTENWORK,VEHICLE,MUSICALGRP),并研究了如何在单语和多语境以及噪声情况下实现。Mu - AAAI基于组合神经辐射场的语义三维感知人像合成与操作
通过分割语义区域并利用神经辐射场学习各自的辐射场,最后合并成完整图像,CNeRF 方法可以实现细粒度的语义区域操作,同时维持高质量的 3D 一致合成。
- 细粒度时尚检索的属性引导多级注意力网络
本研究提出了一种属性引导的多层注意力网络(AG-MLAN),能够在指定属性的引导下更准确地定位属性位置和捕捉区分性特征,并通过对深度时尚、FashionAI 和 Zappos50k 数据集上的实验验证了其在细粒度时尚相似度学习和属性引导检索 - SelF-Eval: 自监督细粒度对话评估
本文提出了一个新颖的自监督细粒度对话评估框架 SelF-Eval,该框架的核心思想是建立对话质量和对话中每个交互回合质量之间的相关性模型。采用多级对比学习架构训练 SelF-Eval,并提出一种可自动分配细粒度分数的对话数据构建方法,实验结 - CVPR增强的细粒度人体动作识别的联合 CNN Transformer 编码器
本文研究了基于视觉编码器和多模式视频文本交叉编码器的两个框架,通过结合 CNN 视觉和 Transformer 编码器,增强了细粒度行动识别的效果,并在 FineGym 基准数据集上取得了最新的最优性能。
- MACSA: 一个多模态的方面 - 类别情感分析数据集,包含多模态细粒度对齐注释
本研究提出了 Multimodal Aspect-Category Sentiment Analysis (MACSA) 数据集,其中包含了超过 21K 个文本 - 图像对,提供了针对文本和视觉内容的细粒度注释,并首次使用 aspect c - 自适应双向注意力:探索多粒度表示进行机器阅读理解
本文介绍了自适应双向注意力(Adaptive Bidirectional Attention)模型用于机器阅读理解(Machine Reading Comprehension)中,通过利用不同层次的源表示来提高预测的精度并且在 SQuAD2