- LaDiC:扩散模型在图像生成的文本方面真的不如自回归模型吗?
Diffusion models have the potential for enhancing image-to-text generation and surpass Auto-Regressive models by introdu - HAC:基于哈希网格辅助的三维高斯点云压缩
通过建立二进制哈希网格以揭示锚点的内在空间关系,我们提出了一种哈希网格辅助的上下文(HAC)框架,实现高度紧凑的 3D 高斯填充(3DGS)表示,从而在与原始 3DGS 相比显著减小尺寸超过 75 倍的同时,提高保真度,并在与最先进的 3D - 视觉语音与语言的交汇点:高效和上下文感知的视觉语音处理框架 (VSP-LLM)
该论文提出了一种新的框架 ——Visual Speech Processing incorporated with LLMs (VSP-LLM),通过引入 LLMs 的强大能力,最大化了上下文建模能力。在 MuAViC 基准测试数据集中,经 - 基于自然语言的 LLMs 上下文建模与推理:教程
利用大型语言模型,我们展示了利用文本、提示和自主代理让模型进行上下文建模和推理的计算范式,即基于大型语言模型驱动的上下文感知计算。
- 双对齐下的上下文感知视觉 - 语言模型提示调优
利用双重对齐提示调整 (DuAl-PT),结合大规模视觉语言模型和预训练大型语言模型,在少样本识别和基于新样本泛化上取得了卓越的性能,为未来研究提供了强有力的基准。
- 基于智能手机嵌入式传感器数据的用户社交环境和熟悉场所的设备端建模
该论文提出了一种基于移动设备的无监督轻量级方法来直接模拟用户的社交上下文和位置,该方法利用了自我网络模型,对智能手机嵌入式传感器数据提取高级别的语义上下文特征,在社交上下文方面,该方法利用了在用户和设备之间的物理和网络社交互动的数据,对于位 - ICCV基于关键点的视频理解中,学习更高阶的物体交互
本文介绍了一种名为 KeyNet 的行动定位方法,仅利用基于目标的关键点数据来捕获场景中的上下文,从而在不使用任何 RGB 信息的情况下从对象和人类关键点中建立结构化中间表示,演示了如何从对象关键点中建模以恢复使用 AVA、动力学数据集上的 - 针对方面的情感分析的方面特定的上下文建模
该研究旨在使用预训练语言模型(PLMs)建模特定方面的情感,通过提出三种基于方面的输入转换(即:方面伴侣、方面提示和方面标记)来促进 PLM 更好地关注特定方面的上下文,并在对 SC 和 OE 的标准和对抗性基准测试中,实现了最新的最佳结果 - ACL基于情感胶囊的对话情感识别模型
该研究提出了一种名为 Emoformer 的新结构,用于从不同的情境中提取情感向量,并将其与句子向量融合为情感胶囊,从而有效地提取多模态信息和话语的情感倾向。此外,他们还设计了一种名为 EmoCaps 的端到端 ERC 模型,该模型通过 E - 多轮对话中的对比学习句子重写
该论文介绍了如何使用对比学习和多任务学习相结合的方法来提高上下文建模中的缺失语句重写系统的目的。实验表明,该方法在几个公共数据集上均达到了最先进的性能。
- AAAIOctAttention:面向点云压缩的基于八叉树的大规模上下文模型
本文提出了一种基于 Octree 结构的多上下文深度学习框架 OctAttention,通过对兄弟和祖先节点信息的聚合来实现对点云分布的无损编码,用于进行点云的压缩和语义分割等处理,在仿真和真实场景验证中都显示出较高的性能和效率。
- Pale Transformer:一种具有 Pale 形状注意力的通用视觉 Transformer 骨干
本研究提出一种 Pale-Shaped self-Attention(PS-Attention)以及基于此的层次结构的通用视觉 Transformer 骨干,称为 Pale Transformer,通过使用 paleshaped(类似淡色的 - Fastformer:加性注意力足矣
本文介绍了 Fastformer 模型,这是一种基于加法注意力的高效 Transformer 模型,与现有的 Transformer 模型相比,它可以更有效地建模长文本,并且具有线性复杂度。
- 基于金字塔结构的高效统一 Transformer 语义分割模型
本文提出了一种统一的框架(UN-EPT)来解决复杂场景中的语义分割问题,该框架综合考虑了上下文信息和边界伪影。该模型采用了稀疏采样策略来提高上下文建模的效率,并引入了单独的空间分支来捕捉图像细节,整个模型可以端到端地训练。该方法在三个常用的 - ACL检测先前事实核查声明中上下文的作用
本研究关注于政治辩论中的言论,并研究了对言论进行上下文建模(涵盖辩论和事实核查解释文档)的影响。实验结果表明,建模辩论方面的上下文最为重要,可以比现有的先进模型提高 10 个百分点以上。
- 通过压缩推理实现高效场景理解
本文提出了一种称为 Squeeze Reasoning 的新框架,用于增强卷积神经网络中的上下文建模能力,有效地解决了像非本地块这样的图卷积模型的像素级计算开销过高的问题,该方法在不同的语义分割数据集上实现了显著的结果,并且在物体检测,实例 - 高效的神经网络查询自动完成
本文提出了一种高效的神经网络查询自动完成系统,利用有效的上下文建模和非标准化语言模型,在生成候选项和排名候选项时实现较好的性能,可用于改进用户搜索体验。
- 学习基于上下文的非局部熵建模用于图像压缩
本文提出了基于全局相似性的非局部关注块来进行上下文建模,在熵编码中应用该方法,进而在联合速率失真优化中引导分析转换与合成转换网络的训练,并最终使用 U-Net 块增加转换的宽度,从而在 Kodak 和 Tecnick 数据集上实现了超越现有 - IJCAI我们距离有效的语境建模还有多远?关于上下文语义解析的探索性研究
本文对语境建模方法在真实语义解析中的应用进行了探究,并提出了一种基于语法解码的语义解析器,适用于各种复杂领域。我们评估了 13 种语境建模方法,分析了最常见的语境现象,发现最佳模型在两个大型跨领域数据集上都取得了最先进的性能表现。
- ACL多模态数据自适应融合技术
本研究提出了两种自适应融合网络(Auto-Fusion、GAN-Fusion),通过对不同模态的特征进行有效的上下文建模,在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。