- LLaVolta: 通过分阶段视觉上下文压缩实现高效多模态模型
通过对视觉标记和训练效率的分析研究,提出了一种名为 Visual Context Compressor 的方法,通过压缩视觉标记来提高多模式模型的训练效率,最终实现在图像语言理解和视频语言理解领域性能的提升和训练成本的降低。
- Transformer 模型中的关键要素:并非所有的注意力都是必要的
通过使用基于相似性的度量标准,本文研究了 Transformer 中不同模块(如 Blocks、MLP 和 Attention 层)之间的冗余性变化,发现一大部分 Attention 层可以被安全剪枝,从而降低内存和计算成本,并提出了一种同 - BlockPruner:大型语言模型的细粒度剪枝
我们提出了一种名为 BlockPruner 的新型无需训练的结构化修剪方法,通过定位多头注意力和多层感知机块中的冗余实现更精细的修剪,实验证明,与现有方法相比,BlockPruner 在各种下游任务中实现了更精确和有效的修剪。
- ConvLLaVA:大型多模型视觉编码器的分层主干
通过使用 ConvNeXt 作为 LMM 的视觉编码器,ConvLLaVA 将高分辨率图像压缩为信息丰富的视觉特征,以避免生成过多的视觉令牌,并通过两个关键的优化进一步增强了 ConvLLaVA 的能力。
- GISR:单视角机器人位姿和配置估计的几何初始化与基于轮廓的优化
通过低成本传感器提供视觉估计的冗余,以实现自主机器人的准确测量机器人的潜在状态和感知环境,包括其中的其他代理,从而使规划和执行传感器故障或外部干扰时的恢复协议成为可能。我们提出了 GISR 方法,它是一种用于深度配置和机器人到相机姿态估计的 - GraCo:可控粒度的交互分割
我们介绍了一种名为 Granularity-Controllable Interactive Segmentation(GraCo)的新方法,通过引入额外参数来精确控制预测粒度,增强了交互系统的自定义性,消除了冗余并解决了模糊性。我们设计了 - 评估数学推理能力的准确性以外的因素
通过有效性和冗余性评估推理质量,我们提出了 ReasonEval 方法,该方法在数学任务中表现优异,并发现提高最终答案准确性并不一定能改善复杂数学问题推理步骤的整体质量。
- OrthCaps:一种具有稀疏注意力路由和剪枝的正交胶囊网络
本论文介绍了一种名为 OrthCaps 的正交胶囊网络来减少冗余、改善路由性能和降低参数数量。通过引入高效的剪枝胶囊层、正交稀疏注意力路由以及对路由过程中的权重矩阵进行正交化,该方法在分类任务中证实了 OrthCaps 的效率和鲁棒性,并且 - CVPR通过蒸馏解耦重新思考多视角表示学习
多视角表示学习中的重叠与纯化问题得到了深入分析,提出了一种创新的多视角表示学习框架,结合了一种名为 “distilled disentangling” 的技术,通过引入遮蔽交叉视角预测的概念,实现了从多种数据源中提取紧凑、高质量的视角一致的 - 我们是否能够忘记学习的方式?迭代信念修正中的信仰冗余
信息获取方式可能变得无关紧要,而相同信息的多次确认可能会导致特定修订变得多余,本文给出了一系列词典修订的冗余的必要和充分条件,词典修订不仅在自身上是相关的,还因为它们的序列是表示迭代修订过程状态的最紧凑机制之一。
- 保持团结:通过模拟人类记忆在摘要中强化连贯性
通过使用词汇链来保持主题的连贯性,同时控制信息性和冗余,我们能够提取高连贯性的摘要,这些摘要对人类读者来说既具有信息性,又不冗长。
- 突破壁垒:基于选择性不确定性的主动学习在医学图像分割中的应用
通过选择性基于不确定性的主动学习方法,优先考虑目标区域和决策边界附近的像素,提高医学图像分割的性能和效率。
- 冗余的重要性:表示机器教学
传统机器教学中,概念的教学受到其多种等价表示的影响。本文通过研究各种教学方案,分析了表达方式和证据集大小对教学效果的影响,结果显示 Greedy 方案比 Eager 方案更有效,但两者都无法达到最优。对于 P3 程序而言,证据集通常比其识别 - 多模式信息化 ViT:高光谱和 LiDAR 分类的信息聚合与分配
多模式土地覆盖分类中,通过引入多模式信息聚合和分布机制的多模式信息子网络 (MIVit) 来处理数据分布中的冗余问题,通过在水平和垂直维度上提取浅层局部特征和通过远程注意力提取深层全局特征,MIVit 显著减少了每种模式的独立特征和融合特征 - 多模态癌症生存预测的原型信息瓶颈化与解缚
多模态学习对癌症生存预测有重要影响,尤其是病理图像和基因组数据的整合。本文提出了一种新的框架,用于解决多模态数据中的冗余性问题,并在五个癌症基准数据集上进行了广泛实验,证明其在其他方法上的优越性。
- 稀疏感知中的场重构:可微传感器布置增强泛化能力
通过差分编程在神经网络模型的训练中利用传感器放置来改善场重建,我们的方法有潜力显著提高数据收集效率,实现更全面的区域覆盖,并减少传感器部署的冗余。
- RMS: 冗余最小化点云采样用于退化环境下的实时姿态估计
提出了一种新的点云采样方法,通过降低点云中的冗余,减少在几何对称和无结构环境下实时估计漂移的影响。该方法在机器人的几何运动估计中最大化梯度流的熵,从而最小化点的冗余。实验结果表明,该采样技术在良好条件和几何退化环境下的准确度和速度优于现有方 - EMNLP量化韵律与文字之间的冗余性
语调在某种程度上与言语本身及其前后的上下文的信息重复,但仍然包含超越语言的信息。使用大型语言模型,本研究通过英文有声读物中提取的韵律特征与 LLMs 嵌入之间的预测性比较,发现多个韵律特征(包括强度、持续时间、停顿和音调曲线)与言语的信息具 - EMNLP基于 Transformer 的微博动态生成足球比赛实时更新
基于大型预训练语言模型,我们提出了一个系统,用于从推文中生成足球比赛的实时更新,使用户可以即时掌握比赛的进展,并享受推文中的比赛激动部分。该系统还包括控制更新数量和减少重复和相似更新的机制。
- GameGPT: 游戏开发的多智能体协作框架
本研究提出了 GameGPT,一个多智能体协作框架,以自动化游戏开发。通过双重协作和分层方法,并应用多种内部词汇表,在规划、任务识别和实施阶段缓解幻觉和冗余问题。此外,还引入了一种解耦方法,以实现更精确的代码生成。