- 理解长上下文 LLMs 的 RoPE 扩展:一个注意力视角
以关注 LLMs 为研究热点,本文从注意力角度对 RoPE 拓展进行了详细研究,通过实验证明:1)保持与预训练长度一致的注意力模式可提高拓展性能;2)较大的注意力不确定性导致检索错误;3)在 RoPE 拓展中使用更长的预训练长度可以降低注意 - CVPRExtraNeRF: 带扩散模型的神经辐射场可见性感知视图外推
我们提出了 ExtraNeRF,一种用于推断神经辐射场(NeRF)视角范围的新方法。我们的主要思想是利用 NeRF 模型场景特定的细节,同时利用扩散模型推断我们观察数据之外的区域。关键是通过跟踪可见性来确定没有被观察到的场景部分,并且使用扩 - LookHere: 有向注意力的视觉 Transformer 进行泛化和外推
我们提出了一种名为 LookHere 的新方法,用于限制 2D 注意力掩码中的固定视野的注意力头,提供平移等变性,确保注意力头的多样性,并限制注意力头在外推时面临的分布偏移,从而改善图像分类、对抗攻击和校准误差的性能。该方法在 ImageN - 检索增强的语言模型用于极端多标签知识图链接预测
通过在大型语言模型中提取利用结构化真实世界知识的相关信息,我们提出了一种新的任务,即极端多标签知识图链接预测任务,以便模型可以使用多个响应来执行推断,从而解决了大型语言模型在开放式查询中的外推问题。
- 神经网络的函数外推及其在流形中的应用
利用神经网络对函数进行估计,结合先前知识提出了一种改进的损失函数,提供了对插值和外推区域的更准确和稳健的方法.
- 机器学习 vs 深度学习:泛化问题
比较了传统机器学习模型与深度学习算法在推广能力方面的差异,发现深度学习模型具有在训练数据范围之外进行推广的内在能力,对实际应用中的不完整或超出观测范围的数据具有重要意义。
- 块主导性最小化方法的外推与应用: β-NMF
我们提出了一种用于解决一类多凸优化问题的块主导最小化方法及其外推算法(BMMe)。该方法通过使用一种新颖的自适应更新规则来更新 BMMe 的外推参数。通过将块主导最小化重新表述为一种块镜像下降方法,并在每次迭代中自适应地更新 Bregman - AAAI实时渲染的低延迟时空超采样
该论文通过将帧超采样和外推方法整合到一个统一的框架中,提出了一种新颖的空时超采样方法(Space-time Supersampling),能够在较低的延迟下提高整体质量。经过广泛实验证明,该方法在视觉保真度方面优于最先进的方法,而且性能仅需 - 学习时态知识图谱推理的多图结构
提出一种创新的推理方法,重点关注时间知识图推理中的多图结构学习,以捕捉并发结构和演化交互,并融入时间语义来约束事件并缩小预测范围。
- 本地 - 全局、历史感知的对比学习用于时间知识图推理
利用对比学习的方法,我们提出了基于本地与全局历史信息的对比学习模型 (LogCL),用于时态知识图推理,该模型通过实体感知注意机制捕捉与查询相关的关键历史信息,并设计了四种历史查询对比模式,从而提高了模型的鲁棒性和预测性能。实验结果表明,L - EMNLP消除时间知识图谱的关系感知时间表示学习
Re-Temp 是一种新的模型,旨在通过引入显式的时间嵌入和在每个时间戳之后引入跳过信息流来从未来的事实中预测缺失实体,并通过两阶段的前向传播方法防止信息泄漏,通过对六个 TKGC (外推) 数据集的评估,我们证明了我们的模型在性能上优于八 - 通过信息外推实现的多样化异常值暴露方法用于外域检测
通过生成多样化的离群点进行外部样本检测,提高模型的可靠性和效果。
- 洪水与回响:用分布式计算对 GNNS 进行算法调整
我们提出了一种受分布式算法设计原则启发的新执行框架:Flood and Echo Net,通过波浪式激活模式在整个图上传播消息,自然地推广到更大的实例,该模型在消息复杂性方面被证明更高效。
- 基于 RoPE 的外推尺度定律
使用 RoPE 为基础的大型语言模型,通过调整基值和微调文本长度能够显著增强其外推性能,本文提出了从周期性角度描述外推性能与基值及调整文本长度之间关系的统一框架,并解释了外推问题的起源和关键维度,同时在 LLaMA2 7B 和 13B 数据 - 等等,这感觉熟悉:学习推断与偏好对齐的路径规划人类偏好
利用惯性、本体感知和触觉领域的已建立地形参考,我们引入了 Preference extrApolation for Terrain awarE Robot Navigation (PATERN) 这一新颖框架,用于推断操作者对视觉导航中的新 - 通过共线受限注意力解决 Transformer 的头痛问题
我们的研究发现了 Transformer 模型中一个被忽视的异常行为,称之为 “Transformers 的头痛”,并引入了一种名为 Collinear Constrained Attention (CoCA) 的新型自注意结构,以解决该问 - 自监督预训练对分子性质预测中的外推有效吗?
利用自我监督预训练技术可以提高材料特性的外推性能,使模型能够学习未观察特性值的相对趋势并改善外推性能。
- ExWarp:基于外推和变形的高频显示器时间超采样
高频率显示在视频游戏和虚拟现实应用中越来越受欢迎。然而,由于底层图形处理器无法以这种高速连续生成帧,这导致了不够流畅和响应的体验。本文提出了一种基于强化学习的方法,即 Exwarp,以智能地在几乎不降低感知图像质量的情况下,在 DNN 基于 - 应对组合分布偏移:基于矩阵补全的视角
在分布漂移下的泛化问题中,我们研究了组合分布漂移这个设置,利用双线性嵌入进行分析,发展了一系列理论结果,并给出了应对渐进谱衰减的新算法、泛化保证和线性代数结果。
- Engression: 非线性回归外推?
提出了一种名为 engression 的新型非线性回归方法,其核心是一种分布回归技术,适用于预添加噪声模型,其中噪声被添加到协变量中,然后应用非线性变换来实现外推,能够在严格单调函数类等一些假设下成功的实现外推。