RNNPose:基于循环神经网络的鲁棒对应场估计和姿态优化的 6 自由度物体位姿细化
从弱标记数据中学习姿态估计的方法,通过使用 NeRF 隐式学习物体形状,结合 CNN 使用对比损失学习视图不变特征,从而估计姿态。
Jun, 2024
提出了一种新颖的自定位协同感知系统 CoBEVGlue,它通过有效匹配跨代理间的共可见对象,实现更全面、更稳健的协同感知,无需使用外部定位系统。CoBEVGlue 的核心是一个新颖的空间对齐模块,它提供了代理间的相对位姿,从而验证了我们的方法在真实和模拟数据集上的有效性。结果表明,CoBEVGlue 在任意定位噪声和攻击下取得了最先进的检测性能,并且空间对齐模块能够无缝集成大部分先前的方法,并将其性能提升了平均 57.7%。
Jun, 2024
本研究提出了一种名为增强解码器的新型训练方法,通过引入辅助模型生成备用解码器输入来解决多步骤时间序列预测中的累积误差问题,并利用强化学习算法动态选择最优输入以提高准确性。综合实验表明,该方法在多个数据集上优于常见训练方法。此外,该方法在基于自注意力的序列到序列预测模型中同样表现良好。
Jun, 2024
该研究通过使用简单的 RNN 等多种循环神经网络(RNN)结构与经典算法进行比较,评估其在构建 ASEAN-5 股票市场中用于早期崩盘检测的分类模型方面的性能。研究使用不平衡数据进行分析,该类数据很常见,因为市场崩盘的发生是罕见的。研究分析了 2010 年至 2023 年期间东盟五国主要股票市场的日常数据,包括印度尼西亚、马来西亚、新加坡、泰国和菲律宾。以股票价格指数低于 5%、2.5% 和 1% 的风险值为阈值时,将其定义为市场崩盘的目标变量。预测变量包括主要本地和全球市场以及大宗商品市场的技术指标。本研究包括 213 个具有各自滞后期(5、10、15、22、50、200)的预测变量,并使用时间步长 7,将预测变量的总数扩大到 1491。通过 SMOTE-ENN 解决了数据不平衡的挑战。结果表明,所有基于 RNN 的结构均优于随机森林和 XGBoost。在各种 RNN 结构中,由于数据特征不过于复杂且更关注短期信息,简单的 RNN 表现出色。该研究通过包含不同地理区域和时间段以及方法上的调整,增强了和扩展了以往研究观察到的现象范围。
Jun, 2024
该论文提出了一种基于元学习算法的短期负荷预测方法,通过少量训练样本在任意长度的未知负荷时间序列中快速适应和泛化,并通过历史负荷消耗数据集的评估表明,该方法能够准确预测负荷,比传统的迁移学习和任务特定的机器学习方法提高了 12.5% 的准确度。
Jun, 2024
这篇论文揭示了一个关键的见解,即一个单层的解码器 - only Transformer 相当于一个两层的循环神经网络(RNN)。基于这个见解,我们提出了 ARC-Tran,一种用于验证仅有解码器的 Transformer 对任意扰动空间鲁棒性的新方法。与 ARC-Tran 相比,目前的鲁棒性验证技术不仅仅局限于特定的长度保持扰动(如词替换),还局限于递归模型,例如 LSTMs。ARC-Tran 通过精心管理位置编码以防止不匹配,并利用我们的关键见解实现精确且可伸缩的验证来解决这些限制。我们的评估结果表明,ARC-Tran(1)训练出比现有技术产生的模型更具任意扰动空间鲁棒性的模型,并且(2)得到的模型具有高的认证准确性。
May, 2024
该论文提出了一种使用雷达进行手势识别的替代方法,该方法利用共振 - 发火神经元来绕过计算复杂且耗时的快速傅里叶变换,直接在时域信号中检测手势,消除了获取距离信息的快速傅里叶变换的需求。在检测之后,采用简单的 Goertzel 算法提取五个关键特征,省去了第二次快速傅里叶变换的需要。然后将这些特征输入循环神经网络,实现了对五种手势的 98.21%的精确分类。所提出的方法相较于传统方法,具有较低的复杂性且表现出竞争力的性能。
May, 2024
提出了一种基于 Transformer 的自回归模型,根据可能以高度模糊的观测图像为基础的 RGB 图像,生成 3D 形状的概率分布,该模型采用交叉注意力机制,有效地识别形状生成的最相关兴趣区域,并在合成数据和真实数据上得到优于现有方法的结果。
May, 2024
使用视觉情节记忆作为内在动机的机器人探索问题的研究,通过卷积递归神经网络自编码器学习时空特征的高效表达,结构相似度作为内在动机信号来引导探索,超过了好奇心驱动的变分自编码器在发现动态异常方面的表现。
May, 2024
通过评估循环神经网络(RNN)和 Transformer 在复制跨语言结构启动方面的表现,这项研究对人类语言处理中抽象语法表示的关键指标进行了评估。研究重点关注涉及两种类型不同的语言的中英启动,探讨这些模型如何处理结构启动这一稳定现象,即暴露于特定句子结构会增加之后选择类似结构的可能性。此外,我们还利用大型语言模型(LLM)来衡量跨语言结构启动效果。研究结果表明 Transformer 在生成启动句子结构方面的性能优于 RNN,挑战了人类句子处理主要涉及循环和即时处理的传统观念,同时表明了基于线索的检索机制的作用。总体而言,这项工作对于了解计算模型如何反映多语言环境中人类认知过程具有重要贡献。
May, 2024