- 语言模型对时间序列预测是否真的有用?
在大型语言模型中,尤其是在时间序列预测方面,进行了一系列消融研究,发现移除语言模型组件或用基本的注意力层替换并不降低预测结果,甚至在大多数情况下结果有所提升。此外,预训练的语言模型并不比从头开始训练的模型更好,不能准确表示时间序列中的顺序依 - 在 LLM 中,上下文学习是否足够用于指令遵循?
通过对长文本 LLMs 进行多个 in-context 学习示例的贪婪选择,我们改进了 ICL 与 URIAL 的对齐效果,但仍未消除与指令微调之间的差距,进一步的削减研究揭示了 ICL 在指令调整的环境中的特殊性,从而推进了对 ICL 作 - 北极嵌入:可扩展、高效和准确的文本嵌入模型
该研究描述了创造训练数据集和配方的过程,使用了一系列 exttt {arctic-embed} 文本嵌入模型(五个模型,参数范围从 22 到 334 百万,权重以 Apache-2 许可证开源)。这些模型在发布时,在 MTEB 检索排行榜上 - 单目视频和稀疏惯性测量单元的混合三维人体姿态估计
我们提出了一个新的框架(Real-time Optimization and Fusion,RTOF),通过将稀疏惯性方向信息与参数化的人体骨骼结构相结合,优化并融合视觉和惯性观测数据,从而实现对时态三维人体姿势的准确估计和干扰问题的解决, - AMEND: 长尾轨迹预测的专家混合框架
通过使用专门的专家组合和路由器网络,本研究提出了一种模块化、无模型依赖的轨迹预测框架,不仅在常见情景下取得了最新的性能,而且在长尾场景下显著提高了预测准确性。
- 基于大型预训练基础模型的多语言说话人变更检测(USM-SCD)
我们引入了一种多语种说话人变更检测模型(USM-SCD),可以同时检测 96 种语言的说话人转换并进行 ASR。通过一系列消融研究,我们分析了这种多语种说话人变更检测模型的性能,并证明了从大规模通用基础模型进行微调对下游任务的实用性。USM - 用最小描述长度聚类法度量有意义图片复杂度
提出了一种基于层次聚类和最小描述长度的图像复杂度衡量方法,可以正确识别出白噪声图像,并在多组实验中表现出最准确的衡量结果,同时还可以从不同层次的聚类中揭示出复杂度的局部和全局特征以及相关构成因素。
- 基于嵌入式神经主题模型的统一性和显式规则化嵌入式更好理解
本研究提出了一种基于嵌入正则化约束的神经主题模型,引入了嵌入空间的均匀性度量,通过剔除不必要的参数优化空间,研究嵌入的变化对于模型性能的影响,以此实现主题质量和文档建模之间的平衡。
- WWW知识图谱补全中的图卷积网络再思考
本文通过建立变体研究了基于 Graph Convolutional Networks 的知识图谱完成模型,在实验中发现了与预期相反的图结构建模并不对模型性能产生显著影响,而实体表示的转换是改善性能的关键因素。作者基于此提出了 LTE-KGE - 序列跨文档指代消解
本文提出一种将有效的顺序预测范例用于跨文档指代消解的新模型,通过增量式将提及点组合成集群表征,并预测提及点与已构建的集群之间的链接,近似高阶模型,既成为实体和事件指代消解领域中具有竞争力的解决方案,也提供了不同输入和表示类型在对指代消解过程 - ICCVTrivialAugment:无需调参却能实现最先进的数据增强
该研究提出了一种无需参数的基准自动增强方法 TrivialAugment,只对每个图像应用单一的增强,并通过实验比较和分析其表现及其对于算法表现的重要需求,同时提出最佳实践以供参考。
- 面向音视频表情识别的处理缺失模态的训练策略
研究了当其中一个模态缺失时,自动音视频表情识别中 transformer 模型的表现,通过消融实验和随机消融训练数据的策略,提高了模型的泛化性能。
- REflex: 在多个领域中灵活进行关系抽取的框架
本文通过在三个常用数据集上的系统探索建立关系提取的统一框架,发现预处理对性能的影响巨大,且缺少信息会进一步阻碍公平比较,文章还就未来研究提出了建议。
- ACL从视觉丰富文档中提取多模态信息的图卷积
本文提出了一种基于图卷积的模型来将文本和视觉信息相结合以实现对视觉丰富的文档中实体抽取的方法,并通过实验证明了所提出的模型在两个真实数据集上的性能远优于 BiLSTM-CRF 模型。
- 人工神经网络中的消融研究
本文通过两种不同的人工神经网络在计算机视觉领域常见的基准数据集进行消融实验,研究了神经网络的内部表征和结构损伤的鲁棒性,并探讨了消融研究在人工神经网络中的可行性及其对于未来安全关键应用的重要性。
- 交叉学习:跨模态自监督
本文介绍了一种利用两种不同形式的信息进行自监督表示学习的方法。我们使用视频数据进行我们的方法,得到良好的性能,并证明我们的特征表示可以转移至其他任务。
- ICML研究人类先验知识在玩电子游戏中的作用
本文研究了人类先验知识在解决电子游戏中的作用,通过修改游戏环境系统地掩盖不同类型的视觉信息来量化各种先验知识对人类表现的重要性,结果表明某些先验知识的去除会导致人类玩家解决游戏速度的显著降低,而一般的先验知识对于有效的游戏玩法至关重要。
- ICCV面向有限资源的二值化卷积关键点定位器用于人体姿态估计和面部对齐
探讨神经网络二值化在人体姿态估计和面部对齐任务中的效果,提出了一种新的分层,平行和多尺度残差架构,该架构在性能方面具有显著改进,并在人体姿态估计和面部对齐任务中进行了实验,表现优异。
- 通过深层和浅层卷积神经网络实现端到端图像超分辨率
本文提出了一种新的图像超分辨率方法,该方法使用端到全部可训练的深度卷积神经网络来联合学习特征提取、上采样和高分辨率重建模块,同时在潜在特征空间中进行上采样,并通过多尺度 HR 重建以获得更精确的图像恢复,进一步实现了不同网络设计在图像超分辨