Medusa: 基于注意力多任务的通用特征学习
通过基于文本 - 视频帧相似度的关键帧选择方法,KeyVideoLLM 能够高效、鲁棒、有效地管理 VideoLLM 数据,并在视频问答任务中显著改善模型性能,实验结果一直保持在最新技术的前沿。
Jul, 2024
探讨了使用多任务学习和多重编码器方法在文档级神经机器翻译中建模上下文编码的观察,证明了在资源匮乏的情况下,该方法比串联和多重编码器模型表现更好,并对选择上下文敏感。
Jul, 2024
本文介绍了一种名为 AttBalance 的新框架,通过优化语言相关区域内的视觉特征行为,以提高视觉定位任务的性能,并在四个不同基准测试上对五种不同模型进行了评估和持续改进,进而在 QRNet 上实现了最新的表现水平。
Jul, 2024
利用培训有源代码的现成模型来捕捉特征,如视角选择或几何先验,改善性能是现有关于三维物体目标级语言基础的工作的主要关注点之一。然而,它们没有考虑到在跨领域中探索语言 - 视觉对齐的跨模态表示。为了解决这个问题,我们提出了一种名为三维对象领域适应的语言基础(DA4LG)的新方法。具体而言,DA4LG 由具有多任务学习的视觉适配器模块组成,通过全面的多模态特征表示实现视觉 - 语言对齐。实验结果表明,DA4LG 在视觉和非视觉语言描述方面具有竞争力的性能,不受观测完整性的影响。DA4LG 在单视图设置和多视图设置中均在语言基础基准 SNARE 中达到了 83.8%和 86.8%的准确率,达到了最先进的性能。仿真实验显示 DA4LG 相比现有方法具有良好的实用和泛化性能。
Jul, 2024
通过分析开源的小型生成语言模型(GLMs)在自动化文本评分(ATS)中的性能和效率,结果表明 GLMs 可以进行适当的微调以达到足够的性能。此外,在分析模型生成反馈能力方面,虽然由模型生成的反馈有潜力,但需要更严格的针对特定使用情况的评估。
Jul, 2024
我们引入一种范畴论的图示形式,以系统性地关联和推理机器学习模型。我们的图示以直观但不丢失关键细节的方式呈现架构,其中模型之间的自然关系通过图形变换捕捉,并且重要的差异和相似之处一目了然。在本文中,我们着重于注意力机制:将民间传说转化为数学推导,并在文献中构建了一个注意力变体的分类学。作为我们形式主义支持下的经验研究的第一个例子,我们识别了注意力的重复解剖组成部分,我们全面重组它们以探索注意力机制的变化空间。
Jul, 2024
通过引入 ICorr(Invariant Correlation)方法,本研究解决了在嘈杂环境中域泛化的挑战,通过训练一个在多个环境中保持不变的特征表示来实现,同时从因果关系的角度理论上证明了表示与标签的不变相关性是实现最佳不变预测器的必要条件。
Jul, 2024
当前深度学习模型在处理图像时存在的重要局限性是它们无法像人类视觉一样,高效地只选择必要的视觉区域进行处理,导致速度慢且能耗高。本文从广泛的角度考察了这个问题,并提出了解决方案,为下一代更高效的视觉模型铺平了道路。基本上,本文采用了选择性地对变换后的区域进行卷积和池化操作,并将变化图传递给后续层次。这个图指示了哪些计算需要重复执行。源代码可在此 URL 进行查看。
Jul, 2024
在这项研究中,我们提出了一个名为 PCX 的库,旨在解决机器学习中预测编码网络的效率和可扩展性问题,并使用 PCX 实现了一系列用于实验的基准测试。我们通过广泛的基准测试和算法比较,展示了 PCX 的高效性,并指出了需要解决的潜在局限性,为解决该领域的主要开放问题之一 —— 可扩展性提供了基准。
Jul, 2024