- CT3D++:基于关键点引导的通道注意力变换提升 3D 物体检测
通过引入两个旨在准确高效地检测和定位三维空间中物体的 3D 物体检测框架,本文目的是解决当前 3D 检测的灵活性和可伸缩性不足的问题,并在 KITTI 数据集和大规模 Waymo 数据集上取得最先进的性能。
- SIGIR灵活适应的摘要生成技术通过专家分离
通过使用 MoeSumm,一种混合专家摘要架构,该模型能够展现灵活性和适应性,同时保持参数效率,并在实验结果中显示了其与最新基准和大型语言模型相比的优势。
- 大规模视觉语言模型的 Matryoshka 查询转换器
运用 Matryoshka Query Transformer (MQT) 模型及变长的嵌入方式,实现图像编码成可调根数的视觉令牌,并通过组合 MQT 与 LLaVA 模型,在保持类似性能的同时,大幅减少了推理时所需的视觉令牌数量。
- 基于层次概率模型的无监督工作行为模式提取
提出了一种新的基于高斯过程半马尔可夫模型的工人行为模式提取方法,不需要预先训练,能够自动准确地将连续运动划分为不同的运动类别,并与隐马尔可夫模型进行参数互推,以实现准确的运动模式提取。该方法在实际生产现场的工人装配产品的运动数据上进行了验证 - 面向自适应 IMFs -- 在多智能体框架中实用函数泛化
该论文提出了一种新的机制,使得 IMF 能够在运行时推广到不同形式的效用函数和意向优先级的变化,无需额外的训练,从而在客户意图和优先级频繁变化的实时网络中部署 IMF 并展示其高效性、可伸缩性和灵活性。
- 关系图卷积网络用于情感分析
我们提出了使用关系图卷积网络(RGCNs)进行情感分析的方法,该方法通过捕捉作为图中节点表示的数据点之间的依赖关系,提供了解释性和灵活性。通过在亚马逊和 Digikala 数据集上使用预训练的语言模型(如 BERT 和 RoBERTa)与 - ICLRFaraday: 智能电网的合成智能电表生成器
通过使用合成数据,本文介绍了基于 Variational Auto-encoder (VAE) 模型的 Faraday,该模型通过训练英国一个能源供应商的 3 亿次智能电表数据读数,并结合属性和低碳技术的信息,产生与实际数据相当的家庭负荷曲 - PARMESAN:无参数的内存搜索与密集预测任务转导
通过转导推理的方式解决深度学习中的灵活性问题,提出了 PARMESAN(无参数记忆搜索和转导),一种可扩展的转导方法,通过修改记忆内容实现无需连续训练或微调可学参数的学习,与常用的神经架构兼容,并在连续学习和少样本学习等任务中展现了较快的学 - 生成、重建和表示离散与连续数据:具有可学习的编码解码的广义扩散
通过引入可学习的编码器 - 解码器,DiLED 广义扩展了常规扩散过程的高斯噪声去噪方法,在不同数据类型上具有广泛适用性和提升性能。实验证明 DiLED 在处理各种数据和任务上都有很好的灵活性,并在不同已有模型上取得了显著的改进。
- 基于领域的分子生成
引入 FMG,一种基于场的药物样分子生成模型,展示了该方法的灵活性相比流行的基于点云的方法具有重要优势,并实现了竞争性的分子稳定性生成。解决了光学异构体(对映异构体),这是之前被忽略的关键药物安全和疗效的分子性质,因此考虑了所有的分子几何方 - 可扩展的嵌入:适用于 LLM 上下文长度的灵活乘数
通过利用高信息密度的紧凑输入单元,可实现对大范围上下文的访问,使得可拓展嵌入成为高效、灵活且兼容的方法来扩展大语言模型的上下文。
- BGE 地标嵌入:用于检索增强的长上下文大语言模型的无分块嵌入方法
通过可扩展嵌入实现了高质量、灵活、具有成本效益的扩展大型语言模型的上下文,通过优化架构和训练方法,具有上下文扩展的高灵活性、低成本的训练和与现有大型语言模型的兼容性,进而在长上下文语言建模和理解任务上进行综合评估,验证了可扩展嵌入作为一种有 - 调查 - 巩固 - 利用:一种面向任务间代理自进化的通用策略
通过 Investigate-Consolidate-Exploit(ICE)策略,本文介绍了一种提高 AI 代理的适应性和灵活性的新方法。与现有的针对任务内学习的方法不同,ICE 促进了任务间知识的转移,实现了真正的自我演化,类似于人类的 - 借助实用数据驱动工具赋能汇聚者:利用聚合和分解的灵活性进行需求响应
通过数据驱动技术和工业及住宅建筑的案例研究,本文不仅揭示了在平衡和新兴灵活性市场中机构的关键机遇,还成功开发了机构的端到端实用工具,验证了其操作能力,并为弹性和高效能源系统的演进作出了贡献。
- 面向灵活、可扩展和自适应的多模态条件人脸合成
最近在多模态条件下的人脸合成方面取得的进展使得创造出了视觉上引人注目且准确对齐的面部图像成为可能。然而,当前的方法在可扩展性、灵活性和对控制强度的一劳永逸的处理上仍然面临问题,没有考虑不同模态之间条件熵(在给定某个条件下数据的不可预测性)的 - 蜜蜂:局部增强的多模态 LLM 投影仪
在本研究中,我们首先确定了两个关键的可视化投影仪属性:(i) 在管理视觉令牌数量方面的灵活性,关键是为了提高 MLLMs 的整体效率;(ii) 保留来自视觉特征的局部上下文,对于空间理解至关重要。基于这些发现,我们提出了一种新颖的投影仪设计 - OtterHD: 高分辨率多模态模型
OtterHD-8B 是一个可处理高分辨率图像输入的多模态模型,具有灵活的输入维度处理能力,在小物体的细节和空间关系辨析方面的性能超过其他模型。研究结果揭示了不同模型之间在视觉信息处理上的结构差异以及视觉编码器的预训练分辨率差异对模型效果在 - 深度转换高斯过程
通过变换样本中的联合分布,Deep Transformed Gaussian Processes(DTGPs)构建了多层模型,每一层都是转换高斯过程,增加了模型的灵活性和可扩展性。通过使用变分推断来近似计算,该方法扩展了 DSVI 推断算法 - 生成评估法官
我们提出了一个具有 13B 参数的生成式评测模型 Auto-J,通过训练用户查询和大规模真实场景下 LLM 生成的响应,以适应多样化的评估协议,包括对比评估和单一响应评估,并提供详细分析和案例研究来揭示我们方法的潜力。
- 具有剩余记忆变换器的可控文本生成
本研究提出了一种用于控制文本生成的非侵入式、轻量级控制插件,名为 Residual Memory Transformer(RMT),通过与 Causal Language Models(CLMs)合作,采用残余学习范式,实现了更灵活、更通用