- 结肠息肉分割中不确定区域的语义适应
通过使用新颖的 ADSNet 架构,本论文针对结肠镜图像中存在的肿瘤形状、颜色、条件以及与周围环境相似的问题,改进了肿瘤分割性能,提高了肿瘤图像分割任务的实验结果。
- CVPR通过神经架构搜索实现准确可靠架构
为了保护深度神经网络免受对抗性攻击,我们提出了 ARNAS 来搜索用于对抗训练的准确且稳健的架构。实验结果表明,所搜索到的架构具有最强的稳健性和具有竞争力的准确性,并打破了基于 NAS 的架构无法在稳健性场景下很好地进行迁移的传统观念。通过 - 中间架构标准
中级本体论、术语学、整合、广义性和架构
- 理解 FFNs 在 LLMs 中推动多语言行为的角色
多语言模型(LLMs)中的多语言能力和处理机制的体系结构、激活模式和处理方法的深入分析的研究结果表明模型的层次结构和深度对多语言处理能力有影响。
- MoA: 个性化图像生成中的主题 - 上下文分离的注意力混合
我们提出了一种新的用于个性化文本到图像扩散模型的架构,称为混合关注机制(MoA)。MoA 通过将生成工作负载分配给个性化分支和非个性化先验分支两个注意力路径来分布生成负载。
- 缩放 (下降) CLIP: 数据、架构和训练策略的全面分析
研究通过受限的计算预算缩小规模的对比性语言 - 图像预训练(CLIP)的性能,分析数据、架构和训练策略三个维度,证明高质量训练数据的重要性,指出较小的数据集在一定计算限制下优于较大数据集,并提供选择基于 CNN 架构或 ViT 架构进行 C - LITA:语言教导的时域定位助手
提出了 Language Instructed Temporal-Localization Assistant (LITA) 方法,通过引入时间标记、SlowFast 标记和强调时序本地化数据,改进了多模态大型语言模型的时序本地化能力,并在 - 强大且可控的盲图像分解
为了实现对盲图像分解过程的控制,我们设计了一种名为可控盲图像分解网络的架构,它允许用户选择要去除或保留的降解类型,并在最小的计算成本下实现了分解和重组功能,以实现盲图像分解任务和用户意图的高效输出。
- 建筑如何影响预训练语言模型的基本能力?基于 FFN-Wider Transformer 模型的案例研究
通过分析,我们发现多头注意力(一种组合函数)对预训练语言建模的贡献比例是影响基础能力的关键因素。FFN-Wider Transformers 降低了这种组合函数的贡献比例,导致基础能力下降。我们通过实验证实了这一点,并提出了组合增强结构(C - 数字孪生与土木工程阶段:重新调整采用策略
我们提出了在建筑、工程和建筑行业中基于阶段的数字孪生发展,通过将数字孪生作为一个被广泛应用的工具跨越建筑工程项目的整个生命周期以及鼓励研究人员在整合数字孪生技术的过程中以更全面的方式进行思考。
- 激光雷达 3D 物体检测器对未知领域的泛化能力的实证研究
通过系统调查四个在 3D 目标检测的鲁棒性和领域适应中常常被忽视的设计选择(架构、体素编码、数据增强和锚点策略)以及它们之间的相互作用,我们发现用本地点特征的 Transformer 主干比 3D CNN 更加鲁棒,在地理位置适应中关键是在 - 分析基于视觉条件的语言模型的设计空间:棱镜式 VLMs
通过一系列标准化评估和深入研究,提供了视觉相关语言模型 (VLMs) 的能力和设计决策,包括图像预处理、架构和优化等方面的细致洞察。
- 基于第一原理的架构神经后门
本研究提出了一种检测神经网络架构中的后门威胁的方法,并针对性地构建了一个可用于无人监督下攻击神经网络架构的任意触发器检测器,对常见的模型定义中的可疑组件进行后门检测困难性的用户研究发现,ML 开发者在 37% 的情况下只能识别常见模型定义中 - SPHINX-X:一个多模态大型语言模型系列的数据和参数扩展
我们提出了 SPHINX-X,这是一个建立在 SPHINX 基础上的广泛的多模态大型语言模型系列。通过去除冗余的视觉编码器、利用跳过标记绕过全填充子图像,以及简化多阶段训练为一阶段的所有合一范式,我们改进了 SPHINX 框架的架构和训练效 - 关于可证明长度和组合泛化性的研究
通过针对不同架构(包括深度集合、转换器、状态空间模型和简单循环神经网络)的研究,我们首次提出了能够证明长度和组合泛化的方法,并证明了对于长度和组合泛化,需要不同程度的表示识别,如与地面真实表示的线性或排列关系。
- 不确定性感知者
Perceiver 模型在架构上具有少量假设,相对于 ResNet-50 和 ViT,在准确度方面具备一定竞争力,但忽略了预测不确定性和校准,并通过五个 Perceiver 改进,即 Uncertainty-Aware Perceivers - 与硬件协同设计模型架构的案例
通过仔细考虑 GPU 上执行的基础计算核心的各种模型超参数对模型形状效率的影响,我们提供了一套指南,以最大化用户的 Transformer 模型的运行时性能。通过优化模型形状,与具有类似参数但形状未经优化的模型相比,高效模型形状的吞吐量提高 - Leeroo Orchestrator:通过模型集成提升 LLMs 性能
我们提出了一种架构,利用多个经过训练的 LLMs 的集体知识创建了一个新的最先进模型。核心是一个基于 LLM 的编排器,能够选择最佳的底层 LLM 专家进行任务执行。通过自我对弈的灵感,我们创建了一个查询生成、编排和评估的循环,以生成编排器 - 神经 ODE 中深度和宽度之间的插值相互作用
神经常微分方程(neural ODE)的宽度 p 和层转换的数量 L 之间存在平衡折衷,通过对数据集插值和度量插值进行评估,发现对于数据集插值,L 随着 O(1 + N /p)的规模变化,对于度量插值,L 为 O(1 +(pε ^ d)^ - 个人 LLM 代理机器人:关于能力、效率和安全性的洞见与调查
利用大型语言模型创建个人智能助手,通过深度集成个人数据和设备,解决智能个人助手面临的架构、效率和安全等关键问题。