移动窗口回归:一种新的序回归方法
使用回归模型自动识别高性能的数据混合,通过联合所有领域一起考虑以捕捉复杂性,RegMix 方法超过人工选择,并且仅使用 10%的计算预算实现与 DoReMi 相比匹配或更好的结果。
Jul, 2024
该研究调查了小语言模型在学习、保留和消除通常不存在于互联网上的噪声方面的能力,并评估了四个小语言模型的表现在不同训练水平下,发现 Olmo 在任务上表现始终良好,即使它是参数最少的模型。
Jul, 2024
我们提出了 Swish-T 系列,它是对现有非单调激活函数 Swish 的一种改进。通过在原始 Swish 函数中添加 Tanh 偏置来定义 Swish-T,我们创建了一系列 Swish-T 变体,每种变体都在不同的任务中表现出卓越性能,并展示了根据应用环境的具体优势。通过这种修改,Swish-T 在初始训练阶段比原始 Swish 函数提供更广泛的负值接受范围,呈现出更平滑的非单调曲线。我们最终提出了 Swish-T$_{extbf {C}}$ 函数,而 Swish-T 和 Swish-T$_{extbf {B}}$ 则是 Swish-T$_{extbf {C}}$ 的副产品,它们也展示了令人满意的性能。此外,我们的消融研究表明,将 Swish-T$_{extbf {C}}$ 作为非参数函数仍然可以实现高性能。Swish-T 系列的优越性在各种模型和基准数据集上进行了经验证明,包括 MNIST、Fashion MNIST、SVHN、CIFAR-10 和 CIFAR-100。代码公开可用于 “this https URL”。
Jul, 2024
超参数化是深度学习成功的关键因素之一,本研究通过比较不同宽度的模型的特征来探讨过参数化网络的特点,发现无论是过参数化还是欠参数化的网络都具有一些独特的特征,而过参数化网络在性能方面优于欠参数化网络,即使许多欠参数化特征被连接。在 CIFAR-10 和 MNLI 分类数据集上使用 VGG-16、ResNet18 和 Transformer 进行验证,并通过一个玩具场景证明了过参数化网络可以学习一些欠参数化网络无法学习的重要特征。
Jul, 2024
我们研究了图缩减的性能,并通过开发一个综合的图缩减基准测试库 (GC-Bench) 来评估 12 种最新的图缩减算法在不同场景下的效果、可迁移性和复杂性。
Jun, 2024
LightStereo 是一种创新的立体匹配网络,利用 3D 成本体作为轻量级替代品以加速匹配过程,并通过专注于 3D 成本体的通道维度增强性能,从而在速度、准确度和资源利用方面展现出卓越性能。
Jun, 2024
我们提出了几种高效路由器模型,它们在推理过程中动态选择更强大或更弱的大型语言模型,以实现成本和响应质量的平衡。通过人类偏好数据和数据增强技术,我们开发了一个训练框架来提高性能。在广泛认可的基准测试上的评估结果表明,我们的方法显著降低了成本,在某些情况下超过了 2 倍,同时不影响响应质量。有趣的是,我们的路由器模型还展示了显著的迁移学习能力,在测试时即使更改了强大和弱模型也能保持其性能。这突显了这些路由器为部署大型语言模型提供了成本效益和高性能的解决方案的潜力。
Jun, 2024
我们是第一个收集和翻译大量文本、指令和基准,并训练、评估和发布专门针对罗马尼亚语的开源大型语言模型,通过在学术基准、手动翻译的 MT-Bench 和专业构建的历史、文化和社会基准测试中获得卓越的结果,我们公开发布所有资源以支持和鼓励罗马尼亚语大型语言模型的研究,并同时创建适用于其他低资源语言的可推广的方法。
Jun, 2024
通过评估 14 个不同的嵌入模型并开发相应的漏洞定位模型,我们的研究表明,预训练策略显著影响嵌入质量,并且嵌入模型对数据的熟悉程度对漏洞定位模型的性能有着显著影响。当训练数据和测试数据来自不同的项目时,漏洞定位模型的性能会出现大幅波动。
Jun, 2024