移动窗口回归：一种新的序回归方法

CVPRMar, 2022

移动窗口回归：一种新的序回归方法

Moving Window Regression: A Novel Approach to Ordinal Regression

Nyeong-Ho Shin, Seon-Ho Lee, Chang-Su Kim

TL;DR本文提出了一种新的序数回归算法 —— 移动窗口回归 (MWR)。在算法中，我们设计了基于相对排序的表示模式、全局与局部相对回归模型以及迭代式的排名估计方法。实验结果表明，该算法在面部年龄估计和彩色图像分类等多个数据集上均取得了最先进的表现。

Abstract

A novel ordinal regression algorithm, called moving window regression (MWR), is proposed in this paper. First, we propose the notion of relative rank ($\rho$-rank), which is a new order representation scheme for

ordinal regression relative rank regressors iterative refinement performance

发现论文，激发创造

RegMix: 以数据混合作为语言模型预训练的回归方法

使用回归模型自动识别高性能的数据混合，通过联合所有领域一起考虑以捕捉复杂性，RegMix 方法超过人工选择，并且仅使用 10％的计算预算实现与 DoReMi 相比匹配或更好的结果。

Jul, 2024

小型语言模型能否学习、遗忘并保留噪声模式？

该研究调查了小语言模型在学习、保留和消除通常不存在于互联网上的噪声方面的能力，并评估了四个小语言模型的表现在不同训练水平下，发现 Olmo 在任务上表现始终良好，即使它是参数最少的模型。

Jul, 2024

Swish-T: 提升 Swish 激活函数的性能的 Tanh 偏置

我们提出了 Swish-T 系列，它是对现有非单调激活函数 Swish 的一种改进。通过在原始 Swish 函数中添加 Tanh 偏置来定义 Swish-T，我们创建了一系列 Swish-T 变体，每种变体都在不同的任务中表现出卓越性能，并展示了根据应用环境的具体优势。通过这种修改，Swish-T 在初始训练阶段比原始 Swish 函数提供更广泛的负值接受范围，呈现出更平滑的非单调曲线。我们最终提出了 Swish-T$_{extbf {C}}$ 函数，而 Swish-T 和 Swish-T$_{extbf {B}}$ 则是 Swish-T$_{extbf {C}}$ 的副产品，它们也展示了令人满意的性能。此外，我们的消融研究表明，将 Swish-T$_{extbf {C}}$ 作为非参数函数仍然可以实现高性能。Swish-T 系列的优越性在各种模型和基准数据集上进行了经验证明，包括 MNIST、Fashion MNIST、SVHN、CIFAR-10 和 CIFAR-100。代码公开可用于 “this https URL”。

Jul, 2024

过参数化如何影响特征？

超参数化是深度学习成功的关键因素之一，本研究通过比较不同宽度的模型的特征来探讨过参数化网络的特点，发现无论是过参数化还是欠参数化的网络都具有一些独特的特征，而过参数化网络在性能方面优于欠参数化网络，即使许多欠参数化特征被连接。在 CIFAR-10 和 MNLI 分类数据集上使用 VGG-16、ResNet18 和 Transformer 进行验证，并通过一个玩具场景证明了过参数化网络可以学习一些欠参数化网络无法学习的重要特征。

Jul, 2024

GC-Bench: 图形凝聚的开放和统一基准

我们研究了图缩减的性能，并通过开发一个综合的图缩减基准测试库 (GC-Bench) 来评估 12 种最新的图缩减算法在不同场景下的效果、可迁移性和复杂性。

Jun, 2024

LightStereo: 基于通道增强的高效二维代价聚合

LightStereo 是一种创新的立体匹配网络，利用 3D 成本体作为轻量级替代品以加速匹配过程，并通过专注于 3D 成本体的通道维度增强性能，从而在速度、准确度和资源利用方面展现出卓越性能。

Jun, 2024

RouteLLM：利用偏好数据学习路由 LLMs

我们提出了几种高效路由器模型，它们在推理过程中动态选择更强大或更弱的大型语言模型，以实现成本和响应质量的平衡。通过人类偏好数据和数据增强技术，我们开发了一个训练框架来提高性能。在广泛认可的基准测试上的评估结果表明，我们的方法显著降低了成本，在某些情况下超过了 2 倍，同时不影响响应质量。有趣的是，我们的路由器模型还展示了显著的迁移学习能力，在测试时即使更改了强大和弱模型也能保持其性能。这突显了这些路由器为部署大型语言模型提供了成本效益和高性能的解决方案的潜力。

Jun, 2024

如何训练强大的罗马尼亚语语言模型（LLM），附带英文指导

我们是第一个收集和翻译大量文本、指令和基准，并训练、评估和发布专门针对罗马尼亚语的开源大型语言模型，通过在学术基准、手动翻译的 MT-Bench 和专业构建的历史、文化和社会基准测试中获得卓越的结果，我们公开发布所有资源以支持和鼓励罗马尼亚语大型语言模型的研究，并同时创建适用于其他低资源语言的可推广的方法。

Jun, 2024

编程语言和自然语言的对齐：探索多模态变换器嵌入在缺陷定位中的设计选择

通过评估 14 个不同的嵌入模型并开发相应的漏洞定位模型，我们的研究表明，预训练策略显著影响嵌入质量，并且嵌入模型对数据的熟悉程度对漏洞定位模型的性能有着显著影响。当训练数据和测试数据来自不同的项目时，漏洞定位模型的性能会出现大幅波动。

Jun, 2024

CLIMATELI: 评估气候变化数据中的实体链接

通过 CLIMATELI 数据集，评估现有的实体链接模型在气候变化主题中的表现，并提出用于气候变化实体的自动筛选方法

Jun, 2024