一种利用排序学习蒸馏的高效组合优化模型

AAAIDec, 2021

一种利用排序学习蒸馏的高效组合优化模型

An Efficient Combinatorial Optimization Model Using Learning-to-Rank Distillation

Honguk Woo, Hyunsung Lee, Sangwoo Cho

TL;DR本文介绍了基于学习排序蒸馏的组合优化问题解决方法，其中高性能排序策略通过强化学习可以被提炼成非迭代简单模型，从而实现低延迟的拟合，通过优化推理效率和性能表现，证明了这一框架的优势。

Abstract

Recently, deep reinforcement learning (RL) has proven its feasibility in solving combinatorial optimization problems (COPs). The learning-to-rank

deep reinforcement learning learning-to-rank combinatorial optimization distillation-based framework inference latency

发现论文，激发创造

排名蒸馏：学习高性能紧凑排名模型的推荐系统

在学习排名问题时，我们提出了一种基于知识蒸馏的技术，称为 RD，通过使用更小的模型在保持模型性能的同时提高在线推理的效率，该技术在公共数据集和推荐模型上实现了旨在设计的目的。

Sep, 2018

稠密检索蒸馏的课程学习

本研究提出了一种基于课程学习的优化框架 CL-DRD，通过控制先前重排（教师）模型产生的训练数据难度级别来优化稠密检索（学生）模型，在三个公共语段检索数据集上的实验证明了该框架的有效性。

Apr, 2022

在资源受限环境下利用知识蒸馏提升高效深度强化学习

通过挖掘深度强化学习（Deep Reinforcement Learning，DRL）与知识蒸馏（Knowledge Distillation，KD）相结合的潜力，本文通过蒸馏各种 DRL 算法并研究其蒸馏效果的方式，旨在减少深度模型的计算负担，在保持性能的同时实现高效与快速。研究目标是提供一个用于评估使用 KD 技术优化的不同 DRL 算法性能的基准。通过蒸馏这些算法，旨在开发高效和快速的 DRL 模型。此研究有望提供有价值的见解，促进这个有前途的领域的进一步发展。通过探索 DRL 和 KD 的结合，本研究旨在推动不仅需要较少 GPU 资源，还能在复杂环境中更快学习并做出更快决策的模型的发展。该研究的结果有能力显著推动 DRL 领域的发展，并为未来部署资源高效的决策智能系统铺平道路。

Oct, 2023

高效学习排序的神经网络压缩模型

本研究介绍了一种将蒸馏、修剪和快速矩阵乘法相结合的方法，对于从回归树集合中学习的神经网络进行了评分时间的加速，在两个公共学习排名数据集上进行的全面实验表明，采用我们的新方法产生的神经网络在效率 - 效用平衡的任何点上与基于树的集合竞争对手具有相同的排名质量，并提供高达 4 倍的评分时间加速，而不影响排名质量。

Feb, 2022

可逆行动设计与强化学习在组合优化中的应用

利用图神经网络和深度 Q 学习的强化学习方法，针对组合优化问题提出了一种无需问题特定设计即可实现状态最优化策略搜索的通用模型，并在最大 k-Cut 问题和旅行商问题上实验验证了其优越性。

Feb, 2021

指导压缩使得大型语言模型成为高效的零 - shot 排序器

通过引入一种新颖的指令提炼方法，将开源的 Large Language Models（LLMs）的成对排序能力提炼为更简单、更高效的逐点排序，以提高 LLMs 的排序性能和效率。

Nov, 2023

基于双重纠正策略的 Top-N 推荐系统排名蒸馏

本文提出了 Dual Correction strategy for Distillation (DCD)，该方法通过梯度对齐实现知识转移，将评分信息从教师模型传递到学生模型，以更高效地训练推荐系统，同时解决了每个模型预测错误时所出现的问题，并通过用户和物品两个方面来处理稀疏隐式反馈，实验结果表明，该方法优于现有的基线模型。

Sep, 2021

DisCoRL: 基于策略蒸馏的连续强化学习

本文提出了 DisCoRL 方法，该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战，并在三个 2D 导航任务上进行了实验验证。

Jul, 2019

一种基于排名的模仿学习游戏

本文提出了一种将模仿学习看作是一种基于排名的二人游戏的新框架，并使用一种新型排名误差来实例化该框架，从而同时学习专家演示和偏好，实现了两种模态的优势，并在 Learning from Observation (LfO) 环境中实现了先进的样本效率和可扩展性。

Feb, 2022

策略蒸馏的提炼

本文探究了深度强化学习中的知识转移工具：策略蒸馏（distillation），比较了各种不同形式并通过理论和实证分析确定了三种最佳蒸馏技术，其中新提出的期望熵正规化蒸馏在广泛的情况下能够保证收敛并加快学习速度。

Feb, 2019