- 带 Massart 噪声的半空间在线学习
在存在 Massart 噪声的在线学习任务中,我们研究了广义线性分类器的基本类,并提出了一个高效的算法,达到了错误界限,与在线对手对抗。我们还将在线学习模型扩展到 k 臂上下文强盗设置中,通过使用我们的 Massart 在线学习器设计了一个 - ICML适应性在线实验设计用于因果推断
在线学习中基于干预样本历史的分离图系统相匹配的追踪停止因果发现算法优于现有方法,通过较少的样本实现更高准确性的因果图学习。
- 关于连续时间在线学习的一点备注
连续时间模型中,我们提出了在线学习问题的连续时间算法,并给出了最优遗憾界的简明证明。
- 基于设备的 TinyML 系统的在线学习和语义管理
近年来微型机器学习(TinyML)的最新进展为低占用嵌入式设备提供了实时的设备端机器学习能力。然而,TinyML 的实际实施面临着独特的挑战。本研究旨在弥合原型设计的单一 TinyML 模型与开发可靠的生产级 TinyML 系统之间的差距: - 分布式学习遇上图结构采样
该研究建立了 PAC 学习高维图模型与图结构计数和采样的新联系,使用在线学习框架,给出了新的样本复杂度界限以及面向树形和给定和弦骨架的贝叶斯网络的多项式样本和时间算法。
- 命题逻辑等价关系自动问句生成
通过使用自动化问题生成的方法,我们实现了针对每个学生的定制问题,研究了针对离散数学的逻辑等价问题的自动问题生成方法,并证实了该方法在教育中自动化问题生成方面的实用性。
- 高效在线集合值分类与弱反馈
提出了基于类别的可信区间预测方法(BCCP),旨在解决在线学习中带有强化学习反馈的困境,通过随机梯度下降训练模型并进行多值推断,以实现类别特定的可信区间覆盖保证,并扩展了可信区间预测在在线决策环境中的可靠性和适用性。
- 广义和谐史塔克伯格博弈中的去中心化在线学习
我们研究了分布式和策略性在线学习问题,通过对不完全信息和附加信息两种不同情境进行研究,发现追随者在有限信息情境中按照局部最优策略响应领导者的行动,然而在附加信息情境中,追随者可以通过策略性行动操控领导者的奖励信号,以使得领导者的策略收敛到对 - ICML利用(有偏)信息:带离线数据的多臂老虎机
利用离线数据在随机多臂赌博机的在线学习中进行了改进,提出了一个在线策略 MIN-UCB,在给定非平凡上界的情况下优于 UCB,适当地选择使用离线数据以提高性能,理论和实验结果都表明 MIN-UCB 是一个有效的策略。
- 评估野外视频异常检测的有效性:面向实际部署的在线学习和推断
通过在线学习框架,本研究评估了当前视频异常检测算法在现实环境中的适应性,特别是基于姿势分析的算法,在效率和隐私方面具备优势。研究发现,在最具挑战性的情况下,我们的在线学习方法使模型在特定目标领域中保持了 89.39% 的原始有效性。
- 在线估计通过离线估计:一种信息论框架
统计估计的经典理论和在线学习的现代理论相结合,提出了黑盒离线估计到在线估计的转化问题,通过引入 Oracle-Efficient Online Estimation (OEOE) 框架,从信息论的角度解决了在线估计的统计复杂性和计算复杂性, - 偶然输入条件下的在线学习:综合评述与分析
在线学习中处理无序输入的方法和数据集的分类,评估以及对数据集不平衡性的度量,附带了代码实现和碳足迹的介绍。
- 在线机器学习的系统理论方法
机器学习在系统理论的视角下对在线学习的建模存在不完善之处,本文提出了一种基于系统设计的在线学习框架,包括在线学习的新定义和关键设计参数的识别,以及系统结构和系统行为的划分。同时,通过以医疗保健提供者欺诈检测为案例研究,将讨论与实际在线学习挑 - IBCB:用于行为演化历史的高效反向批次上下文强化学习
该研究提出了一种逆批次上下文强盗(IBCB)框架,可以高效地估计基于专家行为演化历史的环境奖励参数和学习策略。与现有的模仿学习算法相比,IBCB 在合成和真实数据上表现出色,并且显著降低了运行时间,同时表现出更好的非分布式泛化能力和从初级专 - 网络合同设计的新视角:异质、同质、非近视代理人和团队生产
该论文主要研究了在线学习视角下的重复主体 - 代理问题,研究了当主体每轮与单个代理进行合同交互时的三种不同情境,并提出了不同的方法和技术来设计学习算法。此外,还研究了团队生产模型,并提出了一种有效找到最优合同的方法。
- 单调个体公平性
在线学习与个体公平性问题的方法,考虑了能够聚合任意数量审核员反馈的审核方案,并提出了两个算法分别用于降低后悔度和公平违规数量,在计算效率方面也做出了显著改进。
- 在线自适应语言模型与分摊背景的记忆
大型语言模型的在线适应性方案,通过压缩与提取新文档中的信息,并存储在记忆库中,实现知识保留、问答和适应性,以提高效率和性能。
- 网络强化学习的因果性质
强化学习和因果建模在互补中相当自然地互相配合。本研究论文考察了哪些强化学习设置可以受益于因果建模,以及如何进行。
- 未知约束的在线学习
在线学习中最小化后悔,满足安全约束的广义元算法,估计未知的安全约束,并将在线学习预测转化为满足未知安全约束的预测,同时使用预测误差、各类模型的复杂度和新的复杂度度量来界定算法的后悔上限,同时提供了线性约束情况下的具体算法,使用比例变换平衡乐 - 学习具有随机硬约束的对抗式马尔可夫决策过程
我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程(CMDP)中的在线学习问题。我们设计了两种不同的情景,第一种是在一般 CMDP 中实现次线性遗憾和累积正约束违规的算法。第二种情景下,我们假设策略存在且对学习者已知,并设计了一个算法