- 学习提出有信息量的问题:利用偏好优化和期望信息增益增强 LLM
该论文介绍了一种增强大型语言模型生成问题信息性的方法,通过在 20 问游戏对话中应用直接偏好优化算法,从同一模型中抽样多个问题,创建低信息增益和高信息增益问题的配对来提高问题的效果,并在不同领域展示了该方法的有效性。
- CoCo 矩阵:智能代理协作与认知贡献分类
通过采用 Flower 和 Hayes 的认知过程理论,我们提出了 CoCo Matrix,这是一个基于熵和信息增益的二维分类法,用以描述新的人工智能写作系统与人类合作写作的模型。我们将三十四个已发布的系统位于四个象限中,发现低熵高信息增益 - ActiveRIR: 主动音频视觉探索声学环境建模
通过使用视觉和声音传感器数据,我们提出了一种新的任务 —— 主动声学采样,其通过移动代理在实时环境中建立环境声学模型和占据地图,以及确定最佳声学数据采样位置,从而以最少的声学样本得到高质量的环境声学模型。我们通过基于环境声学模型中的信息增益 - 不要半听半信:连续指令调优中关键部分信息捕捉
通过关键部分信息增益(KPIG)的动态重播数据和优化训练目标,我们提出了一种新的大语言模型(LLMs)的连续指令调整方法,从而使 LLMs 能够捕捉与正确响应相关的任务感知信息,并减轻对指令中的一般描述的过拟合。实验表明,我们的方法在已知任 - 一种用于基于偏好奖励学习的泛化获取函数
优化查询方法在学习奖励函数上的表现优于信息增益方法。
- IG 字幕生成器:信息增益字幕生成器是强零样本分类器
通过改进生成式训练中的评价目标,研究致力于缩小生成式字幕生成器和 CLIP 分类器之间的差距,实现零样本图像分类和图像 - 文本检索任务上表现可比的效果,并希望进一步研究将生成式与判别式训练程序统一的方法。
- 用于赌博游戏的近似信息最大化
基于熵最大化和自由能最小化的原理,提出一种新类的 Bandit 算法,通过最大化系统内关键变量的信息量近似来选择行动,该方法在经典 Bandit 设置中表现出较强的性能,并在高斯奖励的二臂 Bandit 问题上证明了渐近最优性,为进一步研究 - EMNLP面向情境学习的信息丰富的少样本提示与最大信息增益
本文研究了大型语言模型 (Large Language Models, LLMs) 在上下文学习 (In-context Learning, ICL) 方面的能力和稳定性问题,并提出了通过量化数据示例的信息增益 (Information G - 测量和建模身体内在动机
本文研究物理场景下人类行为的特征及其功能形式,通过实验数据模拟并最终发现最佳预测模型为基于物理预测损失的敌对奖励模型,同时简单场景特征模型并不能跨越不同场景泛化其对人类响应的预测。人类会被驱使进入会带来大量信息与活动的情境中。
- 基于规划的探索:关于最优轨迹信息的研究
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
- 儿童和计算模型中的探索学习因果过度假设
本文提出一种具有可控因果结构的强化学习环境,分别从计算机模型和儿童实验两个角度,发现信息增益和儿童探索在因果环境下的显著差异,展望了这些发现对于强化学习算法有效探索和消除因果结构歧义的新研究方向。
- 过参数化神经网络的一致泛化界
本文介绍了神经网络中过度参数化情况下的泛化误差及其相关的新理论,即神经切向核理论,通过该理论的信息获取量计算出学习问题的复杂度并证明了泛化误差的上界,同时讨论了该理论对于强化学习领域的应用。
- GIBBON: 通用信息为基础的贝叶斯优化
本文介绍了 GIBBON 作为一种通用的贝叶斯优化方法,它提供了一种新的信息增益近似方法,可解决包括噪声、多保真度和批量优化在内的一系列 BO 问题,并且是目前支持非欧氏空间的高性能但计算量轻的批量 BO 获取函数,同时在各种综合测试中表现 - 无奖励评估代理
通过在预先收集的智能体行为数据集上回溯计算潜在目标来加速内在目标的开发,并对七个智能体、三款 Atari 游戏和 3D 游戏 Minecraft 进行了输入熵、信息增益和授权效应的研究,发现所有三个内在目标与人类相似性度量的相关性都比任务奖 - 问易问题:主动奖励学习的用户友好方法
论文探讨了一个基于信息增益的方法来选择机器人询问人类专家的问题,该方法考虑了人类回答问题的能力,并优化了机器人和人类的不确定性之间的权衡以及问题的可重复性和成本控制,仿真实验和用户研究证明该方法不仅产生易于回答的问题,而且最终也导致更快的奖 - ICLR大规模答题者用于视觉对话问题生成
本篇研究提出了 AQM + 算法,可以有效地处理大规模问题,并在任务定向的视觉对话问题 GuessWhich 中展现出了优越的性能,尤其是在处理非是或否的回答方面。
- 多精度贝叶斯优化中的最大值熵搜索及其并行化
本文介绍了一种基于 max-value entropy search 的多保真度贝叶斯优化 (MF-MES) 方法,该方法通过考虑最优函数值的熵,而非最优输入点,大大简化了计算,并成功解决了信息熵的估计难题。同时,文章还提出了 MF-MES - ICMLEDDI: 使用部分 VAE 高效动态发现高价值信息
提出基于贝叶斯实验设计理论和部分变分自编码器的 EDDI(高价值信息的高效动态发现)框架,通过最大化预期信息增益的获取函数,在多个机器学习基准测试和两个真实的医疗应用中,显示了在相同的决策质量下的成本减少和在相同的成本下的决策质量的提高。
- MLaaS 范式中的模型提取警告
该研究提出了一种基于云的提取监视器,通过观察单个和串通的对手用户的查询和响应流来量化模型的提取状态,从而使用信息增益来测量具有不断增加查询数量的用户的模型学习速率,并维护智能查询摘要以在串通存在的情况下测量与输入特征空间覆盖度相关的学习速率 - Plan3D: 面向航拍多视角立体重建的视点和轨迹优化
本文介绍了一种高效计算户外场景中高质量 3D 重建的视点和轨迹的新方法,利用搭载在自主导航四旋翼飞行器上的 RGB 摄像机采集图像,并利用分层的体积表示区分未知、自由和占据空间,利用信息增益来处理遮挡,避免障碍并规划无碰撞的飞行路径,以限制