- 记忆增强型神经求解器在组合优化中的高效自适应
MEMENTO 是一种基于记忆的强化学习方法,可以在推理时间动态更新行动分布,提高神经求解器的适应性和性能。
- 从启发法到理性:语言模型推理的动态启发法使用
语言模型在多步推理中在早期阶段更依赖于启发式方法,包括词汇重叠,但随着接近最终答案,启发式方法的依赖程度减少,语言模型动态结合启发式和逻辑策略进行多步推理任务。
- 最大割的基准:朝着组合优化的学习启发式评估的标准化
设计适用于基于图的组合优化问题的通用启发式方法,通过引入图神经网络 (GNN) 来学习分布特定的解决方案结构。通过提出开源基准测试套件 MaxCut-Bench,对多个学习方法进行系统验证,并发现某些学习启发式方法无法胜过贪婪算法,只有一种 - 基于图神经网络的启发式学习:一种用于链接预测的统一框架
利用统一矩阵公式和 HL-GNN 方法,本研究提出了一种整合了各类算启发式方法和传统图神经网络的学习模型,通过广泛的实验验证了其高效性和显著优于现有方法的预测性能。
- 打破链条:大型语言模型能成为捷径推理器
通过在语言模型中引入人类类似的启发式和捷径策略并开发零样本提示策略,以优化 Chain-of-Thought 推理,同时引入 ShortcutQA 数据集用于评估和提升人工智能的推理效率。
- 智能 Go-Explore:站在巨人基础模型的肩膀上
Intelligent Go-Explore (IGE) extends Go-Explore by replacing heuristics with giant foundation models (FMs), enabling ins - 基于输出限制的决策树
这篇论文介绍了可以处理多目标输出和目标之间约束的新决策树变体,通过调整划分准则来处理约束并得到可行的预测,包括基于优化的精确方法和几种启发式方法,并进行了计算实验以证明和比较所提方法的结果。
- CLARINET:为检索任务扩展语言模型以提问澄清问题
这篇研究论文介绍了 CLARINET,一种能够通过选择问题来最大化正确候选项准确性的系统,在信息检索环境中提出澄清问题的问题,相对于传统的启发式方法提高了 17% 的检索成功率,并相对于简单提示的大型语言模型提高了 39%。
- 通过两阶段图指针网络和强化学习解决 QAP 问题
本文提出了一种基于深度强化学习模型的两阶段图指示器网络(GPN)来解决二次分配问题(QAP),实验结果表明它可以为 TSPLib 和 QAPLIB 的基准问题提供半最优解。
- 马尔可夫决策过程验证学习算法
提出了一个泛用的框架,应用学习算法和启发式指导来验证马尔可夫决策过程 (MDP),主要关注概率可达性问题,包括精确和近似的情况,不受时间限制或折扣因子等条件的限制。
- 多机器人任务分配中带有学习激励函数的大图匹配加权
该论文介绍了一种使用图强化学习 (GRL) 框架来学习多机器人任务分配 (MRTA) 的启发式或激励的方法,其中使用胶囊注意力策略模型来学习如何赋予任务 / 机器人配对 (边) 在将任务集与机器人集连接的二分图中的权重。该方法与使用专家指定 - 学习引导的自动推理:简要调查
自动定理证明器和形式证明助手是理论上能够证明任意难题的一般推理系统,但在实践中面临组合爆炸所以包括很多启发式算法和选择点来影响系统性能。机器学习预测器可以引导这些推理系统的工作。本文概述了几个自动推理和定理证明领域及目前对它们进行的学习和人 - AutoSAT: 通过大型语言模型自动优化 SAT 求解器
AutoSAT 是一种自动优化 SAT 解算器中启发式算法的新框架,基于大型模型(LLMs),它能够自主生成代码、进行评估,并利用反馈进一步优化启发式算法,从而减少人工干预并增强解算器的能力。AutoSAT 在插拔式基础上操作,不需要广泛的 - 重新考虑图神经网络在分支策略中的容量
研究表明图神经网络能够有效地表示和学习基于混合整数线性规划的解决策略,其中包括强分支评分。另外,该研究还证明第二阶基因网络结构能够以高准确率和高概率近似强分支评分。
- AAAI随机最短路径问题的高效约束生成
利用规划和运筹学的新框架,解决了随机最短路径问题中冗余计算的问题,提出了一种有效的约束生成技术,应用到了新算法 CG-iLAO*,实验证明 CG-iLAO * 相较于 LRTDP 和 iLAO * 在解决问题时速度提高了 8 倍和 3 倍, - 探索会话代理作为评估决策中认知偏差的有效工具
我们的研究旨在探索对话代理作为有效工具在不同领域测量各种认知偏差,我们的初步实验表明,对话代理可以有效地用于测量偏差。
- ACL自然语言处理中的分类评估指标问题讨论
在自然语言处理(NLP)分类任务中,衡量模型泛化能力的常规度量指标(如准确率、F - 度量或 AUC-ROC)的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标,并证明随机猜测的归 - MM从示例中学习时间公式是困难的
从样例中学习线性时间逻辑(LTL)公式的问题的计算复杂性进行了研究,发现 LTL 学习问题在全逻辑和几乎所有的片段中都是 NP 完全的。这激发了寻找高效启发式算法的动力,并突显了以简洁的自然语言表达分离性质的复杂性。
- 利用潜在空间搜索的组合优化与策略适应
使用强化学习构建基于启发式方法的优化算法,通过预训练具有多样性的策略分布来优化搜索过程,在三个经典问题上实现了更好的性能和泛化能力。
- 在线微调的游戏求解
应用在线微调的方法解决游戏问题,在计算时间上相比基准方法仅使用了 23.54%,表明节约的规模与问题的大小成正比。