- 蒙特卡洛树搜索通过迭代偏好学习提高推理能力
通过增强大型语言模型的推理能力,我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据,将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性,我们结合了结果验 - 当医学影像遇上自注意力机制:一段并未很成功的爱情故事
通过在医学图像上扩展卷积神经网络结构,研究了自注意机制的应用,发现仅仅加入自注意机制并不能提升现有的完全卷积方法的性能。
- 语言模型能否识别有说服力的论点?
大型语言模型(LLMs)的能力不断增长,但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。为了了解 LLMs 的说服能力,我们在 Durmus&Cardie(2018)的数据集上进行了研究,提出了衡量 LLMs 能力的任务, - 借助语言引导的恶劣天气语义分割
我们提出了一种从在恶劣天气条件下拍摄的图像中推断语义分割地图的方法,通过利用语言作为指导,在不同的气候效应对图像的影响下,模型在 WeatherProof 和 ACDC 数据集上表现出了更好的性能。
- IJCAI学习古典规划领域的通用策略:超越 C2
利用参数化的关系图神经网络 R-GNN [t],我们在仅使用二次空间嵌入的情况下近似了 $3$-GNNs,对于较低的 t 值,如 $t=1$ 和 $t=2$,通过交换较少的信息消息,我们经常得到几个规划领域所需的 $C_3$ 特性。实验结果 - MedMerge: 有效合并模型对医学成像任务进行有效的迁移学习
提出了 MedMerge 方法,通过合并来自不同初始化的模型的权重,从而结合学习自不同任务的特征,以提高医学图像分析任务性能。在各种医学图像分析任务上进行测试后,发现合并模型能够显著提高 F1 得分,最多可提高 3%。
- 上下文去偏的稳健情感识别
提出了一个反事实情感推理框架 (CLEF),通过消除上下文偏差和增强预测性能,改善情感识别中的整体因果效应。
- ICLR精细调整增强现有机制:实体追踪案例研究
通过对细分任务的调优,研究模型的内部计算如何受到影响,并在实体跟踪中显示出性能提升。
- 用户 - LLM: 基于用户嵌入的高效 LLM 语境化
利用用户嵌入来上下文化大型语言模型,实现显著性能提升。
- 模拟过参数化
在这项研究中,我们介绍了一种名为模拟超参数化(SOP)的新范式。SOP 将紧凑模型的计算效率与超参数化模型的先进学习能力相结合,提出了一种独特的模型训练和推断方法。我们提出了一种与主流架构(包括 Transformer 模型)无缝集成的架构 - 自适应推断:理论限制和未开发的机会
提出了第一个量化自适应推理算法效率和性能提升机会规模的理论框架,通过经验证据展示了在计算机视觉和自然语言处理任务中可以实现 10-100 倍的效率提升而不会造成任何性能损失,同时提供了关于通过自适应推理状态空间的最佳选择和设计来提高可实现的 - 多语言马来西亚嵌入:利用大型语言模型进行语义表示
通过细调马来西亚语言模型,我们在涉及负面和正面成对单词的嵌入任务上进行了全面的探索,并发布了两个专为语义相似性和检索增强生成(RAG)定制的区别模型。我们的发现强调了我们的细调策略的有效性,并突出了在语义相似性和 RAG 任务中的性能提升。
- 视觉 Transformer 中钥匙的流形表示
该研究通过解耦键值查询,采取流形表示的方式,探索了视觉 Transformer 模型性能的提升,实验证明这种方法可以显著增加模型在图片分类、目标检测和实例分割任务中的准确性。
- LLaVA-MoLE:稀疏的 LoRA 专家混合模型用于缓解指令微调 MLLMs 中的数据冲突
在多领域图像 - 文本指导数据上进行指导微调是获取多功能多模态大型语言模型(MLLM)的关键,通过创建一组 MLP 层的 LoRA 专家,通过路由函数将每个令牌路由到最佳专家,以适应来自不同领域的令牌的自适应选择,从而解决了多领域指导数据的 - 频率掩蔽用于通用深度伪造检测
通过探索遮蔽图像建模,我们提出了一种新颖的频率域深伪造图像检测方法,具有优异的泛化能力和显著的性能提升。
- 通过数据增强和动态采样方法提升神经定理证明
DS-Prover 是一个用于定理证明的创新动态抽样方法,通过根据剩余时间和总分配时间来调整探索和开发之间的平衡,以提高证明搜索过程的效率,并通过拆分简化和重写策略为具有单个前提的策略来扩充训练数据集,从而在 MiniF2F 和 Proof - AAAIDGCLUSTER:一种基于模块化最大化的属性图聚类的神经框架
通过使用图神经网络优化模块性目标的 DGCluster 方法,我们在多个领域中进行图聚类,取得了显著的性能提升。
- RandMSAugment:用于有限数据场景的混合采样增强
数据增强是一种有效训练深度卷积神经网络以限制数据的方法,本研究探讨了基础增强技术、如混合样本数据增强和无参数的 RandAugment 变体 Preset-RandAugment,在完全监督的情境下证明了 Preset-RandAugmen - 黑盒提示优化:无需模型训练对齐大型语言模型
通过黑盒提示优化(BPO)进行对齐,使得大型语言模型(LLMs)更好地遵循用户指令,以最佳方式实现用户意图,而无需更新 LLMs 的参数,并且 BPO 对齐的 ChatGPT 在胜率上比原始版本提高了 22%,GPT-4 提高了 10%。
- 扭曲、分散、解码:调校模型能够从嘈杂的指令中优化应答
在这篇论文中,通过引入一种简单而有效的方法,称为指示性解码(ID),来改进指导性调整的语言模型。通过使用一种被称为噪声指示的操作版本的原始指示生成的预测,ID 以对比的方式调整下一个令牌预测的逻辑回归。我们研究了一系列不同类型的噪声指示,包