- LLM 能否找到绿色圆圈?构成泛化的调查和人类引导工具操作
我们通过对现有 ICL 方法的实证调查发现其在复合泛化问题上表现不佳,因此我们提出了一种人工引导的工具操作框架 (HTM),它通过生成子问题的工具并整合多个工具来提高工具的创建和使用效果。实验证明,我们的方法在两个复合泛化基准测试上取得了最 - ComPEFT: 通过稀疏化和量化进行参数高效更新的压缩传输
Parameter-efficient fine-tuning techniques, such as ComPEFT, compress expert models without retraining, achieving high c - EMNLP更好的组合泛化数据因子
通过对不同数据因素(包括数据集规模、模式复杂度和示例难度等)的多样化训练集进行实证分析,本研究发现增加数据集复杂性有助于提高模型在多个不同泛化挑战上的泛化行为,并且展示了更复杂的数据集提供更多样化示例以增强组合性理解效果,并减少示例的重复频 - 语法指导的 Transformer: 在多模态环境中提升组合泛化能力和基于语境的理解
利用句法结构的注意力屏蔽技术从根本上提高了组合概括的重要性,特别是在多模式环境中的语义根基问题。通过在 Transformer 编码器中的权重共享,依赖解析在不同任务中推动了基于语法的组合概括的最新研究。这些结果提高了多模式语义根基和参数高 - 深度和宽度对 Transformer 语言模型泛化的影响
通过对 transformers 进行实验,我们发现深度模型相比较较浅模型能更好地进行组成性泛化,并得出更深的模型在语言建模性能上表现更好的结论。
- 通过迭代学习和简单嵌入改进组合泛化能力
通过使用基于简单嵌入的模型上的迭代学习,我们改进了深度网络的组合泛化能力,并通过基于科尔莫哥洛夫复杂性的组合性分析展示了这种改进在视觉任务和实际分子图预测任务中的有效性。
- 评估结果的有效性:评估组成性基准测试的一致性
近年来,NLP 模型取得了巨大的进展,尤其是通过这方面的大量数据集进行性能评估。然而,有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现,这些数据集根据 8 种组 - EMNLPCOGS 中的结构性泛化:超标记化几乎是你所需的全部
在许多自然语言处理应用中,神经网络在处理超出分布范围的示例时被发现无法进行泛化。本文通过多种方法对神经图形语义解析框架进行扩展以缓解这个问题,实验结果表明结构性约束对语义解析中的泛化是重要的。
- 组合世界模型的神经符号基础
我们引入了 Cosmos,这是一个面向对象的世界建模框架,旨在通过已知视觉 “元素” 的组合来实现组合泛化(CG),并通过使用一种新颖的神经符号化基础来提高性能。
- EMNLP利用数据集制图来提高 Transformer 中的组合泛化能力
通过数据集制图的方法,我们提出了一种新型的策略,用于增强神经网络的组合泛化性能,实现了模型准确性的显著提高。
- 复合能力呈现出乘法效应:在合成任务上探索扩散模型
通过对条件扩散模型的控制实验研究,我们发现生成模型在组合推理任务上的性能是突然出现的,其组合能力取决于底层数据生成过程的结构,并在生成非分布样本时需要更多的优化步骤。
- 稀疏通用变压器
提出了 Sparse Universal Transformer (SUT),利用稀疏专家混合(SMoE)和基于断裂棒的动态终止机制来减少 UT 的计算复杂性,同时保持其参数效率和泛化能力。实验证明,SUT 在 WMT'14 上仅使用一半的 - 可证明的物体为中心学习的组合概括
通过可识别性理论的视角,我们研究了何时可以保证物体中心表示在组合泛化中保证可补全一致性,通过合成图像数据的实验验证了我们的理论结果和假设的实践相关性。
- 系统化综合的组合式程序生成
给定一篇研究论文,通过训练神经符号结构的组合程序生成器(CPG),实现少样本学习和按长度生产序列到序列语言任务的通用性。
- 动态模块化推理用于构成结构化解释生成
我们提出了一个新的结构化解释生成任务的设置,以促进组合推理研究,并通过模块化的推理模型 MORSE 来提高神经模型的组合泛化能力。实验证明 MORSE 的动态推理模块和泛化能力的有效性。
- ChatGPT 作为数据增强在组合泛化中的应用研究:以开放意图检测为例
本文通过案例研究,以开放式意图检测任务为研究对象,探讨使用 ChatGPT 作为数据增强技术以提高组合泛化性能,通过构建数据集并整合 ChatGPT 生成的合成数据来训练模型,通过严格评估多个基准测试,发现我们的方法在开放式意图检测中表现优 - 技能背景提示:解锁大型语言模型的组合性
通过 skills-in-context 提示策略,本研究发现通过演示技能与组合示例在同一提示环境中,能够激发大型语言模型的内在潜力,使其能够解决需要创新技能组合的未见复杂问题,并且能够激活和组合这些内在竞争能力。
- ExeDec:神经程序合成中的执行分解技术
通过将复杂任务分解为更小、更熟悉的子任务,人们在编写程序时能够解决新的复杂任务。本文中,我们表征了程序合成中几种不同形式的组合泛化,构建了一个元基准,用于为两个流行的数据集 RobustFill 和 DeepCoder 创建泛化任务。然后, - 层次表示融合的组合性泛化
通过引入 fuse-attention 模块,提出了一种扩展的序列到序列模型( extsc {FuSion}),以适当地将上一层的信息融合回编码和解码过程中,有效地解决了表示缠结问题,并在两个实际基准测试上取得了竞争性甚至最先进的结果,从而 - 学习动态属性分解世界模型以提高多目标强化学习效率
在这篇论文中,我们介绍了动态属性因子强化学习(DAFT-RL)框架,通过利用物体中心表示学习从视觉输入中提取物体,并学习对它们进行分类和推断其潜在参数。我们通过学习类别的模板图和对象之间属性级别的相互作用模式图,以及描述对象之间相互作用的动