- ACL神经机器翻译中的结构泛化评估
本研究探讨了机器翻译和语义解析中的复合通用性问题,并发现神经机器翻译模型在句法结构的通用性上存在困难,而语义解析和机器翻译具有不同的性能趋势。
- 超网络中的注意力
使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力,在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。
- EMNLPDiNeR: 用于评估组合泛化的大规模真实数据集
通过提出 DIsh NamE Recognition(DiNeR)任务和创建一个大规模、逼真的中文数据集,本文将通过菜名识别任务来探索复合泛化,并提供了两种基于 T5 和大型语言模型的基准方法,为菜名识别任务提供一项具有挑战性的任务和解决思 - ACL基于语言模型的组合概括
通过扩展语义解析的组成概括工作,我们为生成与知识图谱配对的自然语言问题开发了一种方法,以在不受限于语言模型权重隐式编码的信息的同时,对这些模型从知识图谱中学习和概括程度进行控制性评估,我们发现现有的将语言模型与知识图谱组合的方法在未见过长度 - 从 Frege 到 chatGPT:语言、认知和深度神经网络中的组合性
人工智能中的大型语言模型和深度神经网络通过学习组合性处理和元学习的方式,展示了复杂的认知行为,为人类认知研究提供了新的视角和可能性。
- ACLEHR-SeqSQL: 用于交互式探索电子健康记录的序列文本到 SQL 数据集
本研究介绍了 EHR-SeqSQL,这是一个面向电子健康记录(EHR)数据库的新颖的顺序文本到 SQL 的数据集。EHR-SeqSQL 旨在解决文本到 SQL 解析中关键且尚未充分探索的方面:互动性、组合性和效率。通过我们的实验证明了多轮方 - 构成概括的一般理论
本研究从无任务偏见的视角探索了合成泛化问题,通过理论发现:1)在合成泛化中没有通用解决方案;2)提出了适用于任何合成泛化问题的新型泛化界限,指定了有效合成泛化解决方案的条件;和 3)引入生成效应以增强对合成泛化问题及其解决方案的理解,为合成 - SPOR:数据到文本生成中的组合概括综合评估方法
我们提出了 SPOR 方法,这是一种全面而实用的数据生成评估方法,用于研究语言模型中组合概括的不同表现,并展示了当前语言模型在数据生成方面需要进一步改进的不足之处。
- 大型语言模型中面向组合通用语义解析的研究综述
本文对最近在分析、方法和评估方案上的进展进行了综述,为从业者和研究人员在这一领域提供了一个起点。
- 多方面控制的文本生成的组合性泛化能力基准测试与提升
CompMCTG 是一个综合多方面标记数据集和三维评估协议的评估基准,用于评估 MCTG 方法的组合泛化能力,而 Meta-MCTG 是一种训练框架,通过在训练阶段模拟组合泛化场景,使模型能够学习如何泛化,并在 94.4% 的情况下在组合测 - ICLR基于实体为中心的从像素到目标操控的强化学习
这项研究提出了一种适用于表示多个物体及其相互作用的可视强化学习结构化方法,用于学习多个物体的目标条件操纵,并演示了学习使用三个物体但能推广到具有十多个物体的类似任务的代理的能力。
- COLING探索上下文学习与组合泛化之间的关系
通过在不同顺序的训练实例和打乱实例标签中训练模型,以测试强迫模型进行上下文学习对组成概括的促进作用的假设,研究表明,以这种方式训练的模型在组成概括方面确实显示出改进,证明了上下文学习问题作为归纳偏差用于概括的有效性。
- 借助合成图导航模型增进对 Transformer 中逐步推理的理解
通过研究一种合成任务中的自回归 Transformer 模型,我们揭示了逐步推理的机制,并发现了在该任务中观察到的几个现象:(i)逐步推理推理间隔;(ii)模型生成中多样性与准确性之间的权衡;(iii)模型输出的简洁偏见;以及(iv)上下文 - 通过关注结构化的量化嵌入来促进 Transformer 的系统性
通过在训练集较低复杂度的情况下,通过显式鼓励结构性嵌入和注意力层的系统性来提升语义解析和机器翻译中的组合泛化能力。
- 关于可证明长度和组合泛化性的研究
通过针对不同架构(包括深度集合、转换器、状态空间模型和简单循环神经网络)的研究,我们首次提出了能够证明长度和组合泛化的方法,并证明了对于长度和组合泛化,需要不同程度的表示识别,如与地面真实表示的线性或排列关系。
- 通过组合特征对齐增强组合泛化能力
在实际的机器学习模型应用中,数据分布的变化常常导致训练数据和测试数据之间存在差异。在常见的多领域多类别设置中,随着类别和领域数量的增加,无法为每个领域 - 类别组合收集足够的训练数据。为了解决这一挑战,我们提出了一个名为 CG-Bench - 定位文件:通用语法规则和基于结构的超越经典等变性的词汇任务和转换推广
通过广义文法规则的概念来建立能够在组合中进行泛化的模型的通用框架,这是一种从现代神经网络中区别出人类词汇学习的主要特性之一。
- 简洁有效的数据增强方法用于组合泛化
数据增强方法在预训练 seq2seq 模型中对于复合泛化很有效,但仅在从正确分布中进行采样时。从均匀分布中进行采样的表现几乎与从测试分布中采样相当,并且明显优于从训练分布中采样的先前方法。我们进一步进行实验证明了这种情况发生的原因和这种数据 - 发现组件化概括性的模块化解决方案
通过模块性和超网络的研究,我们证明了从有限数据中的元学习可以发现能够组合性地概括的模块化解决方案。
- AAAI多标签文本分类的组合泛化:一种数据增强方法
通过创建独特的数据集,评估现有多标签文本分类模型对复杂概念的组合泛化能力,在此基础上引入了数据增强方法,利用两种创新的文本生成模型提高分类模型对组合泛化的能力。实验证明,该数据增强方法显著提升了分类模型在我们的基准测试中的组合泛化能力,两种