- 上下文语言学习:结构和算法
通过研究在背景语境中的大规模神经语言模型对正则语言的学习,我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势,并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能 - ACL学习替代语块以提高组合泛化能力
提出新的跨度替换策略(SpanSub)和基于嵌入式的学习框架(L2S2),分别解决了神经序列模型中的组合泛化问题和不均等难度分布下的挑战性组合问题,成功提高复杂数据集上的性能。
- ACL香草 Transformer 中的分层结构理解
本文研究了神经序列和转换语言模型的层次结构泛化能力,发现通过长时间训练,模型能够学习到层次结构的一般性,对模型深度的分析证明浅层和深层不如中等深度的模型性能优秀。此发现证实了香草珂朵莉模型能够发现和使用自然语言中的层次结构。
- 弥合鸿沟:凝视事件作为可解释概念解释深度神经序列模型
本研究旨在通过使用现有的凝视事件检测算法定量评估比较眼球运动中其不同成分的影响,从而展示 Saccades 事件对于数据集中输入特征的显著重要性, 并通过使用 Saccades 的子事件进一步研究样本的速度对于概念的影响。
- 什么是上下文学习算法?线性模型的研究调查
本文通过三类证据说明了基于 transformers 的 in-context learners 在其激活中编码了较小的模型,并更新这些隐式模型为更加精确的预测器;而且,这些学习器学习算法的特征与最佳实践算法相似,这意味着 in-conte - ACL不确定性决定了序列到序列模型的适用性和解码的可操作性
通过测量自然语言处理中 intristic uncertainty 的程度,我们发现它会对搜索过程的归纳偏差和精确搜索的复杂度等方面产生重大影响,并提出了一种新的精确搜索算法用于神经序列模型,发现 intristic uncertainty - AAAI符号数学中序列模型的符号脆弱性:对系统化推广问题的研究
通过研究符号数学积分问题,本文发现序列模型在推广、组合性、超出分布方面的表现不佳,需要更多超出测试集的评估。
- ACL学习代数重组以进行组合推广
本文提出 LeAR 模型作为神经模型的一种解决方案,为语义解析任务中的组成归纳学习代数重组提供了一种方法。
- 双系统神经符号推理在神经序列模型中的一致性与连贯性改进
通过在神经序列模型(System 1)中加入逻辑推理模块(System 2),提高模型的逻辑一致性和准确性。实验表明此方法可以提高故事生成和指令执行的一致性和准确性。
- 复合词变压器:学习在动态有向超图上组合全歌曲音乐
该论文提出了一种新型 Transformer 解码器架构,其用于不同的前馈头来模拟不同类型的 tokens,以及一种扩展 - 压缩技巧将邻近的 tokens 分组成复合单词的序列,表现出比现有模型更快和同等质量的学习能力.
- ACL检测条件神经序列生成中产生的虚假内容
本文介绍了一种使用预训练模型和人工标注数据来检测神经序列模型输出中的虚构内容,并在机器翻译和摘要生成等任务中获得显著效果的方法。
- ICLR学习重新组合和重新采样数据,用于基于组合性泛化
本文提出了 R&R,一种学习数据扩充方案,它通过基于原始训练示例的原型生成模型的重组和生成示例的重新采样来实现大类组合泛化,显著提高了普适性,尤其是在对罕见或看不见的子序列需要组合泛化的环境中,如指令跟踪(SCAN)和形态分析(SIGMOR - ACL使用多粒度上下文编码的文档级事件角色填充物提取
本文研究了文档级事件抽取中跨句子事件命名的问题,并提出了一种多粒度阅读器,用于动态汇集不同粒度的神经表示学习的信息。通过在 MUC-4 数据集上进行实验,表明本文提出的最佳系统的表现显著优于先前工作,并对上下文长度和神经模型性能之间的关系进 - EMNLP一种基于未完成解码的循环语言模型的一致性
研究了递归语言模型收到无限长度序列的相关问题,提出了一种自行终止的递归语言模型和两种解决一般解码算法不一致问题的方法。
- ACL从古至今:神经原语言重建
本文研究历史语言学中的声音变化规律及该规律如何使用比较法进行原形词的重构,提出使用神经序列模型对比较法数据集中的超过 8000 个比较条目进行原形词的预测,结果表明神经序列模型优于现有的传统方法。语音学变化的复杂性存在一定的差异,但该模型仍 - ACL使用连续松弛束搜索对循环神经序列模型进行全局和局部归一化的实证研究
本研究通过对搜索感知训练的扩展,实现对全局标准化经常序列模型的训练,并在 CCG supertagging 和机器翻译任务中证明了全局标准化在不同条件下的重要性。
- ACL基于有限状态转换器的神经语法错误纠正
介绍了一种基于语言模型和有限状态转换器的语法错误更正方法,与神经序列模型和基于短语的机器翻译相比具有更好的效果,同时无需大量的标注数据,并且在拥有标注数据的情况下,该方法也适用于基于短语的机器翻译。
- ACL使用合成自然语言变体研究 RNN 的归纳偏置
研究了神经序列模型通过 typological properties 如词序和形态格标示来获取一种语言的语法的能力,针对这种种类繁多的语法特征和训练语料之间的复杂交互,作者使用了从英文中生成一些与英文在一个或多个语言学特性上不同的合成语言来 - ACL利用序列标记技术从 Twitter 数据流中检测子事件
本文提出了基于神经序列模型的改进方法,不仅在个别帖子层面,而且直接在流媒体层面上进行社交媒体流中的子事件检测,采用递归神经网络模型显式地考虑了帖子的时间顺序,提高了 2.4% 的 bin-level F1 值。
- AAAI基于图结构的多任务学习
本文提出了两种基于神经序列模型的多任务学习架构,采用 message-passing graph 神经网络的思想,构建了通信的图多任务学习框架,并在文本分类和序列标注任务上进行了大量实验,证明了其在多任务学习和迁移学习上的有效性和可解释性。