- EMNLP通过检查注意力映射的拓扑结构进行可接受性判断
研究了注意机制在编码语言知识中的作用,并探讨了注意头在判断句子的语法可接受性方面的能力,通过拓扑数据分析显示关注图的几何特性可以有效地被用于二元判断和语言最小对的标准做法,并通过 CoLA 上的三种语言(英语,意大利语和瑞典语)提高了 BE - ACL探究微调模型时数据大小的重要性
研究表明优化 Fine-tuning 效果的原因是 Fine-tuning 的数据集大小,同时数据集大小会影响编码的语言知识程度,而且数据集大小主要影响神经网络的高层,且这种影响程度跟 Fine-tuning 迭代次数有关。
- 一种隐变量模型用于内部探测
本文提出了一种新的潜变量公式用于构建内在探测器以确定语言属性所在位置,并提出一个可行的变分逼近方法,用于求解对数似然函数计算,结果表明这个模型能够获得更好的内部探测精度,并且在跨语言的形态句法方面表现良好。
- 基于语言学的多任务预训练方法用于低资源神经机器翻译
本研究提出了针对低资源机器翻译的新颖序列到序列预训练目标:面向涉及日语作为源语言或目标语言的语种的日语特定序列到序列(JASS)和面向涉及英语的语种的英语具体序列到序列(ENSS),通过在 ASPEC 日语 - 英语和日语 - 中文,Wik - ECCV多模态文本识别网络:视觉和语义特征之间的交互增强
本篇论文介绍了一种名为 MATRN(Multi-modAl Text Recognition Network)的新方法,通过促进视觉和语义特征之间的互动,提高了文字识别的性能,并证明其在 7 项基准测试上取得了最先进的表现。
- ACL迁移学习对深度自然语言处理模型中语言知识的影响?
本文研究对先前已经预训练好的 Bert、RoBERTa 和 XLNet 等神经语言模型通过微调来改进下游自然语言处理任务的表现,并使用层级和神经元级别的诊断分类器来检查这些模型的语言知识的学习方式,发现这些模型对于不同的任务有不同的语言知识 - ACL规则增强的无监督短语结构句法分析
该研究提出了一种基于语法规则的非监督句法树生成方法,利用了语言的通用语法知识,采用强化学习和自编码器等技术,在 MNLI 和 WSJ 两个基准数据集上实现了最好的结果。
- EMNLP探究时间跨度:RoBERTa 知道什么以及何时知道?
探究语言模型中不同知识类型在 (pre) training 时学习的时间,发现语言知识快速、稳定、跨领域学习;事实和常识知识较慢、受领域限制;而推理能力一般不稳定从而建议研究人员使用更有效的方法加快必要知识的学习。
- ACLDodrio:用交互式可视化探索变压器模型
Dodrio 是一款可视化工具,可帮助 NLP 研究人员和实践者分析变压器模型中的关注机制。它紧密集成了概述和详细视图,以帮助用户将关注权重与输入文本中的语法结构和语义信息进行比较。
- AAAICogNet: 联接语言知识、世界知识和常识知识
本论文介绍了 CogNet 知识库,它致力于整合来自 FrameNet、YAGO、Freebase、DBpedia、Wikidata 和 ConceptNet 的三种知识类型:语言知识、世界知识和常识知识,以实现不同类型知识的一致性建模。我 - 重新发现假设:语言模型需要满足语言学需求
本文探讨了现代语言模型中是否包含通过所谓的探针恢复的语言知识的持续争论,并研究了语言知识是否是现代语言模型良好性能的必要条件,提出了信息论框架,旨在将语言建模目标与语言信息相关联,并强化了成果通过对合成和实际 NLP 任务的各种实验。
- ACL他眨眼还是点头?用于评估语言模型词语理解能力的挑战性基准测试
通过填空式洞察问题查询语言模型,以评估其获取的语言知识类型。现有的洞察数据集主要关注单词与实体之间的关系。本文提出 WDLMPro 直接使用单词的字典定义来评估单词的理解,并发现三种受欢迎的预训练语言模型难以匹配单词及其定义,这表明它们对许 - COLING探究 Masked Language Models 中的语言知识:以美式英语中的关系从句为例
通过句子级探测、诊断案例和掩蔽预测任务的评估,我们针对相对子句测试了三种模型(BERT,RoBERTa 和 ALBERT)的语法和语义知识,在自然数据集上,探测表明三种模型确实捕获了关于语法正确性的语言知识,但对包括语义知识在内的细粒度语言 - EMNLP对预训练语言模型中个体神经元的分析
本研究探讨了使用深度 NLP 模型学习的表示来捕捉语言知识。在核心语言学任务上进行了神经元级别的分析,研究了预训练的语言模型中的神经元是否捕捉了语言信息,哪些部分学习了某些语言现象,信息分散或集中在哪里,以及不同架构在学习这些属性方面的差异 - EMNLP预训练变压器中微调和句子级探测在语言知识中的相互作用
本文研究了 BERT、RoBERTa、ALBERT 三个预训练模型在句子级探测下,微调如何影响它们的表示。发现微调对于探测任务的准确性有着重大影响,但不同模型和任务的影响有所不同。在发现微调对于探测有着积极或消极的影响时,需进行慎重解释。
- COLING神经语言模型的语言学分析
本文探究了神经语言模型(NLM)在调整细节后所学习到的语言知识及其对于多种分类问题的预测影响,结合多重探测任务发现,尽管 BERT 能够编码多种语言特征,但在特定的下游任务训练后往往导致相关信息丢失,而 BERT 对于不同语言属性的编码能力 - EMNLP语义角色标注引导下的多轮对话重述
该研究提出使用语义角色标注为多轮对话改写提供指导,达到更好的性能,实验证明这可明显提高 RoBERTa 模型性能。
- ECCVGINet: 场景解析的图交互网络
本文提出了图交互单元和语义上下文损失的方法,将语言学知识引入视觉图,增强上下文推断和刻画高层语义,最终在场景解析等任务上取得了优越的表现。
- ACLNakdan:专业希伯来文标点工具
本文介绍了一种自动标点希伯来文的系统,它结合了现代神经模型和精心策划的语言学知识以及全面手动构建的表格和字典。除了提供最先进的标点准确性外,该系统还支持手动编辑和校正自动输出的接口,并具有一些使其特别适用于准备希伯来文文本科学版的功能。该系 - 使用仅词嵌入的方法对 158 种语言进行词义消歧
本研究提出了一种基于预训练的词嵌入,利用完全无监督和无基于知识的方法诱导一个完整的词义库,并实现对 158 种语言中的单词进行上下文消歧,对于资源匮乏的语言特别有用。