- COLING基于高阶特征的稀疏逻辑回归用于从树库中自动提取语法规则
我们提出了一种新的方法,从树库中提取和探索显著的细粒度语法模式和潜在的句法语法规则,以创建易于理解的基于语料库的语法描述。我们使用线性分类器提取预测研究中语言现象最显著特征,并将统计信息与每个规则关联,然后将模型结果的排序与其他定量和统计测 - 词序的影响:重新排序和生成分析的见解
在本文中,我们通过添加一种顺序重构的视角并选择不同范围的数据集,重新审视了关于词序的假设,包括 “词序与词汇语义冗余” 和 “模型不依赖词序”。实证结果支持 ChatGPT 在推断中依赖于词序,但不能支持或否定词序与词汇语义之间的冗余关系。
- 词序与世界知识
研究通过语言模型从原始文本中诱导世界知识时,词序对其的影响,使用词类比来探究这种知识。从五种语言分别提取六种固定词序的文本,对这些文本进行预训练。最终,分析了固定词序在词类比任务上的实验结果,发现某些特定的固定词序始终优于或不如其他词序,并 - 词序的重要性和非重要性
通过研究语言模型的敏感度,提出语言冗余可以解释语言模型对自然语言理解任务中的词序变化不敏感的现象,即词序和其他语言线索(如格标记)提供了重叠和冗余的信息。利用互信息量化词序的信息量,结果显示当词序信息量较低时,模型对未乱序和乱序句子的预测更 - 认知驱动的语言模型中的词序普遍规律
语言的世界呈现出特定的类型学或意向性普遍现象;例如,主 - 宾 - 动 (SOV) 的语序通常使用后置词。通过语言模型的计算模拟,我们研究了语序普遍现象。我们的实验表明,具有类型学典型语序的语言模型的困惑度较低,其中包括认知可行的偏见:句法 - 名词短语中头部的最佳位置 —— 限定词、数词、形容词和名词的案例研究
词序受多个原则影响,句法依赖距离最小化原则与预测性最大化原则在单头句法依赖结构中产生冲突,当涉及到名词短语时,确认通过语言的首选顺序进行测试,名词倾向于位于首尾位置,并表现出反定域效应:首选顺序中的句法依赖距离较长。
- ACL通过强制无效化来保持单词顺序的重要性
通过强制无效化模型对置换序列的识别,我们提出一种简单的方法,叫做 Forced Invalidation(FI),以帮助保留单词序列中的重要信息,从而显著提高了模型对于单词序列的敏感性。我们在多个英文 NLU 和基于 QA 的任务上对 BE - EMNLP增加遮挡时,词序很重要
本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响,发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加,并且没有位置编码的模型不能完成该任务,这揭示了 Transformers 通过位置编码捕捉 - EMNLP印地文语境可预测性对词序的影响
考察了语篇可预测性对印地语句法选择的影响,发现信息状态和 LSTM-based 语篇可预测性对非规范的宾语前置语序选择有影响。
- 用于评估 NLP 模型概念合理性的顺序敏感的 Shapley 值
研究探讨使用新的解释方法 -- 顺序敏感的 Shapley Value 方法评估深度自然语言处理模型对单词顺序的概念正确性的影响,并发现在处理 HANS 数据集和情感分析任务时,某些深度模型对否定构造和主语动词一致性的语法和顺序理解存在局限 - AUTOLEX:一个自动语言探索框架
AutoLEX 是一个自动框架,旨在帮助语言学家发现和提取语言现象的简洁描述,如形态一致性、格标记和词序。
- ACLBERT 在分类语法角色时不考虑单词顺序… 除非它很重要
通过探究自然语言处理模型中英语 BERT 和 GPT-2 语法角色的表示,发现其后期层次的单词聚类受到词序关系的影响,特别是在某些非典型语境下,词序知识对于正确的分类具有重要的作用,这突出了模型在非常规但至关重要的时刻如何使用上下文。
- 实验测量及物从句中语法提示的冗余度
通过行为实验和跨语言计算分析,我们研究了自然语言中语法提示的冗余性,并发现仅有最多 10-15%的自然发生的句子需要语法提示来表达代理性和病因性,但它们在提供重要的冗余来源方面至关重要,特别是在描述人际交往、表达非典型意义以及区分可逆角色时 - EMNLP通过迭代洗牌研究词序
通过使用一种新的称为 IBIS 的过程,本文否认了一种假说,即单词顺序对于进行 NLP 基准任务而言必须编码含义的观点,我们在 GLUE 套件和各种英语文本流派中的多种情况下证明这一点,并探讨了诸如 IBIS 这样的洗牌推理过程如何有益于语 - MM广义最优线性排序
本文探讨了语言处理中的单词顺序问题,并提出了基于语言学、心理语言学、计算语言学和自然语言处理的理论模型。进一步,为了优化处理单词最小化相关性,提出一种新的单词顺序,重点关注远距离依赖的人类和计算语言处理困难。最后探讨这些单词顺序对于人类语言 - ACL使用人工语言检验神经语言模型的归纳偏差
该研究提出了一种新颖的方法,使用人造语言验证语言模型的归纳偏见,并发现常用的神经架构在处理语句单词排序方面存在不同的归纳偏差。
- ACL乱序排列:语句中单词顺序对自然语言理解任务的重要性如何?
此研究发现,BERT 等自然语言处理模型在进行自然语言理解任务时,即使输入词的顺序被随机打乱,其对下游任务的影响几乎不会改变,因为这些模型主要利用表面特征(如情感分析中的关键词情感或自然语言推断中序列对输入的逐词相似性)进行正确的决策。研究 - MM句法依赖距离的优化性
通过空间网络将句子中单词的语法依赖关系表示为优化问题,引入新的评分方法来量化减少单词距离的认知压力,研究 93 种语言的句子,发现这种方法能准确评估大约一半的语言的优化水平,并对各个领域的语言研究提供了启示,特别是对网络科学有重要意义。
- ACL语言模型作为词序假说的备选评估器:以日语为例的案例研究
本文介绍了一种使用神经语言模型 (LMs) 分析语言词序的方法,以日本语作为案例研究,通过实验,初步得出神经语言模型具有足够的词序知识用于分析工具,并利用该方法,显示了规范词序与主题化之间的关系。
- ICML卷积泊松伽马信念网络
该论文提出了一种基于卷积泊松因子分析(CPFA)和卷积泊松伽马置信度网络(CPGBN)的文本分析方法,用于高效地提取这些文本的潜在表示,以捕捉单词顺序信息。