印地文语境可预测性对词序的影响
通过在印地语 - 乌尔都语树库 (Hindi-Urdu Treebank corpus) 中提取包含明确定义的主语和宾语的句子,并对这些句子的前谓语成分进行有系统的排列,我们测试了依赖长度最小化作为非典型 (OSV) 句法选择的重要预测因素的假设,尤其是在控制给定性和意外度等信息状态的情况下。研究结果显示,虽然非典型的原始语料库句子倾向于在生成的语料库变体中最小化依赖长度,但这一因素在辨别原始语料库句子时并没有显著贡献,超出意外度和给定性的衡量。值得注意的是,话语可预测性成为成分顺序偏好的主要决定因素。这些研究结果得到了 44 名母语为印地语的受试者的人工评价的进一步支持。总的来说,本研究揭示了期望适应在词序决策中的作用,并将结果置于话语产生和信息局部性理论之中。
May, 2024
本文使用 Hindi 语料库和适应性神经语言模型,模拟词汇和语言结构的启动作用,并通过对预先构建的语料与人工生成的语料在句子成分上的差异进行逻辑回归分析,发现不同的启动机制独立并互补地作用于动词类别。
Oct, 2022
在本文中,我们通过添加一种顺序重构的视角并选择不同范围的数据集,重新审视了关于词序的假设,包括 “词序与词汇语义冗余” 和 “模型不依赖词序”。实证结果支持 ChatGPT 在推断中依赖于词序,但不能支持或否定词序与词汇语义之间的冗余关系。
Mar, 2024
通过研究语言模型的敏感度,提出语言冗余可以解释语言模型对自然语言理解任务中的词序变化不敏感的现象,即词序和其他语言线索(如格标记)提供了重叠和冗余的信息。利用互信息量化词序的信息量,结果显示当词序信息量较低时,模型对未乱序和乱序句子的预测更加一致。此外,发现该影响在不同任务中有所变化,对于某些任务(如 SST-2),语言模型的预测与原始预测几乎始终一致,尽管点互信息(PMI)发生变化,而对于其他任务(如 RTE),当 PMI 较低时,预测的一致性接近随机,即词序真正重要。
Feb, 2024
从信息论的角度出发, 增加了一个竞争性的语序原则:目标元素可预测性的最大化,进一步完善了词序的数学理论。 然而依存长度的最小化与可预测性最大化之间存在矛盾,对于头的最大化可预测性,头应该出现在最后,这最大化了相对于依存长度最小化的成本。本文回顾了这种广泛的理论框架对于理解主语,宾语和动词 6 种可能排序的最优性,多样性和演化的影响。
May, 2017
此研究发现,BERT 等自然语言处理模型在进行自然语言理解任务时,即使输入词的顺序被随机打乱,其对下游任务的影响几乎不会改变,因为这些模型主要利用表面特征(如情感分析中的关键词情感或自然语言推断中序列对输入的逐词相似性)进行正确的决策。研究结果表明,许多自然语言处理任务不能真正挑战机器对句子含义的理解能力。
Dec, 2020
本研究针对印地语中的词序偏好,通过实证研究发现短语距离最小化策略,而非全局依存长度最小化策略,是更好的解释,同时,结果显示认知资源限制在自然语言形成中扮演着至关重要的角色。
Apr, 2023
通过使用一种新的称为 IBIS 的过程,本文否认了一种假说,即单词顺序对于进行 NLP 基准任务而言必须编码含义的观点,我们在 GLUE 套件和各种英语文本流派中的多种情况下证明这一点,并探讨了诸如 IBIS 这样的洗牌推理过程如何有益于语言建模和约束生成。
Sep, 2021
本文探讨了语言处理中的单词顺序问题,并提出了基于语言学、心理语言学、计算语言学和自然语言处理的理论模型。进一步,为了优化处理单词最小化相关性,提出一种新的单词顺序,重点关注远距离依赖的人类和计算语言处理困难。最后探讨这些单词顺序对于人类语言和计算模型的影响。
Aug, 2021
语言的世界呈现出特定的类型学或意向性普遍现象;例如,主 - 宾 - 动 (SOV) 的语序通常使用后置词。通过语言模型的计算模拟,我们研究了语序普遍现象。我们的实验表明,具有类型学典型语序的语言模型的困惑度较低,其中包括认知可行的偏见:句法偏见、特定分析策略和记忆限制。这表明认知偏见和可预测性(困惑度)之间的相互作用可以解释语序普遍现象的许多方面。这也展示了在计算模拟语言普遍现象时的认知驱动语言模型的优势,这通常在认知建模中使用。
Feb, 2024