人类语言高效的信息排序

Oct, 2015

Human languages order information efficiently

Daniel Gildea, T. Florian Jaeger

TL;DR研究了五种语言中的词序的效率和局部词汇概率，提出了语言能力的偏见来自大脑对语言的理解，促使人类语言代际传播的方式不断变化。

Abstract

Most languages use the relative order between words to encode meaning relations. Languages differ, however, in what orders they use and how these orders are mapped onto different meanings. We test the hypothesis that, despite these differences, human languages might constitute different `solutions' to common pressures of →

language word order processing bias brain

发现论文，激发创造

广义最优线性排序

本文探讨了语言处理中的单词顺序问题，并提出了基于语言学、心理语言学、计算语言学和自然语言处理的理论模型。进一步，为了优化处理单词最小化相关性，提出一种新的单词顺序，重点关注远距离依赖的人类和计算语言处理困难。最后探讨这些单词顺序对于人类语言和计算模型的影响。

Aug, 2021

句法依赖距离的优化性

通过空间网络将句子中单词的语法依赖关系表示为优化问题，引入新的评分方法来量化减少单词距离的认知压力，研究 93 种语言的句子，发现这种方法能准确评估大约一半的语言的优化水平，并对各个领域的语言研究提供了启示，特别是对网络科学有重要意义。

Jul, 2020

跨语言单词序变化反映了依赖性和信息局部性的进化压力

通过 80 种语言的语料和系统发展模型，研究说明了单个语言中词序变化的频率分布和演化，说明词序变异反映了语言在维持总体有效性方面优化竞争压力的不同方式。研究结果表明，语法结构和使用在有限的认知资源下相互协调以支持有效沟通。

Jun, 2022

认知驱动的语言模型中的词序普遍规律

语言的世界呈现出特定的类型学或意向性普遍现象；例如，主 - 宾 - 动 (SOV) 的语序通常使用后置词。通过语言模型的计算模拟，我们研究了语序普遍现象。我们的实验表明，具有类型学典型语序的语言模型的困惑度较低，其中包括认知可行的偏见：句法偏见、特定分析策略和记忆限制。这表明认知偏见和可预测性（困惑度）之间的相互作用可以解释语序普遍现象的许多方面。这也展示了在计算模拟语言普遍现象时的认知驱动语言模型的优势，这通常在认知建模中使用。

Feb, 2024

从顺序信息处理的瓶颈中获取语言结构

人类语言是一种独特的自然界沟通方式，其系统性在于信号可以分解为词汇并通过一种规则方式组合成句子，且通过最小化过剩熵的方式实现自然语言一致性，进而达到高效的沟通和信息处理。

May, 2024

深度智能体新兴通信的词序偏见

本研究旨在发现序列处理神经网络对于 “自然” 词序约束的偏见。结果表明，神经网络倾向于避免长距离依赖，但并没有明显的偏好于高效的，非冗余的信息编码。因此我们建议在神经网络中引入 “努力程度” 的概念，以使其语言行为更像人类。

May, 2019

通过迭代洗牌研究词序

通过使用一种新的称为 IBIS 的过程，本文否认了一种假说，即单词顺序对于进行 NLP 基准任务而言必须编码含义的观点，我们在 GLUE 套件和各种英语文本流派中的多种情况下证明这一点，并探讨了诸如 IBIS 这样的洗牌推理过程如何有益于语言建模和约束生成。

Sep, 2021

跨语言压力使单词顺序具有统一的信息密度

通过计算模型研究发现，信息均匀性可能对自然语言的发展和使用产生压力，并且现实语序通常比假设语序具有更大的信息均匀性。

Jun, 2023

词序与世界知识

研究通过语言模型从原始文本中诱导世界知识时，词序对其的影响，使用词类比来探究这种知识。从五种语言分别提取六种固定词序的文本，对这些文本进行预训练。最终，分析了固定词序在词类比任务上的实验结果，发现某些特定的固定词序始终优于或不如其他词序，并且这些具体情况因语言而异。另外，发现 Wov2Lex 假设在预训练语言模型中不成立，而自然的词序通常导致中等水平的结果。源代码将在以下网址公开。

Mar, 2024

大多数语言中本地结构最为重要

本文在多语言环境下复制了一项关于英语自然语言理解中局部结构和全局结构相对不重要性的研究，发现这种现象在 120 多种语言中广泛存在且存在少数例外。

Nov, 2022