从顺序信息处理的瓶颈中获取语言结构

May, 2024

从顺序信息处理的瓶颈中获取语言结构

Linguistic Structure from a Bottleneck on Sequential Information Processing

Richard Futrell, Michael Hahn

TL;DR人类语言是一种独特的自然界沟通方式，其系统性在于信号可以分解为词汇并通过一种规则方式组合成句子，且通过最小化过剩熵的方式实现自然语言一致性，进而达到高效的沟通和信息处理。

Abstract

Human language is a unique form of communication in the natural world, distinguished by its structured nature. Most fundamentally, it is systematic, meaning that signals can be broken down into component parts th

language systematicity entropy communication information processing

发现论文，激发创造

高效符号通信码的演化

本文探讨了人类自然语言结构如何成为相互之间交流编码演化的产物，以最大化文化不可知和跨语言度量，如反熵，压缩因子和交叉分割 F1 得分，并在超参数空间中执行元学习，通过最大化上述度量，实现自然语言学习。文中介绍了针对俄语，英语和汉语的跨语言单词级分割分词研究，以及对英语的子词分割或形态分析研究的初步结果。研究发现，从分词到分词中可以发现，这些度量驱动着语言结构，反熵更相关于英语和俄语，而压缩因子更适用于中国。对于英语词汇表的子词分割或形态分析的研究揭示了压缩和压缩因子之间存在直接联系，而惊讶的是，与反熵的相同联系却变成了相反。

Jun, 2023

语言的深度学习易度是由什么决定的？

通过在人工语言学习研究中复制并测试深度神经网络学习新语言的记忆和推广能力，我们在神经网络与人类之间发现了惊人的相似性，并发现结构化语言输入在提高神经网络系统化概括和记忆错误方面的效果与自然语言存在高度相关性。

Feb, 2023

紧凑语言中的熵最小化

研究神经代理在通讯任务中共同训练时出现的语言，并聚焦于两个代理一次交流的基本设置，发现这类语言呈现出信息论复杂性且受到熵极小化压力的影响。

May, 2019

广义最优线性排序

本文探讨了语言处理中的单词顺序问题，并提出了基于语言学、心理语言学、计算语言学和自然语言处理的理论模型。进一步，为了优化处理单词最小化相关性，提出一种新的单词顺序，重点关注远距离依赖的人类和计算语言处理困难。最后探讨这些单词顺序对于人类语言和计算模型的影响。

Aug, 2021

人类语言高效的信息排序

研究了五种语言中的词序的效率和局部词汇概率，提出了语言能力的偏见来自大脑对语言的理解，促使人类语言代际传播的方式不断变化。

Oct, 2015

语言结构的组合与失衡

探讨如何从未经处理的文本和语音信号中学习语言，着重于学习词汇表的问题；提出了一种语言表示方法，通过扰动现有参数的组合来建立语言参数，展示了该表示方法在文本分割和压缩、从原始语音中获取词汇表以及文本和人工意义表示之间的映射学习中的应用。

Jun, 1996

通用句法结构：为多种自然语言建模句法

我们旨在解释人脑如何将单词连接起来形成句子，通过引入一种新颖的模型来建模句法表示，可能显示出所有自然语言的普遍句法结构的存在，从而提供人类大脑中语言工作方式的基本理解，同时为语言学、心理学和认知科学的理论提供一些见解。我们研究了普遍句法结构的逻辑和建模技术的方法论，试图分析展示不同自然语言（如英语和韩语）中语言过程的普遍性的语料库。最后，我们讨论了关于人类大脑理解方面的关键周期假说、普遍语法以及其他一些语言断言。

Dec, 2023

基于信息瓶颈原理的人 - 代理通信

本文研究了如何平衡效用、信息的有效性和复杂性，从而塑造新兴的通信，并将其与人类通信进行比较。我们使用 VQ-VIB 方法训练神经代理来压缩输入以获得离散信号，从而比以往的神经体系结构在其性能方面更具优越性，并发现惩罚交际复杂性可以维持高效用的同时维持类似人类的词汇量。此外，我们还发现，VQ-VIB 优于其他离散通信方法。

Jun, 2022

语言的几何学

本文从几个角度综合了各种主张，提出了一种独特的语言学派，将数学几何观点引入到语法中，描述了一种基于几何学的机制，用于解释人类语言里的显著特征，并提出了一种新型的匹配方法，利用代表单词的标记链来形成句子，并匹配语法词序。最终得到的二维和三维结合体为以往传统语法体系难以准确描述的语言规则提供了一种新视角。

Mar, 2023

利用图书馆学习找出表意文字书写中的结构

人类语言的一个特点是组合性 —— 通过重复使用相对较小的基本单元，创建出较为庞大、越发复杂的结构。本文探索了语言中组合性反映了人类对符号系统中表现效率的归纳偏见这一观点。我们使用先进的库学习和程序合成技术，开发了一个计算框架来发现一种写作系统中的结构。计算框架在中国的写作系统中发现了已知的语言结构，并揭示了系统在表现效率的压力下向简化方向演化的过程。我们演示了如何通过利用学到的抽象和压缩的图书馆学习方法，揭示出构成人类认知中组合结构创造的基本计算原则，并对有效沟通系统的演化提供更广泛的见解。

May, 2024