Kauffman 的相邻可能性在词序演化中的应用

Dec, 2015

Kauffman 的相邻可能性在词序演化中的应用

Kauffman's adjacent possible in word order evolution

Ramon Ferrer-i-Cancho

TL;DR本研究考虑了语词序的进化问题，并通过信息论模型选择方法，评估了各种竞争性假设的适用性，其中包括基于语词序置换环和标准类型学的双重二元模型。研究结果表明，置换环模型在强烈倡导简洁性的情况下是最佳模型，从而支持卡夫曼的广义观点和一个六元类型学。

Abstract

word order evolution has been hypothesized to be constrained by a word order permutation ring: transitions involving orders that are closer in the →

word order evolution permutation ring adjacent possible typology model selection

发现论文，激发创造

认知驱动的语言模型中的词序普遍规律

语言的世界呈现出特定的类型学或意向性普遍现象；例如，主 - 宾 - 动 (SOV) 的语序通常使用后置词。通过语言模型的计算模拟，我们研究了语序普遍现象。我们的实验表明，具有类型学典型语序的语言模型的困惑度较低，其中包括认知可行的偏见：句法偏见、特定分析策略和记忆限制。这表明认知偏见和可预测性（困惑度）之间的相互作用可以解释语序普遍现象的许多方面。这也展示了在计算模拟语言普遍现象时的认知驱动语言模型的优势，这通常在认知建模中使用。

Feb, 2024

主谓宾语语序下交换距离的最小化：认知与数学基础

语言中的距离最小化是一般原则，其特例是词序中的交换距离最小化。本文探讨了该原则在主语（S）、宾语（O）和动词（V）三者组成的三元组中的表现，并引入了词序旋转的概念作为预测的认知基础。结果表明，在三种灵活顺序 SOV 语言（韩语、马拉雅拉姆语和僧伽罗语）中均存在交换距离最小化的证据，但在僧伽罗语中较为弱。在韩语和尤其是马拉雅拉姆语中，交换距离最小化比对规范顺序的偏好更为突出。

Dec, 2023

跨语言单词序变化反映了依赖性和信息局部性的进化压力

通过 80 种语言的语料和系统发展模型，研究说明了单个语言中词序变化的频率分布和演化，说明词序变异反映了语言在维持总体有效性方面优化竞争压力的不同方式。研究结果表明，语法结构和使用在有限的认知资源下相互协调以支持有效沟通。

Jun, 2022

在词序变异中最小化交换距离超越熵最小化

考虑语言结构的所有可能排列顺序的问题，研究了熵最小化和交换距离最小化原则对于 $n=3$ 或 $n=4$ 的语言结构中的影响，并通过掷骰实验和词序频率随机排列验证了熵最小化和交换距离最小化的强有力证据。

Apr, 2024

词序与世界知识

研究通过语言模型从原始文本中诱导世界知识时，词序对其的影响，使用词类比来探究这种知识。从五种语言分别提取六种固定词序的文本，对这些文本进行预训练。最终，分析了固定词序在词类比任务上的实验结果，发现某些特定的固定词序始终优于或不如其他词序，并且这些具体情况因语言而异。另外，发现 Wov2Lex 假设在预训练语言模型中不成立，而自然的词序通常导致中等水平的结果。源代码将在以下网址公开。

Mar, 2024

词序的影响：重新排序和生成分析的见解

在本文中，我们通过添加一种顺序重构的视角并选择不同范围的数据集，重新审视了关于词序的假设，包括 “词序与词汇语义冗余” 和 “模型不依赖词序”。实证结果支持 ChatGPT 在推断中依赖于词序，但不能支持或否定词序与词汇语义之间的冗余关系。

Mar, 2024

统计机器翻译中的单词重排：计算模型和语言现象调查

许多研究已经发表了关于如何在统计机器翻译中处理单词重排序的问题，然而，这个领域还有很多挑战需要面对，因此作者提出了一种综合性的调查来描述如何在不同的 SMT 框架和作为单独的任务中对单词重排序进行建模，并通过基于大量语言知识的定性分析，论证了在不同语言对中选择最适合他们的 SMT 框架时，一些语言事实可以非常有用。

Feb, 2015

广义最优线性排序

本文探讨了语言处理中的单词顺序问题，并提出了基于语言学、心理语言学、计算语言学和自然语言处理的理论模型。进一步，为了优化处理单词最小化相关性，提出一种新的单词顺序，重点关注远距离依赖的人类和计算语言处理困难。最后探讨这些单词顺序对于人类语言和计算模型的影响。

Aug, 2021

最小化在线存储的头部位置：一种复杂系统方法

通过将元素数量视为从奇数到偶数的前一个情况的过度，论文研究了在线存储成本的诸多方面，并证明将核心放在中心可以最小化在线内存成本。

Sep, 2013

多维计数网格：从无序单词袋中推断单词排序

通过研究单词袋模型中单词出现的方式和顺序，发现在一些情况下，单词会随着时间轻轻地变化，而不是被假设的有限数量的主题所解释。研究展示了这种变化的潜在结构，可以被用来提高分类和预测任务中的性能。

Feb, 2012