Kauffman 的相邻可能性在词序演化中的应用
语言的世界呈现出特定的类型学或意向性普遍现象;例如,主 - 宾 - 动 (SOV) 的语序通常使用后置词。通过语言模型的计算模拟,我们研究了语序普遍现象。我们的实验表明,具有类型学典型语序的语言模型的困惑度较低,其中包括认知可行的偏见:句法偏见、特定分析策略和记忆限制。这表明认知偏见和可预测性(困惑度)之间的相互作用可以解释语序普遍现象的许多方面。这也展示了在计算模拟语言普遍现象时的认知驱动语言模型的优势,这通常在认知建模中使用。
Feb, 2024
语言中的距离最小化是一般原则,其特例是词序中的交换距离最小化。本文探讨了该原则在主语(S)、宾语(O)和动词(V)三者组成的三元组中的表现,并引入了词序旋转的概念作为预测的认知基础。结果表明,在三种灵活顺序 SOV 语言(韩语、马拉雅拉姆语和僧伽罗语)中均存在交换距离最小化的证据,但在僧伽罗语中较为弱。在韩语和尤其是马拉雅拉姆语中,交换距离最小化比对规范顺序的偏好更为突出。
Dec, 2023
通过 80 种语言的语料和系统发展模型,研究说明了单个语言中词序变化的频率分布和演化,说明词序变异反映了语言在维持总体有效性方面优化竞争压力的不同方式。研究结果表明,语法结构和使用在有限的认知资源下相互协调以支持有效沟通。
Jun, 2022
考虑语言结构的所有可能排列顺序的问题,研究了熵最小化和交换距离最小化原则对于 $n=3$ 或 $n=4$ 的语言结构中的影响,并通过掷骰实验和词序频率随机排列验证了熵最小化和交换距离最小化的强有力证据。
Apr, 2024
研究通过语言模型从原始文本中诱导世界知识时,词序对其的影响,使用词类比来探究这种知识。从五种语言分别提取六种固定词序的文本,对这些文本进行预训练。最终,分析了固定词序在词类比任务上的实验结果,发现某些特定的固定词序始终优于或不如其他词序,并且这些具体情况因语言而异。另外,发现 Wov2Lex 假设在预训练语言模型中不成立,而自然的词序通常导致中等水平的结果。源代码将在以下网址公开。
Mar, 2024
在本文中,我们通过添加一种顺序重构的视角并选择不同范围的数据集,重新审视了关于词序的假设,包括 “词序与词汇语义冗余” 和 “模型不依赖词序”。实证结果支持 ChatGPT 在推断中依赖于词序,但不能支持或否定词序与词汇语义之间的冗余关系。
Mar, 2024
许多研究已经发表了关于如何在统计机器翻译中处理单词重排序的问题,然而,这个领域还有很多挑战需要面对,因此作者提出了一种综合性的调查来描述如何在不同的 SMT 框架和作为单独的任务中对单词重排序进行建模,并通过基于大量语言知识的定性分析,论证了在不同语言对中选择最适合他们的 SMT 框架时,一些语言事实可以非常有用。
Feb, 2015
本文探讨了语言处理中的单词顺序问题,并提出了基于语言学、心理语言学、计算语言学和自然语言处理的理论模型。进一步,为了优化处理单词最小化相关性,提出一种新的单词顺序,重点关注远距离依赖的人类和计算语言处理困难。最后探讨这些单词顺序对于人类语言和计算模型的影响。
Aug, 2021
通过研究单词袋模型中单词出现的方式和顺序,发现在一些情况下,单词会随着时间轻轻地变化,而不是被假设的有限数量的主题所解释。研究展示了这种变化的潜在结构,可以被用来提高分类和预测任务中的性能。
Feb, 2012