人类语言高效的信息排序
本文探讨了语言处理中的单词顺序问题,并提出了基于语言学、心理语言学、计算语言学和自然语言处理的理论模型。进一步,为了优化处理单词最小化相关性,提出一种新的单词顺序,重点关注远距离依赖的人类和计算语言处理困难。最后探讨这些单词顺序对于人类语言和计算模型的影响。
Aug, 2021
通过空间网络将句子中单词的语法依赖关系表示为优化问题,引入新的评分方法来量化减少单词距离的认知压力,研究 93 种语言的句子,发现这种方法能准确评估大约一半的语言的优化水平,并对各个领域的语言研究提供了启示,特别是对网络科学有重要意义。
Jul, 2020
通过 80 种语言的语料和系统发展模型,研究说明了单个语言中词序变化的频率分布和演化,说明词序变异反映了语言在维持总体有效性方面优化竞争压力的不同方式。研究结果表明,语法结构和使用在有限的认知资源下相互协调以支持有效沟通。
Jun, 2022
语言的世界呈现出特定的类型学或意向性普遍现象;例如,主 - 宾 - 动 (SOV) 的语序通常使用后置词。通过语言模型的计算模拟,我们研究了语序普遍现象。我们的实验表明,具有类型学典型语序的语言模型的困惑度较低,其中包括认知可行的偏见:句法偏见、特定分析策略和记忆限制。这表明认知偏见和可预测性(困惑度)之间的相互作用可以解释语序普遍现象的许多方面。这也展示了在计算模拟语言普遍现象时的认知驱动语言模型的优势,这通常在认知建模中使用。
Feb, 2024
人类语言是一种独特的自然界沟通方式,其系统性在于信号可以分解为词汇并通过一种规则方式组合成句子,且通过最小化过剩熵的方式实现自然语言一致性,进而达到高效的沟通和信息处理。
May, 2024
本研究旨在发现序列处理神经网络对于 “自然” 词序约束的偏见。结果表明,神经网络倾向于避免长距离依赖,但并没有明显的偏好于高效的,非冗余的信息编码。因此我们建议在神经网络中引入 “努力程度” 的概念,以使其语言行为更像人类。
May, 2019
通过使用一种新的称为 IBIS 的过程,本文否认了一种假说,即单词顺序对于进行 NLP 基准任务而言必须编码含义的观点,我们在 GLUE 套件和各种英语文本流派中的多种情况下证明这一点,并探讨了诸如 IBIS 这样的洗牌推理过程如何有益于语言建模和约束生成。
Sep, 2021
研究通过语言模型从原始文本中诱导世界知识时,词序对其的影响,使用词类比来探究这种知识。从五种语言分别提取六种固定词序的文本,对这些文本进行预训练。最终,分析了固定词序在词类比任务上的实验结果,发现某些特定的固定词序始终优于或不如其他词序,并且这些具体情况因语言而异。另外,发现 Wov2Lex 假设在预训练语言模型中不成立,而自然的词序通常导致中等水平的结果。源代码将在以下网址公开。
Mar, 2024