人类语言的假观念:为何统计学需要语言学
人类语言是一种独特的自然界沟通方式,其系统性在于信号可以分解为词汇并通过一种规则方式组合成句子,且通过最小化过剩熵的方式实现自然语言一致性,进而达到高效的沟通和信息处理。
May, 2024
研究发现,人类认知塑造了语言的演变和使用,600 种语言的语料库证实了超出和内部有惊讶 - 持续时间权衡的存在,结果是在不同语言中,更少惊讶的音位生成速度更快,反之亦然,并且确认了 319 种语言中更惊讶的音位平均更长。
Sep, 2021
我们提出了一个替代方法来量化语言模型学习自然语言的程度:我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向,提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向,但与经验性趋势相比,更接近所提出的理论分布(当存在时)。此外,对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子,使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系;LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。
May, 2021
自然语言处理领域对于意义和测量的问题进行了实证研究,本文勾勒了一种理解模型,用于评估当前模型质量测量方法的适应性,并指出不同语言使用情境类型的特点、语言理解是多方面现象,以及理解指标的选择标志了对基准测试和语言处理伦理的考虑的开端。
Oct, 2023
人类语言在思维和学习结构方面发挥重要作用。本文提出了一个挑战测评与深度学习语言模型相比人类表现的基准,并通过提供结构化符号推理模块来拓展深度学习语言模型,以使其更符合人类推理。实验表明,在语言表达能力、泛化能力等方面,人类远远优于 LLMs,这说明混合 AI 模型具有更接近人类推理的潜力。
May, 2022
通过对现代神经结构的分析,提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell(2018 年)的观点,证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络,变形器和预训练模型。
Sep, 2020
研究人类阅读园路效应时,提出的 surprisal 理论假设阅读者的速度减慢是由于句子中每个单词的不可预测性。但最近的研究表明,该假设低估了句法预测的影响。作者提出了计算句法预测能力的方法,并发现将其与词汇预测能力区分开来可以更准确地估计园路效应的影响。然而,即使这样,surprisal 仍然远远低估了人类阅读园路效应的影响。
Oct, 2022
本文研究了 Shannon 熵在语言学任务中的应用,重点关注从可观察的语言数据中估算熵的效果,并通过两个信息论语言学研究的复制实验发现,由于过度依赖不良熵估算器,报告的效应大小被高估了。最后我们提出了针对不同类型分布和数据可用性的熵估算建议。
Apr, 2022
我们旨在解释人脑如何将单词连接起来形成句子,通过引入一种新颖的模型来建模句法表示,可能显示出所有自然语言的普遍句法结构的存在,从而提供人类大脑中语言工作方式的基本理解,同时为语言学、心理学和认知科学的理论提供一些见解。我们研究了普遍句法结构的逻辑和建模技术的方法论,试图分析展示不同自然语言(如英语和韩语)中语言过程的普遍性的语料库。最后,我们讨论了关于人类大脑理解方面的关键周期假说、普遍语法以及其他一些语言断言。
Dec, 2023
通过对 11 种不同语言进行研究,我们发现惊奇理论与阅读时间之间存在跨语言的联系,验证了三个预测:惊奇度是否预测阅读时间、预期惊奇度是否预测阅读时间、以及惊奇度与阅读时间之间的联系是否是线性的,从而在更多语言上提供了信息论与递增语言处理之间至今最强大的连接。
Jul, 2023