计算句级度量预测人类句子理解
通过大量的神经语言学研究,我们引入了一个新的基于模型的度量标准,即组合度分数,用于量化句子理解过程中的意义组合程度。实验结果表明,这个度量标准与与词频、结构处理和对词语的一般敏感性相关联,提示了人类句子理解过程中意义组合的多方面性。
Mar, 2024
通过对现代神经结构的分析,提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell(2018 年)的观点,证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络,变形器和预训练模型。
Sep, 2020
通过对二十多种不同的计算模型测试发现,尽管这些模型可能包含不同的结构、方法和数据集,但其前向单词期望和人类阅读行为之间的关系是很直接的,其中深度 Transformer 模型和 n-gram 模型在眼动数据方面表现优异,而在句法知识和预测能力之间不存在重大关系。
Jun, 2020
人工智能应用在语言相关任务中表现出巨大潜力,特别是在下一个单词预测领域。我们分析了大型语言模型作为理论信息化目标系统的表示能力与无理论强大机制工具的贡献,并确定了当前开发和利用这些模型中仍然缺失的关键能力。
Jul, 2023
NLP 中,大型语言模型(LLMs)的成功推动了其显著突破,本文对 LLM 的评估方法进行了全面探索,提供了选择和解读已使用度量标准的见解,并采用最新的生物医学 LLM 进行了这些度量标准的应用比较,旨在为研究人员提供一个实用的指南,推进对这些大型语言模型的理解和应用。
Apr, 2024
机器翻译中,自动评估指标在评分更长的翻译文本方面的有效性仍不清楚。本文提出了一种通过现有句子级数据创建段落级数据用于训练和元评估指标的方法,并利用这些新数据集对现有句子级指标进行基准测试,以及在段落级训练学习指标。有趣的是,我们的实验结果表明,使用句子级指标评分整个段落与使用专为段落级工作的指标同样有效。我们推测这一结果可能归因于基于参考的评估任务的特性以及数据集在捕捉段落级翻译中发生的各种现象方面的局限性。
Aug, 2023
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
本研究得出结论,Transformer-based language models 可以在模拟语言理解任务中预测人类心理测量数据,这为心理测量学家节省了多轮实验测试的必要性。
May, 2022
我们介绍了一种将响应级别标签细分为句子级别(伪)标签的方法,该方法利用多实例学习(MIL)和学习标签比例(LLP)技术以及先前信息训练专用模型进行句子级别评分,并利用模型预测对训练集进行伪标签,以进一步提高性能。我们在六个数据集和四个任务上进行了广泛的评估,结果表明在大多数任务中与多个基准方法相比,我们的方法性能有所提高。这项工作是第一个将响应级别反馈应用到句子级别评分技术,并利用句子级别先前信息进行全面评估的工作,同时进行了端到端微调评估,表明性能与基于精细人工标注标签训练的模型相当。
Apr, 2024