计算句级度量预测人类句子理解

Mar, 2024

Computational Sentence-level Metrics Predicting Human Sentence Comprehension

Kun Sun, Rong Wang

TL;DR创新的方法使用多语言大型语言模型计算句子级别的度量标准，预测并阐明读者在理解句子时遇到的处理困难，提供了实质性的可解释性和高准确性，为将大型语言模型和认知科学整合的未来研究提供了有希望的途径。

Abstract

The majority of research in computational psycholinguistics has concentrated on the processing of words. This study introduces innovative methods for computing sentence-level metrics using →

computational psycholinguistics sentence-level metrics multilingual large language models comprehending sentences integrating llms and cognitive science

发现论文，激发创造

用大型语言模型的组合分数测量人脑中的含义组合

通过大量的神经语言学研究，我们引入了一个新的基于模型的度量标准，即组合度分数，用于量化句子理解过程中的意义组合程度。实验结果表明，这个度量标准与与词频、结构处理和对词语的一般敏感性相关联，提示了人类句子理解过程中意义组合的多方面性。

Mar, 2024

语言模型性能度量在心理语言学建模中的应用：人们阅读行为的概率预测

通过对现代神经结构的分析，提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell（2018 年）的观点，证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络，变形器和预训练模型。

Sep, 2020

神经语言模型对人类实时理解行为的预测能力

通过对二十多种不同的计算模型测试发现，尽管这些模型可能包含不同的结构、方法和数据集，但其前向单词期望和人类阅读行为之间的关系是很直接的，其中深度 Transformer 模型和 n-gram 模型在眼动数据方面表现优异，而在句法知识和预测能力之间不存在重大关系。

Jun, 2020

一个句子的价值胜千张图片：大型语言模型是否理解人类语言？

人工智能应用在语言相关任务中表现出巨大潜力，特别是在下一个单词预测领域。我们分析了大型语言模型作为理论信息化目标系统的表示能力与无理论强大机制工具的贡献，并确定了当前开发和利用这些模型中仍然缺失的关键能力。

Jul, 2023

揭示以度量为重点的 LLM 评估：挑战与解决方案

NLP 中，大型语言模型（LLMs）的成功推动了其显著突破，本文对 LLM 的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学 LLM 进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024

在段落级别上训练和元评估机器翻译评估指标

机器翻译中，自动评估指标在评分更长的翻译文本方面的有效性仍不清楚。本文提出了一种通过现有句子级数据创建段落级数据用于训练和元评估指标的方法，并利用这些新数据集对现有句子级指标进行基准测试，以及在段落级训练学习指标。有趣的是，我们的实验结果表明，使用句子级指标评分整个段落与使用专为段落级工作的指标同样有效。我们推测这一结果可能归因于基于参考的评估任务的特性以及数据集在捕捉段落级翻译中发生的各种现象方面的局限性。

Aug, 2023

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

使用计算语言模型预测人类心理测量属性

本研究得出结论，Transformer-based language models 可以在模拟语言理解任务中预测人类心理测量数据，这为心理测量学家节省了多轮实验测试的必要性。

May, 2022

自然语言处理性能评估指标的全球分析

本文介绍了自然语言处理领域中用于测量模型性能的度量标准，发现当前使用的大多数指标存在评估不足及解释性差等问题，导致透明性和可重复性的降低。

Apr, 2022

FRACTAL：基于文本标签的细粒度评分

我们介绍了一种将响应级别标签细分为句子级别（伪）标签的方法，该方法利用多实例学习（MIL）和学习标签比例（LLP）技术以及先前信息训练专用模型进行句子级别评分，并利用模型预测对训练集进行伪标签，以进一步提高性能。我们在六个数据集和四个任务上进行了广泛的评估，结果表明在大多数任务中与多个基准方法相比，我们的方法性能有所提高。这项工作是第一个将响应级别反馈应用到句子级别评分技术，并利用句子级别先前信息进行全面评估的工作，同时进行了端到端微调评估，表明性能与基于精细人工标注标签训练的模型相当。

Apr, 2024