TorontoCL 参加 CMCL 2021 共享任务：RoBERTa 多阶段微调用于注视跟踪预测

ACLApr, 2021

TorontoCL 参加 CMCL 2021 共享任务：RoBERTa 多阶段微调用于注视跟踪预测

TorontoCL at CMCL 2021 Shared Task: RoBERTa with Multi-Stage Fine-Tuning for Eye-Tracking Prediction

Bai Li, Frank Rudzicz

TL;DR本文描述了我们参加 CMCL 2021 共享任务的参赛作品，利用 RoBERTa 模型和回归层来预测 5 个眼动追踪特征，用两个阶段微调的方法进行了训练，最后采用集成方法将不同的 Transformer 模型集成，获得了 3.929 的 MAE 得分，在 13 支团队中排名第三。

Abstract

eye movement data during reading is a useful source of information for understanding language comprehension processes. In this paper, we describe our submission to the CMCL 2021 shared task on predicting human reading patterns. Our model uses RoBERTa with a →

eye movement reading comprehension roberta model regression layer ensembled models

发现论文，激发创造

CMCL 2022 共享任务 ÚFAL 团队：使用预训练语言模型预测眼动跟踪特征的正确方法

本研究使用 BERT 和 XLM 等预训练模型研究预测眼动信息的方法，探究了多语言模型、上下文信息等因素对系统性能的影响，研究显示，语言信息的增强有助于提高系统预测的准确度。

Apr, 2022

使用多语言 Transformer 模型进行零样本跨语言眼动数据预测

本文提出了一种基于 transformer 和回归模型的方法，利用眼动追踪数据预测多语言数据集中人类阅读模式的统计指标，通过模型训练和比较不同的 transformer 模型，我们在 CMCL 2022 共享任务中取得了显著的成果，获得了 SubTask-1 第 4 名和 SubTask-2 第 1 名的好成绩。

Mar, 2022

用梯度提升决策树方法预测阅读期间注视数据在 CMCL 2021 共享任务中的表现

通过加入目标词汇的词汇特征以及来自单词频率列表、心理测量数据和双字母联想措施的特性，优化了 LightGBM 模型，使其在 2021 年 CMCL 共享任务眼动追踪数据预测比赛中取得了最佳表现，并在两项五项眼动追踪指标中排名第一，超过了所有参加比赛的深度学习系统。

Apr, 2021

通过学习预测凝视来提高句子压缩

本文介绍了利用注视数据语料库来改进句子压缩模型的方法，并且提出了一种基于多层 LSTM 的新型多任务学习算法，其性能与最先进的方法相当或更好。

Apr, 2016

衡量（心理）语言和易读性特征以及它们的溢出效应对预测眼动模式的影响

本文报告了两个眼动追踪语料库和两种语言模型（BERT 和 GPT-2）的实验结果。实验表明，预测自然阅读过程中多种眼动追踪参数时，包含的特征和基于 transformer 的语言模型的架构都发挥了作用。同时通过 SP-LIME，实验分析了不同特征组的相对重要性。

Mar, 2022

KInITVeraAI 在 SemEval-2023 任务 3 中的表现：简单而强大的多语言微调用于说服技巧检测

本文提出了在 SemEval 2023 任务 3 的子任务 3 中检测说服技巧的最佳解决方案，主要是通过细调预训练的基于 Transformer 的语言模型来处理多语言输入数据和多个预测标签，该方案使用大型的跨语言模型（XLM-RoBERTa 大型模型）在所有输入数据上联合训练，而且针对已知语言和未知语言分别设置合理的置信度阈值，最终在 9 种语言中的 6 种语言上（包括两个未知语言）表现最优秀并取得了高度竞争的结果。

Apr, 2023

一见之下的实体识别：利用眼动信息提高命名实体识别

本文介绍通过利用三个带有注释的语料库记录的注视信息，使用注视嵌入来改善 NER 模型，用于识别命名实体，展示了借助眼动数据可以提高自然语言处理模型性能的好处

Feb, 2019

NU HLT 参加 CMCL 2022 共享任务：通用语言空间中多语和跨语人类阅读行为预测

本文提出了一种适用于各种语言中单词阅读时间的多语言和跨语言预测的统一模型。通过使用国际音标将单词转换为通用语言表示，该模型的预处理步骤是成功的关键。该模型从基本频率、n-gram、信息论和心理语言学启发的预测变量中提取了各种特征，随后使用随机森林模型进行训练，实现了最佳表现。

Feb, 2022

SemEval-2023 任务 3 的英国谢菲尔德 VeraAI 团队：新闻体裁、主题和说服技巧分类的单语和多语方法

研究使用多语言集成模型，针对 SemEval-2023 任务 3：在在线新闻中检测类别、框架和说服技巧。在三个子任务中，使用 RoBERTa 和 mBERT 等方法，分别在不同语言中获得前几名的结果。

Mar, 2023

多语言语言模型预测人类阅读行为

本文研究利用大型语言模型来预测人类阅读行为，并比较了针对特定语言和多语言的预训练变压器模型在预测荷兰语、英语、德语和俄语文本上反映自然人类句子处理的阅读时间测量方面的表现。结果显示，变压器模型可以准确地模拟人类阅读行为，预测出了各种眼动特征，表明变压器模型可以以类似于人类处理机制的方式隐式地编码语言的相对重要性。作者还分析了这些模型的跨领域和跨语言能力，并展示了它们如何反映人类句子处理。

Apr, 2021