TorontoCL 参加 CMCL 2021 共享任务:RoBERTa 多阶段微调用于注视跟踪预测
本研究使用 BERT 和 XLM 等预训练模型研究预测眼动信息的方法,探究了多语言模型、上下文信息等因素对系统性能的影响,研究显示,语言信息的增强有助于提高系统预测的准确度。
Apr, 2022
本文提出了一种基于 transformer 和回归模型的方法,利用眼动追踪数据预测多语言数据集中人类阅读模式的统计指标,通过模型训练和比较不同的 transformer 模型,我们在 CMCL 2022 共享任务中取得了显著的成果,获得了 SubTask-1 第 4 名和 SubTask-2 第 1 名的好成绩。
Mar, 2022
通过加入目标词汇的词汇特征以及来自单词频率列表、心理测量数据和双字母联想措施的特性,优化了 LightGBM 模型,使其在 2021 年 CMCL 共享任务眼动追踪数据预测比赛中取得了最佳表现,并在两项五项眼动追踪指标中排名第一,超过了所有参加比赛的深度学习系统。
Apr, 2021
本文报告了两个眼动追踪语料库和两种语言模型(BERT 和 GPT-2)的实验结果。实验表明,预测自然阅读过程中多种眼动追踪参数时,包含的特征和基于 transformer 的语言模型的架构都发挥了作用。同时通过 SP-LIME,实验分析了不同特征组的相对重要性。
Mar, 2022
本文提出了在 SemEval 2023 任务 3 的子任务 3 中检测说服技巧的最佳解决方案,主要是通过细调预训练的基于 Transformer 的语言模型来处理多语言输入数据和多个预测标签,该方案使用大型的跨语言模型(XLM-RoBERTa 大型模型)在所有输入数据上联合训练,而且针对已知语言和未知语言分别设置合理的置信度阈值,最终在 9 种语言中的 6 种语言上(包括两个未知语言)表现最优秀并取得了高度竞争的结果。
Apr, 2023
本文介绍通过利用三个带有注释的语料库记录的注视信息,使用注视嵌入来改善 NER 模型,用于识别命名实体,展示了借助眼动数据可以提高自然语言处理模型性能的好处
Feb, 2019
本文提出了一种适用于各种语言中单词阅读时间的多语言和跨语言预测的统一模型。通过使用国际音标将单词转换为通用语言表示,该模型的预处理步骤是成功的关键。该模型从基本频率、n-gram、信息论和心理语言学启发的预测变量中提取了各种特征,随后使用随机森林模型进行训练,实现了最佳表现。
Feb, 2022
研究使用多语言集成模型,针对 SemEval-2023 任务 3:在在线新闻中检测类别、框架和说服技巧。在三个子任务中,使用 RoBERTa 和 mBERT 等方法,分别在不同语言中获得前几名的结果。
Mar, 2023
本文研究利用大型语言模型来预测人类阅读行为,并比较了针对特定语言和多语言的预训练变压器模型在预测荷兰语、英语、德语和俄语文本上反映自然人类句子处理的阅读时间测量方面的表现。结果显示,变压器模型可以准确地模拟人类阅读行为,预测出了各种眼动特征,表明变压器模型可以以类似于人类处理机制的方式隐式地编码语言的相对重要性。作者还分析了这些模型的跨领域和跨语言能力,并展示了它们如何反映人类句子处理。
Apr, 2021