多级对比学习用于基于字母的字符理解

EMNLPOct, 2023

多级对比学习用于基于字母的字符理解

Multi-level Contrastive Learning for Script-based Character Understanding

Dawei Li, Hengyuan Zhang, Yanran Li, Shiping Yang

TL;DR我们提出了一个多级对比学习框架来捕捉角色的全局信息，通过与强大的预训练语言模型进行比较，在角色理解的三个子任务中我们的方法显著提高了性能，并通过进一步深入分析展示了方法的有效性和对角色理解场景的指导意义。

Abstract

In this work, we tackle the scenario of understanding characters in scripts, which aims to learn the characters' personalities and identities from their utterances. We begin by analyzing several challenges in this scenario, and then propose a multi-level →

character understanding contrastive learning personality identities pre-trained language models

发现论文，激发创造

TVShowGuess: 以扮演者猜测为基础的故事人物理解

通过该研究，提出了一种基于电视剧脚本的 TVShowGuess 任务来评估机器对叙事故事中虚构人物理解能力的新方法，并且证明了这种任务覆盖了多种类型的人物特质和能力，进一步提出了支持长场景文本的上下文编码的新模型结构。实验表明，新模型的性能明显优于基线，但仍大大落后于人类表现。该研究初步探索了叙事性角色理解的目标。

Apr, 2022

让你的角色讲述他们的故事：面向角色的叙事理解数据集

此研究提出并介绍了拥有角色描述的文学作品摘要数据集 LiSCU，探索了文学角色理解中的新领域，并通过使用预训练语言模型进行的实验，表明需要更好的叙事理解模型。

Sep, 2021

故事中角色对话理解和生成的基准测试

这篇论文提出了两个任务，包括对话生成和对话说话者识别，并构建了一个新的数据集 DialStory 以进行评估，同时提出了学习显式角色表示以提高性能，并通过实验和案例研究表明，我们的方法可生成更连贯和信息量更大的对话，并实现了比强基线更高的说话者识别准确度。

Sep, 2022

通过虚构作品进行人物建模评估大型语言模型的人物理解能力

我们提出使用角色概况任务来评估大型语言模型（LLMs）的角色理解能力，通过从对应的材料中总结角色概况，构建 CroSS 数据集并比较与下游任务的适用性，我们的实验结果强有力地验证了 LLMs 的角色理解能力，并且我们相信我们构建的资源将促进该领域的进一步研究。

Apr, 2024

多层次多粒度对比学习驱动口语理解

提出了一种多级多粒度的语音语义理解（SLU）框架 MMCL，应用对比学习在话语级、槽位级和词级三个层级上，实现意图和槽位之间的互相引导，通过对公开的多意图 SLU 数据集的实验结果和进一步分析，证明了模型取得了新的最先进结果，在 MixATIS 数据集上的整体准确率相比之前最好的模型提高了 2.6 个百分点。

May, 2024

阅读小说时虚构人物性格理解

这篇论文介绍了一个名为 PersoNet 的数据集，该数据集是研究角色个性的第一个标记数据集，并且通过在线阅读应用程序中用户笔记的注释策略进行了标注。实验和人类研究表明，我们的数据集构建既高效又准确，并且我们的任务需要长期的上下文才能为机器和人类获得准确的预测结果。

May, 2023

面向跨语言口语理解的标签感知多层对比学习

本研究提出一个基于对话、槽位和单词水平的对比学习框架来显式对齐跨语言口语理解中隐含语义结构的多语种混合方法，通过引入硬负样本和标签关联联合模型，取得了两个零 - shot 跨语言口语理解的基准数据集中显著的性能改进。

May, 2022

从字符到词语：分层预训练语言模型用于开放词汇语言理解

该研究引入了一种新颖的开放词汇语言模型，包含两个层次：词级和序列级，并通过对字符的表示以及全局的序列级别上下文调整，使模型直接处理字符序列，而不是子词或词级别的词汇表，取得了比强基准表现更好的效果，并且具有文本破坏和域移位的鲁棒性。

May, 2023

对话脚本：使用对话代理生成脚本

使用拥有不同人格特征的 agents, 并采用模拟戏剧网络的方法生成剧本，在多项标准上经过自动和人类评估，显示该方法优于基于 vanilla-GPT2 的基线，并引入新的度量标准来评估对话的一致性，并展示其有效性。

Jun, 2022

层次字符 - 词语模型在语言识别中的应用

本文介绍了一种基于层次模型的语言识别方法，其中字符级和上下文化的词级表示能够很好地处理社交媒体消息的简洁特性和非传统拼写，同时还能揭示代码开关现象。

Aug, 2016