多级对比学习用于基于字母的字符理解
通过该研究,提出了一种基于电视剧脚本的 TVShowGuess 任务来评估机器对叙事故事中虚构人物理解能力的新方法,并且证明了这种任务覆盖了多种类型的人物特质和能力,进一步提出了支持长场景文本的上下文编码的新模型结构。实验表明,新模型的性能明显优于基线,但仍大大落后于人类表现。 该研究初步探索了叙事性角色理解的目标。
Apr, 2022
此研究提出并介绍了拥有角色描述的文学作品摘要数据集 LiSCU,探索了文学角色理解中的新领域,并通过使用预训练语言模型进行的实验,表明需要更好的叙事理解模型。
Sep, 2021
这篇论文提出了两个任务,包括对话生成和对话说话者识别,并构建了一个新的数据集 DialStory 以进行评估,同时提出了学习显式角色表示以提高性能,并通过实验和案例研究表明,我们的方法可生成更连贯和信息量更大的对话,并实现了比强基线更高的说话者识别准确度。
Sep, 2022
我们提出使用角色概况任务来评估大型语言模型(LLMs)的角色理解能力,通过从对应的材料中总结角色概况,构建 CroSS 数据集并比较与下游任务的适用性,我们的实验结果强有力地验证了 LLMs 的角色理解能力,并且我们相信我们构建的资源将促进该领域的进一步研究。
Apr, 2024
提出了一种多级多粒度的语音语义理解(SLU)框架 MMCL,应用对比学习在话语级、槽位级和词级三个层级上,实现意图和槽位之间的互相引导,通过对公开的多意图 SLU 数据集的实验结果和进一步分析,证明了模型取得了新的最先进结果,在 MixATIS 数据集上的整体准确率相比之前最好的模型提高了 2.6 个百分点。
May, 2024
这篇论文介绍了一个名为 PersoNet 的数据集,该数据集是研究角色个性的第一个标记数据集,并且通过在线阅读应用程序中用户笔记的注释策略进行了标注。实验和人类研究表明,我们的数据集构建既高效又准确,并且我们的任务需要长期的上下文才能为机器和人类获得准确的预测结果。
May, 2023
本研究提出一个基于对话、槽位和单词水平的对比学习框架来显式对齐跨语言口语理解中隐含语义结构的多语种混合方法,通过引入硬负样本和标签关联联合模型,取得了两个零 - shot 跨语言口语理解的基准数据集中显著的性能改进。
May, 2022
该研究引入了一种新颖的开放词汇语言模型,包含两个层次:词级和序列级,并通过对字符的表示以及全局的序列级别上下文调整,使模型直接处理字符序列,而不是子词或词级别的词汇表,取得了比强基准表现更好的效果,并且具有文本破坏和域移位的鲁棒性。
May, 2023
使用拥有不同人格特征的 agents, 并采用模拟戏剧网络的方法生成剧本,在多项标准上经过自动和人类评估,显示该方法优于基于 vanilla-GPT2 的基线,并引入新的度量标准来评估对话的一致性,并展示其有效性。
Jun, 2022
本文介绍了一种基于层次模型的语言识别方法,其中字符级和上下文化的词级表示能够很好地处理社交媒体消息的简洁特性和非传统拼写,同时还能揭示代码开关现象。
Aug, 2016