ConveRT: 基于变形金刚的高效和准确的对话表示
本文提出了一种新的神经网络编码器——Poly-encoder,它通过学习全局注意力特征来提高匹配任务的性能,并对三种常见的匹配方法进行了实验比较,得出了Poly-encoder 相对于Cross-encoder 和 Bi-encoder 都更快且更准确的结论,并强调了使用大数据集来进行预训练的重要性。
Apr, 2019
本文介绍了 DialoGPT,一种大型的、可调整的神经对话响应生成模型,它在 Reddit 上 2005 年至 2017 年的时间跨度内提取的 1.47 亿条对话样本上进行训练。在单轮对话设置中,DialoGPT 能够达到接近人类的性能水平,能够生成比强基线系统更相关、更富有内涵和更具上下文一致性的响应。该预训练模型和训练流程已公开发布,以促进神经响应生成研究和更智能的开放域对话系统的开发。
Nov, 2019
该研究提出一种利用预训练双句编码器的意图检测方法,证明在少样本学习场景下,该方法比全BERT-Large模型的意图检测器表现更加稳定、更具普适性,且能够在短时间内训练并保持超参数稳定性。此外,研究团队还发布了相关代码和单域13,083个annotated样本的77种意图的数据集。
Mar, 2020
DIET架构研究了不同预训练表示对意向和实体预测的有效性,并在多领域NLU数据集上取得了最新的技术水平,没有明显的使用大规模预训练模型的好处,实际上DIET即使在没有预先训练嵌入的情况下,也改进了现有技术水平,效果最佳的模型优于Fine-tuning BERT并且训练速度快六倍。
Apr, 2020
本研究使用结构化剪枝方法对卷积模型进行压缩,比BERT模型的性能差异不大,模型参数少于100K,适用于移动设备,并在CPU上比DistilBERT快63倍。
Jun, 2020
本文提出了 DialogBERT,这是一种新型的对话响应生成模型,通过使用分层Transformer架构和两个训练目标,包括掩码语调回归和分布式语调顺序排名来提高先前基于PLM的对话模型,在三个多轮对话数据集上进行实验证明,相比于BART和DialoGPT,DialogBERT在定量评估方面表现出色,并且在人类评估中证明,DialogBERT比基线模型生成的响应更连贯、信息量更大,并更加接近人类表现。
Dec, 2020
本文提出了ConvFiT框架,将经过预训练的语言模型转化为通用会话编码器和专门的句子编码器,能够在理解任务中达到类似语义相似性的结果,并在意图检测中实现了最先进的性能。
Sep, 2021
为了实现有效的会话建模,本文提出了基于结构的相互信息损失函数DMI来训练对话表示模型,并在九个不同对话建模任务上展开了广泛评估,结果表明我们提出的DMI-based模型表现超过了强基线。
Dec, 2021
本研究提出一种新的记忆增强型 Transformer 模型,该模型可在不影响对话历史信息的情况下适应长序列处理,并且在相对于其他预训练 Transformer 模型存在着更高的效率和性能。
Sep, 2022
通过在多个任务上训练基于Transformer编码器的统一模型,并借助富输入在目标推理上对模型进行条件化,本文探索了解决对话系统中用户意图的不可预测性和插槽的异构性的假设,并表明将模型条件化于对同一语料库上的多个推理任务,如意图和多个插槽类型,可以学习到比单任务模型更丰富的语言交互;实验结果表明,将模型条件化于越来越多的对话推理任务可以提高性能,MultiWOZ数据集上,通过对意图进行条件化可以提高3.2%的联合意图和插槽检测性能,通过对插槽进行条件化可以提高10.8%的性能,同时对意图和插槽进行条件化可以提高14.4%的性能;此外,在与Farfetch客户的实际对话中,该条件化BERT可以在整个对话过程中实现高效的联合目标和意图检测性能。
Aug, 2023