将语言知识注入 BERT 用于对话状态跟踪

Nov, 2023

将语言知识注入 BERT 用于对话状态跟踪

Injecting linguistic knowledge into BERT for Dialogue State Tracking

Xiaohan Feng, Xixin Wu, Helen Meng

TL;DR通过无监督框架从语言知识中提取信息，并利用该知识增强和解释 BERT 在对话状态追踪任务中的性能，进而实现对 DST 模型决策过程中影响其性能的语言特征的全面理解。

Abstract

dialogue state tracking (DST) models often employ intricate neural network architectures, necessitating substantial training data, and their inference processes lack transparency. This paper proposes a method that extracts →

dialogue state tracking dst models neural network architectures linguistic knowledge interpretability

发现论文，激发创造

使用弱监督和稀疏数据的稳健对话状态跟踪

本文介绍了一个基于 attention mechanism 的迁移学习方法，适用于在训练过程中缺乏丰富人工标注数据的情况下训练 extractive DST 模型，通过两种新颖的输入级 dropout 方法来减轻样本稀疏性的负面影响。我们的实验表明，提出的模型训练策略和架构方法在应对新概念、样本稀疏性等挑战时表现出优越性。

Feb, 2022

零样本对话状态跟踪的复杂更新策略的大型语言模型语义解析

通过语义解析将原始对话文本转换为 JSON，使用大型语言模型和更多模块来实现更新策略，提出一种新的上下文学习方法 ParsingDST，通过引入复杂的更新策略改进了零样本对话状态跟踪 (DST)，在 MultiWOZ 数据集上优于现有的方法，对比现有的上下文学习方法在联合目标准确性和槽准确性方面有显著的改进。

Oct, 2023

用凸多面体建模进行无监督语义结构推导，实现高效自然语言理解

本文研究了 Convex-Polytopic-Model 的模型细节，并在 ATIS 语料库上展示出该模型在自然语言理解任务中自动提取语义模式的能力及其对 NLU 模型性能提升的影响。

Jan, 2022

基于 LLM 的对话状态跟踪

对 ChatGPT 在对话状态跟踪 (DST) 任务中的能力进行了初步评估，发现其表现出色。为了解决 ChatGPT 的局限性，提出了基于小型开源模型的 LLM 驱动的 DST 框架 LDST，通过领域 - 槽位指令调优方法，LDST 在零样本和少样本设置下相较于之前的 SOTA 方法取得了显著的性能提升。提供源代码以保证可复现性。

Oct, 2023

面向资源受限系统的简单而有效的 BERT 模型用于对话状态跟踪

本文提出一种基于 BERT 的简单而有效的对话状态跟踪模型，避免了当前神经架构通常存在的繁琐和复杂，具有不随本体论规模增长和适用于领域本体动态变化的优点。经实验验证，该模型在标准 WoZ 2.0 数据集上显著优于以往方法，经知识蒸馏压缩后性能依旧可与原模型相媲美，在资源受限的系统中表现出出色的效果。

Oct, 2019

对话状态跟踪的语义表述

采用层次表示的语义分析任务，以实现对话状态跟踪，并通过 TreeDST 数据集的编码器 - 解码器框架实现了比现有技术水平的 DST 方法更好的结果。

Oct, 2020

知识图谱融合用于语言模型微调

探索将知识图谱注入 Bert 模型的微调阶段来提高语言理解，并通过实验证明注入相关高质量知识对于特定任务有显著的性能提升。

Jun, 2022

生成式对话状态跟踪器中的跨语言可转移性的实证研究

本文研究了多语言预训练 seq2seq 模型在跨语言对话状态追踪中的可转移性，尝试了联合训练、预训练等不同设置，并发现了转化能力较低的问题。

Jan, 2021

无监督的后置知识注入实现会话目标

本文介绍了一种基于后处理的知识注入技术，该技术从外部源中提取相关知识，并将其合并到对话响应中，实验表明使用这种方法可以在目标导向和基于知识的对话环境中实现更具吸引力和更丰富的对话响应。

Mar, 2022

DSTC9 中基于任务的对话建模与非结构化知识访问跟踪的超越领域 API

任务驱动的对话系统使用外部非结构化知识源来扩展任务领域 API 的覆盖范围，三个任务包括知识寻找、选择和响应生成，并用集成方法和大规模预训练语言模型取得了高性能。

Jan, 2021