- 近期对话数据生成的研究进展综述
对多轮对话数据生成进行了系统综述,包括开放领域对话系统、任务导向对话系统和信息搜索对话系统,提出了一个概括对话数据生成系统主要原则的通用框架,并探讨了合成对话数据的评估指标和方法、当前领域的挑战以及未来研究的潜在方向。
- 透过零训练样本的情感和言语阻碍生成实现人性化的语音合成
现代对话系统在情感深度和人类交互特征方面存在重大局限。为弥补这一差距,我们设计了一种创新的语音合成流程,通过零 - shot 设置下的先进语言模型将人类情感和不流畅的特质引入生成的文本,从而更好地模拟人类语音模式,提供更直观自然的用户交互, - 大规模语言模型中可解释的对话系统用户满意度评估
使用迭代提示框架和标记示例的监督下,通过学习得到的评分标准,文中提出了一种更高准确率且更易解释的用户满意度估计方法 ——SPUR,并证明了 LLMs 在从自然语言表达中更有效地提取用户满意度信号。
- MM使用经过提示优化的 Transformer 进行线索检测和响应生成
通过对话管理中的线程检测、优先排序以及性能优化的系统分解和优化,开发了一种端到端模型,该模型能够基于重要性识别线程并优先生成其响应。此外,使用 Llama2 模型结合微调方法和策略提示技术,增强了计算能力,提高了模型速度和生成结果的连贯性。
- 您的模型能否区分否定与暗示?揭示意图编码的挑战
通过使用三个任务(意图分类、意图聚类和新颖的三元组任务)来评估意图嵌入模型在语义理解方面的能力,研究使用预训练方法和数据增强来改善意图嵌入模型在实际对话系统中的性能。
- PAQA:面向主动开放式检索的问题回答
为了解决会话式搜索系统中存在的问题,本文提出了 PAQA,这是 AmbiNQ 数据集的扩展,通过考虑用户查询和文档中存在的歧义,生成相关的澄清问题,并评估各种模型以及检索过程对歧义检测和澄清问题生成的影响。
- 通过自动爬取和对齐的句子对进行神经重述
本文介绍了一种基于语言约束的相似性搜索方法,用于自动产生大规模对齐语料库,以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估,并使用基于指针的深度神经网络架构实验。
- Pheme:高效且会话式的语音生成
在这项研究中,我们介绍了 Pheme 模型系列,它提供了紧凑而高性能的模型,能够并行生成自然对话式语音,并且可以高效地在较小规模的对话数据上进行训练,降低数据需求 10 倍以上,但仍能与自回归 TTS 模型的质量相匹配。我们还展示了通过简单 - 多方对话人工智能中的协议检测
本文介绍了我们在多方会话系统上的工作,该系统邀请两名用户参与玩一个问答游戏,系统能够检测用户对最后答案的同意或不同意,并进行相应回应。我们通过性能和用户评估结果来评价系统,重点是检测用户的同意。我们的注释稿和所提出系统的代码已在 GitHu - EMNLPDELPHI:评估 LLM 在处理有争议问题上的性能数据
我们提出了一个具有争议性的问题数据集的构建方法,通过评估不同的大型语言模型(LLMs)在这个数据集上的表现,揭示了它们如何处理具有争议性的问题以及它们采取的立场,从而为我们提供了对 LLMs 与争议性问题的互动的理解,为改进它们对复杂社会议 - EMNLP会话系统的词汇磁化
通过提出一个新的数据集和一种测量方法,该论文探讨了当前的回复生成模型如何不充分地解决话语对齐(Lexical Entrainment)这一重要的类人现象,并提出了两个新的任务和两种基线方法来在会话系统中明确地整合话语对齐。
- 对话人工智能的数据增强
对话系统中的数据扩充方法提供了关键的方法来解决数据稀缺问题,并探讨了对话系统中的生成、评估等任务中的挑战与未来方向。
- 对话系统中技能路由尾部流量鲁棒性的数据增强
研究在大规模对话系统中使用异构技能路由数据的扩充与针对长尾数据的鲁棒操作进行训练的方法,采用编码器 - 解码器生成框架来扰动原始数据字段并创建合成训练数据,通过实验结果展示了该方法的有效性。
- 针对积极对话的大型语言模型的提示和评估:澄清、目标导向和非协作
本篇论文中,我们提出了一种称之为 Proactive Chain-of-Thought 推导方案,它能够增强 LLMs 的目标规划能力,以解决其在主动对话方面的不足,具体涉及三个方面:澄清、目标引导和非协作对话。我们还探讨了相应的实证结果, - ACL响应条件的交替预测
本文提出一种模型,该模型将对话历史和下一个讲话者想要说的内容作为条件来预测对话的结束,比基线模型在各种指标上的表现更好。该模型可作为一个增量响应排名器,在各种场景中得到应用。
- 融合会话历史和候选来源进行上下文响应排序的对话系统中的 FCC
本论文提出了一种灵活的神经网络框架,利用上下文信息从多个渠道进行整合来提高多轮对话响应排序的性能。在 MSDialog 数据集上的实验结果表明,我们的框架显著优于先前的最先进模型,提高 Recall@1 7%和 MAP 4%。
- 解决实体选择中的间接引用表达式
本研究使用自然语言表达解决实体对话引用消歧问题,并开发了 AltEntities 数据集以评估大型语言模型在此任务上的效能,结果表明其在实际环境中的准确率可达 82%-87%。
- SIGIR多模态会话任务引导系统中的人类参与方法
本文讨论了人类在指定任务中使用应用程序所面临的挑战,提出了任务引导系统的发展需要寻找信息检索和会话系统来帮助任务的执行者,并针对现有数据集开发了一个基于 Wizard-of-Oz 的数据收集工具,进行了初步实验。
- 基于转移学习和 Adapter 的无监督神经风格文本生成
本文提出一种迁移学习框架,通过更新模型参数的 0.3%来学习响应生成的特定风格属性,解决了在话务系统中保持一致的人物形象和风格的问题。研究表明,个性是改善会话系统参与度和用户体验的关键驱动因素。同时,本研究通过在 ROC 故事语料库中研究风 - WWW对话中的个人属性预测
本论文提出了一种基于预训练语言模型的模型,通过对话系统中用户发出的不带标签的语句进行无监督学习,从而实现预测用户个人属性值的目的,从而丰富 PKB,并通过挖掘未标注语句中嵌入的个人属性知识来实现两类监督。实验结果表明,该框架在预测个人属性方