- 通过思维链推理在大型语言模型中注入销售人员的对话策略
SalesBot 2.0 通过使用大型语言模型(LLMs)的常识知识和链式推理(CoT reasoning)训练销售代理人,并结合改进后的数据集,实现了对话策略的控制、提高了连贯性和减少了攻击性,从而促进销售 - 顾客互动过程的更好模型学习 - 一个尺寸并不适合所有人:个性化定制开放领域的流程
首次研究了 LLMs 能够多大程度上个性化定制开放领域的操作过程,使用 CustomPlans 数据集作为个性化代理和执行代理,人工评估结果显示在顺序设置中使用这些代理效果最佳,但仅有约 51% 的准确率,误差分析显示 LLMs 在生成的过 - 销售机器人 2.0:一个人类化意图导向的闲聊数据集
本文介绍了 SalesBot 2.0,通过使用大型语言模型的常识知识逐渐缩小闲聊和面向任务的对话之间的差距,构建了一个新的大规模数据集,提供了更加平滑的话题转换和更加接近人类自然性和一致性的对话,对学术研究和商业应用都具有重要价值,并提出了 - 主题扩散:无需测试时间微调的开放领域个性化文本到图像生成
我们提出了一种新的开放域个性化图像生成模型 Subject-Diffusion,它不需要测试时微调,只需要一个参考图像就能在任何领域中支持个性化生成单一或多个主体。我们通过构建自动数据标注工具和使用 LAION-Aesthetics 数据集 - 探索开放领域多文档摘要的挑战
本文研究了 Multi-document summarization (MDS) 在基于开放领域的信息检索下的应用。作者在实验中发现现有的摘要算法性能较低,但通过训练摘要算法可以减少检索错误对算法性能的影响。此外,作者还进行了扰动实验研究了 - (QA)$^2$: 带问题假设的问答系统
本文提出了(QA)$^2$(包含有问题上有问题的问题的问题回答)的开放域评估数据集,用于测试有问题上有问题的问题的回答系统。该论文研究问题上有问题的问题,旨在解决现有的 QA 系统不能正确回答该类问题的问题。
- OASum:大规模开放领域基于方面的摘要
利用众包知识构建了高质量、大规模、面向开放领域的方面为基础的自动摘要数据集(OASum),包含超过 3.7 百万个实例,在 200 万个维基百科页面上涵盖了大约 1 百万种不同的方面类型,并在七个下游数据集上进行了数据零、少样本以及微调处理 - CREPE:带有错误前提的开放领域问答
介绍了一个包含在线信息获取论坛上的自然分布条件失败的问答数据集 CREPE,其中 25%的问题包含虚假前提;通过实验表明现有的开放域问答模型可以适当地找到前提,但很难预测前提是否属实,CREPE 提供了研究野外问答的基准,并为更好地建模和深 - EMNLP使用噪声通道模型在文档驱动对话系统中控制事实性
本文提出了一种模型,通过 Bayes 定理将其分解为两个部分,其中一个是传统的非基础回应生成模型,另一个是基于对话上下文和生成的回应重建基础文档的模型。我们提出了不同的近似解码方案,并在多个开放域和面向任务的基础对话数据集上评估我们的方法, - ACLSalesBot:从闲聊转向面向任务的对话
探索如何从社交对话到任务导向对话的平滑转换,为触发商业机会提供支持。提出了一个自动生成对话的框架,并在此基础上发布了一个大规模数据集,该数据集为未来的研究和商业活动提供了巨大的潜力。
- EMNLP利用零样本问题生成技术提升段落检索效果
本文提出一种简单有效的重新排序方法,利用预训练语言模型计算与检索的段落之间的关联度,从而提高开放式问题回答中的检索效果,并在多个数据集上进行了评估和实验,使得无监督和有监督的模型的检索准确率分别提高了 6-18% 和 12%。
- 开放域目标情感分析的挑战
提出了一个新的数据集和嵌套目标注释模式来扩展 open-domain 情感分析的实用性和有效性,运用预训练模型 BART 进行序列生成方法,结果表明 open-domain 目标情感分析领域有很大的改进空间,但是在使用 open-domai - 基于规则的开放域问答系统在 SQuAD v2.0 数据集上的设计与开发
本研究提出了一种基于规则的开放域问答系统,可以回答来自相关上下文的任何领域的问题,使用 1000 个问题的 SQuAD 2.0 数据集测试开发的系统表现满意,同时分析了性能。
- ACLTopiOCQA: 开放领域交互式问答技术及主题切换
本文介绍了 TopiOCQA 作为一个开放域对话数据集,涵盖了涉及 Wikipedia 的 3920 个问答型对话,包含主题变换,需要结合对话历史来构建合理的回答,在结合最先进的检索方法与神经读取模型的基础上对其进行多方面的评估。
- EMNLP基于语料库的开放领域事件类型归纳
本文提出了一种基于语料库的开放领域事件类型归纳方法,该方法使用聚类 <谓词意义,对象头> 对每种事件类型进行表示,并利用选择显著谓词和对象头、利用动词意义词典消歧谓词语义、联合嵌入和聚类 <谓词意义,对象头> 对事件类型进行潜在球面空间的建 - ACL评估开放式聊天机器人一致性的高效实用框架
本文提出了一种名为‘历史问题解答’的框架(AIH),通过在聊天机器人之间进行对话来有效评估聊天机器人的一致性能力,并且可以利用自然语言推理模型来识别答案是否与历史矛盾。实验表明,该方法可以有效可靠地评估聊天机器人的一致性能力和得到与人类评价 - 开放事实核查中基于表格的联合验证与重新排名
本文介绍了一种结合重新排序和验证模型的开放域结构化数据自动验证方法,包括多种表格,实现了与封闭领域技术水平可比较的表现,并相对启发式检索基准有显著提升,关键词包括:结构化数据,验证方法,开放领域,联合重新排序和验证模型,TabFact 数据 - ACLWikiAsp:一个用于多领域方面的摘要的数据集
提出了一个新的多领域、开放领域的基于方面的摘要数据集 “WikiAsp”,该数据集通过使用 20 个不同领域的维基百科文章并使用每篇文章的标题和边界作为方面标注的代理。研究结果表明现有的摘要模型在此情况下面临的关键挑战,具体包括引用来源的代 - EMNLP通过迭代查询生成回答复杂开放领域问题
GoldEn Retriever 是一个使用自然语言搜索查询来解决开放领域中多跳推理问题的系统,在 HotpotQA 数据集上表现比之前发表的最佳模型更好。
- MIDAS:面向开放域人机口语对话的对话行为注释方案
本文设计了一个层次结构和支持多标签的对话行为注释方案 MIDAS,针对开放领域的人机对话。为了验证该方案的适用性,我们利用迁移学习方法训练多标签对话行为预测模型,并达到了 0.79 的 F1 分数。