评估开放式聊天机器人一致性的高效实用框架

ACLJun, 2021

评估开放式聊天机器人一致性的高效实用框架

Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency

Zekang Li, Jinchao Zhang, Zhengcong Fei, Yang Feng, Jie Zhou

TL;DR本文提出了一种名为‘历史问题解答’的框架（AIH），通过在聊天机器人之间进行对话来有效评估聊天机器人的一致性能力，并且可以利用自然语言推理模型来识别答案是否与历史矛盾。实验表明，该方法可以有效可靠地评估聊天机器人的一致性能力和得到与人类评价的高相关性。

Abstract

A good open-domain chatbot should avoid presenting contradictory responses about facts or opinions in a conversational session, known as its consistency capacity. However, evaluating the →

chatbot consistency capacity addressing inquiries about history contradiction recognition open-domain

发现论文，激发创造

重新解读 ELIZA：世界上第一款聊天机器人并非本意上的聊天机器人

ELIZA 是世界上第一款聊天机器人，是 Joseph Weizenbaum 在 20 世纪 60 年代编写的，旨在研究人机对话和重要的认知过程，本文提供了 ELIZA 创造的丰富历史背景，并简要讨论了 ELIZA 的意外逃逸和原始 ELIZA 的丧失。

Jun, 2024

填补药物安全数据分析的空白：基于大型语言模型的 SQL 查询生成

利用 OpenAI 的 GPT-4 开发的聊天机器人应用，通过自然语言生成结构化查询语言（SQL）查询，从而实现非技术用户对数据库的访问，拓宽了数据的使用范围，提升了决策效率，促进各种数据密集型领域的药物安全和决策制定。

Jun, 2024

将脑科学概念引入到具身式手工对话管理系统中

本文探讨了在与人类进行自然语言对话或直接语音交流的过程中，将对话系统的研究置于综合智慧的广阔背景之中，从而引入来自神经生物学和神经心理学的概念，以定义能够调和手工设计和人工神经网络的行为架构，并为模仿或指导式学习等未来新的学习方法开启新的可能性。并且，本文介绍了一种神经行为引擎，通过使用图形化语言基于手工模型创建混合主动对话和动作生成。通过在半公共空间上运行的虚拟接待员应用程序，描述了这种类脑启发架构的可用性示范。

Jun, 2024

大型语言模型能从用户的自由互动中推断出个性

本研究探讨了大型语言模型（LLMs）从自由交互中推断五大人格特质的能力。结果表明，由 GPT-4 驱动的聊天机器人可以以适度的准确性推断人格，优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时，性能最高（平均 r=.443，范围 =[.245, .640]），其次是强调自然互动的条件（平均 r=.218，范围 =[.066, .373]）。值得注意的是，在直接关注个性评估的条件下，用户体验并未降低，参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿 ChatGPT 作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级，但仍然捕捉到一些人格特质的心理学意义信息（平均 r=.117，范围 =[-.004, .209]）。初步分析表明，个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了 LLMs 在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。

May, 2024

通过思维链推理在大型语言模型中注入销售人员的对话策略

SalesBot 2.0 通过使用大型语言模型（LLMs）的常识知识和链式推理（CoT reasoning）训练销售代理人，并结合改进后的数据集，实现了对话策略的控制、提高了连贯性和减少了攻击性，从而促进销售 - 顾客互动过程的更好模型学习。

Apr, 2024

融入不同的语言线索来改进基于文本的计算机交付的健康信息传递

我们研究如何创建更有效的数字化医疗干预，从生成健康信息，选择适当的信息形式，到格式化参考用户先前的言述。

Apr, 2024

增强乘机旅客体验：加拿大航空乘客权益聊天机器人

一项针对加拿大航空旅行业的研究，提出了一个机器人助手用于帮助旅客了解他们的权益，通过将复杂的用户输入分解为简单的查询，并从详细航空旅行规定文件中检索相关信息，并提供最相关的段落和链接，用户可用于自己的情况。该系统成功克服了解析复杂用户输入和提供准确答案的两个主要挑战，并通过与谷歌搜索进行的用户研究证明了其实用性和易用性，同时也希望该系统能促进对话接口与信息检索准确性之间权衡的进一步研究。

Mar, 2024

AI 洞察：利用 ChatGPT 智能进行研究论文分析的案例研究

使用 ChatGPT 3.5 和 4 对研究论文进行分析以提高科学文献调查的有效性，选择 “人工智能在乳腺癌治疗中的应用” 作为研究主题，使用 ChatGPT 模型自动识别相关论文、对论文按范围进行组织和确定调查论文的关键信息，结果显示 GPT-4 能以 77.3% 准确率识别研究论文类别，50% 的论文的范围能被 GPT-4 正确识别，且 67% 的模型给出的原因是专家完全同意的。

Mar, 2024

通过混合和改善历史实现不断演进的记忆

为了构建人类化的聊天机器人，构建一个长期记忆是至关重要的。本文提出了一个新颖的记忆方案 CREEM，通过混合过去的记忆并引入精炼过程来改善聊天机器人回应的整体效果和一致性，确保一个更加明智和动态发展的长期记忆。

Mar, 2024

分散学习对斯塔克尔贝格博弈中玩家效用的影响

探讨了两个学习代理（如推荐系统或聊天机器人）相互交流并独立学习的情况下，每个代理的目标和效用如何受到影响，并提出了一种宽容于小学习误差的放松后的后悔基准，以及相应的学习算法，实现了接近最优水平的后悔率。

Feb, 2024