Jul, 2024

通过在人类循环中使用LLMs优化和评估检索增强型问答聊天机器人

TL;DR通过插入人在开发周期的不同环节,如数据集收集、提示优化和生成输出的评估,我们改进了以大型语言模型驱动的人力资源支持聊天机器人的响应质量,探索了替代的检索方法,从而创建了一种高效、可扩展和灵活的工具,以有效解决员工的问题。我们的实验证明GPT-4优于其他模型,并能通过内部推理能力克服数据的不一致性。此外,通过专家分析,我们推断出G-Eval和Prometheus等无参考评价指标与人工评估的可靠性高度一致。