TourLLM: 提升LLMs的旅游知识
我们构建了一种基于知识导向的大型语言模型评估基准,并通过使用维基百科和不断收集出现的语料库来确保数据的公正比较,评估21个开源和商业大型语言模型的能力和知识相关度。
Jun, 2023
社交媒体平台在各领域的日益影响,包括旅游业,凸显了有效且自动化的自然语言处理(NLP)方法对这一宝贵资源的需求。在这项工作中,我们评估和比较了针对旅游领域中常见的3个NLP任务(情感分析、命名实体识别和细粒度主题概念提取)的几种few-shot、模式利用和微调机器学习技术在大型多语言语言模型(LLMs)上的性能,以确定解决领域特定数据集构建中NLP研究人员常遇到的标注示例数量问题的最佳策略。通过对新收集和注释的由旅游相关推文组成的多语言(法语、英语和西班牙语)数据集进行广泛实验,我们发现当前的few-shot学习技术可以在很少的注释数据的情况下为这三个任务获得具有竞争力的结果,情感分析每个标签(总共15条)标注5条推文,位置检测的推文量为10%(大约160条),而包含主题概念的推文量约为13%(大约200条),这是一项高度细粒度的基于一个包含315个类别库的序列标注任务。这项基于新数据集的比较分析为将NLP应用于新的领域特定应用铺平了道路,减少了手动标注的需要并绕过了基于规则的临时解决方案的复杂性。
Nov, 2023
通过在城市更新领域中自动产生问答数据集,并使用Prefix和LoRA的联合微调方法对模型进行联合微调训练,本研究提出的联合微调训练方法能够显著提高LLM在知识问答任务上的性能,相比LoRA微调,该方法使测试中的Bleu和Rouge指标提高了约5%;相比微调前的模型,该方法使Bleu和Rouge指标提高了约15% -20%。该研究证明了在城市更新知识问答任务中使用Prefix和LoRA的联合微调方法对ChatGLM的有效性和优越性,为LLM在城市更新相关任务上的微调提供了新的方法。
Nov, 2023
提出了一种经济高效的解决方案 CultureLLM,利用 World Value Survey (WVS) 作为种子数据,通过提议的语义数据增强方法生成语义上等价的训练数据,然后使用这些数据对文化特定的 LLMS 进行微调,以及一个统一模型 (CultureLLM-One) 来覆盖 9 种文化。实验结果表明 CultureLLM 在各种文化相关数据集上的性能明显优于其他对比模型,例如 GPT-3.5(8.1%)和 Gemini Pro(9.5%),且与 GPT-4 相当甚至更好。人类研究结果显示生成的样本在语义上与原样本相等,为 LLMs 的增强提供了有效的解决方案。
Feb, 2024
我们提出了一个双阶段方法来构建高质量数据的生产提示,通过该方法可以增强一般大型语言模型的特定领域能力,而不损害其总体泛化能力。
Mar, 2024
通过比较分析不同的大型语言模型,尤其是开源的 Mistral 7B,我们揭示了它们在旅行客户需求分析任务中的优势和劣势,为企业利用先进的自然语言处理技术提升客户体验和推动运营效率方面提供了有价值的见解。
Apr, 2024
大语言模型在旅行规划领域有着显著的实际应用,通过LLM模块化框架的操作,对LLMs的推理能力进行改进,并在基线性能上取得了4.6倍的提升。
May, 2024
该研究探讨了信息差异对西藏旅游业的影响,并解决了建立大型语言模型评估标准的挑战。引入了一种创新方法,即DualGen Bridge AI系统,采用监督微调技术来增强模型功能和优化流程,并开创了多结构生成结果评估框架。实证验证证实了该框架的有效性。研究还探讨了监督微调方法在DualGen Bridge AI中的应用,旨在改善旅游景点信息的生成。研究结果为优化系统性能提供了有价值的见解,并为在西藏旅游服务等领域应用LLM技术提供了支持和启示,可能通过先进的定制信息生成能力来彻底改变智慧旅游行业。
Jul, 2024
本研究针对大语言模型(LLM)微调方法与评估指标的现有差距进行了比较,特别是涉及旅行聊天机器人的案例。论文的创新之处在于使用了多种微调和评估方法,发现虽然量化指标与人类评估不一致,但OpenAI的GPT-4评估与人类评估高度吻合,强调了在评估过程中保持人类参与的重要性。该研究表明,改进的微调方法(如RLHF)显著提升了模型性能,且Mistral模型总体表现优于LLaMa模型。
Aug, 2024