利用检索增强生成技术实现文化包容的客家聊天机器人:设计见解与用户感知
CulturalTeaming是一个人工智能系统,与人类合作创建多元文化知识评估数据集,通过与人类的互动合作,利用大型语言模型的自动化功能,提高文本注释者的能力并改善他们的体验,从而评估大型语言模型的多元文化知识,并揭示了现代大型语言模型在多元文化能力上存在的显著差距。
Apr, 2024
检视了检索增强型大型语言模型(RA-LLMs)的现有研究,涵盖体系结构、训练策略和应用三个主要技术视角,并介绍了此类模型的基础知识和最新进展,以及它们为大型语言模型(LLMs)带来的实际意义和应用领域的挑战和能力,最后讨论了当前的局限性和未来研究的几个有前途的方向。
May, 2024
通过CulturePark,我们生成了41,000个文化样本,用于优化八个特定文化的LLM。我们在内容审查、文化协调和文化教育三个下游任务中评估了这些模型,结果表明在内容审查方面,基于GPT-3.5的模型要么与GPT-4相匹配,要么胜过它。在文化协调方面,我们的模型优于GPT-4的Hofstede的VSM 13框架。此外,针对人类参与者的文化教育,我们的模型在学习效果和用户体验方面与GPT-4相比展现了卓越的结果。CulturePark是解决文化偏见和推动人工智能民主化的重要进展,突显了文化包容性数据在模型训练中的关键作用。
May, 2024
该研究介绍了Leodar教授,一个定制的、使用新加坡英语(Singlish)的Retrieval Augmented Generation(RAG)聊天机器人,旨在增强本科工程学生的教育支持。通过混合方法,揭示出Professor Leodar对学生学习、参与和考试准备的影响,其中97.1%的参与者报告了积极体验。这些发现帮助定义了AI在教育中的可能角色,突显了定制GenAI聊天机器人的潜力。我们的聊天机器人开发、课堂部署和学习成果研究的组合为GenAI教育工具提供了一个基准,并为重新定义人工智能和人类学习的相互作用奠定了基础。
Jun, 2024
我们研究了ChatGPT对豪萨文化和情感的表达方式,通过比较生成回答和豪萨本地人在37个与文化相关的问题上的回答,以及运用情感分析和相似性度量等方法进行实验和评估,结果显示ChatGPT在某种程度上和人类回答相似,但同时也存在知识和文化认知方面的不足和偏见。我们讨论了我们方法和分析的意义和局限,并提出了改进低资源语言下大语言模型性能和评估的方法。
Jun, 2024
基于我们对三个NVIDIA聊天机器人的经验,我们提出了一个构建基于RAG的聊天机器人的框架:包括FACTS框架、十五个RAG流水线控制点以及大型和小型LLMs之间精确度-延迟权衡的实证结果。据我们所知,这是第一篇提供了从综合视角看构建安全企业级聊天机器人的因素和解决方案的研究论文。
Jul, 2024
本研究解决了检索增强生成(RAG)技术中对新算法缺乏全面公平比较以及现有开源工具透明度不足的问题。通过介绍RAGLAB,一个模块化的开源库,研究者可在10个基准上公平比较6种RAG算法,从而推动新算法和评估指标的发展。该框架的建立有望提升RAG方法的研究效率和成果。
Aug, 2024
本研究针对大型语言模型(LLMs)在理解和处理特定文化知识方面的能力进行了基准评估,重点关注客家文化。使用布鲁姆分类法,建立了一个多维框架,评估LLMs在六个认知领域的表现,并发现检索增强生成(RAG)技术能够显著提升准确性,尤其是在需要精准检索和应用文化知识的任务中。研究结果彰显了这一基准在推动AI驱动的文化知识保存与传播方面的重要价值。
Sep, 2024
本研究针对大规模语言模型在应用中对用户文化敏感性的需求进行了调查,指出了当前文献中的不足之处。通过提出跨文化数据集的创建方法和文化纳入策略,本论文总结了在文本和多模态语言模型中增强文化意识的最新进展。研究发现,推动文化对齐不仅能提高语言模型的包容性,还有助于社会科学研究的发展。
Oct, 2024
本文提出了一种将语言人类学与机器学习整合的新方法,旨在解决语言和机器学习技术的社会责任之间的关系。通过分析人类用户与大型语言模型驱动的聊天机器人之间的对话,展示了文化可解释性(CI)作为一种新兴研究领域的理论可行性。研究结果强调了语言与文化的动态关系,提供了改进语言模型与多样化语言使用者及文化社群价值对齐的洞察。
Nov, 2024