使用 ReLM 验证大型语言模型
通过聚合实现可靠和公平的大型语言模型输出,而无需专门的硬件或重训练,REQUAL-LM 方法在解决 LLM 可靠性和公平性方面展现了很好的效果。
Apr, 2024
R-LLMs improve factual question-answering by combining pre-trained large language models with retrieval systems; RaLLe is an open-source framework that facilitates the development, evaluation, and optimization of R-LLMs for knowledge-intensive tasks, enhancing performance and accuracy.
Aug, 2023
为了解决大型语言模型生成的虚构和非事实内容的问题,我们提出了一种交互系统,通过多个样本的自一致性来评估生成文本中个别声明的置信度,从而帮助用户获取对生成文本可靠性的洞见。通过用户研究,我们证明了该方法有助于用户更好地验证生成文本的可靠性,并总结了该研究对于未来关于可靠人机对话的启示、设计影响和经验教训。
Nov, 2023
通过提出一种名为增强检索增强机器学习(RRAML)的新型框架,将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合,有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。
Jul, 2023
本文概论了基于大型语言模型的推荐系统,提出了两种主要类型(分别为判别型 LLM 推荐 DLLM4Rec 和生成型 LLM 推荐 GLLM4Rec),分别从方法、技术和性能等方面对现有的 LLM 推荐系统进行了系统的分类和评估,并指出了主要挑战和有价值的发现。
May, 2023
通过使用大型语言模型,我们展示了文献检索系统能够达到先进的语义理解能力,显著优于现有系统;我们的方法包括使用大型语言模型生成的领域特定数据来训练检索器和再排名器,此外,我们还利用大型语言模型从检索到的论文参考文献中识别候选项以进一步提高性能;我们使用量子物理学和计算机视觉领域的学术研究人员标注的测试集来评估系统的性能,结果显示 DocReLM 在计算机视觉领域的前十准确率为 44.12%,而 Google Scholar 为 15.69%,在量子物理学中提高到 36.21%,而 Google Scholar 为 12.96%。
May, 2024
ReaLMistake 是第一个错误检测基准工具,包含了 LLMs 的客观、实际和多样化错误。通过评估 12 种 LLMs 的错误检测器,发现 LLMs 的错误检测性能低于人类,并且解释不可靠,对提示的微小变化敏感而改进困难,同时改进 LLMs 的流行方法也不能提高错误检测性能。
Apr, 2024
基于 Large Language Models (LLMs) 的技术,通过自动化查询 - 商品对的相关性判断,改善产品搜索的相关性预测精度,对商品搜索的相关判断自动化领域具有重要影响。
Jun, 2024
通过整合大型语言模型与推荐系统的表示学习,我们提出了一个模型不可知的框架 RLMRec,旨在增强现有的推荐器,并提高其对于用户行为和偏好的语义理解,同时通过交叉视角对齐框架,将 LLM 的语义空间与协同关系信号的表示空间相对应。
Oct, 2023