构建与伊斯兰世界观相符的领域专用 LLMs:幻觉还是技术可能性?
当面临领域特定问题时,大语言模型(LLMs)可能会遇到问题,如知识遗忘、知识重复、知识幻觉以及知识毒性,这些问题突显了 LLMs 的训练数据和算法设计的困扰。为了解决这些问题,建议对训练数据进行多样化,微调模型,提高透明度和可解释性,并引入伦理和公平性培训。未来的技术趋势可能会倾向于迭代方法学、多模态学习、模型个性化定制以及实时学习和反馈机制。最重要的是,未来的 LLMs 应确保在为人类服务时优先考虑公平、透明和伦理,确保它们持有高的道义和道德标准。
Oct, 2023
大型语言模型(LLMs)在理解和生成任务方面取得了显著的表现,但其在偏见、上下文理解和对提示的敏感性方面存在限制,因此对其在实际应用中的准备性产生了担忧。本文通过对四个可访问的 LLMs 使用真实世界数据进行的实验,深入研究了 LLMs 在业务流程中的实用性和准备性。研究结果对希望利用生成式人工智能的组织具有重大影响,并为未来的研究方向提供了宝贵的见解。据我们所知,这是第一项将 LLMs 应用于核心业务运营和挑战的定量研究。
Jun, 2024
MindLLM 是一系列双语轻量级大型语言模型,通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验,并介绍了适用于较小模型的创新指令调整框架,同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。
Oct, 2023
通过对三种领先的大型语言模型 (LLM) 和两个不同的针对真实性和事实性的数据集进行深入实验,我们研究了 LLM 响应质量在信息准确性、真实性和拒绝方面如何随用户的英语水平、教育水平和国籍的不同而变化。我们的研究结果表明,领先的 LLM 模型在不可取的行为方面存在不均衡,对英语水平较低、教育水平较低和来自美国以外的用户具有更多的不可取行为,从而使这些模型对于最弱势的用户成为不可靠的信息来源。
Jun, 2024
在自然语言处理领域中,本研究通过对四个知名的大型语言模型(Llama-2,Falcon,Mistral 和 Zephyr)进行全面的零样本评估,与最先进的微调模型进行性能比较,评估了大型语言模型在电信领域内的知识和理解能力,并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平,突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。
Feb, 2024
大语言模型(LLMs),尤其是适用于聊天的指导模型,已成为我们日常生活中的一部分,通过在一个地方提供简单的答案,使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而,很多情况下,LLM 的回答是错误的,这限制了它们在实际场景中的适用性。因此,对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中,我们以批判性的角度分析现有的工作,旨在确定主要的挑战及其关联的原因,指出改进 LLM 的潜在解决方案,分析开放式文本生成的自动事实准确性评估的障碍,并展望未来研究的方向。
Feb, 2024
当前大型语言模型(LLMs)在生成符合语法、流畅的文本方面无与伦比。这篇论文针对 LLMs 的能力进行了辩论,并通过批判性评估三个经常在批评中出现的观点来展示 LLMs 仍需更多细化。其次,文章从实证和理论的角度提出了对 LLMs 中 “真正” 的理解和意向性的实用观点,并讨论了在何种情况下将心理状态归因于 LLMs 对于这一日益重要的技术在社会中具有实用的哲学背景。
Oct, 2023
我们发现大型语言模型在不同环境下存在不同程度的对齐问题,并通过构建多个上下文(称为世界)并利用相应的编译器,低成本地暴露潜在的对齐问题,从而进行大规模的对 LLM 对齐问题的研究,结果表明我们的方法在效果和效率上优于现有的破解技术。此外,我们的结果表明,现有的 LLMs 在嵌套世界和编程语言世界中存在极高的漏洞性,这暗示现有的对齐训练偏重于真实世界,对 LLMs 在各种(虚拟)世界中的潜在利用存在缺失。
Jan, 2024
评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型(LLMs)的情感分析性能,发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色,与人的一致性高且决策过程透明,但在非英语环境中的文化细微差别方面存在不稳定性,结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。
Jun, 2024
本文研究了如何在持续训练过程中注入领域知识以及如何设计正确的监督微调任务来帮助模型解决实际问题,在加入检索模块并提取相关文献的情况下,我们的模型可以更可靠地生成答案。
May, 2023