注意你的语言模型:对 LLMs 及其在 NLP 研究与实践中的事实核实
通过文献综述和第一手实验,本文研究了大型语言模型(LLMs)的潜力。尽管 LLMs 具有成本效益和高效性等优点,但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解,强调了成功和限制。此外,本文还讨论了缓解挑战的策略,如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作,并积极促进其负责任的应用,以此回应关于 LLMs 在研究中负责任应用的持续对话。
Apr, 2024
该研究通过对大型语言模型在事实检查方面的潜力进行初步调查,系统评估了它们在处理特定事实检查子任务中的能力,并与预训练和最先进的低参数模型进行了性能对比分析。实验证明大型语言模型在大多数场景中取得了与其他小型模型相媲美的性能,但在处理中文事实验证和整个事实检查流程中遇到了语言不一致和虚构的挑战,这些发现强调了进一步探索和研究以增强大型语言模型作为可靠事实检查器的能力,并揭示了在事实检查任务中可能面临的挑战。
Nov, 2023
本文通过对 5000 多篇学术文献的综合分析,提供了关于 LLM 研究的路线图,包括核心算法开发、自然语言处理任务、LLM 在医学、工程、社会科学和人文学科中的应用等方面的研究趋势以及研究范式和合作模式的变化,为研究人员、从业者和决策者了解 LLM 研究的当前状态、影响和潜力提供了有价值的见解。
Apr, 2023
当前大型语言模型(LLMs)在生成符合语法、流畅的文本方面无与伦比。这篇论文针对 LLMs 的能力进行了辩论,并通过批判性评估三个经常在批评中出现的观点来展示 LLMs 仍需更多细化。其次,文章从实证和理论的角度提出了对 LLMs 中 “真正” 的理解和意向性的实用观点,并讨论了在何种情况下将心理状态归因于 LLMs 对于这一日益重要的技术在社会中具有实用的哲学背景。
Oct, 2023
大型语言模型(LLMs)在理解和生成任务方面取得了显著的表现,但其在偏见、上下文理解和对提示的敏感性方面存在限制,因此对其在实际应用中的准备性产生了担忧。本文通过对四个可访问的 LLMs 使用真实世界数据进行的实验,深入研究了 LLMs 在业务流程中的实用性和准备性。研究结果对希望利用生成式人工智能的组织具有重大影响,并为未来的研究方向提供了宝贵的见解。据我们所知,这是第一项将 LLMs 应用于核心业务运营和挑战的定量研究。
Jun, 2024
大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制,加强科学研究,例如通过总结大量出版物加速文献回顾,通过自动语法纠正提升代码开发,和优化科学写作过程。然而,LLMs 面临挑战,如依赖庞大且有时偏颇的数据集,以及出于使用而引发的潜在伦理困境。我们对 LLMs 在不同领域的影响进行重要讨论,从自然科学中帮助模拟复杂生物序列,到社会科学中解析大规模的定性数据。最后,我们提供一种细致的观点,认为 LLMs 既是科学进步的福音,也是其边界。
Nov, 2023
大语言模型(LLMs),尤其是适用于聊天的指导模型,已成为我们日常生活中的一部分,通过在一个地方提供简单的答案,使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而,很多情况下,LLM 的回答是错误的,这限制了它们在实际场景中的适用性。因此,对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中,我们以批判性的角度分析现有的工作,旨在确定主要的挑战及其关联的原因,指出改进 LLM 的潜在解决方案,分析开放式文本生成的自动事实准确性评估的障碍,并展望未来研究的方向。
Feb, 2024
该论文调查了大型语言模型的八个潜在问题,包括其预测能力的增强,不可预测的行为的出现,对外部世界的学习和使用表示,行为引导技术的不可靠性,内部工作方式的解释困难性,性能上界不是人类任务表现,不一定表达其创建者或网络文本编码的价值观,与 LLMs 的简短交往经常是误导性的。
Apr, 2023