大型语言模型作为公司游说者
使用 GPT 3.5 和 GPT 4 模型对议会法案和听证会进行分类,与人工干预程度相关的三种使用情景中,我们的结果表明完全依赖最小化人工干预的 GPT 不够充分,人工投入程度越高准确性越高,并在最需要人工干预的情况下取得了令人惊讶的高准确率。然而,优秀的使用情景中的 83% 准确率仅在两个模型达成一致的 65% 数据上实现,暗示着类似我们的方法相对容易实施,并可实现对大多数给定数据集的自动编码,从而节省资源并降低成本。
Oct, 2023
本研究旨在建立一个 AI 理解法律标准更广泛的框架,并通过遵循法律反馈(RLLF)进行强化学习,研究表明,在使用美国法院意见标准的大型语言模式方面,AI 在理解受托义务方面的准确性可达到 78%,表明 AI 在解释不确定状态下指令方面具有一定的理解能力,并为该能力的改进奠定基础。
Jan, 2023
在 2020 年 10 月 14 日,来自 OpenAI、斯坦福人文中心人工智能研究所和其他大学的研究人员聚集一起,讨论关于 GPT-3 的开放式研究问题,主要聚焦于大型语言模型的技术能力和社会影响。
Feb, 2021
在该研究中,我们使用 OpenAI 的 text-davinci-003 模型,即 GPT3.5,重复了 Many Labs 2 重复项目中的 14 项研究,其中我们的 GPT 样本在八项研究中复制了 37.5%的原始结果和 Many Labs 2 结果的 37.5%。然而,我们发现 GPT 模型在回答六个研究问卷中的问题时出现了极端的 “正确答案” 效应,这引发了对未来 AI 领域可能存在思想多样性降低的担忧。
Feb, 2023
近期大语言模型(LLM)如 GPT-3 和 GPT-4 在政治学领域的文本分析方面取得了新突破,它们承诺以更好的结果和更少的编程工作来实现自动化。本研究评估 LLM 在三个原始编码任务的非英文政治学文本上的效果,并提供了在政治学研究中使用 LLM 进行文本编码的详细说明。我们的案例研究为希望将 LLM 纳入文本分析研究的研究人员提供了实用指南。我们发现,当提供了详细的标签定义和编码示例时,LLM 可以与甚至优于人工标注员,且速度快得多(高达数百倍),成本更低(比人工编码节省高达 60%),且更易于扩展到大量文本。总体而言,LLM 是大多数文本编码项目的可行选择。
Nov, 2023
人工智能对传统司法行业产生了重大影响。最近,随着 AI 生成内容的发展,人工智能和法律在图像识别、自动文本生成和交互式聊天等领域得到应用。然而,法律领域的大型语言模型的应用仍处于初级阶段。本文对法律领域的大型语言模型进行了全面调查,揭示了它们在司法系统中的应用。同时,我们还讨论了法律领域大型语言模型的实际实施,如为用户提供法律咨询和协助法官审理案件。此外,我们探讨了法律领域大型语言模型的局限性,包括数据、算法和司法实践。最后,我们总结了实际建议并提出了未来发展方向以解决这些挑战。
Nov, 2023
本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度,并将其用于丰富数据集描述的方法。通过此方法,可以创建机器可读的文档,改善数据集的可发现性,评估其符合当前的 AI 法规,并改善对其训练的 ML 模型的整体质量。
Apr, 2024
GPT 软意识使人工智能能够理解预期的意识形态,并生成用于注入大型语言模型意识形态的微调数据,相比传统的政府意识形态操控技术,如信息审查,LLM 意识形态化具有易实施、低成本和高效的优势,但也存在潜在风险。
Sep, 2023
我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见,发现较大的模型更倾向于与左翼政党相符,而较小的模型通常保持中立,这凸显了 LLM 的细微行为和语言对其政治立场的重要性。我们的发现强调了对 LLMs 进行严格评估和处理社会偏见的重要性,以保障应用现代机器学习方法的应用程序的完整性和公平性。
May, 2024