使用生成式语言模型进行大规模文本分析:以 AI 专利中公共价值表达为例的案例研究
对 GPT-4 在生成有关立法术语方面的准确性、清晰性和相关性上的表现进行评估。与基准设置相比,采用法律信息检索模块提供以前案例中的语句作为模型的上下文可以获得更好的结果,从而可以自主检索相关案例,并将这些案例中有用的语句压缩成有用的法律解释。
Jun, 2023
本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度,并将其用于丰富数据集描述的方法。通过此方法,可以创建机器可读的文档,改善数据集的可发现性,评估其符合当前的 AI 法规,并改善对其训练的 ML 模型的整体质量。
Apr, 2024
该研究探讨了大型语言模型(LLM),特别是 GPT-4,在课堂对话分析中的应用,这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点,调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析,包括数学和语文课堂的对话,该研究对人工编码的对话进行了评估,并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出,以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明,使用 GPT-4 能够显著节省时间,并且模型与人工编码者之间具有高度的一致性,尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。
Feb, 2024
该论文探讨了将大型语言模型(如生成式预训练变换器 GPT)整合到人机合作环境中,通过口头人机交流手段促进可变自主性的快速发展的数字景观中,介绍了一种基于 Unity 虚拟现实(VR)环境的 GPT 驱动多机器人测试平台的创新框架。用户研究表明,用户对于与机器人对话的预设期望较高,却很少尝试探索机器人合作伙伴的实际语言和认知能力,但那些进行探索的用户能从更自然的沟通和人类式的双向交流中受益。我们提供了一组对未来研究和类似系统的技术实施的经验教训。
Dec, 2023
应用大型语言模型在知识产权领域具有挑战性,本研究提出了一种低成本、标准化的过程来训练面向知识产权的语言模型,成功满足了该领域的需求,并证明了在知识产权领域中专门训练的模型的有效性。
Apr, 2024
本文提出一种新的数据增广技术,利用大规模的语言模型从混合的样本中生成逼真的文本样本,并利用语言模型预测的软标签,从大规模语言模型中蒸馏知识并同时创建文本扰动,我们在多元化的分类任务上进行数据增广实验,并展示了该方法远远优于现有的文本增广方法,消融研究和定性分析提供了更多的见解。
Apr, 2021
通过基于生成型大型语言模型(LLM)的通用文本到文本学习架构和提示调优,解决主要的临床自然语言处理(NLP)任务,并提供了最新的性能。
Dec, 2023
近年来,在自然语言处理方面取得突破性进展的大型语言模型(LLM)的出现,展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中,我们深入研究了 LLM 在科学发现环境中的性能,重点关注 GPT-4,这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学(密度泛函理论(DFT)和分子动力学(MD))、材料设计和偏微分方程(PDE)等多个科学领域。评估 GPT-4 在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估,提供对模型理解复杂科学概念和关系的定性洞见,以及偶尔的基准测试,定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明,GPT-4 在各种科学应用中展示出有希望的潜力,显示出处理复杂问题解决和知识整合任务的能力。总体而言,我们评估了 GPT-4 的知识库、科学理解、科学数值计算能力以及各种科学预测能力。
Nov, 2023
本文评估了生成式预训练转换 (GPT-4) 对高度专业领域的文本数据分析任务的能力,特别关注分析法院裁决以解释法律概念的任务。我们发现,在注释指南的提示下,GPT-4 的表现与经过良好培训的法律学生注释器相当。我们发现,虽然性能略有下降,但 GPT-4 可以进行批量预测,从而降低成本。然而,采用连贯思维提示并没有在此任务上明显提高性能。此外,我们演示了如何分析 GPT-4 的预测,以识别和减轻注释指南的缺陷,进而提高模型的性能。最后,我们观察到该模型非常脆弱,因为提示中的小型格式相关更改对预测结果影响很大。这些发现可被从事高度专业领域任务的文本语义 / 语用注释的研究人员和实践者利用。
Jun, 2023
本文通过构建一个数据集,研究了当前大型语言模型在专利声明生成方面的表现。结果表明,基于专利描述生成声明的性能优于先前仅基于摘要的研究。与最先进的通用大型语言模型相比,当前专利特定的大型语言模型表现较差,强调了在该领域开展未来研究的必要性。此外,我们还发现大型语言模型能够产生高质量的首要独立声明,但是对于后续的从属声明,性能显著下降。此外,微调可以增强发明特征的完整性、概念清晰度和特征关联。在测试的大型语言模型中,GPT-4 在专利专家的综合人工评价中表现最佳,具有更好的特征覆盖率、概念清晰度和技术连贯性。尽管具备这些能力,仍需要进行全面的修订和修改,以通过严格的专利审查并确保法律的稳健性。
Jun, 2024