评估 LLMs 在技术语言处理任务中的性能

Mar, 2024

评估 LLMs 在技术语言处理任务中的性能

Evaluating the Performance of LLMs on Technical Language Processing tasks

Andrew Kernycky, David Coleman, Christopher Spence, Udayan Das

TL;DR我们用聊天界面评估了语言模型的性能，以回答与美国联邦法规第 47 章标题有关的问题，并将其应用于动态频谱访问的自动化信息解读。

Abstract

In this paper we present the results of an evaluation study of the perfor-mance of llms on technical language processing tasks. Humans are often confronted with tasks in which they have to gather information from

llms technical language processing chat interfaces title 47 of the united states code of federal regulations dynamic spectrum access

发现论文，激发创造

大型语言模型在电信领域的语言智能

在自然语言处理领域中，本研究通过对四个知名的大型语言模型（Llama-2，Falcon，Mistral 和 Zephyr）进行全面的零样本评估，与最先进的微调模型进行性能比较，评估了大型语言模型在电信领域内的知识和理解能力，并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平，突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。

Feb, 2024

金融监管解释的大型语言模型

该研究探讨了大型语言模型作为解读复杂金融法规的分析工具的创新应用。其主要目标是设计有效的提示，指导语言模型将冗长而复杂的监管文本，如巴塞尔 III 资本要求规定，压缩为简明的数学框架，然后转化为可执行的代码。这种新颖方法旨在简化全球银行机构在财务报告和风险管理系统中实施监管要求的过程。通过案例研究评估了各种语言模型的性能，结果表明 GPT-4 在处理和收集必要信息以及执行数学计算方面优于其他模型。案例研究使用了包括固定收益、股票、货币对和大宗商品在内的资产持有进行数值模拟，以展示语言模型如何有效实施巴塞尔 III 资本充足性要求。

May, 2024

利用大型语言模型（LLMs）加速无线电频谱管理工作流程

无线频谱规制是一项复杂而严苛的过程，本文介绍了利用大型语言模型（LLMs）来加速频谱规制过程的示例应用，同时探讨了 LLMs 在此背景下可能扮演的各种角色以及需要解决的一些挑战，并通过实际案例和实验提供了相应的见解，突显了 LLMs 在频谱管理中的转型潜力。

Mar, 2024

商业中 LLM 益处的实际检验

大型语言模型（LLMs）在理解和生成任务方面取得了显著的表现，但其在偏见、上下文理解和对提示的敏感性方面存在限制，因此对其在实际应用中的准备性产生了担忧。本文通过对四个可访问的 LLMs 使用真实世界数据进行的实验，深入研究了 LLMs 在业务流程中的实用性和准备性。研究结果对希望利用生成式人工智能的组织具有重大影响，并为未来的研究方向提供了宝贵的见解。据我们所知，这是第一项将 LLMs 应用于核心业务运营和挑战的定量研究。

Jun, 2024

电信规格的技术语言处理

大型语言模型（LLMs）在不同领域的应用越来越广泛。然而，目前即使是最先进的 LLMs，如 GPT-4，在没有大量预处理的情况下，从真实世界的技术文档中提取信息仍然存在挑战。本文讨论了处理电信行业专家生成的技术信息时，现有自然语言处理（NLP）工具的局限性，并将技术语言处理（TLP）的概念拓展到电信领域。此外，我们探讨了领域特定 LLMs 在规范工程师工作中的影响，并强调采用领域特定 LLMs 可以加快学习不同电信领域的专家的潜在好处。

Jun, 2024

检测 LLM 生成的文本的科学

该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述，并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。

Feb, 2023

软件工程项目中对 LLMs 的使用和感知的实证研究

论文研究了大型语言模型（LLMs）在学术软件工程项目中的实用性，包括 AI 生成的代码、代码生成的提示以及将代码集成到代码库中的人工干预水平。研究结果表明，LLMs 在软件开发的早期阶段，特别是在生成基础代码结构和语法、错误调试方面，可以发挥重要作用。这些发现为我们提供了一个有效利用 LLMs 提高软件工程学生的生产力的框架，并强调了将教育重点转向为学生成功进行人工智能协作的必要性。

Jan, 2024

电信领域的大型语言模型（LLM）：原则、关键技术和机遇的全面调研

大型语言模型 (LLMs) 在最近因其出色的理解和推理能力而受到了广泛关注，取得了许多领域的巨大进展。LLM 技术的进步也为电信领域的许多任务自动化提供了有希望的机会。本工作旨在提供 LLM-enabled 电信网络的全面概述，介绍了 LLM 的基本原理、关键技术和电信应用，并给出了未来发展方向。

May, 2024

LLMs 错误的简单问题

我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题，它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误，并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性，并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。

May, 2024

LLM 能否理解计算机网络？走向虚拟系统管理员

人工智能和大型语言模型在管理复杂的现代网络方面具有巨大的潜力，但对于语言模型在理解计算机网络方面的能力尚存在较大的研究空白。本研究通过详尽的实证研究，首次探讨了语言模型对计算机网络的理解程度，并提出了多个研究问题以评估语言模型在网络相关任务中的表现。研究结果表明，虽然私有的语言模型在小型和中型网络中取得了令人瞩目的成果，但对于复杂网络拓扑的理解仍存在挑战，尤其是对于开源模型。此外，我们还提供了关于如何通过提示工程提高某些任务准确性的见解。

Apr, 2024