预训练大型语言模型的网络运维能力的实证研究

Sep, 2023

预训练大型语言模型的网络运维能力的实证研究

An Empirical Study of NetOps Capability of Pre-Trained Large Language Models

Yukai Miao, Yu Bai, Li Chen, Dan Li, Haifeng Sun...

TL;DR通过系统评估选择的大型语言模型（LLMs）在网络运维（NetOps）领域的能力、优势和局限性，本研究发现只有 GPT-4 能够达到与人类通过网络运维认证考试的高精度等级。

Abstract

large language models (LLMs) can respond to human language queries and have shown powerful potential applications in network operations (netops). Thanks to the large amount of commonsense knowledge inherent, LLMs

large language models netops capabilities evaluation gpt-4

发现论文，激发创造

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的 LLM 系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

大型语言模型在电信领域的语言智能

在自然语言处理领域中，本研究通过对四个知名的大型语言模型（Llama-2，Falcon，Mistral 和 Zephyr）进行全面的零样本评估，与最先进的微调模型进行性能比较，评估了大型语言模型在电信领域内的知识和理解能力，并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平，突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。

Feb, 2024

在图上评估大型语言模型：性能洞见与比较分析

对四个大型语言模型在图数据分析问题上的能力进行评估，结果表明：1）大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理；2）GPT 模型能够生成逻辑和连贯的结果，在正确性方面优于其他替代方法；3）所有研究中的大型语言模型在结构推理方面面临挑战，零 - shot 推理和少 - shot 提示等技术效果减弱；4）在多答案任务中，GPT 模型常常产生错误答案，引发对可靠性的担忧；5）GPT 模型在输出上表现出较高的自信度，可能影响其纠正错误的能力。值得注意的是，GPT-4 显示了纠正 GPT-3.5-turbo 和其它版本回答的能力。

Aug, 2023

大型语言模型与光网络的融合：实现自动化的道路

提出了一种以 GPT 为基础的光网络框架，通过部署在控制层的智能代理实现对物理层的智能控制和与应用层的高效交互。框架通过用户输入和精心制作的提示来从光网络专业领域的全面资源库中提取领域知识，并生成控制指令和结果表示，以实现在光网络的自主运行和维护。研究还详细描述了进行提示工程、建立领域知识库和执行复杂任务的方法，然后在网络告警分析和网络性能优化这两个典型任务上对所提出的框架进行了验证，2,400 个测试情境的响应准确率和语义相似性显示了 GPT 在光网络中巨大的潜力。

May, 2024

大型语言模型作为数据预处理器

此研究拓展了大型语言模型（LLMs）的应用，探索了它们在数据预处理中的潜力，包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架，用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。

Aug, 2023

OpsEval：一个针对大型语言模型的综合任务导向的 AIOps 基准

LLMs 在 NLP 任务中表现出显著能力，并且在特定领域，特别是 AIOps 领域具有潜在的应用前景。然而，目前 LLMs 在 AIOps 任务中的性能还有待确定。本文介绍了一个为 LLMs 设计的综合任务导向的 AIOps 基准测试 OpsEval，首次评估了 LLMs 在各种能力水平下的关键场景中的表现。

Oct, 2023

大型语言模型在自然语言生成任务中的系统评估

研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

May, 2024

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

无线应用设计中的大型语言模型：具上下文学习增强的自动网络入侵检测

使用预训练 LLM 强化框架进行完全自动化网络入侵检测，通过在真实网络入侵检测数据集上进行实验，证明了在上下文学习方面的优势，可以在无需进一步训练或微调 LLMs 的情况下改善任务处理性能，GPT-4 的测试准确性和 F1 分数可以提高约 90%。此外，预训练 LLMs 在执行无线通信相关任务方面表现出巨大潜力，通过仅使用 10 个上下文学习示例，提出的框架可以在不同类型攻击中达到超过 95% 的准确性和 F1 分数。

May, 2024