基于日志数据的 ChatGPT 评估

Sep, 2023

An Assessment of ChatGPT on Log Data

Priyanka Mudgal, Rita Wouhaybi

TL;DR本研究探讨了 ChatGPT 在日志数据处理上的能力，并指出其局限性和可扩展性问题，为日后学术研究提供了参考。

Abstract

Recent development of large language models (LLMs), such as chatgpt has been widely applied to a wide range of software engineering tasks. Many papers have reported their analysis on the potential advantages and

large language models chatgpt log processing limitations scalability issues

发现论文，激发创造

聊天 GPT 日志解析的评估

本文探讨了 ChatGPT 在自动日志解析方面的能力，并针对两个研究问题进行了评估，结果表明 ChatGPT 可以通过适当的提示方法实现良好的日志解析结果，尤其是采用少样本提示时效果最佳，同时提出了 ChatGPT 日志解析面临的挑战和机遇。

Jun, 2023

LogGPT：基于日志的异常检测的 ChatGPT 探索

通过 ChatGPT 的语言解释能力，本研究提出了基于 ChatGPT 的 LogGPT 框架，旨在探索将大规模语料库的知识转移应用于基于日志的异常检测。在 BGL 和 Spirit 数据集上，通过与三种基于深度学习的方法进行比较，实验评估了 LogGPT 的性能，显示出良好的可解释性和有希望的结果。该研究初步揭示了 ChatGPT 等基于提示的模型在基于日志的异常检测任务中的潜力。

Sep, 2023

ChatGPT 对源代码的分析

本文介绍了如何利用大型语言模型 (LLMs) 和尤其是 ChatGPT 进行编程、源代码分析和代码生成，研究了 LLMs 和 ChatGPT 在代码创建、代码文档化、漏洞检测、重构等多个领域中的应用，并指出它们在编程社区中的使用有望得到进一步推广。

Jun, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

ChatGPT 用于软件安全：探索 ChatGPT 在安全应用中的优势和限制

ChatGPT 对安全导向的程序分析的能力进行了研究，从攻击者和安全分析师的角度出发，通过引入挑战性任务评估 ChatGPT 的回答质量，以更清楚地了解其在安全导向的程序分析领域的优势和限制。

Jul, 2023

探索 ChatGPT 在软件安全应用中的极限

研究论文对大型语言模型（LLMs）在系统安全领域中的影响和局限性进行了探讨，发现 ChatGPT 不仅在生成代码方面有出色的能力，还在理解用户提供的自然语言指令、推理程序的控制和数据流、生成复杂数据结构以及反汇编汇编代码等方面展示了强大的能力。研究表明，GPT-4 在大多数安全任务中相较于 GPT-3.5 有显著改进，同时也确定了 ChatGPT 在安全相关任务中的某些限制，例如处理长代码上下文的能力受限。

Dec, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

探索基于 ChatGPT 的查询或基于方面的文本摘要的极限

本文介绍了关于文本摘要的各种方法，包括提取式和抽象式，并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例，展示了 ChatGPT 生成的摘要与人类参考的差异，并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向，提供了有价值的见解。

Feb, 2023