USTEP: 基于演化搜索树的日志流结构化
通过使用信息熵采样和思维链合并的先进方法,Lemur 日志解析框架成功解决了依赖人工规则以及忽略日志信息语义的问题,实现了最先进的性能和出色的效率。
Feb, 2024
日志分析和监控是软件维护和缺陷识别的重要方面。本文提出了一种基于语义的在线聚类方法,动态更新日志聚类以实现对代码错误生命周期的监控,并引入了一种新的度量指标来评估时间日志聚类的性能。通过在工业数据集上进行实验,发现我们的解决方案优于类似系统,希望本研究能在缺陷数据集的时间性探索方面鼓励更多研究。
Mar, 2024
本文对自动化日志解析进行了全面评估研究,并发布了工具和基准,用于进一步研究和应用。研究评估了 13 种自动化日志解析器,涵盖了 16 个日志数据集,并报告了准确性,鲁棒性和效率的基准结果,在工业应用中分享了成功案例和经验教训,旨在为未来自动化日志解析的研究和应用提供有价值的指导。
Nov, 2018
本文综合探讨了通用分解语义(UDS)解析,并引入了级联模型,将复杂的解析任务分解为语义上适当的子任务。我们的方法在优化了架构的同时,超越了先前的模型,并显著减少了推理时间。我们还结合了句法信息,进一步优化了架构。此外,我们还探索了不同的数据增强方法,进一步改进了 UDS 解析。最后,我们进行实验来研究 ChatGPT 在处理 UDS 任务方面的效果,发现它在属性解析方面表现出色,但在关系解析方面存在困难,而使用 ChatGPT 进行数据增强效果不佳。我们的代码可在此链接找到。
Jul, 2023
ECLIPSE 是增强型跨语言工业日志解析模型,它通过整合两种有效的数据驱动模板匹配算法和 Faiss 索引,结合大型语言模型的语义理解能力准确提取日志关键词的语义并有效减少检索空间,具有卓越性能和处理效率。
May, 2024
本文提出了一种名为 UIE 的统一文本到结构生成框架,可通用地模拟不同的信息提取任务,通过基于模式的指示器机制自适应生成目标结构,并通过大规模的预训练文本到结构模型捕捉共同的信息提取能力。实验结果显示,UIE 在四个 IE 任务、13 个数据集和不同的实验条件下实现了最先进的性能,验证了其有效性、通用性和可迁移性。
Mar, 2022
本论文基于句子 - 和文档级别的通用分解语义(UDS)图上的推论属性,以及支持该归纳的领域内现有注释,提出一个与语义角色、实体和事件 - 事件关系分类相结合的事件结构分类。通过使用这些图结构化的文档级生成模型,这篇论文识别了包括语境中细粒度事件的时间和语法结构的大量推论属性,从而构建了目前最大的事件结构和(部分)事件指代注释数据集。
Mar, 2021
FASTPARSE 团队针对 IWPT2020 的 EUD Shared Task 提出一种训练和推理效率结合的模型,结合神经依存解析和基于规则的系统,将 UD 树映射为 EUD 图,在官方提交中获得 74.04 的平均 ELAS,排名第 4。
Jun, 2020
本文介绍了一种基于 n-gram 字典的自动日志分析方法 Logram,通过与其他五种最先进的日志解析方法的比较,我们发现 Logram 在解析效率方面表现出色,能够支持在线解析日志,并且不会因为 Spark 节点数增加而减少解析准确度。
Jan, 2020
本文探讨了应用于法国历史文件的逻辑版面分析问题,并提出了一种基于规则的方法,并对两种机器学习模型 RIPPER 和 Gradient Boosting 进行了评估和比较。通过实验表明,我们的规则系统表现优于两种机器学习模型,提高了召回率,并证实了我们的系统可以生成足够大的注释数据集,以便于机器学习或深度学习方法进行逻辑版面分析任务。
Feb, 2022