- LogEval:一套用于大型语言模型在日志分析领域的全面基准套件
在 AI 运维领域中,对于保证信息系统有序和稳定运行,日志分析至关重要。然而,现有大语言模型在日志分析任务中的表现尚未得到充分验证。为此,我们引入了 LogEval,这是一个综合性基准套件,旨在首次评估大语言模型在不同日志分析任务中的能力。 - 大型语言模型的宏观经济预测
通过对比分析,本论文评估了大型语言模型和传统宏观时间序列预测方法的准确性。发现大型语言模型在宏观经济时间序列预测方面与传统方法相比存在优势和局限性。
- 大型语言模型中知识基础的跨语言不一致性评估
这篇论文研究了大型语言模型(LLMs)中存在的跨语言的不一致性,并通过创新的评估方法和指标,综合评估了模型在语义、准确性和及时性方面的一致性,以提升对多语言能力和可解释性的理解和改进,为更强大和可靠的多语言模型的开发做出贡献。
- 大型语言模型是日常生活活动的零 - shot 识别器
利用基于传感器的识别的大型语言模型(LLMs)在智能家居环境中进行的日常生活活动(ADLs)的识别表明其在这一领域的有效性。
- ROS-LLM: 具备任务反馈和结构化推理的 ROS 框架
通过自然语言提示和来自机器人操作系统(ROS)的上下文信息,我们提出了一个直观的非专业人士机器人编程框架。该框架集成了大型语言模型(LLMs),使非专业人士能够通过聊天界面向系统表达任务要求。它具有与 ROS 集成的 AI 代理与大量开源和 - ICLR重新思考在微调基础模型时的无害拒绝
通过研究大型语言模型(LLMs)中微调的程度,该论文探讨了微调是否有效地缓解了不良行为,还是仅仅掩盖了它。研究采用逼真的角色扮演实验,通过观察模型在微调后的反应动态来评估结果。研究发现了一种普遍现象 —— 以推理为基础的欺骗,其中模型要么停 - 开发和评估一个检索增强的生成工具,用于创建人工系统的 SAPPhIRE 模型
使用 SAPPhIRE 因果模型代表系统支持类比设计是有效的。研究通过结构化描述系统的的新工具 Retrieval-Augmented Generation (RAG) 利用大语言模型 (LLMs) 生成与人工系统的 SAPPhIRE 构造 - 利用 LLMs 进行对话质量测量
该论文探讨了使用大型语言模型(LLMs)进行自动对话质量评估的方法,并在公共和专有数据集上尝试了各种配置。结果表明,更大的模型产生了更准确的对话标签;算法选择背景上下文示例优于随机选择;在输出最终标签之前,使用 “思维链”(CoT)推理和标 - 异步机器学习增强规划器用于自动驾驶
异步驱动器是一个利用大型语言模型(LLM)生成与场景相关的指令特征,引导实时规划器进行精确和可控轨迹预测的新的异步 LLM 增强闭环框架。
- DialSim:一个用于评估对话代理的长期对话理解能力的实时模拟器
通过引入实时对话模拟器 DialSim,可以对最新的对话代理进行评估并分析它们的局限性,为未来的对话人工智能领域的改进提供有价值的见解。
- 文本属性图上的纯 Transformer 预训练框架
图序列预训练框架 GSPT 利用统一的文本表示,在图领域中取得了显著的可转移性和实证成功。
- 代码生成评估的基准和指标:一项关键性回顾
对大型语言模型在编程任务中的评估工作进行了关键综述,着重讨论了现有工具的评估中使用的基准和度量标准,并提出了进一步研究的方向。
- 关于表格问答的语言模型鲁棒性研究
通过评估 Large Language Models (LLMs) 在基于维基百科和财务报告的 Tabular Question Answering (TQA) 数据集上的表格理解能力,研究发现指令对性能有显著影响,新模型 Llama3 比 - 等级分数:量化 LLM 在选项选择中的表现
本研究引入了 “Grade Score”,这是一种用于评估大型语言模型(LLMs)作为多选题判官时一贯性和公正性的新指标,通过结合熵和模式频率来测量其对次序偏见和选择稳定性的影响,以提供 LLMs 的可靠性和公正性的洞察。研究探索了诸如提示 - LLM 能理解对话中强调句的含义吗?
这篇论文介绍了 Emphasized-Talk,这是一个带有强调注释的对话样本基准,用于捕捉强调的含义。作者评估了各种 LLMs,包括开源和商业化模型,以衡量它们在理解强调方面的性能。此外,作者还提出了使用 GPT-4 的自动评估流程,其与 - BertaQA:语言模型对本地文化了解多少?
大型语言模型在全球范围或以英文为中心的主题上表现出广泛知识,但对于在网上不那么突出的其他文化相关主题表现如何仍存在疑问。通过引入英文和巴斯克文平行的选择题数据集 BertaQA,我们发现一流的大型语言模型在本地文化知识上表现出困难,但持续的 - SecureNet: DeBERTa 与大型语言模型在钓鱼检测中的比较研究
本研究探讨了大型语言模型(LLMs)在特定任务(如文本分类,特别是检测恶意内容)中的潜力和局限,并将其结果与最先进的 DeBERTa V3 模型进行对比。通过使用包括电子邮件、HTML、URL、短信和合成数据生成的综合公共数据集,我们系统地 - ACL通过与人员进行抽样,揭示人类和语言模型之间对话语调的相似性和差异性
运用机器学习和认知科学的思想相结合的方法,通过迭代的方式,从人们和 GPT-4 中获取了一组句子和频繁对话的语气,进而创造并解释了人们和 GPT-4 之间对话语气的关系的可解释的几何表示形式,从而解决了人机交互中的挑战。
- ACL使用合成数据探索大型语言模型的数学外推
通过对高质量合成数据的微调,本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现,并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明,这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1,而且还 - 使用大型语言模型的差分隐私表格数据合成
使用预训练的大型语言模型(LLMs),DP-LLMTGen 引入了一种新的框架来进行差分私有表格数据合成,通过微调过程模拟敏感数据集并生成多样的合成数据,有效地解决了实际挑战。