BIRD:大型语言模型的可信贝叶斯推理框架
应对训练和部署条件的差异(例如分布偏移或对全新类别的泛化)对于机器学习模型在实际应用中至关重要。本研究提出了一个复杂的基准测试集 BIRB,以检索从大型公众科学语料库中经过被动记录的数据集中的鸟类声音。通过使用表示学习和最近质心搜索的基线系统,我们的实证评估和分析展示了开放性的研究方向,同时也建议 BIRB 作为更真实、更复杂的基准测试集,来推动对于分布偏移鲁棒性和机器学习模型泛化的进展。
Dec, 2023
本研究提出了一种基于贝叶斯模型的虚假评论检测方法,通过结合短时间内大量评论和用户评分分布不均等特征,使用灵活的贝叶斯模型和基于最大似然估计的疑似指标对评论进行判断。实验结果表明,该方法成功地在 Flipkart 平台上检测出了评论欺诈行为。
Nov, 2015
本文旨在探讨预训练语言模型(PTLMs)是否具备数值常识知识,并介绍了一个诊断数据集 NumerSense 用于评估 PTLMs 的性能,结果表明:(1)BERT 和 RoBERTa 表现不佳(2)通过有监督学习可以有所提升(3)最佳的监督模型仍然表现不及人类表现。
May, 2020
本文提出了一项新任务,即通过模仿人类从复杂数据中提取规则进行类似规则推广的微调任务,以解决当前大型语言模型泛化不足的问题,并提供了相关任务的正式规范和数据生成过程。
Jun, 2023
本研究考虑了大型语言模型(LLMs)在推理涉及概率值明确量化的文本时面临的挑战。通过引入贝叶斯语言推理数据集(BLInD),我们详细说明了 LLMs 在涉及概率推理的任务中的限制,并提出了几种将问题映射到不同形式表示的策略。我们通过在 BLInD 上进行评估以及对因果推理问答数据集的适应性改编等实验证明了这些方法的实际效果。
Feb, 2024
提出了一个新模型 LittleBird,它是基于 BigBird 的改进版本,使用 Attention with Linear Biases(ALiBi)的更灵活、高效的位置表示方法,维护了准确性的同时,在速度和内存占用方面进行了优化。实验证明,LittleBird 在各种语言中表现良好,在特定的 KorQuAD2.0 数据集中,在长段落问答任务中取得了高精度
Oct, 2022
我们提出了 WeaverBird,这是一个专门为金融领域设计的智能对话系统。我们的系统利用经过调整的大型 GPT 架构语言模型,借助大量与金融相关的语料库。因此,我们的系统具备了理解复杂金融查询(如 “通胀期间如何管理我的投资”)并提供知情回答的能力。此外,我们的系统整合了本地知识库和搜索引擎用于检索相关信息。最终的回答基于搜索结果,并包含对来源的正确引用,从而享受增强的可信度。通过一系列与金融相关的问题,我们展示了我们的系统相对于其他模型的卓越性能。用户可以通过我们的实时演示链接亲身体验我们的系统,同时还可以观看我们的两分钟视频示范。
Aug, 2023
本研究探讨了输入大小作为限制因素,并展示了使用 Big Bird 嵌入方法训练的分类器在 Reddit-L2 数据集上明显优于语言特征工程模型的性能,此方法的有效性和计算效率使其成为未来 NLI 研究的有希望的途径。
Sep, 2023
本研究使用大型自然语言模型作为提议分布,对自然语言的陈述进行贝叶斯推理,以模拟人类抽象符号概念的学习。通过拟合先验人类数据,评估生成和逻辑概念的学习效果。
Jun, 2023
本文提出了一种基于 LiDAR 的三维物体检测算法,包含三个阶段:将激光信息投影到鸟瞰图上、通过卷积神经网络估计物体在平面上的位置和朝向、以及在后处理阶段计算 3D 物体检测。实验结果表明该算法在 KITTI 数据集上达到了与同类方法相当的最优结果,并能在不同实际场景下应用于多个 LiDAR 传感器。
May, 2018