BIRD：大型语言模型的可信贝叶斯推理框架

Apr, 2024

BIRD：大型语言模型的可信贝叶斯推理框架

BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models

Yu Feng, Ben Zhou, Weidong Lin, Dan Roth

TL;DR本文提出了一个名为 BIRD 的贝叶斯推理框架，该框架针对大型语言模型提供了可控和可解释的概率估计，通过加入反推因素、LLM 蕴含和可学习的推导贝叶斯建模。实验表明，使用开源的 Llama 模型，BIRD 的概率估计与人类判断的一致率达到了 65%，比最先进的 GPT-4 提高了 35%。同时，我们还展示了 BIRD 可以直接用于许多真实世界应用的可靠决策。

Abstract

large language models primarily rely on inductive reasoning for decision making. This results in unreliable decisions when applied to real-world tasks that often present incomplete contexts and conditions. Thus, accurate →

large language models bayesian inference probability estimation decision-making reliability trustworthy decision making

发现论文，激发创造

BIRB：生物声学信息检索的泛化度量基准

应对训练和部署条件的差异（例如分布偏移或对全新类别的泛化）对于机器学习模型在实际应用中至关重要。本研究提出了一个复杂的基准测试集 BIRB，以检索从大型公众科学语料库中经过被动记录的数据集中的鸟类声音。通过使用表示学习和最近质心搜索的基线系统，我们的实证评估和分析展示了开放性的研究方向，同时也建议 BIRB 作为更真实、更复杂的基准测试集，来推动对于分布偏移鲁棒性和机器学习模型泛化的进展。

Dec, 2023

BIRDNEST: 用于评级欺诈检测的贝叶斯推断

本研究提出了一种基于贝叶斯模型的虚假评论检测方法，通过结合短时间内大量评论和用户评分分布不均等特征，使用灵活的贝叶斯模型和基于最大似然估计的疑似指标对评论进行判断。实验结果表明，该方法成功地在 Flipkart 平台上检测出了评论欺诈行为。

Nov, 2015

鸟有四条腿？！NumerSense：探究预训练语言模型的数值常识知识

本文旨在探讨预训练语言模型（PTLMs）是否具备数值常识知识，并介绍了一个诊断数据集 NumerSense 用于评估 PTLMs 的性能，结果表明：（1）BERT 和 RoBERTa 表现不佳（2）通过有监督学习可以有所提升（3）最佳的监督模型仍然表现不及人类表现。

May, 2020

黑雀语言矩阵 (BLM)，神经网络规则化通用性的新任务：动机和形式规格

本文提出了一项新任务，即通过模仿人类从复杂数据中提取规则进行类似规则推广的微调任务，以解决当前大型语言模型泛化不足的问题，并提供了相关任务的正式规范和数据生成过程。

Jun, 2023

生成式大型语言模型中的概率推理

本研究考虑了大型语言模型（LLMs）在推理涉及概率值明确量化的文本时面临的挑战。通过引入贝叶斯语言推理数据集（BLInD），我们详细说明了 LLMs 在涉及概率推理的任务中的限制，并提出了几种将问题映射到不同形式表示的策略。我们通过在 BLInD 上进行评估以及对因果推理问答数据集的适应性改编等实验证明了这些方法的实际效果。

Feb, 2024

LittleBird：高效、更快、更长的问答 Transformer 模型

提出了一个新模型 LittleBird，它是基于 BigBird 的改进版本，使用 Attention with Linear Biases（ALiBi）的更灵活、高效的位置表示方法，维护了准确性的同时，在速度和内存占用方面进行了优化。实验证明，LittleBird 在各种语言中表现良好，在特定的 KorQuAD2.0 数据集中，在长段落问答任务中取得了高精度

Oct, 2022

WeaverBird: 用大型语言模型、知识库和搜索引擎赋能金融决策

我们提出了 WeaverBird，这是一个专门为金融领域设计的智能对话系统。我们的系统利用经过调整的大型 GPT 架构语言模型，借助大量与金融相关的语料库。因此，我们的系统具备了理解复杂金融查询（如 “通胀期间如何管理我的投资”）并提供知情回答的能力。此外，我们的系统整合了本地知识库和搜索引擎用于检索相关信息。最终的回答基于搜索结果，并包含对来源的正确引用，从而享受增强的可信度。通过一系列与金融相关的问题，我们展示了我们的系统相对于其他模型的卓越性能。用户可以通过我们的实时演示链接亲身体验我们的系统，同时还可以观看我们的两分钟视频示范。

Aug, 2023

使用 Big Bird 嵌入进行母语识别

本研究探讨了输入大小作为限制因素，并展示了使用 Big Bird 嵌入方法训练的分类器在 Reddit-L2 数据集上明显优于语言特征工程模型的性能，此方法的有效性和计算效率使其成为未来 NLI 研究的有希望的途径。

Sep, 2023

基于贝叶斯推理的自然语言人类概念学习建模

本研究使用大型自然语言模型作为提议分布，对自然语言的陈述进行贝叶斯推理，以模拟人类抽象符号概念的学习。通过拟合先验人类数据，评估生成和逻辑概念的学习效果。

Jun, 2023

BirdNet: 基于 LiDAR 信息的 3D 物体检测框架

本文提出了一种基于 LiDAR 的三维物体检测算法，包含三个阶段：将激光信息投影到鸟瞰图上、通过卷积神经网络估计物体在平面上的位置和朝向、以及在后处理阶段计算 3D 物体检测。实验结果表明该算法在 KITTI 数据集上达到了与同类方法相当的最优结果，并能在不同实际场景下应用于多个 LiDAR 传感器。

May, 2018