- 通过 PDFA 学习分析受限 LLM
定义了一种与在文本生成过程中通过某种方式约束语言模型输出时产生的零下一个符号概率相适应的同余。我们开发了一种算法,以高效地学习与此同余相关的商集,并在分析 LLM 的统计特性的案例研究中对其进行评估。
- 关于扰动 - Softmax 和扰动 - Argmax 概率分布的统计表示特性
通过对凸性和可微性的研究,我们探索了 Gumbel-Softmax 和 Gumbel-Argmax 概率分布模型的统计条件,并将这种框架扩展到高斯 - Softmax 和高斯 - Argmax 等通用概率模型,最终得出两组参数满足这些假设并 - 跨相关随机过程的信息流速率
我们通过统计特性数据推导出了信息流速率与自相关函数的解析特性和特征时间之间的关系,从而阐明了采样步长、交叉相关强度和时间延迟对信息流速率的影响。我们通过数值模拟支持了理论结果。
- 进化博弈论:进化与集体行为的数学
本文讨论了进化博弈理论作为一种强大而统一的数学工具,用于研究集体行为的演化,总结了作者最近通过进化博弈理论方法所涉及的一些研究方向,包括:i)随机进化博弈中(稳定)均衡数量的统计性质分析,以及 ii)在技术发展竞赛中建模安全行为的演化及先进 - 公共卫生数据流的计算辅助质量控制
为了更好地检测公共卫生数据中的异常数据点并为公共卫生决策提供支持,我们开发了 FlaSH 框架(Flagging Streams in public Health),该框架可以处理公共卫生数据的统计属性和数据量,具有良好的异常检测效果并被广 - 五种印欧语言词汇流量的统计分析
这篇研究利用谷歌图书 Ngram 数据集分析了英语、法语、德语、意大利语和西班牙语之间单词的流动情况,并研究了一类称为 “移民词” 的借词现象,发现大部分移民词可归类到语义领域,并与历史事件相关联。研究积累移民词的统计特性、排名动态,提出了 - 分布推断解析
本文研究了分布推理攻击的影响,并开发了一种新的黑盒攻击模型,并评估了不同假设下的推理风险并提出了新的防御措施,发现抗噪防御似乎不起作用,但简单的重新取样防御可以高度有效。
- 统一逻辑蕴涵和统计估计
本文基于生成模型的思想,采用 Bayesian learning 方法,探究形式逻辑及其数理统计特性,构建了一个统一的形式逻辑和统计推理理论。
- KDDVizAI: 选择准确的数值数据可视化
本文介绍了一种名为 VizAI 的生成 - 判别框架,该框架首先从多种数据可视化中生成数据的各种统计属性,并与判别模型相连,以选择最匹配被可视化的数据真实统计数据的可视化方式。使用众包判断和大量公开可用的可视化,我们证明 VizAI 优于学 - ICML形式化分布推断风险
本文提出了一种形式化且通用的财产推断攻击定义,该定义描述能够区分可能的训练分布的攻击,并展示了如何将先前的财产推断攻击和新的攻击捕获在该定义中,并为揭示潜在风险的实验提供了见解。
- 连续子空间学习:概述
本文通过直观的解释,概述了连续子空间学习方法的发展,着重指出未来研究中存在的一些开放性问题和挑战。
- 来自聚合标签的极端多标记分类
我们开发了一种新的可扩展算法,用于从组标签中填充单个样本标签,并提供了一个新的端对端框架作为扩展,解决多示例多标签问题,在聚合标签的 XMC 和 MIML 任务上的实验表明了对现有方法的优势。
- CVPR马尔可夫链神经网络
本研究提出了一种改进的神经网络模型,可以模拟马尔可夫链,并展示了如何表达和训练此类网络,确保训练数据中反映的统计特性,并演示了多种应用,其中网络产生非确定性结果,如用于棕色运动模拟的随机行走模型或确保非确定性游戏行为的自然井字棋网络。
- 模型提取实现可解释性
这篇论文提出一种名为模型抽取的方法,通过构建一个可解释程度更高的模型来近似黑箱模型,从而理解和调试机器学习模型在各种数据集上训练的结果,并在经典强化学习问题中学习控制策略。
- 加密货币市场的进化动态
通过全面分析加密货币市场的历史,本文发现,虽然新加密货币不断出现、消失且市值在(超级)指数级上升,但市场的许多统计属性已经稳定多年。通过采用生态学视角,本文表明,虽然所谓的中性进化模型的假设是没有证据的,但它仍然能够在一定程度上再现市场的关 - MM随机逻辑程序:线性模型
本文提出用线性模型随机生成逻辑程序的方法,并研究了这种随机程序的统计特性。通过理论证明发现,当原子数量趋近于无穷大时,随机程序的平均答案集个数收敛于一个常数,并通过实验结果验证了线性模型的适应性。同时实验证明,在此模型下,当原子数量足够大时 - 组别下降算法用于具有组别预测变量的非凸罚线性和逻辑回归模型
该论文研究使用一些非凸罚项方法解决群体选择问题并进行变量选择的统计性能比较。
- 篮球得分的随机游走图
本文使用篮球比赛数据,提出连续时间随机游走模型描述了篮球比赛得分的统计规律,并且考虑了篮球比赛的个性化特征,包括比赛中球队实力的差异等因素,并建立了能够解释文件中所提到的各种统计特征的计算模型。
- 随机森林模型分析
研究了随机森林模型的统计性质,证明其是一致的,适应于稀疏数据,收敛速度只与有效特征的数量有关。
- 多重分形网络生成器
我们提出了一种基于奇异度量的网络构建方法,可生成具有预定统计性质的各种拓扑结构的网络,包括其度分布、聚类系数分布和同配系数分布,并使用模拟退火确定了生成度量的最佳参数。