- 通过结构化偏好生成改进离散扩散模型
通过引入结构化的前向过程,改进离散扩散模型,提高对离散数据类型的生成性能。
- 离散数据上生成建模的费舍尔流匹配
Fisher-Flow 是一种用于离散数据生成建模的新型流匹配模型,采用几何学观点,将离散数据视为在统计流形上的点,通过转移沿 $d$- 超球面上的(闭合形式)测地线上的质量来定义流,可以优化训练动力学,提高性能,并在合成和实际基因序列设计 - 使用软屏蔽噪声的更便宜、更好的扩散语言模型
介绍了一种新的语言建模扩散模型 Masked-Diffuse LM,通过语言学特征和软掩蔽添加文本失真,通过交叉熵损失函数在每个扩散步骤中直接预测分类分布,以更高效和直接的方式连接连续空间和离散空间,优于目前最先进的扩散模型。
- ICLR梯度引导的重要性采样用于学习二元能量模型
本研究提出了一种新型比率匹配方法,即借助导数函数构建最佳提议分布,并采用重要性采样实现相应目标,以解决离散能量模型在高维数据中计算量和内存需求过大的难题,实验证明该方法在处理高维数据中比比率匹配更加高效。
- 离散分布的可伸缩抽样:梯度抽取错误
使用似然函数关于离散变量的梯度来提议更新,在一些复杂的模型上,我们的采样方法包括 Ising 模型、Potts 模型、受限玻尔兹曼机和分步隐马尔可夫模型等方面表现出优异的性能,并且有效提升以往在高维离散数据处理方面经常使用的变分自编码器和现 - 计算预测区间的方法:综述与新结果
本文基于参数框架回顾了预测区间的两种主要方法:基于影响量的方法和基于预测分布的方法,并提供了多个例子和模拟研究,同时还探讨了离散数据的预测区间方法和依赖数据的预测区间方法,例如时间序列、空间数据和马尔科夫随机场。
- EMNLPBERT-ATTACK: 使用 BERT 对抗 BERT 的对抗攻击
本文提出了使用 BERT 预训练模型的高质量有效的方法 BERT-Attack,用于生成对抗样本并在对下游任务的深度神经模型进行攻击。在成功率和扰动百分比方面,我们的方法优于最先进的攻击策略,而生成的对抗样本则流畅且在语义上保留,且计算成本 - 使用随机复杂度测试离散数据的条件独立性
本文提出了一种基于算法独立性的、使用随机复杂性解决离散数据条件互信息估计问题的测试方法 SCI,此方法可以在有限的样本上找到合理的 CMI 阈值。实验证明 SCI 比常规测试具有更低的 II 类错误和更高的召回率,可应用于因果发现算法中。
- 高维多元分布的假设检验:一篇选择性综述
本文评述了一些最近为高维多项分布提出的假设检验方法,并且指出了通过采取 minimax 的视角可以自然地得到强有力且实用的检验。
- 语法变分自编码器
本文介绍了一种使用基于上下文无关文法的句法树进行编码和解码的变分自编码器,用于生成离散数据,此方法可以保证生成数据的有效性,并在符号回归和分子合成的贝叶斯优化中展示出更好的性能。
- 边界搜索生成对抗网络
提出了一种用于离散数据训练生成式对抗网络(GANs)的方法,称为边界寻找 GANs(BGANs)。该方法利用鉴别器估计的差异度量计算生成样本的重要性权重,为训练生成器提供了策略梯度,并证明了该算法在离散图像和字符基自然语言生成方面具有很好的 - 深层有向生成自编码器
该论文探讨了用离散函数 $f (⋅)$ 作为编码器,深度神经网络作为编码器和解码器的模型,以及通过预训练和逐步转换数据分布来优化模型性能的方法。
- 广义去噪自编码器作为生成模型
该研究提出了一种新的方法,能够在处理离散数据、任意形式的噪声和重构损失、同时去除偏差等方面更好地连接正则化自编码器的训练过程和对潜在生成分布的隐式估计。
- 应用离散 PCA 进行数据分析
本文介绍了一些扩展方法,并应用到常见的统计任务中,将其解释为离散版 ICA,通过支持向量机与信息检索进行文本预测任务的算法比较。
- 得分匹配的解释和推广
本文研究了评分匹配在解决高维密度模型中不可处理的分区函数时所用到的两个问题:首先,提供了最大似然和评分匹配之间的正式联系,其分析表明评分匹配可以找到更具有噪音训练数据鲁棒性的模型参数;其次,本文还发展了评分匹配的一个推广,并在此基础上进一步