文本分析的多项式逆回归

Dec, 2010

Multinomial Inverse Regression for Text Analysis

Matt Taddy

TL;DR本文提出一种简单的情感保留降维框架来处理文本数据，介绍了一种多项式逆回归的方法来简化多项式分布数据以获取伴随情感信息的文档低维表示，同时提出一种适用于高维数据的独立拉普拉斯先验的极大后验概率下的估算技术，探讨了情感分析在统计学、计量经济学和机器学习领域的相关研究，给出了先验规范的指导方针，并在两个详细实例上应用这些方法，提供了足够的外样本预测研究以说明它们的有效性。

Abstract

Text data, including speeches, stories, and other document forms, are often connected to sentiment variables that are of interest for research in marketing, economics, and elsewhere. It is also very high dimensional and difficult to incorporate into statistical analyses. This article introduces a straightforward framework of sentiment-preserving

sentiment analysis dimension reduction multinomial logistic regression high-dimensional data prior specification

发现论文，激发创造

Dirichlet - 多项式回归条件下的任意特征主题模型

本文提出一种基于 DMR 主题模型的 log-linear 先验方法，以元数据特征为参数，以模拟文档中词汇的分布和主题的分布。实验结果表明 DMR 主题模型可以超越以往的主题模型，从而提高了对文档元数据的建模能力。

Jun, 2012

高维逻辑回归现代极大似然理论

本研究证明在逻辑回归模型中，当样本量和自变量个数的比例变大时，MLE 的偏差和方差均远大于经典预测所得，常用的 LRT 也未能满足卡方分布，因此现有的软件包所得出的推论是不可靠的。

Mar, 2018

逻辑回归估计的样本复杂度

透过研究样本复杂度，我们发现逻辑回归模型的参数估计受到维数和逆温度的影响，其样本复杂度曲线在逆温度上具有两个临界点，明确地分割低、中、高温度区间。

Jul, 2023

使用数据增强的改进贝叶斯逻辑回归监督主题模型

本文介绍使用正则化常量和 Gibbs 采样算法的辅助泊松 - 伽马变量，增强 PF 主题模型的性能。实证结果表明，该算法可以显著提高预测性能和时间效率

Oct, 2013

稀疏多变量回归与条件图模型的联合估计

本文提出了一种高维多元回归模型，通过惩罚条件对每个响应变量对其他变量的依赖结构进行建模，以构造稀疏的多元回归系数矩阵估计，同时估计稀疏的逆协方差矩阵。该方法能够同时进行多元回归和协方差矩阵的估计，并在一个假设条件下得到渐近选择一致性与正态性，其有效性在多个模拟实验和对 Glioblastoma multiforme 的应用中得到验证。

Jun, 2013

高维尾指数回归：以社交媒体中病毒帖子的文本分析为例

通过社交媒体病毒性帖子的信用（例如，“点赞” 数量）的经验幂律分布，我们引入了高维尾指数回归和其参数的估计和推理方法。我们提出了一种正则化估计器，建立了其一致性，并推导了其收敛速率。为了进行推理，我们提出了去偏估计，并建立了去偏估计量的渐近正态性。模拟研究支持了我们的理论。这些方法被应用于对 LGBTQ + 相关的病毒性帖子的文本分析。

Mar, 2024

使用 Polya-Gamma 潜变量进行逻辑回归模型的贝叶斯推断

本文提出了一种新的数据增强策略，基于多项式 Gamma 分布，用于贝叶斯模型中的后验推断。经过实验证明，该方法在回归模型中表现优异，且具有简单、高效等优点。

May, 2012

通过分布式语言表示的反演进行文档分类

本研究论文讨论了结构和测量分布式语言模型的最新进展，指出任何分布式表示都可以通过贝叶斯原理转化为分类器，并且在 Yelp 评论的应用实验中表现良好。

Apr, 2015

对数正态分布和伽马分布混合负二项式回归

本研究提出了一种基于负二项式拟合的 lognormal 和 gamma 混合模型，应用了贝叶斯推断，实现了回归系数的稀疏性先验等效果，提高了贝叶斯方法计算的简洁性和效率。

Jun, 2012

一种变分方法用于弱监督的文档级多方面情感分类

本文基于依赖解析和简单的规则，提出了一种弱监督多方面情感分类方法，通过引入一个潜在变量和变分下界来实现情感极性的学习，实验表明该方法优于弱监督基线模型并与具有百个标签的监督方法具有可比性。

Apr, 2019