文本表征的贝叶斯优化

Mar, 2015

Bayesian Optimization of Text Representations

Dani Yogatama, Noah A. Smith

TL;DR本文介绍了一种基于贝叶斯优化的文本输入表示方法的优化方法，用此方法可以使标准线性模型在各种话题分类和情感分析问题上与基于潜变量模型或神经网络的先进方法相竞争，这种方法是构建原始文本黑盒 NLP 系统的第一步.

Abstract

When applying machine learning to problems in nlp, there are many choices to make about how to represent input texts. These choices can have a big effect on performance, but they are often uninteresting to resear

machine learning nlp optimization sequential model black-box system

发现论文，激发创造

机器翻译的贝叶斯优化

本文提出了一种使用贝叶斯优化算法进行最小误差率训练的新型统计机器翻译系统，探索了两类算法来高效地探索翻译空间，其中一类基于 N-best 列表，另一类基于超图表示法，同时介绍了一种随机嵌入算法来扩展我们的方法以处理稀疏高维特征集。

Dec, 2014

文本分类任务的深度序列模型

本文研究大数据领域，探讨了自然语言处理、文本分类和序列模型的应用，结果显示序列模型在二分类和多分类上取得了优异的成果，但机器仍需进一步改进以达到人类水平。

Jul, 2022

文本处理的神经变分推断

通过引入一个通用变分推断框架来构建生成式和条件文本模型的变分推断网络，我们验证了该框架在生成式文档建模和监督式问题回答两个不同的文本建模应用中的有效性。

Nov, 2015

基于贝叶斯优化的课程学习：任务特定词表示学习

使用贝叶斯优化方法学习课程，优化基于特征表示学习的下游任务的性能。采用线性排序功能建模课程，通过学习权重向量和特征向量的标量积来表征训练语料库中每个实例的复杂性不同方面，表明学习课程相比于随机顺序和自然语料库顺序可以提高各种下游任务的性能。

May, 2016

文本的线性动力学系统模型

该研究通过概率隐变量序列模型，使用前向算法实现连续状态 Kalman 滤波器来学习单词的表示。通过 EM 算法准确地优化参数，使用所学习到的单词嵌入作为标记任务的特征，在标记任务中实现显著的准确度改进，并通过线性递归神经网络通过我们的模型的参数来初始化非线性递归神经网络语言模型，降低了其训练时间和困惑度。

Feb, 2015

一种自动化制定优化问题的新方法

本文介绍了我们团队在 Natural Language for Optimization (NL4Opt) NeurIPS 2022 比赛中的获奖方案，分别采用了命名实体识别和生成模型等方法，成功解决了对应的子任务，并在比赛中获得了不错的成绩。

Feb, 2023

文本神经元表征的可解释性在自然语言处理中的应用

使用 Gumbel Softmax 层的梯度上升法可将可视化神经元的技术扩展到 NLP 任务中，产生优于传统语料搜索的 n-gram 表示。该表示突出了 Imaginet 架构的语言和视觉模型之间的句法意识差异。

Sep, 2018

基于贝叶斯优化的交互式文本排名：以社区问答和摘要为例的案例研究

本研究提出了一种交互式文本排序方法，使用贝叶斯优化来聚焦在高质量的候选项上，以更好地适应于小数据场景，应用于社区问答和提取式摘要中，较之现有交互式方法具有明显优势，同时发现所学习的排序函数可以作为强化学习中有效的奖励函数。

Nov, 2019

预训练语言模型表示用于语言生成

本文研究了将预训练的语言模型表征集成到序列到序列模型中的不同策略，并将其应用于神经机器翻译和抽象摘要。实验证明，加入编码器网络的预训练表示是最有效的，可以在减慢推理速度仅 14％的情况下获得高达 5.3 BLEU 的增益，并且即使有数百万个句对可用时，仍然可以观察到改进。最后，在 CNN / DailyMail 的完整文本版本上，我们达到了最新的研究成果。

Mar, 2019

用阶乘隐马尔可夫模型学习自然语言表达

为了将全局上下文纳入表示学习，我们开发了一种表示学习算法，该算法将联合预测纳入其生成单词特征的技术中，并使用变分分布生成对每个单词敏感于整个输入序列而不仅是局部上下文窗口的特征，在词性标注和分块实验中，这些特征表现出与或优于现有最先进的表示学习方法。

Dec, 2013