- EMNLP对推特数据无监督文本表示方法的实证调查
本研究通过实验调查一系列著名的文本表示技术在嘈杂的 Twitter 数据上进行文本聚类的任务,并表明先进的模型不一定在 tweets 上表现最佳,需要在这一领域进行更多探索。
- COLING通过意识形态膨胀主题相关性:社交主题检测模型中的政治意识形态偏见案例研究
本文研究了训练数据中的政治意识形态偏见对自然语言处理模型的影响, 发现大而复杂的模型容易从人选择的输入中传播偏差,从而导致检索准确性的恶化。最后,我们提出一种方法来减轻这种偏差,即学习一个对政治意识形态不变但仍然可以判断主题相关性的文本表示 - 从传统到最先进的单词表示语言模型:全面调查
本文综述了自然语言处理中的单词表示模型,介绍了从传统到现代的语言模型,包括各种文本表示方法,并讨论了这些模型在机器学习算法中的应用,以及在不同 NLP 任务中使用这些单词表示的应用。
- 基于模块化 Transformer 的排名框架
本篇论文将 Transformer 排名模型模块化,提出了一种轻量化的在线交互方案,大幅提升了排名的速度和可解释性。
- 使用多义词嵌入提高文档分类
本研究提出 SCDV-MS 方法,结合多义词嵌入及学习降维流形,用于文本表示与分类。实验结果表明,相较于先前方法,SCDV-MS 在多类别和多标签文本分类任务上性能更高,而且在时间及空间复杂度上更高效。
- EMNLPBookQA: 挑战与机遇的故事
本论文介绍了一个基于纯文本书籍进行问答的系统(BookQA),使用记忆网络对问题进行推理,并对前人的工作进行了改进,包括 BERT 检索和基于书句生成的预训练。在最新的 NarrativeQA 语料库的测试中,我们证明了这种方法的可行性和需 - IJCAI模仿人类过程:通过潜在语义聚类进行文本表示的分类
通过聚类单词并组合成文本向量的新文本表示方案,在 5 个分类基准测试中得到了有效的评估结果,并通过可视化分析验证了其有效性。
- dpUGC: 学习用户生成内容的差分隐私表示
本文提出了一种简单而有效的广义方法来将差分隐私应用于文本表示(即字嵌入)。基于该方法,我们提出了一种个人化的差分隐私字嵌入模型的用户级方法。所提出的方法保护了单个用户的隐私,尤其是在 UGC 数据共享方面提供了更好的隐私与数据效用的平衡。实 - EMNLPChargrid: 了解二维文档
本文介绍一种新颖的文本表示方法,该方法保留文档的 2D 布局,通过将每个文档页面编码为字符的二维网格来实现。基于此表示,我们提出了一个结构化文档的通用文档理解流程。该流程利用完全卷积编码器 - 解码器网络预测分割掩模和边界框。我们在发票信息 - ECCV单次拍摄场景文本检索
这篇论文提出了一种使用单镜头卷积神经网络架构的场景文本检索方法,将基于文本的图像检索任务转换为查询文本表示的最近邻搜索,实现了对大规模图像数据库的快速处理,并在实验中表明该方法优于传统的方法。
- ACL文本表示的敌对分解
本文提出了一种文本表示的对抗性分解方法,并通过两个案例展示其能够进行精细控制元素变化,并学习连续的风格表示。该模型使用对抗性训练和特定的动机损失,并在下游任务中表现优异。
- ACL句状态 LSTM 用于文本表征
通过构建一个包含词语并行状态的 LSTM 模型,最大程度地提高文本表示能力,并在多个分类和序列标注基准测试中取得了强大的表现。
- MM依赖项:为信息检索形式化语义链
本论文在语义处理方面做出重大贡献,提出了多种数学模型以及解决研究范式中存在问题的建议,从而大大提升了机器自动进行语义推理的复杂性和粒度。
- 学习文体特征表示用于作者分析
本文提出了一种使用神经网络方法来模拟人类组合句子过程,将语言特征的不同类别合并到单词的分布式表示中,以同时学习作者文体表示的作者分析方法,提取出每个文档的话题、词汇、句法和字符级别的特征向量,实验结果表明,这种方法在作者特征化和作者验证方面 - 句子和文本的分布式表示
提出了一种名为 “Paragraph Vector” 的无监督算法,用于从文本段落、句子和文档等长度可变的文本片段中学习固定长度的特征表示,该算法能够克服 Bag-of-words 模型的两个主要弱点,经实验证明,Paragraph Vec