提高作者归属度中的词频

Nov, 2022

Boosting word frequencies in authorship attribution

Maciej Eder

TL;DR本文介绍一种计算作者归属和相似文体任务中相对词频的简单方法，该方法采用与传统方法不同的规范化因子，即仅涉及相关令牌的总数，并使用词嵌入模型来确定语义背景，该方法的性能通常优于传统的基于最高频词的方法，差异在于输入设置。

Abstract

In this paper, I introduce a simple method of computing relative word frequencies for authorship attribution and similar stylometric tasks. Rather than computing relative frequencies as the number of occurrences

authorship attribution stylometric tasks word frequencies synonyms word embedding models

发现论文，激发创造

词嵌入相似度计算方式的频率依赖性

本文系统研究了几种静态词向量嵌入中单词频率与语义相似性之间的关联，并发现高频单词之间的相似性更高。同时，本文还探究了单词频率对基于嵌入的性别偏见测量的影响，并证明通过操纵单词频率可使偏见发生倒转。

Nov, 2022

使用词语的分布式表示来衡量词语的重要性

使用长度和词频作为语料中单词重要性的衡量，通过 word2vec 神经网络提取语法和语义特征，将单词映射到二维平面并自动排名。

Aug, 2015

上下文传播的术语权重用于文档表示

提出了一种新模型，通过给类似语境中出现的单词重新分配其权重，模拟了在相似语境中单词之间的语义共享，并将其纳入单词袋文档表示法中，从而在无监督设置下在难度逐渐增加的数据集上获得了最好的微观和宏观 F1 分数，针对的研究主题是单词嵌入和语义含义。

Jun, 2019

使用针对语义任务训练的模型评估词汇重要性

本研究提出一种基于自然语言推理和释义识别的模型训练方法，通过解释预测模型的预测结果，得到每个输入标记的重要性分数，并可以分析其语法特征，可用于识别训练中没有明确标记的句子中的重要单词。

May, 2023

从短期语言影响预测长期引用

该研究提出了一种基于语言影响力的新方法来量化文献对后续出版物内容的影响程度，并通过测量高维度的 Hawkes 过程来预测未来引用次数。

Oct, 2022

基于计数模型的词向量表示恢复

该研究是关于使用基于计数的模型来提取文本的语义表征，使用 Hellinger 距离用于处理大型语料库中的单词共现统计数据，并获得了很好的性能表现。

Dec, 2014

基于相似性的词共现概率估计

本文提出了一种基于分布式相似性的概率词汇联想模型，用于估算先前未见过的词组的概率，并在语音识别中获得了显着的错误率降低和复杂性改进。

May, 1994

有些词比其他词更有价值吗？

该研究提出了两种新的内部评估方法，旨在全面评估语言模型的性能。他们发现，传统的评价方法偏向于高频词汇，而不能全面地评价模型的性能。

Oct, 2020

学习极短文本的语义相似性

研究了基于单词嵌入和 tf-idf 相似性的方法，用于匹配短文本片段，并得出使用两种方法的混合方法可以更好地模拟非常短的文本片段中的语义内容。

Dec, 2015

SynTF: 用于隐私保护文本挖掘的合成和差分私有词项频率向量

本文提出了一种基于向量空间模型的自动化文本匿名化方法，可用于保护作者的身份，并且实现了差分隐私，防止被重新辨认。实验结果表明此方法对于文本分类任务的准确性影响较小，但对于作者识别技术的准确性影响很大。

May, 2018