- ACL频率解释了大型语言模型的大小、训练数据量和意外性与阅读时间的逆相关关系
大型、数据庞大的基于 Transformer 的语言模型对于罕见单词的预测更加准确,从而导致它们的意外度估计与人类的阅读时间相关性降低。
- 线性判别学习中的频率效应
本研究使用区分词典模型,提出了一种称为频率知情学习的方法,能够更加高效地模拟频率效应,以及探究了如何在认知模型中更好地解释低频词。
- 无监督的句子表示学习:基于频率诱导的对抗调整和不完整句子过滤
提出了一种新的无监督句子表示学习(USRL)框架,称为带有频率诱导的对抗微调和不完整句子过滤器的句子表示学习(SLT-FAI),通过利用单词频率信息来解决预先训练语言模型(PLM)中单词频率信息敏感性带来的相似偏差和信息偏差问题,此框架灵活 - 混合产品距离下的静态词向量频率感知维度选择
本篇论文研究了词频对于维度选择的影响,提出了使用 Mixed Product Distance(MPD)作为指标,选择适当的维度,以优化词嵌入算法的效率 - 性能权衡,并通过实验验证该方法的优势。
- 词嵌入的范数编码信息获取
本文通过理论证明和实验证明 Skip-gram 负采样法中词向量的平方范数编码了由 KL 散度定义的单词共现分布和语料库单纯分布之间的信息增益,进而通过关键词提取、上位词预测和词性鉴别等实验,确证了 KL 散度和词向量的平方范数可以作为单词 - 用于计算语义相似度的分类和神经嵌入方法的评估
本论文探讨了计算语义相似度的不同方法,比较了分类和分布式语义相似度的不同特点,提出了类别相似度建模的三种加权因素,发现在不同词频、多义性和相似度强度范围内存在语义相似度计算巨大差距。
- ACL神经语言模型中的词汇习得
研究神经语言模型在训练过程中如何获取单词,并提取 MacArthur-Bates 交际发展清单上 600 多个单词的学习曲线和获取年龄。与儿童的单词获取研究结合,评估 LSTMs、BERT 和 GPT-2 模型的多种预测因素,发现模型对单词 - ACL建模单元分布
本文论述了如何正确建模语料库中词汇的频次分布,引入了一种基于神经网络的模型来更好地估算单词的出现概率,实验结果证明该模型在七种语言的语料库中表现良好,优于传统方法。
- ICML神经语言模型自然出现稀疏性
本研究探讨稀疏神经模型在自然语言处理中的重要性,使用出租车欧几里得范数对稀疏度进行量化,发现输入频繁的词在激活方面较为集中,而目标词汇的激活由分散变得集中,并且功能词梯度比内容词梯度更集中。
- MM每种书写自然语言之下的图形规律
研究通过对 24 种自然语言的文字频率进行对数标度的排名分析发现,它们的曲线类型与磁性材料中的磁化曲线十分相似,从而提出了自然语言中可能存在磁化曲线的猜想。
- 压缩作为动物行为的普遍原则
该研究通过对人类语言和其他动物行为的分析,证明了 Zipf 定律在行为现象的多样性中具有普适性。该定律反映了动物行为编码效率的普遍原则,与信息论的最小化预期码长原则密切相关。
- 语言的增长降低了对新词的需求:一种异速生长的解释
本研究对过去两个世纪出版的几百万本书的 15 亿余个单词进行了分析,发现单词使用频率的分布有两个不同的尺度,且随着语料库的增大,新词的需求呈减少趋势,这种 ' 冷却模式 ' 成为第三个动态的统计规律。
- 积极词汇所携带的信息量比消极词汇少
该研究研究了单词的情感内容、单词频率和信息内容之间的关系,发现情感取向积极的单词更频繁地使用;负面单词比积极单词更具信息量,并支持与情感和激情有关的假设。
- 全球社交网络中幸福和信息的时间模式:Hedonometrics 和 Twitter
通过分析 Twitter 上的在线表达,使用 hedonometer 实时远程测量了幸福感,以单词使用频率为主要依据建立了高度稳健的度量方法。
- 在线群体中的细分对词汇命运的决定作用
本研究通过对互联网讨论社区作为模型系统的研究,定义了 “词语生态位” 的概念,并开发了一种量化词语生态位大小的方法,进而研究了词频变化的影响因素。结果表明,词语生态位大小远比词频更重要,而短期词汇统计学的非稳态主要受到个体倾向性的驱动,包括