word frequency | BriefGPT - AI 论文速递

关键词word frequency

搜索结果 - 15

ACL频率解释了大型语言模型的大小、训练数据量和意外性与阅读时间的逆相关关系
大型、数据庞大的基于 Transformer 的语言模型对于罕见单词的预测更加准确，从而导致它们的意外度估计与人类的阅读时间相关性降低。
PDF5 months ago
线性判别学习中的频率效应
本研究使用区分词典模型，提出了一种称为频率知情学习的方法，能够更加高效地模拟频率效应，以及探究了如何在认知模型中更好地解释低频词。
PDFa year ago
无监督的句子表示学习：基于频率诱导的对抗调整和不完整句子过滤
提出了一种新的无监督句子表示学习（USRL）框架，称为带有频率诱导的对抗微调和不完整句子过滤器的句子表示学习（SLT-FAI），通过利用单词频率信息来解决预先训练语言模型（PLM）中单词频率信息敏感性带来的相似偏差和信息偏差问题，此框架灵活
PDFa year ago
混合产品距离下的静态词向量频率感知维度选择
本篇论文研究了词频对于维度选择的影响，提出了使用 Mixed Product Distance（MPD）作为指标，选择适当的维度，以优化词嵌入算法的效率 - 性能权衡，并通过实验验证该方法的优势。
PDFa year ago
词嵌入的范数编码信息获取
本文通过理论证明和实验证明 Skip-gram 负采样法中词向量的平方范数编码了由 KL 散度定义的单词共现分布和语料库单纯分布之间的信息增益，进而通过关键词提取、上位词预测和词性鉴别等实验，确证了 KL 散度和词向量的平方范数可以作为单词
PDF2 years ago
用于计算语义相似度的分类和神经嵌入方法的评估
本论文探讨了计算语义相似度的不同方法，比较了分类和分布式语义相似度的不同特点，提出了类别相似度建模的三种加权因素，发现在不同词频、多义性和相似度强度范围内存在语义相似度计算巨大差距。
PDF2 years ago
ACL神经语言模型中的词汇习得
研究神经语言模型在训练过程中如何获取单词，并提取 MacArthur-Bates 交际发展清单上 600 多个单词的学习曲线和获取年龄。与儿童的单词获取研究结合，评估 LSTMs、BERT 和 GPT-2 模型的多种预测因素，发现模型对单词
PDF3 years ago
ACL建模单元分布
本文论述了如何正确建模语料库中词汇的频次分布，引入了一种基于神经网络的模型来更好地估算单词的出现概率，实验结果证明该模型在七种语言的语料库中表现良好，优于传统方法。
PDF3 years ago
ICML神经语言模型自然出现稀疏性
本研究探讨稀疏神经模型在自然语言处理中的重要性，使用出租车欧几里得范数对稀疏度进行量化，发现输入频繁的词在激活方面较为集中，而目标词汇的激活由分散变得集中，并且功能词梯度比内容词梯度更集中。
PDF5 years ago
MM每种书写自然语言之下的图形规律
研究通过对 24 种自然语言的文字频率进行对数标度的排名分析发现，它们的曲线类型与磁性材料中的磁化曲线十分相似，从而提出了自然语言中可能存在磁化曲线的猜想。
PDF11 years ago
压缩作为动物行为的普遍原则
该研究通过对人类语言和其他动物行为的分析，证明了 Zipf 定律在行为现象的多样性中具有普适性。该定律反映了动物行为编码效率的普遍原则，与信息论的最小化预期码长原则密切相关。
PDF11 years ago
语言的增长降低了对新词的需求：一种异速生长的解释
本研究对过去两个世纪出版的几百万本书的 15 亿余个单词进行了分析，发现单词使用频率的分布有两个不同的尺度，且随着语料库的增大，新词的需求呈减少趋势，这种 ' 冷却模式 ' 成为第三个动态的统计规律。
PDF12 years ago
积极词汇所携带的信息量比消极词汇少
该研究研究了单词的情感内容、单词频率和信息内容之间的关系，发现情感取向积极的单词更频繁地使用；负面单词比积极单词更具信息量，并支持与情感和激情有关的假设。
PDF13 years ago
全球社交网络中幸福和信息的时间模式：Hedonometrics 和 Twitter
通过分析 Twitter 上的在线表达，使用 hedonometer 实时远程测量了幸福感，以单词使用频率为主要依据建立了高度稳健的度量方法。
PDF13 years ago
在线群体中的细分对词汇命运的决定作用
本研究通过对互联网讨论社区作为模型系统的研究，定义了 “词语生态位” 的概念，并开发了一种量化词语生态位大小的方法，进而研究了词频变化的影响因素。结果表明，词语生态位大小远比词频更重要，而短期词汇统计学的非稳态主要受到个体倾向性的驱动，包括
PDF14 years ago