- 利用大型语言模型衡量性别化语言中的性别偏见
该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法,通过识别和分类与人类实体相关的具有性别特征的名词和代词,揭示了四个广泛使用的基准数据集中存在的显著性别差异,从男性到女性的比例范围从 4:1 到 6:1,这些发现 - KDD文本异常检测的鲁棒自编码器集成方法
通过引入鲁棒自编码器集成方法,优化原始数据编码嵌入的局部鲁棒子空间恢复,利用 k 近邻的几何属性来优化子空间恢复,检测文本数据中的异常模式。通过实验设置以及详尽的实验结果评估表明,该鲁棒自编码器集成方法在检测独立异常和情境异常时具有高效性、 - AlbNews:用于阿尔巴尼亚语主题建模的标题语料库
本论文介绍了 AlbNews,这是一个包含 600 个主题标记的阿尔巴尼亚新闻标题和 2600 个未标记标题的集合,可用于进行主题建模研究。我们报告了一些传统机器学习分类器使用 AlbNews 样本进行训练的初始分类分数。结果显示基本模型超 - Riveter: 测量实体间的能量和社交动态
Riveter 是一个易于使用的工具,用于分析文本语料库中与实体相关的动词内涵。通过预先加载情感、权力和机构等内涵框架,Riveter 提高了动词内涵词典的易用性,便于其他研究人员进行多方面的研究。
- 文本中的深度异常检测
利用自监督学习针对文本语料库制定预文本任务的方法,根据最新研究成果,大幅提高了半监督和无监督异常检测的效果,并证明了自监督异常检测在自然语言处理领域中的潜力。
- SAP-sLDA:探索非结构化文本的可解释界面
通过低维投影对文本语料库进行探索是一种常见方法,我们提出了一种半监督的人类参与的基于 LDA 的方法,用于学习在低维投影中保留文档之间语义相关性的主题。
- AlbMoRe: 一份用于阿尔巴尼亚语情感分析的电影评论语料库
该论文介绍了阿尔巴尼亚语情感分析语料库 AlbMoRe,其中包含 800 个被标记为正面或负面的电影评论文本,并报告了使用这些样本训练的传统机器学习分类器的初步结果,可作为未来研究实验的比较基线。
- ACL通过预训练语言模型对文本增强开放知识图谱完成进行优化
TAGREAL 通过从大型文本语料库中检索支持信息,自动生成高质量的查询提示,从而探索 PLM 的知识,实现开放知识图谱完成,并实现了最先进的性能表现。
- 利用大型语言模型指导强化学习的预训练
提出了一种名为 ELLM(LLM 探索)的方法,它利用来自文本语料库的背景知识来塑造探索,通过利用大规模语言模型预训练,无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向,通过在 Crafter 游戏环境和 Housekeep 机 - EMNLP通过层次感知的主题短语生成扩展话题分类
TopicExpan 是一种新的主题分类扩展框架,它结合了基于文本内容和新主题周围的层级关系结构,直接生成新主题相关的术语,实验结果表明,它在两个真实文本语料库中的表现显著优于其他基线方法。
- 面向规模化的抗噪去重
使用历史新闻电线的独特时效性创建了一个包含 27,210 个文件,122,876 个正重复对的数据集,评估了区分训练的双编码器和组合双编码器和交叉编码器的范围,结果表明神经方法显着优于哈希和 N-gram 重叠,并且 bi-encoder - 语言与视觉:基于场景的词语和句子嵌入研究
本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法,使得即使对于抽象词,我们也能生成受视觉基础支撑的嵌入,并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词,还有益于抽象词。
- ACL学会借力 -- 关系表示以补全知识图谱中未提及的实体对
本文提出了 SuperBorrow 方法,使用预训练实体 embedding 和语境化 LDP 表示法来表示不合并实体对,实验结果表明 SuperBorrow 可以增强多个先前使用的 KGE 方法的链接预测性能。
- 一个犹太语词性标注器:标注犹太书籍中心语料库的第一步
本文描述了构建和评估一种用于 Yiddish 语言的词性标注器的过程,分析了使用语料库和词嵌入的方法,讨论了该技术在语言学研究中的应用和未来的发展方向。
- MuRIL:印度语言的多语言表示
MuRIL 是一种专为印度语言建立的多语言语言模型, 使用翻译和音译文档对增加跨语言信号在训练期间,在多项任务中表现优异,尤其针对拉丁转写的数据具有很高的处理效能。
- ACL具有偶然监督的跨语言实体对齐
本研究提出了一种名为 JEANS 的 incidentally supervised 模型,该模型联合表示多语言知识图谱和文本语料库,并通过文本提供一定程度的监督信号来改进实体对齐任务。实验结果表明,JEANS 在实体对齐方面具有较好的性能 - KDD利用语言建模进行异常检测的框架及其在金融领域中的应用
本文讨论了将异常和偏差检测方法应用于文本语料库,并针对相应挑战提出了采用分布语义的语言模型可在风险识别、预测建模和趋势分析等方面发挥重要作用。
- WWW基于类别名称引导的文本嵌入辨别式主题挖掘
该研究提出了一种新的任务 —— 区分性主题挖掘,通过用户提供的类别名称来从文本语料库中挖掘区分主题,利用建议的 CatE 方法高效地学习区分嵌入空间和发现代表性术语,并表明 CatE 不仅有助于用户清晰地了解其最感兴趣的主题,还可以在关键字 - 通过双曲嵌入从文本语料库中推导概念层次结构
本文提出了一种新方法, 结合了双曲嵌入与 Hearst 模式,用于从大型文本语料库中推断概念层次结构和 is-a 关系。实验表明,该方法在多个基准测试中取得了最先进的性能。
- AAAI使用平滑的一阶共现法测量文本语料库中的社会偏见
本研究提出了一种采用平滑一阶共现关系来度量文本中偏见的方法,通过与向量相似性进行对比实验,对经常使用的词向量方法在量化偏见时引入非相关概念的问题进行探究,并在英文维基百科语料库上测量了职业词的性别偏见,得到了与美国职场实际情况更高相关性的结