- 用熵正则化提升推荐系统的主题提取
本文提出了一种新的方法 —— 熵正则化来解决推荐系统中主题内的关键词连贯性不足的问题,从而提高主题的可解释性,并确保主任务的性能竞争力。实验结果表明,该策略显著提高了主题的连贯性。
- 基于图注意力机制及文本描述的 Top-N 推荐模型
该研究使用 Graph Convolutional Network 模型结合文本内容及用户偏好来进行推荐,取得了较好的效果。
- LIME 模型在文本分类中解释结果的稳定性分析:对抗扰动的探究
本文验证了先前文献指出的 LIME 对于无序数据稳定性较低的趋势,并在文本数据上探索了 LIME 的稳定性。
- Text2Gender: 分析博客作者年龄和性别的深度学习架构
本文通过深度学习技术在 NLP 领域中实现对个体写作文本进行性别和年龄预测,主要采用了基于 BERT 的监督分类方法,并基于一个包含 681284 行数据的数据集进行研究和比较,结果表明,该方法能够更有效、精确地对文本数据进行分类,达到了 - ACL最佳多语言文件嵌入是否只是基于句子嵌入?
本研究系统地比较了使用 LASER、LaBSE 和 Sentence BERT 预训练的多语言模型从句子中生成文档级表示的方法,证明了对于多语言任务来说,通常使用句子嵌入的巧妙组合要优于将整个文档编码为单个单元,并且说明了虽然简单的句子平均 - 面向多模态 DBMS 的文本和表格无缝查询
本研究提出了一种新的数据库系统 Multi-Modal Databases(MMDBs),该系统能够使用 SQL 无缝查询文本和表格数据,并通过使用基于最近大型语言模型(如 GPT-3)的所谓多模式运算符(MMOps)扩展关系数据库以实现对 - ChatGPT-4 在使用零样本学习对政治 Twitter 信息进行注释方面胜过专家和众包工作者
本文研究了大型语言模型 ChatGPT-4 在 Twitter 文本分析任务中对发布者政治意向分类的精度、可靠性和偏差,并结论该模型精度更高、可靠性更高、偏差相等或更低,从而证明了该模型在社会科学中的巨大影响。
- 基于文本情感预测咖啡评价分数 -- 从糖浆般的口感到巧克力的微妙味道
使用咖啡品资格认证评价中所收集的文本数据预测咖啡豆在 0-100 分之间的评分。通过构建回归模型来转换这些高度专业和标准化的文本数据,精确捕捉相应咖啡豆评分的模式。
- 只用语言数据学习视觉任务,竟然没有图像!
本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能,并将其转移到视觉任务中,同时提出探究对比模型嵌入空间中不同模态的系统差异,进一步理解和缓解这种关注的策略。实践证明,我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉 - EMNLP用最小扰动生成文本对抗样本
本文提出了一种新的对抗攻击策略,旨在找到与原始文本相似度极高的对抗文本,同时引入最小扰动;实验结果表明,与现有攻击方法相比,我们的方法在四个基准数据集上的成功率更高,扰动率更低。
- 文本的包容性概念
本研究旨在确定自然语言处理中所谓文本的概念,并提出一套通用术语和分类体系,以扩展文本的范围,从而更好地进行 NLP 建模。该研究强调了包容性方法在 NLP 中处理文本的重要性,并呼吁开发者采用系统化的报告方式,以巩固该话题。
- EMNLP安全数据共享的差分隐私语言模型
使用全局差分隐私的方法,通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私,并通过新的匹配损失设计自然语言提示,得出高质量的文本数据集,这些数据集不仅不会泄露原始数据的信息,而且还适合训练用于分析真实世界数据的模型,同样证明基于私有 - 超出模型可解释性:对比文本解释的忠实度和对抗鲁棒性
本文介绍了一种通过对比解释方法,以可解释性和新建议形式提高分类器预测的可行性。该方法在文本数据上的应用情况得到了分析和评估,以及对研究所提供的度量标准的可靠性进行了初步的验证。
- 在紧张注释预算下分析文本表示:度量结构对齐
通过引入评估文本数据表示优劣的度量标准,本研究探究了数据表示在紧急标注预算下对学习成果的影响。研究表明,数据表示依据任务需求的结构对齐程度越高,模型对标注预算的依赖性较低、对少样本数据的学习效果更优。
- SpeechLM: 用非配对文本数据增强的语音预训练
提出了一种跨模态的语音和语言模型,使用两种不同的离散标记器来处理语音和文本模态,取得了优异的成绩,尤其表现出色的是在 CoVoST-2 语音翻译任务上。
- BanglaSarc: 一个用于讽刺检测的数据集
本研究提出了专门用于孟加拉文文本数据的 Sarcasm 数据集(BanglaSarc),该数据集包含来自各种在线社交平台的 5112 个评论 / 状态和内容,将有助于研究识别讽刺和检测孟加拉语表达式等领域。
- naab: 一份即插即用的波斯语语料库
提供一份 130GB 的 Farsi 語言文本語料庫 naab,它包括 25 億段落和 15 兆個單詞,以及一個用於生成自定義語料庫的預處理器。
- 报仇主题:文本数据中报复性内容的自动识别
本研究通过自动化方法识别文本数据中富有报复性的主题,并在对四个数据集进行测试后呈现出令人鼓舞的结果,即使在极度失衡的数据集上也是如此。该简单而强大的方法不仅可以用于筛选单个犯罪嫌疑人,还验证了复仇的简单理论模型。
- 单词级差分隐私的限制
本文介绍了一个新的文本匿名处理方法,该方法使用 fine-tuned 变压器语言模型实现了高质量的语言输出,同时避免了匿名化方法存在的隐私保护及文本保留方面的问题。
- 神经抽象摘要方法调查及其摘要的事实一致性
自动摘要是计算机缩短文本数据的过程,以创建一个表示原始文本中最重要的信息的子集 (摘要)。现有的摘要方法大致可以分为两类:抽取式和生成式,前者会从源文档中显式选择文本片段 (单词,短语,句子等) ,而后者则会生成新的文本片段来传达源文件中最