- LINGOLY:一份基于奥林匹克水平的语言推理难题在资源稀缺和濒危语言中的基准测试
通过 LingOly 基准测试,我们评估了大型语言模型在上下文识别、语言模式的泛化能力以及执行复杂任务指令的能力,并发现在没有记忆的情况下,当前语言模型在真正的多步骤跨领域推理方面仍存在挑战。
- 秘密守护者:LLM 对个人特质语言标记的影响
大型语言模型对作者的个人特质的预测能力有所降低,但作者的语言模式仍具有预测作者个人特质的能力,尽管在使用大型语言模型时,一些基于词汇的语言标志可能失去可靠性。这对于在大型语言模型时代研究个人特质的语言标志具有重要意义。
- 基于基因组和表观基因组特征的增强子和超级增强子的深度学习模型利用
通过对包括卡尔达诺、币安、比特币、狗狗币、以太坊、空灵、Matic、币神和瑞波在内的多个数字货币的英文推特大数据集进行详尽研究,本文主要旨在进行社交媒体内容的心理和情感分析,比较不同数字货币之间的语言特征,探讨不同数字货币社区中呈现的独特语 - Gendec: 基于机器学习的从日本人姓名检测性别的框架
通过对日本名字的分析,本研究提出了一种可以准确检测日本名字的性别的方法,并且构建了一个包含难读、平假名和汉字形式的 64139 个名字及其生物性别的数据集。通过这个新的框架,可以从名字中预测性别,解锁与语言模式和文化规范相关的有价值的信息。
- TopRoBERTa:深伪造文本的拓扑感知作者归属
我们提出了 TopRoBERTa 方法,通过在 RoBERTa 模型中加入拓扑数据分析(TDA)层,捕捉深度伪造文本中的更多语言模式。通过从 RoBERTa 的重塑池输出中提取 TDA 特征作为输入,我们展示了具有 TDA 层时处理嘈杂、不 - 大型语言模型生成的文本受到假新闻检测器的偏见
在大语言模型 (LLMs) 时代,我们发现许多现有的假新闻检测器存在显著偏见,更容易将 LLMs 生成的内容标记为假新闻,而常常误将人类撰写的假新闻分类为真实。为了解决这个问题,我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解 - CVPR标题:字幕中的内容?数据集特定的语言多样性及其对视觉描述模型和度量的影响
研究自动视频描述领域的发展,发现数据集所具有的语言多样性是影响生成泛化性通用和无信息的描述文本的关键因素。推荐多样性采集新数据的方法和应对当前模型和指标多样性有限的后果的方法和方法。
- 基于注意力相似度学习的社交媒体可解释式作者验证
本文针对社交媒体上短文本语言特征多变不足以支持作者验证的问题,提出了一种基于 Hierarchical Siamese 神经网络的算法,通过学习神经特征和可视化决策过程可以有效地进行作者验证,并在大规模的亚马逊评论数据集上进行实验,结果表明 - KDD语义产品搜索
通过训练深度学习模型,使用顾客行为数据,我们开发了一种新的损失函数,并结合 n-gram 和平均池化来捕捉短程语言模式,并使用哈希来处理词汇表外的标记,从而解决语意匹配在产品搜索中的挑战。在离线测试和在线 A/B 测试中,均表现出比基线语意 - ACL通过语言模式的分层解码实现自然语言生成
介绍了一种基于语言模式的分层解码自然语言生成模型,与传统的基于 RNN 和 seq2seq 的编码器 - 解码器模型相比,该模型表现更好且模型规模更小。
- ACL具有对立极性的单词情感组成
本文研究了带有至少一个积极词和至少一个消极词的短语的情感组合,构建了一个对应数据集并分析其中的语言模式,并应用多种无监督和有监督技术,最终得到了一种准确率超过 80% 的最佳情感组合系统。
- ACLLiar, Liar Pants on Fire”: 一个新的用于假新闻检测的基准数据集
本研究介绍了 Liar 数据集以及一种新型卷积神经网络,该网络能够结合元数据和文本进行表面级别的自动虚假新闻检测,这个可用于事实核查,工具使得这种检测基于事实上的文章变得更容易,从而减少虚假信息带来的实际影响。
- IJCAICRYSTAL: 诱导概念词典
本文介绍了 CRYSYAL 系统,它自动归纳了足以从训练语料库中识别出相关信息的 “概念节点定义” 字典,通过测试每个建议的定义的准确性,因此,CRYSYAL 通常比人类直觉更能够创建可靠的提取规则。