- CCA 在多视角文本数据中生成潜在状态 / 变量的适用性
本研究展示了典型相关分析 (CCA) 在发现在双视图设置下捕捉文本数据中的上下文信息的潜在状态方面的潜力,并提出了使用 CCA 执行自动短答案评分任务的模型。经验证实,该模型在实践分析中取得了有竞争力的结果,甚至可以胜过各种先进的监督技术。 - 关系图卷积网络用于情感分析
我们提出了使用关系图卷积网络(RGCNs)进行情感分析的方法,该方法通过捕捉作为图中节点表示的数据点之间的依赖关系,提供了解释性和灵活性。通过在亚马逊和 Digikala 数据集上使用预训练的语言模型(如 BERT 和 RoBERTa)与 - rollama: 使用 Ollama 访问生成性大型语言模型的 R 包
rollama 是一个 R 软件包,包装了 Ollama API,它允许你在本地运行不同的生成式大型语言模型 (GLLM)。该软件包和学习材料侧重于使用 Ollama 对文本或图像数据进行注释以及使用这些模型进行文档嵌入,同时用户可以使用或 - 改进的文本情感预测通过结合价值和唤醒序列分类
这篇论文介绍了一种从文本中分类情绪的方法,它针对各种情绪的多样性进行了差异化的识别,通过训练基于 Transformer 的模型建立了基准分类模型,并通过序数分类模型在情绪空间中考虑了情绪的价值和激活水平,结果表明该方法不仅能够准确预测情绪 - 大语言模型时代的生物医学人工智能
AI 在生物医学领域的应用包括使用大型语言模型来处理生物医学数据,如文本数据、生物序列和脑信号,并面临着可信性、个性化和多模态数据表示等挑战。
- 生成文本流中的漂移方法
本文提供了四种文本漂移生成方法,以便生成带有标记漂移的数据集,并使用增量分类器测试它们恢复漂移的能力。结果表明,所有方法在漂移后性能都有所下降,增量支持向量机在准确性和宏 F1 得分方面运行速度最快,恢复了之前的性能水平。
- TAT-LLM:用于离散推理表格和文本数据的专用语言模型
我们开发了一个 TAT-LLM 语言模型来针对特定任务,该模型在 FinQA、TAT-QA 和 TAT-DQA 基准测试中表现优于所有基准模型,包括先前的最佳微调模型和像 GPT-4 这样的大规模语言模型。
- 利用口碑文本和人口统计学的多模态深度学习预测客户评分:在市场营销中处理消费者异质性
本研究构建了一个产品评价模型,通过多模态学习在线产品评价和消费者个人信息,考虑了消费者异质性,同时比较了不同模态或超参数的多个模型,以展示多模态学习在营销分析中的稳健性。
- FrameFinder:从新闻标题中提取多角度探索性框架
揭示新闻文章构架是信息搜索和检索中一个重要但被忽视的任务。本研究提出了 FrameFinder,一种用于提取和分析文本数据中构架的开放工具。通过从三个角度(即构架标签、构架维度和构架结构)视觉化地表示文本的构架,我们展示了我们提出的解决方案 - 利用生成式语言模型进行弱监督视频语言联合学习中的句子组件分析
利用预训练的大型语言模型,通过计算句子组成部分的相对重要性并利用它们来改善不同的视频语言任务,我们的方法在多个视频语言任务中显著提升。
- 基于大型语言模型的公共事件下人类移动性预测探究
公共活动下的人类移动性预测面临着挑战,但基于大型语言模型的 LLM-MPE 框架通过处理文本数据、学习和生成可读解释等方式,以标准化格式转换事件描述信息、将历史移动数据分割为常规和事件相关组件,并利用历史移动和事件特征进行需求预测并提供解释 - 公共文件的新闻价值追踪
记者需要从大量文本数据中找到故事,并确定文本何时成为新闻,以了解报道模式并建立辅助工具。本研究聚焦于旧金山湾区的本地公共政策新闻报道,通过概率关系建模进行文本链接,定义了新的任务:新闻价值预测,并进行专家记者的人工评估,得出系统在识别新闻价 - 当自动评估遇上自动内容生成:审视 GPT 时代的文本质量
基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器(GPT)的文本评估模型之间的差异,发现转换器预训练语言模型(PLM)相对 - AttentionMix: 借助 BERT 注意机制的数据增强方法
AttentionMix 是一种基于注意力的新混合方法,适用于自然语言处理领域,通过评估在三个标准情感分类数据集上的表现,证实了基于注意力的信息在数据增强中的有效性。
- 利用大型语言模型从隐私保护掩码中恢复
使用大型语言模型,本研究探索了替代标记符的可行性,以保护用户隐私,分析了不同方法的实验结果,在下游语言建模任务中实现了与原始数据训练相媲美的性能。
- 通过 BERTopic 建模和摘要提升 API 文档
本文介绍了一种独特的方法来解决对应用程序接口(API)文档的解释复杂性的需求,利用 BERTopic 的强项和自然语言处理(NLP)自动生成 API 文档的摘要,以提高 API 文档的可理解性和开发效率。研究结果揭示了重要主题,常见问题和潜 - NBIAS:文本中的偏见识别的自然语言处理框架
通过开发一个全面而健壮的框架 “Nbias”,我们能够检测和消除文本数据中的偏见,以确保数据的公正和道德使用。该框架包括数据层、语料库构建、模型开发层和评估层,并应用了基于 transformer 的标记分类模型识别具有独特命名实体的偏见词 - 一项用于从非结构化数据中学习结构的个性化强化学习摘要服务
该论文提出了一种基于个性化概念的分层式摘要方法 Summation,使用强化学习算法生成特定主题的未见文档的个性化摘要,以增强理解、有效导航和满足用户独特需求从大量文献中提取有意义的见解。
- ValiTex -- 一个适用于计算社会科学构造的文本检验框架
本研究提出了一种名为 ValiTex 的新的验证框架,旨在帮助学者基于文本数据对社会科学构造进行测量,并通过将心理测量学的框架扩展到计算文本分析领域,提供通用的结构和具体的验证步骤。该框架在社交媒体数据中检测性别歧视的案例中展示了其实用性。
- 基于双编码器的检测器用于识别未知分布
本文介绍了一种新的方法,利用双编码器检测器,并通过比较不同的特征提取器在自然语言处理(NLP)中的不同外域检测方法进行全面研究。实验结果表明,该方法在所有数据集上都优于其他方法,具有很大的潜力应用于 NLP 领域的 OOD 检测中。