- 走向科学的外脑
人工智能方法将革新知识工作,生成式人工智能实现了文本分析、文本生成和简单的决策或推理的自动化。我们回顾了代理人工智能系统的现状,并讨论了如何进一步将这些方法扩展到科学研究中。我们提出开发外在皮层的构想,即人工合成的人类认知扩展。科学外在皮层 - 医疗健康中生成人工智能的应用:算法、伦理、法律和社会考虑
该研究针对生成式人工智能应用于医学成像和文本分析时带来的伦理问题、法律问题和算法挑战进行了深入研究,并提出了负责任的解决方案和强有力的监管框架,以确保生成式人工智能在医疗领域的道德和负责任的实施。
- RelevAI-Reviewer:一项关于调查论文相关性的人工智能评审基准测试
提出了一种自动系统,将调查论文审查任务概念化为一个分类问题,采用机器学习模型测定与指定主题相关的论文的相关性,并且通过使用 BERT 等高级语言模型,取得了优于传统机器学习方法的初步结果。
- mTREE: 多层次文本引导的端到端学习用于全尺寸图像分析
该研究介绍了一种称为 mTREE 的多层次文本引导端到端学习方法,它有效地捕获了多尺度病理组织学图像表示,并将文本信息与图像综合表示相结合,展示了其在分类和生存预测等任务中相对于传统方法的优越性。
- 高维尾指数回归:以社交媒体中病毒帖子的文本分析为例
通过社交媒体病毒性帖子的信用(例如,“点赞” 数量)的经验幂律分布,我们引入了高维尾指数回归和其参数的估计和推理方法。我们提出了一种正则化估计器,建立了其一致性,并推导了其收敛速率。为了进行推理,我们提出了去偏估计,并建立了去偏估计量的渐近 - Infini-gram:扩展至万亿标记的无界 n-gram 语言模型
n-gram 语言模型在神经网络大型语言模型时代仍然具有重要意义,本研究展示了其在文本分析和改进神经网络大型语言模型中的价值,并从两个方面对 n-gram 模型进行现代化改进:在与神经网络大型语言模型相同的数据规模下进行训练,建立最大的 n - GPT-4 在语言语用学中超越人类表现
本研究通过基于对话的任务评估 Large Language Models(LLMs)和人类主体在解释语用学方面的能力,结果显示 GPT4 在解释语用学方面表现出了优越的性能和速度,同时在人类写作样本的预测试中也表现出了准确性,进一步的分析也 - 2023 年 BoschAI @ Causal News Corpus:使用多层序列标记和数据增强的稳健因果关联提取
通过基于预训练变换器、序列标注和合成数据增强的系统,我们在 Subtask 1 中排名第三,在 F1 得分为 72.8 的情况下赢得了 Subtask 2,较第二名系统高出 13 个百分点。
- 从声音到可信度:利用大型语言模型(LLM)对政策利益相关者访谈进行文本分析
该研究通过将人类专业知识与大型语言模型(如 GPT-4)相结合,探索了人与计算机相互配合进行教育政策研究中的文本分析。结果显示,GPT-4 在特定主题上与人类编码的统一性达到 77.89%,在更广泛的主题上达到 96.02%,超过传统自然语 - 如何使用大型语言模型进行文本编码:以公共政策文件中的父亲角色为例
近期大语言模型(LLM)如 GPT-3 和 GPT-4 在政治学领域的文本分析方面取得了新突破,它们承诺以更好的结果和更少的编程工作来实现自动化。本研究评估 LLM 在三个原始编码任务的非英文政治学文本上的效果,并提供了在政治学研究中使用 - GPT-Neo 大型语言模型仿真语料中的 Heaps' Law
本研究验证了 Heaps' law 在大型语言模型生成的文本中的适用性,并发现随着模型大小的增长,生成的词汇越来越符合 Heaps' law。未来的研究应重点关注增加模型大小或改进模型架构以提高 GPT-Neo 产生的输出的丰富性和真实性。
- 基于协作角色注入的立场检测
Stance detection is a crucial task in content analysis, and this paper presents a COLA framework that utilizes LLMs to h - 利用句子位置嵌入增强预训练语言模型在法律观点的修辞角色识别中
基于预训练语言模型(PLMs)和文档内句子位置信息知识的改进模型,自动预测法律意见书的修辞角色。通过在 LegalEval@SemEval2023 比赛注释的语料库上验证,我们的方法需要更少的参数,计算成本也更低,同时实现了出色的性能。此外 - PolicyGPT: 使用大型语言模型自动分析隐私政策
通过利用大型语言模型(LLM)开展文本分析,本研究构建了 PolicyGPT 隐私政策文本分析框架,并在两个数据集上进行了测试,结果表明在零样本学习条件下,PolicyGPT 取得了强大的性能,并优于传统机器学习和神经网络模型。
- 适应性分类学习与专利分类的历史模式建模
我们提出了一个综合考虑专利信息的专利分类框架,通过自适应地传递和聚合同级和不同级别的信息来推导 IPC 代码的语义表示;通过双通道聚合机制,设计了一个历史应用模式学习组件,以整合相应申请人的先前专利;最后,结合包含 IPC 代码语义和申请人 - 如何使用 LLMs 进行文本分析
该文介绍了大型语言模型(LLM)作为社会科学中一种高度多功能的文本分析方法,以及它们对文本注释、分类、情感分析和批判性话语分析等广泛的文本分析任务的应用。通过使用 Python,该文提供了针对具有有限编程经验的学生和研究人员的简单介绍,指导 - 使用词汇表进行指令调整的零样式分类
本研究探讨了基于词典的指示如何发现训练时未曾涉及的新风格,以指导大型预先训练的语言模型进行文本风格分类,并展示了这种方法对提高迁移零样本性能的显著效果。
- 基于监督、零样本和少样本的立场检测应用
本文通过确定立场检测任务的定义,提供了一个通用框架,并提供了三种不同的方法来执行立场检测:监督式分类、NLI 分类器的零样本分类和上下文学习。此外,本文论述了零样本和少样本语言分类器的应用和局限性与监督分类器的不同,并通过复制 Block - LEIA:面向情感识别的语言嵌入技术
本研究提出了一种基于 LEIA 模型的情绪文本识别方法,该模型使用了一个以上的自我注释情绪标签的超过 6 百万条社交媒体数据集进行训练,并在领域内和领域外的测试数据集上取得了优异的性能表现。
- 情感作为文学情绪的代理
该研究提出利用情感作为文学文本中心情感的代理,通过利用情感词嵌入法探索计算检测语调与检测心情的差异,提出了一种简单而高效的情感词典增强方法,以产生与当代和现代定性分析密切匹配的真实世界一致结果。