计算机科学领域学术论文引用与知识图谱 (CS-ArXiv-Citation-KG)

数据集简介

本项目构建了一个面向计算机科学(特别是人工智能领域)的学术知识图谱。数据源基于 ArXiv 公开论文数据,通过 Semantic Scholar API 获取引用关系,并结合大语言模型(LLM)从非结构化文本中进行深层知识抽取。

构建方法

  1. 数据获取:采用“滚雪球”式递归爬取策略(BFS)。以经典论文(如 Attention Is All You Need)为种子节点,双向扩展获取其“参考文献”和“被引文献”。
  2. 规模控制:设置递归深度 $D=4$,每层选取引用影响力最高的 $Top-K=5$ 篇论文,构建了具有高学术价值的稠密引文网络。
  3. 知识抽取:利用 LLM 阅读论文摘要,抽取细粒度实体(如提出的模型、使用的基线、评估数据集、评价指标)及语义关系。

数据内容

  • 实体类型:涵盖论文 (Thesis/AIPaper)、学者 (Person/Researcher)、模型 (SoftwareApplication/AIModel)、指标/数据集 (CreativeWork) 等。
  • 关系类型:包含传统的引用关系 (cites) 以及语义关系 (author_of, proposed_model, evaluated_on, baseline_model 等)。
  • Schema:基于 CnSchema 进行适配与扩展。

资源链接

  • 项目源码: GitHub - arxiv-kg
  • 可视化: 包含基于 ECharts 的力导向图交互式可视化文件。

数据与资源

其他信息

价值
ArXiv API, Semantic Scholar API, OpenAI/DeepSeek API (Extraction)
作者 向胤兴、路鸿宇、叶圣炜、蒋相余
维护者 向胤兴
版本 1.0
最近更新 二月 13, 2026, 02:17 (UTC)
创建的 二月 13, 2026, 01:49 (UTC)
Domain Computer Science / AI / NLP
GitHub Repository https://github.com/LeBlanCXYX/arxiv-kg