计算机科学领域学术论文引用与知识图谱 (CS-ArXiv-Citation-KG)

追从者: 0

机构

个人

提供给个人的资源上传入口

授权

Creative Commons Attribution

计算机科学领域学术论文引用与知识图谱 (CS-ArXiv-Citation-KG)

数据集简介

本项目构建了一个面向计算机科学（特别是人工智能领域）的学术知识图谱。数据源基于 ArXiv 公开论文数据，通过 Semantic Scholar API 获取引用关系，并结合大语言模型（LLM）从非结构化文本中进行深层知识抽取。

构建方法

数据获取：采用“滚雪球”式递归爬取策略（BFS）。以经典论文（如 Attention Is All You Need）为种子节点，双向扩展获取其“参考文献”和“被引文献”。
规模控制：设置递归深度 $D=4$，每层选取引用影响力最高的 $Top-K=5$ 篇论文，构建了具有高学术价值的稠密引文网络。
知识抽取：利用 LLM 阅读论文摘要，抽取细粒度实体（如提出的模型、使用的基线、评估数据集、评价指标）及语义关系。

数据内容

实体类型：涵盖论文 (Thesis/AIPaper)、学者 (Person/Researcher)、模型 (SoftwareApplication/AIModel)、指标/数据集 (CreativeWork) 等。
关系类型：包含传统的引用关系 (cites) 以及语义关系 (author_of, proposed_model, evaluated_on, baseline_model 等)。
Schema：基于 CnSchema 进行适配与扩展。

资源链接

项目源码: GitHub - arxiv-kg
可视化: 包含基于 ECharts 的力导向图交互式可视化文件。

数据与资源

CS_ArXiv_KG_Data.jsonJSON _{【下载量：19】}
核心知识图谱数据文件。 - 格式: JSON - 内容: 包含数千个学术实体（论文、作者、模型、指标）及三元组关系。 - 构建参数: 基于 BFS...
浏览
- 更多信息
- 下载
Interactive_Visualization.htmlHTML _{【下载量：9】}
交互式可视化大屏。 - 技术: 基于 ECharts 实现的力导向图 (Force-Directed Graph)。 - 功能:...
浏览
- 更多信息
- 下载
recursive_kg_1706.03762_k10_d2.jsonJSON _{【下载量：5】}
...
浏览
- 更多信息
- 下载
recursive_kg_1706.03762_k10_d2.htmlHTML _{【下载量：3】}
k=10，d=2的可视化文件
浏览
- 更多信息
- 下载
论文引用与学术知识图谱构建项目报告.pdf _{【下载量：4】}
报告文件
浏览
- 更多信息
- 下载

其他信息

域	价值
源	ArXiv API, Semantic Scholar API, OpenAI/DeepSeek API (Extraction)
作者	向胤兴、路鸿宇、叶圣炜、蒋相余
维护者	向胤兴
版本	1.0
最近更新	二月 13, 2026, 02:17 (UTC)
创建的	二月 13, 2026, 01:49 (UTC)
Domain	Computer Science / AI / NLP
GitHub Repository	https://github.com/LeBlanCXYX/arxiv-kg