数据集 - 开放知识图谱

著名github仓库知识图谱

浙江大学知识图谱课程作业详情请关注 https://github.com/FoggyDawn/GitHubRepository-KG 本数据集拓展了cnSchema，在此基础上收集了著名的github仓库，并利用规则和大模型抽取了关系

CSV
JSON

计算机科学领域学术论文引用与知识图谱 (CS-ArXiv-Citation-KG)

数据集简介本项目构建了一个面向计算机科学（特别是人工智能领域）的学术知识图谱。数据源基于 ArXiv 公开论文数据，通过 Semantic Scholar API 获取引用关系，并结合大语言模型（LLM）从非结构化文本中进行深层知识抽取。构建方法数据获取：采用“滚雪球”式递归爬取策略（BFS）。以经典论文（如 Attention Is All...

JSON
HTML

甄嬛传

本项目围绕电视剧《甄嬛传》人物，以中文 Wikipedia 为数据源，依次完成知识图谱数据预处理、文本知识抽取及问答功能实现，预处理阶段通过定向抓取角色信息、三重过滤去重、多格式转换，生成 108 条有效实体及 775 条 SPO 三元组并构建向量索引；知识抽取基于大模型采用 “上下文增强 — 联合抽取 — 后处理对齐”...

ZIP
CSV

中医药学语义网络

中医药学语义网络框架包括127种语义类型以及58种语义关系。其中，语义类型对应网络节点，语义关系对应节点之间的弧。语义网络框架为建立具体概念之间的语义关系提供参考和约束。...

OWL

top200_MLLM_papers

引用率最高的200篇有关多模态大模型论文的知识图谱

需求文本缺陷数据

标注了不可验证需求、不完整需求、模糊需求等需求文本中常见的表述缺陷问题。

TXT

可视化在线句法标注 - 信息依存语言模型(IDLM)

2023年QS世界大学排名前50名介绍

JSON

基于众包标注系统的文言文语言理解测评基准及数据集

C-CLUE是一个基于众包标注系统构建的文言文语言理解测评基准及数据集，由天津大学数据库课题组贡献。本次开源了由系统标注结果获取的近2万个实体以及4千多个关系，并处理分割成为训练集、校验集、测试集等文件，...

TXT
JSON

DuEE1.0中文事件抽取数据集

DuEE1.0是百度发布的中文事件抽取数据集，包含65个事件类型的1.7万个具有事件信息的句子（2万个事件）。事件类型根据百度风云榜的热点榜单选取确定，具有较强的代表性。...

开放的数字商业知识图谱(阿里巴巴)

开放促进互联，连接创造价值，开放知识图谱是激活数据要素潜力的有力技术手段。数据的价值是在经济活动的信息交互过程中产生的——数据流通越开放，催生的应用场景越丰富；数据连接越充分，其价值也会得到不断放大和提升。...

原神GenshinImpact

《原神》(英⽂名GenshinImpact)《原神》是由上海米哈游制作发行的一款开放世界冒险游戏，于2017年1月底立项。游戏发生在一个被称作“提瓦特”的幻想世界，在这里，被神选中的人将被授予“神之眼”，导引元素之力。...

ZIP

中国电影知识图谱

电影是一种综合的现代艺术，能够给观众带来强烈的视觉和听觉体验。在中国电影领域的发展过程中，涌现出了不少优秀的影视作品、制作人和演员等。本项目希望通过利用知识图谱的相关抽取技术，...

PDF
ZIP

图书问答知识图谱

图书知识图谱包括图书(books)、人（person）、出版社(press)三类实体，属性包括标题(title)、评分(rating)、作者(writer)、翻译者(translator)、出版信息(pub_info)、序列号(series)、标签(tags)、...

网易云音乐知识图谱和音乐推荐系统

我们构造的网易云音乐图谱中包含歌曲（music）、演唱者（artist）、专辑（alnum）、歌单（playlist）四类实体和相应的属性（name、lyric等），以及歌曲之间的相似关系（similarTo）、...

BTC2019数据集: Billion Triple Challenge 2019 Dataset

BTC数据集是从2018/12/12到2019/01/11使用LDspider进行大规模RDF爬取的数据，数据以四元组的形式存储，第四个元素编码相关联的三元组从web文档解析的位置。数据集包含了2,155,856,033个四元组，...

清华大学-科技知识图谱

SciKG是一个以科研为中心的大规模知识图谱，目前包含计算机科学领域，由概念、专家和论文组成。其中，科技概念及其关系是从ACM计算分类系统中提取出来的，并辅以每个概念的定义（大多数来自维基百科）。...

新冠开放知识图谱.映射

使用本体匹配和实体对齐技术，生成了OpenKG中多个新冠开放知识图谱之间的映射，为后续基于多源异构新冠开放知识图谱的应用提供了基础支撑。

XML
TSV

东南大学大型多模态知识图谱OpenRichpedia

OpenRichpedia是一个大型多模态知识图谱，其包含的多模态知识可以应用于自然语言处理，计算机视觉与知识图谱等诸多研究领域。我们在本资源中提供了OpenRichpedia中的图片和知识资源，供研究者下载和使用。

CED：篇章目录结构树抽取

目录作为篇章中天然的结构化信息，可以快速定位目标信息所在的片段。本项目旨在提供一系列从篇章中抽取目录结构的数据集和工具。

JSONL
ZIP

找到216个数据集