Dataset - 开放知识图谱

IREE：投资领域细颗粒度风险事件抽取数据集

A Dataset for Chinese Event Extraction in Investment Research 更新 20220703 论文已录用 20220604 双盲审稿暂时隐去作者及机构信息背景介绍目前，中文数据集主要来源于百度的千言数据集评测LUGE、中文信息学会主办的CCKS、中国计算机学会主办的CCF-...

JSON

运维知识图谱

冶金企业的行车设备的故障运维知识，大类实体3750、小类实体942、实体属性300、实体关系1027、带有类别标签的三元组1086。后续将继续增加，尽请期待！

TXT

需求文本数据

标注了不可验证需求、不完整需求、模糊需求等需求文本中常见的表述缺陷问题。

TXT

ACE实体关系数据集

开源图谱评测数据

DuIE2.0中文关系抽取数据集

DuIE2.0是业界规模最大的中文关系抽取数据集，其schema在传统简单关系类型基础上添加了多元复杂关系类型，此外其构建语料来自百度百科、百度信息流及百度贴吧文本，全面覆盖书面化表达及口语化表达语料，能充分考察真实业务场景下的关系抽取能力。

石油勘探开发数据集

There is no description for this dataset

TXT

人物百科知识图谱

该知人物识图谱以百度百科为基础数据集自顶向下构建而成，抽取分析其中的人物部分，总共包含人物实体2,480,097个，数据包含原始页面，图谱三元组(包括人物属性和人物关系)以及本体。数据可以辅助人物相关应用、问答系统等，目前第一版只考虑了利用了文本部分数据，后续会进行多模态数据的更新。

ZIP

DuEE-fin金融领域篇章级事件抽取数据集

DuEE-fin是百度发布的金融领域篇章级事件抽取数据集，包含13个事件类型的1.17万个篇章，同时存在部分非目标篇章作为负样例。事件类型来源于常见的金融事件，数据集中的篇章来自金融领域的新闻和公告，覆盖了真实应用场景中诸多难以解决的问题。

2014年NLPCC实体链接数据集

NLPCC 2014 评估任务测试数据

HTML

OntoNotes5.0数据集

开源图谱评测数据

CoNLL2003数据集

开源图谱评测数据

2015年NLPCC实体链接数据集

该任务来自NLPCC 2015评测任务，该任务的目标是对短queries中的实体进行识别并链接到对应的中文知识库中。本数据集包括一个中文知识库，该知识库来自各类中文百科的信息框，包括中文维基百科和百度百科。该数据集还包括每个实体页面的第一段作为该实体的摘要。

知识工厂实体链接数据集

基于CN-DBpedia的短文本实体链接测试数据数据集的文本由1037条人工标注的短文本语料组成。其中大约70%来自新闻语料，包括新闻标题和内容，比如“英超-桑切斯4分钟内梅开二度阿森纳3-2五轮不败”；大约20%来自人工构建的基于歧义实体的语料，比如“红楼梦的演员有哪些”；大约10%来自问答语料中的简单问句，比如说“岳阳有哪些旅游景点”。

YAGO3-10知识表示数据集

开源图谱评测数据

TAR

WN18rr知识表示数据集

开源图谱评测数据

TAR

WN18知识表示数据集

开源图谱评测数据

TAR

FB15k-237知识表示数据集

开源图谱评测数据

TAR

FB15k知识表示数据集

开源图谱评测数据

TAR

CEC事件抽取数据集

开源图谱评测数据中文突发事件语料库是由上海大学（语义智能实验室）所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了5类（地震、火灾、交通事故、恐怖袭击和食物中毒）突发事件的新闻报道作为生语料，然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理，最后将标注结果保存到语料库中，CEC合计332篇。

新冠多跳问答数据集

我们精心挑选了OpenKG-COVID19发布的知识图谱中的7个子图谱来构建关于新冠多跳问答数据集。我们对这些个子图谱进行了数据清洗，以及构建了有意义的多跳关系问题。这些知识包含了新冠肺炎疫情期间人们更关注以及日常生活中更容易问到的话题。

JSON

213 datasets found