Quantum Knowledge Graph:让知识图谱理解“上下文”

在大语言模型快速发展的今天,知识图谱的价值不再只是“存储事实”,而是为模型推理提供可检查、可验证、可追溯的外部知识基础。然而,传统知识图谱通常把每条三元组关系视为全局有效:只要图中存在 (head, relation, tail),它就被默认当作可用证据。

现实并没有这么简单。尤其在医学场景中,同一条知识关系是否成立,往往取决于患者的具体上下文:年龄、合并症、实验室指标、用药史、疾病阶段、禁忌证等因素,都可能改变一条医学事实是否适用于当前病例。

我们提出 Quantum Knowledge Graph (QKG),将知识图谱中的三元组有效性从“静态事实”推进到“上下文相关的可判定函数”。

核心亮点一:面向上下文依赖的数学框架

QKG 的核心思想是:一条三元组 τ = (h, r, t) 是否有效,不应只由图中是否存在该边决定,而应由观察上下文 C 决定。

我们将三元组有效性表述为:

text P(τ | C)

并进一步用三元组特异的函数表示:

text F_τ(C)

也就是说,QKG 关注的不是静态的“图中是否存在这条边”,而是 P(τ | C):在当前上下文 C 下,这条知识 τ 是否应被视为有效证据。

这意味着,知识不再是脱离场景的静态声明,而是在具体上下文中被动态评估的证据。传统 KG 可以被视为只给出 0/1 的全局判断;概率 KG 给出总体人群层面的先验;而 QKG 则进一步刻画“这条知识在当前上下文下是否适用”。

在本文的医学实现中,我们用自然语言适用条件来实例化 F_τ(C)。例如,一条药物适应证、禁忌证或药物作用关系,可以附带“在哪类患者中适用”“在哪些实验室指标或合并症下需要避免”等约束。这样,LLM 在推理时不只是检索相关事实,而是能够判断这些事实是否真正适用于当前患者。

核心亮点二:开源的包含上下文依赖的 KG 数据

为了推动可复现研究和社区扩展,我们开源了 QKG 相关数据与代码。

本工作的核心开源产出包括:

  • 发布 PrimeKG 实体与 UMLS CUI (Concept Unique Identifier) 映射数据。 该数据覆盖 PrimeKG 全体实体,共 129,375 个,其中 80,726 个实体具有非空 CUI,覆盖率为 62.4%。映射来源包括 61,556 个基于源数据库编号的直接匹配,以及 19,170 个通过语义 embedding 构建的实体映射表匹配。该数据不仅为本文的 KG-grounded QA 对齐流程提供基础,而且也可作为后续医学 KG 与临床文本任务对接的基础设施,支撑实现 PrimeKG 与不同知识图谱的对齐。
  • 发布 68,651 条带患者群体适用条件的上下文敏感关系事实。 这些事实聚焦 indication(适应证:药物或治疗适用于哪些疾病/人群)、contraindication(禁忌证:哪些情况下应避免使用)、off-label use(超说明书使用:非正式获批但可能有临床依据的用途)、drug_effect(药物作用:药物对疾病、表型或生物过程的影响)等更容易受患者上下文影响的关系类型,可与 PrimeKG 结合使用以支持上下文相关的医学知识验证。对于本领域研究,此数据还可用于识别、过滤和修正 PrimeKG 中的噪音关系,以及在特定患者上下文中不适用的关系。
  • 基于 MedReason 筛选出在上述条件约束 KG 中覆盖的 2,788 道医学问答评测样本

这些数据不仅可用于复现实验,也可用于研究医学知识图谱增强推理、上下文验证、患者特异性证据筛选、临床问答评测以及 LLM agent 的知识校验机制。

为什么这项工作重要

QKG 试图回答一个关键问题:当知识图谱被用于支持大语言模型推理时,真正重要的是否只是“图里有没有这条边”?

我们的答案是:不是。

在高风险领域,尤其是医学推理中,系统必须进一步判断:这条边在当前患者身上是否适用。一个药物可能通常适用于某种疾病,但在肾功能不全、妊娠、特定合并症或特定用药背景下并不适用。忽略上下文,可能让“相关知识”变成“错误证据”。

QKG 将这一问题形式化,并提供了可运行的数据构建、验证和评测流程。实验显示,将 QKG 上下文匹配机制加入 reasoner-validator 推理框架后,模型在医学问答任务中相较无验证器基线和无上下文 KG 验证均取得提升。这说明,知识图谱的下一步价值不只是更大规模的实体和边,而是更精确地表达“知识何时成立”。

开源资源

一句话总结

Quantum Knowledge Graph (QKG) 把知识图谱从“存储事实”推进到“判断事实在具体上下文中是否适用”,并开源了面向医学推理的包含上下文依赖的 KG 数据与评测资源。

论文链接:https://arxiv.org/pdf/2604.23972

Data and Resources

Additional Info

Field Value
Author Yao WANG, Zixu GENG, Jun YAN
Maintainer Yao WANG
Last Updated April 29, 2026, 03:34 (UTC)
Created April 29, 2026, 03:21 (UTC)
基础数据-1 UMLS
基础数据-2 PrimeKG
基础数据-3 MedReason
数据加工中用到的模型-1 百川智能 Baichuan M2 Plus model
数据加工中用到的模型-2 google/gemini-embedding-001