InstructProteinKG:指令蛋白质知识图谱

InstructProteinKG是一套面向蛋白序列—文本对齐与指令学习的蛋白知识图谱,主要由 UniProtKB/Swiss-Prot 的高质量结构化注释抽取得到,以“(Protein, relation, Annotation)”三元组组织蛋白与注释实体的关联,覆盖 GO 三大分支(BP/MF/CC) 以及 InterPro 的 family/superfamily/domain 与 conserved/active/binding site 等关键语义。 进一步引入 Knowledge Causal Modeling(KCM) 将结构特征到功能/定位等知识组织为可追溯的因果链,用于去偏采样与生成高质量蛋白指令数据,并支持蛋白功能注释与知识增强推理等应用。

数据与资源

其他信息

价值
最近更新 二月 6, 2026, 07:58 (UTC)
创建的 二月 6, 2026, 07:55 (UTC)
贡献者 浙江大学(王泽元)