ProteinKG65:多模态蛋白质知识图谱

ProteinKG65 是一个多模态蛋白知识图谱数据集,将蛋白实体与 GO 术语实体对齐到对应的蛋白序列与文本描述。数据规模约 61.4 万实体、562 万三元组,以 Protein–GO 注释关系为主,并包含 GO–GO 关系,覆盖 GO 的三大分支(MF/CC/BP)。为缓解长尾分布,数据将部分高频关系细化扩展至 65 类,并提供 transductive 与 inductive 两种标准划分,适用于蛋白功能预测与知识推理等任务。

Data and Resources

Additional Info

Field Value
Last Updated January 15, 2026, 09:25 (UTC)
Created January 14, 2026, 03:14 (UTC)
贡献者 浙江大学(程思源、梁孝转、毕祯)