甄嬛传 - 代码.zip - 开放知识图谱

本项目代码围绕《甄嬛传》人物知识图谱构建与问答功能实现，主要包含三大核心模块： 1. 数据预处理代码：实现中文 Wikipedia《甄嬛传》角色列表定向抓取（限定核心 / 次要角色，解析 DOM 结构、表格 / 列表字段映射），完成文本清洗（繁简转换、噪声去除）、实体过滤（三重校验规则）、去重（唯一键机制），生成标准化zhenhuan_entities.jsonl实体文件；同时实现三元组转换（生成 775 条 SPO 关系）、多格式导出（CSV/JSONL/RDF/TTL）、向量索引构建（基于 bge-large-zh-v1.5 生成 1024 维向量索引kg_index.pkl），代码内置配置常量、异常处理与日志提示，保障可扩展性和可维护性。 2. 文本知识抽取代码：基于大模型搭建 “上下文增强 — 联合抽取 — 后处理对齐” 抽取流水线，包含实体约束（构建角色白名单注入 Prompt）、端到端联合抽取（拼接多字段上下文、Schema 约束解码、JSON 结构化输出）、实体归一化（Map-Reduce 范式完成地点 / 物品实体对齐），最终生成带原文证据溯源的结构化三元组。 3. 知识图谱问答代码：基于 RAG 思路，实现向量索引加载、语义检索（bge-large-zh-v1.5 编码 + 余弦相似度匹配）、大模型生成（ModelScope 加载 Qwen2.5-7B-Instruct，FP16 半精度部署，结构化提示词约束生成），输出带三元组证据的自然语言回答，缓解大模型幻觉问题。

域	价值
Data last updated	2026年2月12日
Metadata last updated	2026年2月12日
创建的	2026年2月12日
格式	ZIP
授权	Creative Commons Attribution
Datastore active	False
Has views	False
Id	21362897-937a-4afb-ab65-be39008e15c1
Mimetype	application/zip
Package id	dd25db9d-8ca8-4c95-bcd6-8c2224b1ae97
Position	0
Size	214.6 KiB
State	active
Url type	upload

代码.zip

其他信息