代码.zip
本项目代码围绕《甄嬛传》人物知识图谱构建与问答功能实现,主要包含三大核心模块: 1. 数据预处理代码:实现中文 Wikipedia《甄嬛传》角色列表定向抓取(限定核心 / 次要角色,解析 DOM 结构、表格 / 列表字段映射),完成文本清洗(繁简转换、噪声去除)、实体过滤(三重校验规则)、去重(唯一键机制),生成标准化zhenhuan_entities.jsonl实体文件;同时实现三元组转换(生成 775 条 SPO 关系)、多格式导出(CSV/JSONL/RDF/TTL)、向量索引构建(基于 bge-large-zh-v1.5 生成 1024 维向量索引kg_index.pkl),代码内置配置常量、异常处理与日志提示,保障可扩展性和可维护性。 2. 文本知识抽取代码:基于大模型搭建 “上下文增强 — 联合抽取 — 后处理对齐” 抽取流水线,包含实体约束(构建角色白名单注入 Prompt)、端到端联合抽取(拼接多字段上下文、Schema 约束解码、JSON 结构化输出)、实体归一化(Map-Reduce 范式完成地点 / 物品实体对齐),最终生成带原文证据溯源的结构化三元组。 3. 知识图谱问答代码:基于 RAG 思路,实现向量索引加载、语义检索(bge-large-zh-v1.5 编码 + 余弦相似度匹配)、大模型生成(ModelScope 加载 Qwen2.5-7B-Instruct,FP16 半精度部署,结构化提示词约束生成),输出带三元组证据的自然语言回答,缓解大模型幻觉问题。
该资源暂时没有视图
其他信息
| 域 | 价值 |
|---|---|
| Data last updated | 2026年2月12日 |
| Metadata last updated | 2026年2月12日 |
| 创建的 | 2026年2月12日 |
| 格式 | ZIP |
| 授权 | Creative Commons Attribution |
| Datastore active | False |
| Has views | False |
| Id | 21362897-937a-4afb-ab65-be39008e15c1 |
| Mimetype | application/zip |
| Package id | dd25db9d-8ca8-4c95-bcd6-8c2224b1ae97 |
| Position | 0 |
| Size | 214.6 KiB |
| State | active |
| Url type | upload |