介绍
"中国历史人物资料库"(CBDB)是由美国哈佛大学发起筹建的,包含从唐朝至清朝四十余万人的传记资料库。为进一步呈现和发掘这一开放资源的价值,我们尝试应用知识图谱实现对数据的展示和查询,从CBDB中抽取宋代人物之间的学术传承关系和部分亲属关系,构建了一个示例性的本体应用,共导入70万条RDF语义数据,利用开放源码relFinder提供动态的、可视化的历史知识探索与发现。方法
"宋代学术传承知识图谱"的构造有三个步骤:本体设计、数据生成、系统实现。本体设计
在CBDB的关系体系中,“师生关系”类包括10种关系,“学术交往”类包括30种关系。我们结合文献资料对此进行整合,聚焦”师承关系“,并定义其包含师生关系、传承关系、指教关系。在师承关系定义的基础上,考虑到宋代文人家族治学与社会学术发展的密切关系,我们又将亲属关系引入知识图谱。数据生成
数据由关系数据库中提取并转化为RDF数据,最终以可视化方式呈现,共经历了数据存储层、抽象建模层、关联层、应用层。系统实现
系统嵌入开源工具RelFinder通过Sparql端口实现对RDF的查询和可视化。该工具提供了对人物、地点、关系的组合查询,以可视化的方式展示查询结果,还可对检索结果中的类、联系进行多重过滤。主要功能如下:a. 支持多对象的关系查询:
可以利用该工具实现对任意两个或多个实例间关系的查询,检索结果将显示查询到的所有直接与间接关系。
b. 支持检索结果的筛选过滤:
利用左侧查询框下的Filter by工具栏,可以依据关系链长度(反映直接关系或间接关系)、实例类型、关系类型、连通度(反映一个关系涉及多少查询目标实例)等四个指标筛选检索结果。
c. 支持检索结果的高亮显示:
在检索结果页面,圆角矩形代表实例,矩形代表属性,带箭头的线段代表实例之间的关系。用户可以根据需求,选中相应实例,高亮关系链。
总结展望
目前的数据范围为CBDB数据库中的宋代人物数据,关系限于学术传承关系和亲属关系。在下一步的研发中,我们将:进一步探索CBDB中其他学术与社会关系的本体化和语义化;
引入更多通用本体,通过复用的方式更新本体的概念和关系,使CBDB向着关联数据的方向发展;
目前RelFinder工具仍有较多局限性。我们将尝试开发适用于CBDB知识浏览和知识发现的可视化查询界面以及在此基础上的其他应用。
开发团队
设计开发:杨海慈本体设计:彭悦
后台部署:陈润文
指导教师:王军