传统的古籍整理通过选定某一代表性版本作为底本,通过与其他版本的对勘校订底本文字,同时施以现代标点,标示书名、人名、地名、朝代名,旨在提供一个文字准确,标点可靠,方便阅读的排印文本。古籍自动整理平台项目按照传统古籍整理的流程,利用最先进的图像识别技术和自然语言处理技术,开发了一个从古籍图片OCR文字识别,到自动断句、命名实体识别、文本校勘的全流程的古籍整理平台原型系统。本系统的OCR识别模块集成多种图像识别技术,文字识别准确率达到92%,可进行单图片处理,也可进行批量图片处理,同时可对识别结果进行人工修改;断句模块基于最新预训练语言模型BERT,断句准确率可达93%,可同时处理简体和繁体文本;命名实体模块采用深度学习与规则的结合方式,提供了多粒度的命名实体抽取方案,同时结合主动学习对海量未标注数据进行“重要性句子”排序与甄别,从而在保证模型性能的条件下,尽可能减少人力标注成本。