Text Analysis
文本分析
文本分析是指利用自然语言处理技术,对待处理的文本数据以自动或半自动的方式进行分词、词性标注、命名实体(常见有人名、地名、机构名)识别、关系抽取、主题建模等,从而挖掘并展示文本中的潜在特征和语义信息。
研究步骤及工具
其他常用工具
DocuSky:一个集词频统计、N-gram、命名实体识别、风格分析等于一体的一站式文本分析软件
教程1:命名实体识别与风格分析
教程2:词类统计工具使用指南
Python:一种简单易上手的、适用于处理大规模文本的编程语言
教程1:写作风格分析
教程2:使用HathiTrust语料进行文本挖掘
教程3:探索性数据的情感分析
学衡网学衡网古籍标点过录、古籍文本对勘工具:提供简单的标点过录、文本对勘功能的工具
古诗文断句:一种基于Bert的能自动对古诗文进行断句的工具
一叶故事荟:一种提炼文本关键词并计算关键词的分布和关系以及绘制全文情绪曲线的工具
Jigsaw:一种用于探索和理解文档集合的可视化分析工具
infranodus:一种文本网络分析工具(需要付费)
OverView:一种文本可视化工具
Sentiment:一种文本情感分析工具
wordless:需要登录百度网盘下载,提取密码:k3ny):一种用于计算N-gram等文本特征的工具
公共资源
领域词典
中国历史年表
相关结构化主题数据库
中国历代人物传记资料库(CBDB)
数字化典籍文本数据库
中文哲学电子书计划(CTEXT)