该案例来自于Petr Plecháč于2019年3月发表于康奈尔大学电子预印刷本资料库的文章《Relative contributions of Shakespeare and Fletcher in Henry VIII: An Analysis Based on Most Frequent Words and Most Frequent Rhythmic Patterns》,原文可见arXiv preprint arXiv。本案例只对研究方法和流程进行介绍,具体分析内容可见原文。

研究简介 剧作《亨利八世》(Henry VIII)是一部合作的作品,并非威廉·莎士比亚(William Shakespeare)独有。Petr Plecháč[研究方法]通过词汇的频次和韵律与机器学习的方法;[研究目的]来确定哪些作者也参与了剧本的写作以及他们的相对贡献是什么。

研究设计 研究依据 基于词频统计 基于词汇韵律 研究框架 该研究作者分别将莎士比亚同时期作品以及‘代写’嫌疑人的作品都输入到了算法系统(分类模型)当中,让分类模型学习他们各自的语言风格,行文习惯等 算法模型:支持向量机 使用特征 500各高频词的词频、500个高频韵律的频率。此外,也训练了只使用高频词或只使用高频韵律作为特征的模型。 训练语料 同时代三者作品的所有场景,共计53个莎士比亚(Shakespeare)样本,90个弗莱彻(Fletcher)样本,46个菲利普·马辛格(Massinger)样本【注释1】。 模型验证【注释2】 分类模型都学习完成后,作者将《亨利八世》输入到算法系统中,进行逐字逐句分析滚动归因测试结果

text

根据结果,剧作中存在着许多风格突然转变的地方,对分格转变进行分析。 该研究提出滚动归因方法以区分多个作者的贡献分类问题【注释3】。 将未识别出的‘代写’嫌疑人的著作输入到分类模型中,通过模型对其行文分析,以排除或确定其代写可能性

结论分析 通过莎士比亚与其“代写”嫌疑人(弗莱彻和菲利普·马辛格)的其他作品训练分类模型 《亨利八世》写作风格分析 《亨利八世》确实是由两个人合作完成的,并且另外一个人,就是现有研究多所怀疑的弗莱彻。

剧作中存在着许多风格突然转变的地方,例如第一幕的第三场,第三幕的第一场等。而从统计结果来看,这部作品真正来自于莎士比亚笔下的,只有一半左右。

text

其他“嫌疑人”的确定或排除 为了让测试更加严谨且更具对比性,通过将另一位‘代写’嫌疑人菲利普·马辛格的著作风格进行分析。

结果显示,虽然与菲利普·马辛格与《亨利八世》的行文风格也有相似的地方,但占比相比起弗莱彻的根本不值得一提,所以基本可以排除菲利普·马辛格的嫌疑。

案例注释

  1. 为解决样本数据的不平衡,通过随机抽样得到每个作者的相同数量的训练样本;为了得到更加有代表性的结果,对每个场景的分类重复三十次。

  2. 为了避免过拟合,该研究未使用标准k折交叉验证,对一个戏剧中的场景的分类使用的训练数据是所有其他戏剧的场景。

  3. 滚动归因是专门为混合作者的问题所设计的技术,是对固定长度的重叠部分进行分类,使用一个作者概率分布来进行归因。 使用Shakespeare和Fletcher的各4个戏剧进行了滚动归因的测试。选定固定长度为100行,步长为5行,每个戏剧训练30个模型(训练特征、抽样方式、验证方式与之前相同),最终的输出结果转化为一个概率分布。

-(add link !!)论文原文:Relative Contributions of Shakespeare and Fletcher in Henry VIII: An Analysis Based on Most Frequent Words and Most Frequent Rhythmic Patterns