第一章 绪论
第一节 什么是计量文体学 1
第二节 国内外计量文体学发展的历史和现状 2
第三节 文体的计量特征 5
第二章 计量文体学相关重要统计学概念
第一节 文体特征的频率、概率、条件概率 31
第二节 文体特征的平均值、中位数、众数 37
第三节 文体特征的方差、标准差 46
第四节 文体特征的相关系数 52
第五节 特征和文体的相互信息 69
第三章 文体计量研究相关重要概率分布和定理
第一节 文体特征随机变量的分布 82
第二节 文体计量研究相关的几个重要概率分布 88
第三节 文体分析中的大数定律和中心极限定理 99
第四章 文体计量分析中的抽样和抽样分布
第一节 文章的抽样调查和抽样方法 106
第二节 文体的统计量和抽样分布 116
第五章 文体计量分析中的参数估计问题
第一节 文体特征参数的点估计 126
第二节 文体特征参数范围的估计 131
第三节 文体特征平均值范围的估计 135
第四节 文体特征参数范围估计与作家风格比较 152
第六章 文体特征差异的假设检验
第一节 何为假设检验 165
第二节 文体特征假设检验的一般步骤 171
第三节 Z检验在文体分析中的应用 175
第四节 T检验在文体分析中的应用 180
第五节 虚词使用习惯的假设检验 190
第六节 x2检验在文体分析中的应用 195
第七章 文体风格个体性差异的方差分析
第一节 文体方差分析的基本原理 202
第二节 不同作家文体特征的方差分析 209
第三节 相同作家不同作品文体特征的方差分析 220
第八章 文体特征的多变量分析
第一节 文本的聚类分析 226
第二节 文体研究中文本聚类分析的有效性 230
第三节 聚类分析和古典文学作品的作者研究 234
第四节 文体研究中文本聚类分析的局限性 241
第九章 支持向量机技术和文学作品作者鉴别
第一节 支持向量机的基本原理 248
第二节 支持向量机技术研究古典文学作品作者的有效性 249
第三节 支持向量机技术和《红楼梦》作者研究 252
参考文献 261
前 言
大概在三十年前,还是在上大学的时候,从一本日语语言学的文献中读到有人尝试使用统计学的方法研究有关莎士比亚及其作品争论的课题。这是第一次听说莎士比亚是否确有其人居然还存在争论。联想到中国大量的古典文献也存在类似问题,特别是《红楼梦》的作者问题,不但一直是红学界争论不休的热点,甚至因电视剧《红楼梦》的热播,也成了中国社会关注的对象,于是就想,难道没有一个科学的方法能够解决此类问题吗?恰好当时数学课程正在讲“概率论和数理统计”,便对用统计学方法研究佚名作品的作者问题产生了兴趣。当然,当时并不知道什么是文体学,更不知道还有计量文体学这门学问。我对文体学有系统认识是在硕士研究生时代。当时洛阳外国语学院的张云多教授开设了“文章论·文体论”,这门课系统介绍了文体学这门学问,同时也介绍了日本学者关于文体学研究方面的成果和方法。张云多教授也是我硕士时候的授业恩师。由于计量文体学研究需要进行大量数据的统计分析,而20世纪八九十年代获取文本数据比较困难,虽然具备从事这项研究所需的基本数学知识和计算机技术,但是,终因时代和数据条件的限制,这项研究暂时被搁置起来了。但是,我对计量文体学研究的兴趣始终未减,而且一直关注着日本在这方面研究的进展。
进入21世纪后,随着信息技术的进步和互联网的普及,数据的获得比较容易,文本数据的分析和挖掘研究受到广泛关注。世界上计量文体学领域的研究也有了长足的进步,日本就出版了一系列这方面的著作,而且出现了多位这方面研究的专家,比如同志社大学的村上征胜教授、金明哲教授就是这些专家学者的杰出代表。国内虽然也有一些学者在开展这方面的研究,但还是相对比较薄弱,我们甚至看不到一本系统介绍利用计量的方法研究中文文体习惯的专著。
文体计量研究有一个非常相似的研究领域,那就是文章的剽窃研究。国内因学术评价的需要有很多学者在研究学术论文的剽窃问题,这方面的成果非常丰富。学术剽窃问题研究也是研究文章的相似性问题,这和文体研究密切相关但又有严格区别。文章的相似性实际上包括两个方面,一是文章内容和观点的相似性,二是文章写作风格的相似性。通常学术剽窃主要是在自己的文章中抄袭别人文章的内容和观点,为了掩盖其抄袭行为通常会将别人的观点用自己的语言描述出来,说成是自己的。这种情况下,虽然内容观点是别人的,但是由于是用自己的语言表述的,所以存在学术剽窃嫌疑的文章通常是内容观点同别人的相似,但是文章所体现出来的写作风格却与别人不同。当然,如果是不加掩饰的全文抄袭,则不但内容观点相同,而且写作习惯也相同,这种情况是彻头彻尾的剽窃。与剽窃研究不同,文体研究的一个主要目标是要鉴别作品的真伪问题。模仿别人的习惯和风格写作,古来有之,有的是善意的,有的是恶意。如《红楼梦》的续写,作者为了能够让这部不朽之作有一个完整的结局以满足读者欣赏的需要,这个出发点不能说是不好的。而如今充斥网络的匿名文章、匿名信,却没有这样的初衷,这些东西往往会模拟别人的口吻和风格,进行造谣、污蔑和对他人进行人身攻击。这些行为有很多是恶意的。无论初衷是善意的还是恶意的,这些文字产品都会给社会留下困惑,有的需要对其作者进行鉴别。这就需要分析内容不同的文章所体现出来的写作习惯和写作风格的相似性。
研究学术剽窃和研究模拟别人写作风格的作品其实存在实质性不同。学术剽窃主要研究文章内容和观点的相似性,需要考察的对象是文章中反映文章内容和作者观点的语言表达形式以及利用这些语言表达形式来判断论文相似度。而计量文体学研究的对象是文章中能够反映文章作者写作风格和写作习惯的语言表达形式以及以此来判断不同文章是否具有相同的写作习惯、是否出自同一人之手。这两种研究都有非常高的实用价值,前者可以用以鉴别学术不端,而后者可以用以鉴别伪作。
人们普遍使用计算机写作的今天,甄别电子文本的真伪已经不能够仅依靠笔迹这种传统的证据,作者写作习惯的分析将是电子文本真伪分析的重要手段。相信随着大数据理念的提出和数据分析技术的进步,这种用计量的方法进行文体研究的学问将会越来越受到人们的关注,同时计量文体学的方法手段将会在很多领域得到应用。基于以上想法,我觉得自己有责任尽自己的能力将有关计量文体学研究的基本知识和理论梳理出来奉献给国内读者,尽管我在这方面的研究和认识是很肤浅的。2011年初我入选教育部“新世纪人才支持计划”,作为本人在该计划支持下的重要研究内容,我真正开始了利用计量方法研究文体的工作。经过3年多的努力,终于完成了拙著《计量文体学导论》。从统计的角度讲,有很多统计学方法可以在文体计量研究中得到应用,特别是多变量分析的方法层出不穷,本书中所涉及的是最基本的,目的是让读者对计量文体学有一基本认识。关于一些复杂方法的应用读者可在自己的研究中进行深入探讨。文体的计量研究至少涉及语言学、文学、数学、计算机信息处理技术等领域,属典型的跨学科交叉研究领域,限于本人能力和知识的限制,书中难免存在诸多疏漏、不足,希望能够得到广大读者的批评指正。同时,也希望拙著能够起到抛砖引玉的作用,能够吸引更多的学者投入到计量文体学研究领域中来。
2016年初,承蒙彭广陆教授的厚爱和努力,北京大学出版社接受了拙著的出版申请。在北京大学出版社兰婷老师的鼓励和帮助下,又承蒙彭广陆教授、陈小明教授的推荐,本书通过北京大学出版社申请了北京市社会科学理论著作出版基金资助并获得了成功。在此向在拙著出版过程中给予帮助的专家、学者和朋友们表示衷心的感谢!本书的出版还与父母、家人的理解、支持是分不开的。特别是妻子和孩子,正是因为有她们在后面默默的付出和努力,我才得以专心致力于此项研究,顺利地完成书稿的写作。值此书出版之际也向亲人们表示由衷的感谢。
施建军
2016年6月19日于北京
本书通俗而且详细介绍了开展文体计量研究所需的统计学基础知识,并且利用统计学方法以及基于现代统计学理论的计算机文本挖掘技术(文本聚类和分类技术)开展了以下几方面的计量文体学研究:中国古代和现代文学作品的文体特征抽取、作者鉴定方法、特定作品的文体分析、作家语言使用的变异、以及计算机文体计量相关软件工具使用等等。用计量方法研究了一些历来受到社会广泛关注的文体学问题,如作者不同文体风格相似作品的作者区分、作者相同风格不同的作品分析、古典名著作者的计量文体学分析等等。
北京外国语大学教授,主要从事日文信息计算机智能处理、日语语言学、文学作品作者鉴别、汉字文化圈国家语言文字、计算机辅助外语教学等领域的研究。主持或承担国家重大项目2项、国家社科项目3项以及多项省部级项目和国内外横向项目。
本书通俗而且详细介绍了开展文体计量研究所需的统计学基础知识,并且利用统计学方法以及基于现代统计学理论的计算机文本挖掘技术(文本聚类和分类技术)开展了以下几方面的计量文体学研究:中国古代和现代文学作品的文体特征抽取、作者鉴定方法、特定作品的文体分析、作家语言使用的变异、以及计算机文体计量相关软件工具使用等等。用计量方法研究了一些历来受到社会广泛关注的文体学问题,如作者不同文体风格相似作品的作者区分、作者相同风格不同的作品分析、古典名著作者的计量文体学分析等等。