美斯蒂芬W.劳登布什Stephen W. Raudenbush,美国密歇根大学教育学院教授、统计学系教授,密歇根大学调查研究中心高级研究员。主要研究领域:多层分析与历时研究的统计方法。 美安东尼S.布里克Anthony S. Bryk,美国芝加哥大学社会学系城市教育Marshall Field IV 冠名教授。领导了芝加哥大学学校改进中心,并且是芝加哥大学学校研究协会的资深指导。主要研究领域:学校组织、城市教育改革、可计量性及教育统计学。
中文版译者序
《分层线性模型应用与数据分析方法》第2版的中文版终于与读者见面了。
分层线性模型是1990年代在国际上形成并正在迅速推广应用的新统计分析技术。由美国芝加哥大学的布里克教授和密歇根州立大学的劳登布什教授于1992年合著的《分层线性模型应用与数据分析方法》是这一统计分析方法的代表作之一。
我是在1990年代后期才知道这种分析方法的。2000年,在美国执教的朋友王丰博士送给我此书。在研读过程中,我深为其方法论上的推进和其广泛的应用性所吸引。
此书既是一本专著,也可以作为教材,因为作者实际上是按教材体例写的。该书首先从方法论角度展开,指出研究实践中最常用的常规回归模型在处理多层次关系时的无效性。然后介绍了分层线性模型的原理,讨论了该模型在多种典型情况下的应用,并附以许多例题的分析示范,十分解渴。显然,此书的宗旨并不囿于证明一种新方法,而是考虑了能够为更多的研究人员和学生所理解,以促进该方法的普及应用。事实上,该书作者同时也是同名的专门统计软件HLM的研制者。
我于2001年开始组织一些教师和博士研究生一起分工翻译该书。2002年,劳登布什教授与布里克教授又出版了该书的第2版。其内容大大扩展,从原来的10章扩展为14章,从原来的260页扩展为480页,以充分反映10年来这一方法取得的新进展。我们随即决定中止第1版的翻译工作,改为翻译第2版。本来我们翻译此书的目的只是团结一批有志于量化研究方法的青年学者一起追踪国际学术前沿,但经过2年时间的反复校正与修改,最终我们形成了格式统一、译法一致、图表俱全的译稿。
北京大学社会学系马戎教授等同仁见到这个译本后,一致鼓励我们应当争取正式出版,并且还为此事多方联系。但是出于各种原因,正式出版之事一再受挫。最后,在社会科学文献出版社谢寿光社长的鼎力支持下,这本译著才得以正式出版。
本书的翻译采用团队工作形式,由郭志刚(第1、2、8、10、12章)、郑真真(第11章)、陈卫(第5章)、周皓(第6、7、14章)、李强(第3、4章)、葛建军(第13章)、张磊(第9章)共同承担,最后由郭志刚负责全书的统稿和校对工作。我的研究生巫锡炜、赵联飞、李睿、王军协助进行最后的清样校对工作。
感谢杨桂凤编辑高度认真负责的精神,她的辛勤努力使这一中文版增强了文本的一致性,并提高了语言上的易读性。
由于译者水平有限,对此学术前沿巨著的理解和翻译难免有不当之处,恳请读者指教。
郭志刚
于海淀蓝旗营
致谢(英文版第2版)
自本书第1版出版以来的十年中,分层模型的有关方法得到了长足的发展,并且在各领域中得到了广泛的运用。因此可以说,本书第2版一方面是原作者之间长期大量合作的成果,另一方面也是与更多的其他同事合作与讨论的成果。需要感谢太多的人,但在此处不能一一列出。无论如何,其中一些人是必须提到的。正是因为有了他们,本书才最终得以付梓。
与Darrell Bock、 Yuk Fai Cheong、 Sema Kalaian、 Rafa Kasim、 Xiaofeng Liu和Yasuo Miyazaki等人在方法论上的讨论,不断地挑战着我们的想法。Yeow Meng Thum的工作启发了本书第6章和第11章中有关多元分析的应用。Mike Seltzer对第13章的贝叶斯方法提出了极为重要且非常有用的批评,并慷慨地允许将其研究成果作为最后一个例子加入该章。Meng-Li Yang和Matheos Yosef在发展分层一般化线性模型(第10章)中所用的最大似然估计方法方面做了基础工作。Young-Yun Shin仔细阅读了本书的初稿,并提出了许多建设性意见。Guang-lei Hong对初稿提出的批评意见促使第12章交互分类模型的形成。作为应用程序员和长期的朋友,Richard Congdon的工作体现在本书的每一章中。Stuart Leppescu也为第2版的数据处理和新的分析工作提供了协助。
芝加哥社区人类发展项目(the Project on Human Development in Chicago Neighborhoods, PHDCN)中的同事,包括Felton Earls、 Rob Sampson和Christopher Johnson,都对本书第2版有着重要影响,这体现在第10章和第11章中关于社区效应的例子上。的确,我们还要感谢麦克阿瑟基金会(the MacArthur Foundation)、国家司法研究所(the National Institute of Justice)和国家精神卫生研究所(the National Institute of Mental Health)对芝加哥社区人类发展项目的资助,该项目也支持了本版新章节中关键性方法论方面的工作。
我们特别感谢Pamela Gardner,她帮助检查、编辑并录入了本书的全稿。她的高效率和幽默感是保证整个工作顺利进行的基础。
匿名评论者对这一版的新章节提出了许多有益的建议。作为Sage出版社的方法论编辑,C.Deborah Laughton对本书的出版给予了令人钦佩的耐心和精神上的支持;我们还要再次感谢系列丛书的主编Jan de Leeuw的鼓励。
丛书主编对分层线性模型的介绍
在社会科学中,数据结构经常在以下意义上是分层的:我们有描述个体的变量,但是个体又组成较大的群体,每一群体由一定数量的个体组成。对于较大群体还有一系列变量来描述。
首推的例子也许是教育。学生组成班级,既有变量描述学生,又有变量描述班级。班级变量也许是学生变量的汇总指标,诸如学生数量或社会经济状况的平均值。但是班级变量也可以是教师(如果本班只有一个教师),或者是本班的教室(如果本班总是聚会于同一教室)。此外,在这个例子中,层次结构还会相当自然地延伸。班级还会进一步组成学校,学校构成校区,等等。我们也可以有描述学校的变量和描述校区的变量(如教学方式、学校建筑、邻里状况等)。
一旦我们发现这个分层数据结构的例子,我们就会看到更多的例子。它们自然地发生于地理和(区域)经济中。在某种意义上,社会学的基本问题就是将个人属性与所寓于其中的群体和结构的属性联系起来。以同一种方式,经济学的问题是将微观层次与宏观层次联系起来。此外,许多重复测量也是分层的。如果我们不断追踪调查一些个体,那么对任一个体的观察构成一组测量,按照同一种方式,一个学校或班级也构成一组测量。当每个调查员调查一组对象时,调查员便处于较高层次。只要对这些分层结构多加思索便会不可避免地导致一个结论,即使不能说大多数,至少也能说很多社会科学数据都有这种嵌套的或分层的结构。
在意识到分层数据的重要意义之后,下一步是考虑如何在统计技术上体现对分层结构的分析。有两种做法已经遭到否定。第一种做法是将所有高层变量分解disaggregate到个体水平。比如将教师、班级和学校的特征全都赋予学生个人,然后在个体层次进行分析。这一方法的问题是,要是我们知道一些学生是同一班级的,那么我们也就知道他们在班级变量上取相同的值,于是,我们便不能采用经典统计技术的基本假定,即各观测之间相互独立。另一种做法是先将个体水平的变量汇总到较高层次,然后在较高层次进行分析。比如我们将学生特征汇总到班级,然后再对班级进行分析,分析时也许还需要按规模对班级加权。这种做法的主要问题是,我们抛弃了所有的组内信息,它也许占到最初分析时信息总量的80%或90%。其结果是,汇总变量之间的关系总是显得较为密切,然而这常常与直接分析未曾汇总的变量所反映的情况大相径庭。于是,我们不但浪费了信息,而且要是我们企图在个体层次解释汇总分析结果,还将导致对结果的曲解。所以,汇总方法和分解方法都不能令人满意。
如果仅限于用常规线性模型进行分析,我们知道其基本假定有线性、正态性、方差齐性、独立性。我们希望保留前两项,但需要对后两项(尤其是关于独立性的假定)加以修改。修改的主要原因在于:由于同组的个体之间比异组的个体之间更为接近或相似,所以一个学生与其他班级的学生可能是相独立的,而与同一班级的学生在许多变量上相同。那么,这些变量并不需要观察,这意味着它们从线性模型中消失,进入误差部分,并导致残差之间出现相关。这一思路可以用方差成分模型来做公式表达。残差之间可分为组成分和个别成分两种。个别成分之间相互独立,组与组之间也是独立的,而组成分与组特征完全相关(即组内不独立)。一些组可能比另一些组有更强的方差齐性,即这些组的组内成分方差有所不同。
对这一思路的公式表达也可采取稍微不同的形式。假定每一个组都有不同的回归模型,在简单回归的情况下,每个组都有自己的截距和斜率。由于各组都是通过抽样得到的,因此我们假定这是以组为单位构成的总体的组截距和组斜率的随机样本。这定义了一套随机系数的回归模型。要是我们仅仅假定它们的截距是随机的,而令所有的斜率相同,其实我们面对的正是前面提到过的方差成分研究的情况。要是允许斜率也可以随机变化,这套模型的情况便更为复杂,残差的协方差将依赖于个体层次自变量的取值。
在随机系数的回归模型中,也仍然不能与较高层次的(比如描述班级或学校的)变量相联系。为了达到这一目的,我们需要多层模型,其中以组为单位的模型还是线性模型。于是我们假定,学业能力测试值这一学生变量的斜率与班级规模或教师特征等班级变量之间呈线性关系。所以,在每一层次都有一套线性模型,要是存在很多层次,便有很多嵌套的线性模型。于是,我们便有了一整套反映分层结构的模型,使各个层次的变量联系起来。
直到大约10年前,拟合这样的模型才在技术上成为可能。大约与此同时,Aitkin和Longford、Goldstein及其合作者, 以及劳登布什和布里克纷纷研发出了有关分析技术及其相应的计算软件。其中,由布里克和劳登布什研发的HLM软件对用户最友好,在技术上也最完善,并且他们还及时发表了一系列既有说服力又有意思的范例。在本书中,布里克和劳登布什详细地描述了这种模型、其计算方法,以及有关程序和范例。我认为,现在来对这一技术方法提供一个完整的介绍是既重要又及时的。分层线性模型hierarchical linear models,或称多层模型multilevel models,当然不能解决社会科学中所有的数据分析问题,因为它们还是建立在线性关系和正态分布假设基础之上的模型,并且它们所研究的仍是相对简单的回归结构,只是其中一些变量依赖于其他变量。然而,它们在技术层面已经使汇总和分解的做法向前迈了一大步,这主要是因为它们在统计原理上是正确的,并且避免了信息的浪费。
我认为,这本书的主要贡献在于通过一系列例题的分析示范为读者提供了清晰的概念。本书对各种不同层次的模型做了清楚的分类,同时又未完全割断其间的联系。读者可以分别把握某一层次中可能的机制,然后再将不同层次的模型联系起来进行分析。未来,这些技术会对教育研究以及地理学、社会学和经济学的研究产生重要影响,直到它们也遇到其自然限制。为了避免这些限制,这些模型还将扩展(并且已经扩展)到更多层次,扩展到多元数据,扩展到通径分析、潜在变量、名义因变量以及一般化线性模型,等等。社会统计学家将有能力建立更为广泛的模型,并且可以在更多的模型中进行选择。如果他们能够建立起必要的前提信息条件,作为从这一模型各类型中进行合理选择的依据,那么有望获得更强的能力和精度。请把这一思想记在心底,因为你将使用这本书来探索这一类新兴而又令人兴奋的技术方法。
丛书主编 Jan de Leeuw
丛书主编对第2版的介绍
本书的第1版一直很畅销,这说明本书提供的技术细节水平符合许多社会科学和行为科学研究人员的需要。它还包括了足够的实际操作建议和研究示范,并且与相应的HLM软件结合起来,因此本书对许多人而言还是多层分析的手册和用户指南。然而,已经过去了10年,本书现在需要加以更新了。
在这10年间,多层分析又有了很大的发展。在社会科学和行为科学领域,这一技术如同野火蔓延,研究者已经发表了很多应用成果。在某些领域,分层线性模型HLM已经成为数据分析的典范,基础软件包已经通用化,并且日益完善。更为重要的是,混合模型多层模型是其中一个特例也在统计学中占据了主导地位。尤其是非线性混合模型和一般化线性混合模型GLMM,已经成为统计学和生物统计学中最活跃的研究领域的基础。这方面的研究已经导致许多令人鼓舞的理论和计算方面的发展。
如果我们比较本书的第1版和第2版,最明显的变化是增加了4章全新的内容。第10章包括分层一般化线性模型,即GLMM模型的一个重要分类,这些模型容许研究者来处理整数值的结果变量如计数、频率、率、比例。第11章增加了对潜在变量所做的分层模型,包括测量误差和分项反应模型。第12章将标准的多层嵌套假设一般化,从而容许做更为复杂的交互分类设计。第13章从贝叶斯估计角度对分层模型进行评述,并讨论了马尔可夫链的蒙特卡罗计算方法。这4章都是与前10年中多层分析最活跃的研究领域相呼应的,并且呼应了基础计算机软件包(如HLM和MLWin)中新近增加的功能。每一章都放松了第1章(和第1版)中的一些关键假定条件,这意味着,到了最后,我们其实已经是在处理很大一族模型和技术方法了。
第1版中的技术附录已经由新的第14章的估计理论取代。这一章从技术细节上讨论了贝叶斯估计和最大似然估计的方法及其相应的计算问题。此外,这一章还包括了最新的发展,比如对似然函数的拉普拉斯近似估计。要是我们仔细比较这两个不同版本,还可以发现第2版对第1版的几百处修订和增补。
我曾经多次在别的地方评论说,分层线性模型已经很好地确立起来,然而这些模型在许多方面并没有得到充分的理解。所以,例常性的应用还未得到实现,也许永远也不能实现。新的一版比前一版的内容更为深入,还讨论了功效、样本规模、数据的预处理(如对中处理)等,这为我们提供了对这一技术的基本理解。当然,由于新增章节增加了(更多)更复杂的模型及更复杂的计算步骤,在研究与数据分析之间的分界线有所改变,并且还介绍了很多不能算是例常情况的选项。阅读这本书并不能使你成为所有这些不同领域的专家,但是可以使你了解这些选项是什么,你可以在哪里找到你需要的专家,你可以向他问什么问题。
在这两个版本的比较中,我们还注意到,作者们感到他们工作和贡献的平衡有所倾斜,以至于署名的顺序发生了变化,因此在行为科学和社会科学中多层分析标准文本的署名顺序已经不再是布里克和劳登布什(Bryk & Raudenbush, 1991),而成了劳登布什和布里克(Raudenbush & Bryk, 2001)。对于在这些领域工作的统计人员来说,最重要的问题可能是:我是否应该更新?回答是肯定的。你会得到比前一版多一倍的材料,并且这些材料更加新颖、更加整合,介绍了统计研究中一些最令人鼓舞的新领域。此外,你的工具箱中还会加入许多新奇的、有发展前景的工具。而我们,作为编辑,十分自豪我们的系列丛书能够得到这样的更新。
丛书主编 Jan de Leeuw