谨慎看待高等教育领域中各种评价

作者：来源：转载发布日期：2019-05-10 浏览次数：次

　　一

　　早在20世纪80年代，围绕政府对高等教育的管理如何从传统行政指令的刚性控制转向宏观指导与调控，无论是官方还是民间都有过不少讨论，评价作为调控手段之一，就曾被一而再地提起。但是，至少在当时，人们对究竟评价什么、该如何评价、评价结果怎么用、尤其是评价可能带来什么效应等问题，还缺乏深入的理解与认识。人们一度认为，它是实现政府放权、以评价缓解甚至替代行政刚性指令的不二法门。进入90年代中期特别是新世纪之后，在西方世界乃至各类国际组织极为推崇新公共管理理论，强调质量(结果)、效率与问责的整体氛围中，我国也正好搭上这班快车。于是，把质量与绩效评估结果作为政绩业绩考察和公共资源分配依据的效率化取向，迅疾成为我国高等教育体制改革与政策调整的重要方向。从本科教学评估到高校办学水平评估、从学科评估到各种各类工程、研究与人才项目评估、从教师教学评价到学术水平评价，各种评价项目令人眼花缭乱。与此同时，中外各种民间的大学与学科(排行)评价也顺应市场需求应运而生，每年各种大学排行、自然指数与ESI各类数据竞相出台，已成为各校心态与情绪起伏的晴雨表。

　　评价结果不仅事关机构与学科的地位和声誉，更关联到其生存与发展空间，因此如今再来审视，在一定程度上，评价早已不是一种简单的管理手段和工具，毋宁说是一种政治，又是一种文化。简而言之，评价会衍生为权力，它不是传统的刚性行政控制，但其威力却不见得弱于刚性控制；评价会重塑领导风格、人们的工作与生活方式乃至观念和信念，在各种标榜客观、具有可显示度的指标关注或者说数据所构织的权力之眼下，学术工作方式、价值取向甚至日常话语表达和沟通方式都发生转换甚至扭曲，譬如，如今学者间最为流行的日常表达句式便是：我中了个某某项目，我发表了某区n篇SCI、SSCI论文……。每年年底考核，点数计分，几家欢乐几家愁，种种学者已经习以为常的现象，便生动展现了大学中的这种日常生态。

　　二

　　广义而言，评价其实绝不仅仅是一种手段，也是人类的一种日常甚至下意识的思维习惯，在日常生活中，为人处世、接人待物，行思坐忆、品物鉴质，评价无时不有、无所不在。在学术界，一所大学的声誉、一位学者的学品和一部学术作品的质量高下如何，人们通常也自有评判，故而，在此所指的评价显然并非是广义的而是狭义上有组织乃至制度化的评价，即俗常中人们所提及的评估。相对于广义上评价的个体主观性，有组织的评价更强调客观中立即科学性原则，因而，经验上可观测、可量化乃至主观判断的要素化与指标化，就成为其获得合法性的基本依据。而人们对当前高等教育领域评价所存在的问题和负效应的争议，其实也正源于此。

　　首先，客观是否可能？一所高校人均经费、占地、建筑面积与图书拥有量多少，生师比多少、课程开设量等等，这些无疑是可以指标化与量化的，但是人才培养的效果究竟如何，学术创新的水平如何，要做到完全客观评测却绝非易事。这主要是因为人的能力表现与学术品质不仅具有内在难以观测特征，而且其外显或物化形态的呈现具有滞后性甚至不可预测性的复杂性特点。但要满足客观化的要求，就唯有将评价对象的主观特性尽可能予以量化，舍此别无二途，这也是为何现实之中令人侧目的各种计数取向的根由所在。譬如，在学术评价中，为体现客观性，简单的论文计数不敷所用，于是就有了引用次数，进而刊物影响因子与各种分区、ESI引用排名等等，计数模型越来越精致化。然而模型再精致化，数据再丰富，如果数据的内涵不能反映学术的内在品质，这种评价就难以做到完全客观。

　　其次，如果评价难以做到完全的客观化，而评价结果又是与机构的市场声誉、资源配置、个人的学术地位以及经济收益建立关联，那么它就必定成为现实中机构与个体的行动指南与指挥棒。你评价中设置什么指标，我就突出生产什么指标，没有可以制造甚至编造，有了可以取巧复制，产量上去了，排名进位了，于是政绩和业绩也有了，但一系列负效应也显现了：机构特色因为用一把尺子测量而被湮没了，人才培养的个性化隐而不现了，学术人承担高风险创新研究的勇气没了，大学之中甘于寂寞、一心育才、追求真理的氛围被功利化气息冲淡了。其结果便是出现开篇提到的情形，如今大学城中的人们越来越少提及人才培养与学术贡献，而开口闭口的都是项目、论文、奖项以及帽子等等。

　　对于上述问题，其实学术界从来不乏清醒的认知，各种质疑和抨击之声也从未停息，但出于“始生之物，其形必丑”“有总比无好”，或者某些偏颇的存在是特定发展阶段的必要特征，以及为体现制度与政策实施过程中的程序公正总要付出一些代价，如此种种心态。这些质疑往往被各方评价主体一笔带过，而少有人会反思这样一些根本性的问题：评是否总比不评好？哪些事项值得评？如果可评，谁来评和该如何评？是否对评价的风险有充分预估？

　　三

　　高等教育领域各种评价流行，甚至成为一种政治和文化的背景缘由在于：第一，在近40年我国高等教育放权赋能背景与趋势下，评价无疑是举办者以及管理者强化问责和督促办学者行为自律的最合用工具；第二，因为越来越关注基于效率取向的市场竞争手段，在针对机构以及个人的非均衡资源分配的大环境中，评价结果自然是实现按绩效配置资源最为简便的参照依据；第三，时下全球高等教育问责过程中对评价手段的推崇，为我国各种评价制度的推行提供了合法且入主流的理由；第四，作为后发国家所特有的赶超意识，我们对国际发表、国际标准、世界排行与国际认可极为青睐，而尤为推崇具有所谓可显示度的国际量化数据比较和评价，并视其为衡量自身与世界一流水平间距离和国际化水平的重要标尺……，如此等等。

　　因此，时下各种评价制度的盛行不仅有其适宜的气候与土壤，而且也不容否认其存在的一定合理性，例如，它们的确在不同领域一定程度上发挥了诸如规范化和激励性、促进质量保障与提升的功效，国际化的广度与深度都有所改观。但是，值得检讨与反思的是，以评价替代刚性控制、放权赋能的目的达到了吗？现实中自上而下围绕政府所关注指标的全面动员、指标化任务分解分派、绩效计分与按分计酬等现象，显然让人对此难以认可与信服，甚至体会到一种有过之而无不及的隐性控制，由于这种控制具有外源性和强制性特点，它很难转化为内部的自觉与自律；评价作为一种激发竞争的手段，真正实现了资源的合理配置了吗？恐怕不见得，因为效率的本质是以更低的成本获取更大收益，而现实之中，越是资源相对充裕，可能资源浪费越突出，更何况，体现为量的增长的效率并不等同于品质的提升。以学术评价为例，大量研究人力财力投入巨大，但为迎合评价需要大多为规避风险的低层次重复性的工作，其论文产出越多，指标越好看，其创新品质可能越成问题。除此之外，众多有组织的评价本身也是一个成本高昂的过程，它不仅需要相当的财力投入，而且让迎评者投入了巨大精力，甚至影响了正常工作的有序展开。

　　凯尔斯在对世界部分有组织的国家高等教育评价制度全面考察后尖刻地指出：很多国家认为该制度很管用，但是到目前为止，它并没有推动大学去发展形成一个良好的自我管理文化，反而更像是一个以问责之名“有些高高在上、费用昂贵、往往非常政治化的活动……，它甚至以不成熟的菜谱和简单、浪费、死板的方法，抑制了众多成熟和杰出大学的活力”。凯尔斯的批评或许有些过激与偏颇，但冷静地审视当下现实，我们不能不说：一些不当评价不仅仅是一个驱赶的鞭子，它还像是一个扣紧在机构与学术人颈部的牵引绳，让大学与教师失去了自我掌控的方向感，其行动与特色、个性、差异化和多样性渐行渐远。

　　四

　　高等学校是一个投资巨大且关联到社会创新动力与活力的公共机构，它必须且理当要应对和接受政府以及公众的问责，以令人信服的证据对社会有所交代。但是，高校组织以及学术活动的特殊性，又决定了它不可能是一个可以由非专业的外行随意介入的领域，因此，由专业性机构适时组织相关评价无疑有其必要性。然而，在此不妨回应一下上文所提到的问题：

　　第一，只要是有组织的评价，就必定有标准，无论它在声言意义上是如何强调质量观的多元化与评价手段的多样性，都不可能反映现实中机构与人的存在和发展状态的复杂多样性，有评就必然比无评更容易抑制生动多姿的现实生态。因此，减少一些不必要的评价，而督促高校以更加全面透明的信息公开制度替代之，让公众根据自我需求对高校办学水平自行判断，不仅顺应了社会监督与问责的趋势，而且会真正激发高校根据社会多样化需求自主办学的活力。

　　第二，有组织的评价应该更多为政府所主导的有关基准性评价，譬如高校设立、学科与专业设置条件审核与质量认证，或者行业主导的专业资格审核与认证，而淡化排序分等的水平或优选评价。基准评价也为底线评价，它是保证基本教育质量的各种有形无形的资源条件与基础。而优选评价不同，如果处置不慎，则往往沦为修枝剪叉的园艺技术，是泯灭个性、差异性和多样性而走向均质性乃至同质性的渊薮。

　　第三，当然，在现实之中，考虑到资源配置的效率化需求如“双一流”重点建设单位选拔和人才支持计划的人员遴选，或者日常岗位聘任与考核制度中绩效认定的要求，针对机构或者个体的某些优选评价或水平评价也是在所难免，这就涉及到谁来评和如何评的问题。学术评价的主体理应为专业同行，但同行评价并非没有瑕疵。因此，为规避其中有可能存在的利益与人员牵连，选择无非有二：要么采取匿名方式，但要强化严格的保密与泄密责任连带制度，要么将评议人与评议对象的相关信息公开化与透明化，以倒逼参与者的行为自律与责任意识。

　　至于如何评，目前针对项目、论文、奖项、帽子的简单计数方式饱受诟病，也是当前清理“五唯”的重点。那么究竟该以何种方式来替代呢？学术界流行的说法是代表作制，但什么是代表作？它是一篇或几篇论文或一部专著？显然，这种理解方式有些简单化。代表作的严格表述应该为代表性或标志性学术成果，它可以是系列性的论文、专著、发明专利或软件产品，也可以是对外开展有高价值负载的工程、项目与服务。评价的核心关注是机构、团队或者个人的学术影响力与社会贡献，它的呈现方式是定性的甚至是叙事的，即所谓讲故事而不是编撰故事，数据可以作为故事的证据支撑而不是内容本身。

　　第四，在如今放管服的背景下，高等教育领域越来越强调第三方评价或评估，然而究竟什么是第三方评价？各种大学排行以及诸如种种检索系统的指标排序是否为第三方评价？对此，现实当中人们的理解可能存在一些误区，或许有必要对此予以澄清：其一，各种排行排序如果没有同行学科专家或行业权威参与，而仅仅是高校综合数据或大数据的分析，它就不是同行参与的专业性评价；其二，如果各种排行带有明显或潜在的商业目的而不是非营利性取向，无论它声言上如何客观，都难以具备公信力和权威性。因此，基于上述两点，如果政府的相关水平或选优评价甚至资源配置以之为依据，则必然会导致大学围绕排行转、教师追随检索系统指标走，从而陷入方向迷失的困局，如今我国高校“五唯”问题形成的症结，部分便与这些市场化的排行存在关联。摆脱这种困局的根本出路还在于：尽可能少些外部优选性尤其是短周期的评价，如果实在迫不得已，则不妨委托给由国内外学科与行业权威(同行而非外行专家)的专业性组织。至于市场中流行的各种花样繁多的排行，不妨容之忍之，但绝不可作为政府评价或决策的依据。

　　第五，客观而言，相对于美国，即使经过近40年的体制改革，我国高等教育市场化发育程度还很低，高校对政府还有着严重的资源依赖性。由于传统的行政刚性逻辑与惯性依然强大，在评价尤其是量化指标几乎等同于政绩与业绩表现的制度与文化环境中，少有高校领导与教师能够真正保持从容以对的心态。因此，迫于各种评价与项目验收的巨大压力，政府倡导的放管服治理体系与框架不仅没有缓解高校内部行政与学术之间的紧张，反而有可能进一步强化了其内部行政力量的刚性逻辑，引发各方心理失衡，最终结果是高校办学与教师行为发生扭曲，出现背离人才培养与学术活动本质的“五唯”现象。故而，对于高等教育领域各种各类外部评价特别是优选评价，有必要慎之又慎，需对其风险与负效应做充分的预估，如果存在潜在的风险，宁可缓评、少评甚至不评。人们常说，教育是百年树人，需要有长久之计，学术研究是慢活细活，需要细火慢煨，这些都无非表明：人才培养与学术研究的确需要有效率，但更需要有品质，而品质提升如陈酿，需要好的文化与环境来发酵，时间上急不得，否则适得其反。“五唯”现象伤的不仅仅是学术人的态度，而是教育文化与学术文化。当然，这并非是要去评价化，而是鼓励高校与教师从自身发展角度去主动开展未必正式的内部评价或自我评价，从而真正形成一种带有自律性、能动性、富有创造性和生机活力的日常非组织性的内部评价文化。

　　作者简介：阎光才，山东荣成人，华东师范大学高等教育研究所所长、教授，国家宏观政策研究院教授，研究方向为学术政策与管理、高校教师专业发展.

文章来源：《清华大学教育研究》201901期

谨慎看待高等教育领域中各种评价

作者： 来源： 转载 发布日期：2019-05-10 浏览次数： 次

作者：来源：转载发布日期：2019-05-10 浏览次数：次