「全港性系統評估」(TSA),特別是小三的TSA,是令許多教 師、家長、學生沮喪的事。實施以來,令不少兒童失去童年,令 教師感到愧疚,令家長感到憤怒。這十惡不赦的政策措施,卻 是由充滿善意的決策者推出。它在實施的過程中不斷「走樣」, 終於異化為製造師生壓力、統領課程教學的「評核怪獸」。 教育局的表現實在差勁。對於惡名昭著的TSA,它對TSA沒有 做過任何認真的政策實施成效分析,卻不斷以主觀的美麗言 詞為之虛飾,堅持要繼續全面實施。 我做 過教師、學者,如今是議員,對於政 策的理性分析有一 種揮之不去的偏好,因此當遇上TSA這類複雜的課題時,我 很快就想到要做深入研究。政 府應該做,卻不願意做的,我 們來做。 於是有這麼一本研究報告出現在大家眼前。 本項目的研究員林璐茜女士承擔起訪談、整理資料,並在討論 後撰寫報告初稿的艱巨工作。一位曾任教於香港大學教育學院 卻不願意公開姓名的學者,一直密切協助和提供寶貴意見。教 協教研部和葉建源議員辦事處的同事,協助進行多次問卷的進 行,和報告的製作。多位學者、校長和教師給我寶貴的意見。受 訪者及填寫問卷的朋友花了寶貴的時間讓我們獲得豐富的第一 手資料。感謝上述各位的努力和幫助,這本報告方能完成。
1
我無意將這項研究與學府裡的嚴謹著作相提並論,但作為一 個參政者,能夠把問題弄清楚,說清楚,我相信是十分重要 的。議會工作繁重,這項研究工作在匆忙之中完成,錯漏在所 難免,敬請包涵。拋磚引玉,歡迎大家提出意見。
後記: 本研究並不包括教育局在2016年邀請50多間小學進行的「試 行研究計劃」。該計劃把試題過深視為問題的癥結,並沒有對 準本報告臚列的各項問題,十分可惜。
2
1.1 TSA 是什麼? 「全港性系統評估」 (Territory-wide System Assessment,簡 稱TSA)是2004年開始實施的評估措施。簡而言之,是在三個「主 要學習階段 」結束前(小三、小六、中三),對全港學生的中文、英 文、數學三科進行統一的基本能力測試。所謂「基本能力」(B a sic Competency)則是指學生在課程中應該具備的知識和能力,以有效 地在下一個學習階段學習。 按照最初的構思,TSA不應帶來任何壓力。教育局高層官員也經常強 調,「系統評估……只報告全港及學校層次中、英、數三科的表現, 而不報告個別學生成績」,「基本能力評估顯然是低風險的」 (前教 統局副秘書長王啟思,2004)。可惜事與願違,TSA最終演變成一場 社會風暴。 3
1. 2 TSA 爆發成社會議 題 2015學年開始,T S A由一 個教育 議題爆發成 為社會議題,一時間 成 為社會焦 點並獲 廣泛報導。數以萬計市民響應由家長群組 建 立 的「爭取取消小三T S A」等幾個面書(F a c e b o o k)專頁,社會上充 斥着對TS A 所造 成的操 練 壓力和補 課問題之強烈控訴。一時間, 反對TSA的行動可謂山雨欲來! 其實TSA問題的出現並非一朝一夕。由2010年起至今,它經歷過醞 釀階段、爆發階段、檢討階段。 醞釀階段:TSA成為教師關注的重大議題 (2010-2015) 早在2010年,多個教育團體已經注意到小六學生的評估壓力過大, 在同一年內要面對TSA、Pre-S1測驗 1、以及「呈分試」,後兩者與中 一派位掛鈎,屬「高風險」評估,故團體要求減少過度頻繁的小六評 估。2011年,政府宣布由翌年開始,將原本每年進行的小六TSA,改 為Pre-S1隔年交替舉行,減少小六學生的壓力。 然而,小六的隔年安排並未觸及TSA的核心問題。隨着問題不斷惡 化,香港 教育專業人員協會(簡 稱「教協」)作為本 地最具規 模的 教師工會,開始注意到TSA為師生帶來巨大的壓力,以及對課程的 扭曲。因而分別在2011、2013、2015年做了教師意見調查 2,發現 因TSA而補課、操練的情況相當嚴重,而且已蔓延至初小年級;而 且,TSA也影響了校內的教學和評估方式,故教協把這個現象稱為 「異化」。
1
「Pre-S1測驗」,全名為「中一入學前香港學科測驗」,俗稱「中一編班試」,在小 六升中一的暑假進行,是中一派位機制的一部分。考生的成績將會影響其小學師 弟妹的派位結果,對小學而言是非常「高風險」的考試,但對參與評估的考生本人 的中學派位則沒有影響。
2
這些調查結果,見葉建源、黃家樂編(2015),頁6-14;以及香港教育專業人員協會 (2014)。 4
2014年,教育局回應教協首兩次調查報告的建議,於每年向學校發 放的TSA報告中,取消發放總達標率,及將TSA從質素保證機制中 的表現評量中剔除,是為TSA的第二輪優化措施,但僅屬小修小補, 無助解決問題。 教協於是在2015年進行第三次調查,在得悉教育局第二輪優化措施 成效不彰之後,作了如下結論: 「教 協 會認為,今日的 T S A已異化 為「反教改」的措 施,如果 政 府無法提出積 極而有力的措施,改變現時 TSA 造 成的惡果,便 應該果斷地 廢除TSA,為香港家 長、教師和廣大學生除一大害。」
3
此外,為推進TSA的學術和政策討論,教協和香港數學教育學會合 作,於2013年出版由葉建源、黃家樂主編的《全港性系統評估(TSA) 評論文集》,並在兩年後出版「2015年增訂版 」,納入部分調查報 告、學術論文、政策文件、教師心聲,為其後的社會討論提供了有用 的參考資料。 爆發階段:TSA成為家長和教師共同關注的重大議題 (2015) 2015年9-12月間,TSA由一個教育議題爆發成社會議題。由家長、 教育界相繼成立了幾個關注TSA和小學家課的面書專頁,其中尤以 家長成立的「爭取取消小三TSA」專頁在短期內獲得數萬人支持, 聲勢極為浩大,反映問題受到極度廣泛關注。 立法會教育事務委員會隨即召開公聽會,聽取團體和市民意見。大批 家長帶同子女在場外舉起「取消小三TSA」標語坐着示威,數以百計 的團體代表和市民則在場內一面倒反對TSA。有家長聲淚俱下地表
3
教協2015年的調查報告,見葉建源等編(2015),頁16。 5
示,TSA導致其子女產生焦慮和自毁行為;亦有家長指子女須於早上 提前回校進行TSA補課,以及每天完成十份以上功課;有家長指「希 望取消TSA能換來每天一小時的休息時間和正常童年」。 檢討階段:TSA的檢討及試行階段 (2015-16) 早於2014 年,教育局成 立了「基 本能力評 估及評 估素養 統籌委員 會」(下稱「TSA檢討委員會」)。在TSA議題進入爆發階段後,教育 局遂借助這個委員會檢討TSA問題,並在2016年2月發表報告(以下 簡稱「檢討報告」)4,宣布小三TSA暫緩一年,同時邀請50間小學 進行「試行研究計劃」,嘗試在行政及試題上作一些修改。檢討報告 指:「視乎2016試行研究計劃的回饋,2017的評估安排將會適當地 採用並作出優化,包括為學校提供的專業支援措施。」 (第6.6段)但 相關委員在記者會上明言,無論「試行研究計劃」的結果為何,2017 年將全面恢復小三TSA評估。 公眾對這個報告有兩大質疑: 1. 成員的組成缺乏代表性:委員會罕有地由官方人士擔任主席,主 導整個討論;而對TSA持質疑意見的持分者(例如教協、TSA關 注組、「爭取取消小三TSA」家長群組等)根本不能成為委員會 成員。 2. 缺乏實證的自我肯定:學者曾榮光(2016)指出,委員會在沒有 提供任何一般正規公共政策檢討和評鑑研究應有的政策效果實 徵分析與論證的情況下,就「肯定系統評估的設立原意及價值」, 前提決定了結論,非常荒謬。(曾榮光,2016)
4
教育局:《基本能力評估及評估素養統籌委員會全港性系統評估檢討報告》(2016年 2月)。 6
我們從這份檢討報告可見,TSA檢討委員會只作了避重就輕的分析, 對於問題要害輕輕帶過就算,既沒深入分析TSA於過去十多年間的 異化過程,更沒承認 政策設計或執行上的責任,只重申「TS A 屬低 風險評估」,將問題歸因是「持分者對系統評估風險的理解」。TSA 檢討委員會雖以「回饋學與教」和「系統監察」為主要「論據」嘗試 確立TSA的存在價值,卻沒任何具體證據顯示TSA能做到「回饋學 與教」,亦無交代「系統監察」為本港教育帶來什麼發現、啟示或幫 助。在這樣的前設下,為了回應社會聲音,卻產生了一連串「優化」和 「加強支援」措施,彷彿問題都出於持分者的不了解。學校需要更多 支援,公眾則需要更多教育,只此而已。 另一值得注意的是,試題的難度雖然是使問題進一步惡化的原因, 卻並非問題的核心,然而又成為了TSA檢討委員會的主要關注點, 蓋過了真正的問題核心。 因此,當局雖然匆匆就TSA進行了檢討,但檢討過程和結果可謂乏善 足陳。
1.3 研究目的 綜合上 述可見,T S A已成 為 教 育界 和一 般公眾都 非常關注的重 大 議 題。但在 這 重 大 的 議 題 上,至今並 沒有一 個周詳 和反映 事實的 深 入研究,以 至教育局過去提出的幾 次改善方案均未能 觸及問題 核心,這些都是我們進行本研究的主要動機。 根據多方面的了解,過去十多年間,教育局並沒有進行過對TSA 政 策成效的研究,而負責執行TSA的香港 考試及評核局(考評局)雖 然曾要求增加撥款進行研究,卻因資源理由不獲批進行。
7
過去五年,教協進行的三次問卷調查讓 我們對 T S A帶來的影 響 有 了一定的理 解,為進一步深 入研究提 供 紮實的基 礎。20 16 年 我們 進行了質化研究 (qualitative study),對不同持分者進行深入訪 談,與教協過去的三次量化調查 (quantitative study) 配合。我 們希望藉此對這個複雜的議題抽絲剝繭,深入了解所謂「異化」的 過 程,並有系 統 地 進行政 策實施情 況 的 評 估,了解 T S A 是 否達 到 政 策 預 期 的成 效,及帶來 哪 些副 作用,繼 而作出深 入而全面 的 總 結,提出具建設性的改善方案。
8
第一章已說明本研究的目的,本章進一步闡明本研究的特點、方法、 理論框架和限制。
2 .1 研究特點及文 獻回顧 這 是由 個 別 立 法 會 議 員就一項 重 要 教 育 議 題 進 行 的 政 策 研 究。 過 去,香港 的立 法 會 議員很 少 就 某一 議 題,採 用深 入研究的方 式 進行研究。一 般而 言,議員或 政 黨 會就某些關心 的 議 題 進行調 查 (sur vey),或就政策文件或相關研究作歸納分析。而本研究採取量 化和質化並重的研究策略,無疑是一項大膽的嘗試。 正如第一章已表明,TSA是一個受到社會廣泛關注的教育議題,如 果政府抓緊時機,認真檢討和研究,則我們這一項研究是沒有必要 的。可惜政府的檢討流於表面化,既沒有實證基礎,而且結論先行, 對我們掌握問題的核心毫無幫助。因此,我們做這項研究,乃是裨補 政府的缺漏。 過去,有關TS A 的研究,大部分是從學科的學理出發,不少是探討 TSA在實踐上是否符合「基本能力」的概念,以及評估與教學之間的 關係等等(見多篇收入梁淑坤編[2001]的論文)。也有一些研究把 注意力放到TSA評估的「倒流效應」(backwash effect)如何影響教 師的教學工作,以及在政策上進行分析及提出批判(廖佩莉,2009; 曾榮光,2016)。後者較為接近我們現正進行的研究,其結論也與我 們的研究相當一致。
9
2 . 2 研究問題概 述 我們的研究,分為兩部分: • 量化調查:是教協舉行的三次問卷調查(2011,2013,2015),令 我們在「什麼」(What)的層面上,對TSA帶來的影響有了較清晰 而全面的理解。 • 質化研究:通過訪談(2016)及文獻分析,讓我們在「怎樣」(How) 和「為何」(Why)的層面上更深入了解所謂「異化」的複雜過程。 我們希望,質化研究和量化調查互相配合,可以描繪出比較全面而深 入的圖像,並探求改善方案。
2 .3 三次量化調查的設計與方法 葉建源在擔任教協教研部主任及副會長期間,就TSA問題策劃了三 次問卷研究。我們把教協三次問卷調查納入為本研究的一部分,因 為三次問卷所收集的豐富數據為研究奠定紮實的基礎。 2011年問卷調查 2011年1月至3月期間,教協第一次進行對TSA的問卷調查,收集了 142間小學的課程主任的意見,了解他們的學校面對TSA評估的做法 和意見。此外也進行了一組小組訪談,歸納了一些問題。 問卷的重點,包括: 1. 是否有為TSA進行補課?各級的補課時間多少?於哪些時段進行? 2. 購買TSA補充練習的數量為何? 調查報告在2011年11月17日發表(見葉建源等編,2015,頁6-14)。
10
2013年問卷調查 2012年開始,原本每年進行的小六TSA,改為與「中一入學前香港學 科測驗(Pre-S1)」隔年交替舉行。教協遂於2013年12月至2014年 1月,進行第二次TSA問卷調查,對象為「課程發展主任」和「中英數 科任教師」兩組,詳情如下︰
對象
小學課程發展主任
小學中文/英文/數學科 教師
形式
以學校為單位, 每校填寫一份
以教師為單位, 每位教師填寫一份
• 對比調查,題目與2011年 • 向 任 教 中 英 數 三科 ( T S A TSA調查相同。透過了解 考 核 範 圍 ) 的 教 師,了 解 學校的TSA補課及購買補 T S A 對學校、學生 造 成的 充練習數量等,評估學校 影 響,及他們 對 T S A 的 評 在小一至小六操練TSA的 價。 目的 情況。 • 探 討 T S A 與 P r e - S 1隔 年 • 針對TSA與Pre - S1隔年 交 替 進行 後,小六T S A操 交替進行的安排,檢視小 練或應試壓力有否改善。 六TSA的操練或應試壓力 有否改善。 回收
88份
1415份
調查報告在2014年1月7日發表(香港教育專業人員協會,2014)。 2015年問卷調查 2014年4月教育局進一步提出TSA優化措施,包括於每年向學校發 放的TSA報告中取消總達標率,及將TSA從質素保證機制中的「表 現評量」中剔除,同時延續隔年進行小六TSA的安排,希望藉此消除 壓力。
11
教協有見及此,乃於2015年3月至4月間進行第三次TSA問卷調查。 與第二次的調查一樣,對象分為「課程發展主任」和「中英數科任教 師」兩組,詳情如下︰ 對象
小學課程發展主任
小學中文/英文/數學科 教師
形式
以學校為單位, 每校填寫一份
以教師為單位, 每位教師填寫一份
• 對比調查,題目與2011年 • 向任 教中英 數 三科(T S A 及2013年的T S A 調查相 考 核 範 圍 )的 教 師,了解 若。透過了解學校TSA補 T S A 對學校、學生 造 成的 課 及 購買補充練習數 量 影 響,及他們 對 T S A 的 評 等,以評估學校在小一至 價。 小六 操 練 T S A 的 程 度 有 目的 • 針對2014年教育局提出的 否改變。 優 化措施,檢視 學校的操 • 再者,針對2014年教育局 練或應試壓力有否改善 提出的優化措施,檢視學 校的操 練 或應 試壓 力有 否改善。 回收
139份
1916份
調查報告在2015年7月發表(見葉建源等編,2015,頁15-32)。 整體而言,三項調查穩定地顯示學校教師為TSA 承擔過大的壓力, 並影響學校的正常運作。而2012、2014年兩次優化措施並無明顯幫 助、壓力和操練問題持續,大部分教師認為TSA並非低風險評估。
12
2 .4 質化研究的設計與方法 2016年,葉建源議員辦事處通過公開招聘過程,聘請一位全職研究員 協助進行研究,同時邀得一位退休學者擔任顧問,在教協三次問卷調 查的基礎上,就TSA政策實施的情況正式展開進一步的質性研究。 訪談對象 在初步釐定研究框架後,研究員於2016年1月至4月期間,訪問了不 同背景的持分者,包括辦學團體、校長、副校長、主任、基層教師、學 者、教育署課程發展處前職員、香港考試及評核局高層職員,共17人。 除面談外,研究員以電話形式訪問三人,時間為十五分鐘至一小時。 我們感謝這些受訪者於沒有任何實際回報的情況下,花上寶貴的時間, 與我們分享他們寶貴的經歷。研究過程中,每一位受訪者,都為我們提 供豐富而深刻的分享,讓我們從不同的角度了解事情的來龍去脈。 教育局作為主要持分者之一,本研究亦希望能邀請官員進行訪談,研 究員曾經嘗試以不同方式,包括正式信件,聯絡教育局負責TSA的成 員,可惜未獲答允。繼而以書面方式向教育局查詢幾項研究重點,亦 未獲得回覆。 抽樣方式 我們非常注意受訪者的背景,以不同地區、收取不同社經地位、不同 辦學團體為原則,務求接觸不同類型的個案。 訪談過程 面談於會議室進行,時間為四十五分鐘至兩小時。除了其中一次的 訪談,同時安排兩位同校的被訪者一起進行外,其他均以個別形式 進行。
13
本研究採用「半結構訪問」形式,研究員準備訪談問題的框架,但訪問 過程盡量讓受訪者表達經歷和想法,研究員不會對受訪者的意見表達 看法,但會追問有關細節,從互動中盡量獲得與研究相關的資料。 研究員於獲得所有被訪者同意的情況下將整個過程錄音,以便準確 記錄訪談的內容。 訪談框架 我們參考美國學者Diamond & Cooper (2007)對於美國測驗數據 之使用的研究,訂定研究問題的框架,主要包括︰(一)政策與課室行 為;(二)學校內對政策的互動反應;及(三)持分者對政策的理解。 訪談指引見【附錄一】。 研究操守 為保障被訪者的權利和私隱,研究員邀請被訪者簽署同意書(Consent form)。同意書內容見【附錄二】。
2 .5 質化研究的理論框架 政 策 分 析 的 理 論 中,「 政 策 本 欲 達 成 的 效 果 」( I n t e n d e d consequences)以及「政策的副作用」(Unintended consequences) 是常見的剖析方法,本研究以此為主線。 TSA政策本欲達成的效果主要有兩項,分別為「學校改進」 (「促進學 習的評估」),以及「系統監察」。但基於教協三次問卷調查和小組焦 點訪談,我們也了解到TSA政策的副作用,包括辦學團體、校長和教 師所遇到的侵害專業的壓力輸送,以致教育生態的轉變等等。再參考 上述Diamond & Cooper的研究,我們這項研究的總體框架如下︰
14
2 .6 原則與限制 原則 2016年的質化研究以態度開放為原則,並非以找出證據來支持已有 的論點為目標,更期望研究結果可突破我們原有的觀點。 雖然教協的問卷調查已清楚顯示師生都承受TSA巨大壓力,而葉建源 作為立法會議員也對TSA早已表明態度,但是這項研究並沒有前設。 我們希望研究的資料能進一步豐富我們的視野,突破盲點,因此以開 放和沒有前設的態度去進行研究,希望能藉此找出更有效的改善方 案。至於是否成功,則有待讀者在細讀本報告後自行判斷。
15
限制 本研究利用教協於2011、2013及2015年進行的三次教師問卷調查的 數據,加上2016年進行的質化研究,綜合地評估TSA政策。 量化研究的研究限制︰問卷通過傳真及電郵發給全部學校的相關教 師,除2013年回覆的小學課程發展主任只有88份,略為不足之外,整 體收回的問卷數目均甚可觀。 調查年份 小學課程發展主任(份) 小學中、英、數三科教師(份) 2011
142
不適用
2013
88
1415
2015
139
1916
質性研究的研究限制︰質性研究的缺點則是難以確定其代表性,以 致結論的普遍化(generalization)成疑,但其好處則是深入,可以幫 助我們發現問題,了解現象背後的複雜性,有利於我們理清問題的 脈絡。我們這項質化研究,能與前三次問卷調查的量化研究配合起 來,更可以互補不足。有幾點我們請讀者特別注意: 1. 樣本的代表性:質化研究本質上並不以可概化(generalizability) 為目標,但盡量涵蓋具代表性的資料,注意到不同的觀點的相同 與差異。 2. 研究的敏感性:TSA已演變成社會議題,尤其於壓力下操練學 生應考TSA,透露學校內部的壓力互動甚為敏感。因此研究員 尋找願意受訪者有一定困難,尤其是教師,普遍教師對此議題 都相當迴避。最終接受訪問的教師,言談間均表示是為着公義 而與我們進行分享。
16
3. 受訪者的反應:研究員嘗試以不同形式接觸教師,包括未經介紹 致電(cold call),結果如下︰ • 直接拒絕。 • 願意受訪,但表示需先請示校長。全部經請示後,都不能受訪。 • 認為如需請示校長,即不可能受訪,因此需於校長不知情下 進行。 當中亦有教師表示,對研究報告有可能讓人知悉他的個人身分表 示擔心,因此,為保障受訪者的私隱,部分資料不會具體列出。 4. 了解官方情況的困難:部分研究問題未能獲取足夠資料,例如教 育局的「校本專業支援計劃」和「網上學與教支援」等,我們希望 獲得教育局方面的深入資料,但未能邀請到教育局有關官員進行 訪談,即使再嘗試以書信形式查問資料,亦未獲得答允。
17
在正式進入本研究的成果之前,本章回顧與TSA相關的政策發展脈 絡,包括TSA的前身及其蛻變,以及實施TSA後遇上的「殺校潮」。 此外,本研究也會重點提及一份早在1999年發表的政府文件,當中 已經提出TSA可能產生的各種風險。
3.1 TSA 的前身:「香港學科測 驗 」
(左) 香港學科測驗教師手冊封面 (右) 香港學科測驗教師手冊內的 常模表 (Norm Table) 鳴謝馮德華老師提供圖片。
1978年,本港開始實施九年免費教育,「淘汰式精英教育」逐漸過去, 由過往著重於「量」的發展,即以提供充足的中小學學額為首要任務, 發展至以「質」為教育發展的目標,講求「質素」上的追求。 以監察本地教學「整體水準」為目的的做法,最早可追溯至名為「香 港學科測驗」(Hong Kong Attainment Test) 的評估。根據教育統 籌委員會(下稱教統會) 《學校教育質素︰教育水準工作小組報告書》 (1994年)5,為了監察中小學生在中英數三科的學業水準,當局先後 5
教育統籌委員會(1994):《學校教育質素︰教育水準工作小組報告書》。 18
制訂小四至小六(1976年)、中一至中三(1987年)、以及小一至小三的 測驗卷(1988年)。全港中小學須於每年五、六月間,以課室測驗形式 舉行此測驗。 這是一項真正「低風險」的評估,很多教師對此並沒有太深刻的記憶, 有的當成是一項調查,有的說是像一項學校的行政工作,簡單而言,就 是沒當一回事,不會操練或作任何準備。它的做法是按照學生的生日 日期,隨機抽取約十分之一的測驗樣本,教師只需按指引批改,然後將 試卷交回。有當時曾負責的教師指,試卷由貨車送到學校,存放於士多 房,教師可於約十天的時段內的任何時間安排學生進行評估,批改後放 回士多房,待貨車運走,整體行政安排非常寬鬆。上述的教統會報告書 對此有如下觀察:「這些測驗是以課室測驗形式進行的,其保密程度並 不比校內測驗高。」 香港學科測驗的主要目的,是藉以監察全港學生整體學業成績。教統會 的報告書利用香港學科測驗的數據,展示全港學生主科成績的變化趨 勢,並加上文字描述,例如︰ • 「在小一至小六各級,女生的中英文成績,顯著比男生為佳。」 • 「中學在1989年增加中文教師,看來已有顯著的成效。中一乙卷和 中二的中文水準在1990年上升,自此以後,水準維持穩定。」 對香港學科測驗的批評 但教統會的報告書對香港學科測驗在監察整體成績的效果並不完全 滿意,它指出:「雖然這項測驗是政府現時唯一客觀的方法,衡量全 港學生在三個基本學科上的成績,可是,當局並沒有廣泛利用從香港 學科測驗的監察工作所得來的資料。這些測驗的結果,偶爾會用來回
19
答有關水準的提問(例如立法局就語文水平提出的質詢)。不過,設 計這些測驗的原意,並非用於協助政策制訂或資源分配的過程。」 教統會的報告書也批評香港學科測驗對推動學校改進教學的成效 不彰,它指出:「也有些學校把從學科測驗所得的資料,應用在策劃 活動的工作上,但似乎大多數學校都沒有這樣做。這些資料並未普遍 用作比較各間不同學校的表現。」理論上,教師可利用教師手冊所載 的常模表 (Norm Tables) 將學生的表現與全港的一般水準作一比 較,但不多教師予以理會。 這段鮮為人記得的歷史告訴我們,香港曾經有過一個真正低風險的 全港學業監察系統,運作了約四十年之久。而教統會1994年對香港 學科測驗的批評,埋下了TSA取代香港學科測驗的伏筆。
3. 2 TSA 的提出 上世紀九十年代中期以後,當局開始醞釀新的評估模式,最終在2004 年,香港學科測驗的「監察」功能被TSA所取代。 在此期間,隨著普及教育的進一步發展,教育由面向少數精英變成普 羅大眾,因而產生了對所有學童的「核心能力」 (後改稱「基本能力」) 的要求。加上「質素保證」和「問責」等概念,令基本能力評估成為了 九七回歸前後翻天覆地的教育改革之中的一個組成部分。以下先回顧 兩個與TSA政策有關的教育改革觀念︰「問責」和「基本能力」。 問責(Accountability) 教統會在1997年發表《第七號報告書》6,以「優質學校教育」為題,以 「增強香港在國際間的競爭力」和「滿足社會的需求」為目標,在商界
6
教育統籌委員會(1997):《第七號報告書》。 20
經常批評畢業生語文水平下降的聲音中,認定學校教育應付不了社 會的人才需要,有必要改善。而「推廣學校質素文化」的主要做法之 一,是引入質素保證機制,訂明為了評核學校表現,「將學校教育目 標須轉化為可行的、可見的及可量度的教育質素指標」,其後教育局 公布《表現指標》,把學校的表現分為四大「範疇」、17個「範圍」(教 育署,1998),直到2003-2004學年TSA開始實施,TSA隨即正式地 作為評核學校表現的23項評量之一(教育署,1998)。換言之,TSA 自實施以來一直是問責機制中的質素保證評量之一,學校需要以此 進行「自我評估」,然後接受「校外評核」作為「自我評估」之核實。 基本能力(Basic Competency) 1999年,教統會於《教育制度檢討教育目標諮詢文件》指出,普及基礎 教育的目標之一是要「保證學生達到基本水平」,加上一種「政府投放 大量資源於教育有必要檢視成效」的「量化」視角下,措施之一便是日 後發展的「基本能力評估」(Basic Compentency Assessment, 簡 稱BCA)。BCA要求的是學生能夠「掌握運用兩文三語的基本能力」和 「掌握基本的數學概念和運算能力」,再配合「能力的培養比知識的 傳授更加重要」的概念,成為以「能力導向」評估學生的中英數表現 的做法。 2000年教統會於《教育制度檢討:改革方案(諮詢文件)》中提出具 體的BCA方案,分為「學生評估」(Student assessment, 簡稱SA)」 和「系統評估」(System assessment) 兩部分,內容分別如下︰
21
基本能力評估 (BCA) 學生評估 (SA)
以網上評估形式進行的校內評估,主要協助教師了解學 生在中、英、數三科的學習強弱和需要,幫助個別學生 提高學習成效。
系統評估
是全港性劃一進行的測試,以紙筆形式進行,為政 府
(即2004年起
和學校提供小三、小六及中三年級學生在上述三科的
的「全港性系統
學習表現數據。政府可參考這些資料了解整體學校教
評估」/TSA)
育的成效;而學校亦可據 此調適教學策略,促 進學與 教的效能。
期後,「學生評估」少人問津,形同廢棄。而「系統評估」則引起社會 極大關注,在2015年掀起一場風暴,至今仍未止息。 低風險(Low Stake) 打從設計開始,TSA就被強調為「低風險」的。無論政策文件或曾參 與籌備TSA的人,都宣稱以打破操練和考試文化為目標,竭力在新 制度上建立起低風險、不操練、又能提升教學質素的措施。《香港教 育制度改革建議》(2000)對於BCA的具體方案內就有這麼一段︰ 「現實中評 估已變成學與教的指揮 棒,學生學習是為 應付測驗考試。大家重視的不是學生學會多少,而只是 分數至上、論排名、講等第。為方便評卷和計算分數, 評估只講求標準答案,窒礙了學生的批判性思維,以及 自發學習的興趣。總的來說,學校人員、學生、家長,以 至社會人士,均要放下傳統的評估觀念,認識和建立新 的評估文化。」 最終TSA也異化為「學與教的指揮棒」,相信是改革者始料不及的。
22
3.3 19 9 9年官方文件 提出的預警 值得留意的是,早在1999年,當局已經發表了一份很有預見性的文 件。教統會核心能力測試小組(1999)在一份題為《擬議的核心能 力評估》的文件中,其目的是「載列小一至中三的中、英、數核心能 力測試的構思,徵詢公眾意見」,而內容則仿似預言書一樣,將今天 種種正在發生的TSA爭議和問題核心,以「需要考慮的問題」形式清 楚列出。這裡歸納幾點如下︰ 1. 「一項測試的整體設計,取決於測試的目的。……不同的目的, 不一定能夠兼容配合。……以『切合目的』為原則,研究有關測 試形式、目標學生及測試次數等事宜。」 2. 「問責是一個重要的考慮因素。……我們必須充份考慮應否或 能否根據測試結果,就學生的成績,向學校、校董會、辦學團體 或其他有關方面問責。……問責所產生的第一個問題,是如果測 試成績直接引致獎懲,這個測試便關係重大,成為一個高風險 測試。……測試可能對學校的教學產生反流效應,例如縮窄/扭 曲課程、採納不理想的教學模式,以及進行無意義的操練。」 3. 查閱數據方面,須考慮「『不必要的傷害』原則(即公布有關結 果或以其他方式傳遞有關結果,不應對當中提及的人士造成不 必要的傷害)與『查閱資料的權利』原則(可供查閱的資料應該 準確和適當),兩者之間的取捨。」以及「資料被濫用的機會有多 大?……當局須避免測試結果遭到濫用,這點至為重要。」 4. 「應注意測試數據有其局限性。……這些數據不會分辨出表現 理想或未符理想的原因;……沒有提供迅速或妥善的方法,以助 學校改進。」 仔細閱讀 此文件就 會發現,當時政 府內有人 對 T S A可能產生的流 弊,已有非常獨到的思考。 23
可惜,這個「預警」未能避免後來問題的產生。政策實際的推行方法是︰ • TSA同時需做到「監察表現」和「改進學與教」兩個不同的目的, 而兩者到底是否兼容,並未見有認真的討論。我們會在下文再次 提到這個問題。 • 據知,教育局並沒有採取具體措施防止TSA數據的濫用,並無指 引或守則。 • 摒棄了文件中抽樣及隔年的建議,變成所有小三、小六及中三學 生每年均需應考。 (由於這份文件已不易找到,故全文載於【附件三】以供各界參考。)
3.4 TSA 的實施 2000至2004年間,當政策大致完成制訂後,便是具體籌備的階段。 根據曾參與籌備的人士表示,政府內部加上學者、教師,花費了大量 時間,以嚴謹的標準,訂立各階段的基本能力指標及相應的題庫,以 能力導向的方式,評估學生是否達到各項基本能力。 籌備階段和實施初期,TSA均由教育局自行負責執行。後來被認為上 了軌道之後,便以單一招標形式交予考評局接手。據悉,過去十年來, 考評局內部人手更替甚為頻繁。同時,考評局又被認為是「『做慣』總 結性評估,比如中學文憑試、TOEFL(托福)等國際考試,強調成績是 否及格,而非進展性評估」 (《星島日報》報導,2016),有被訪者懷疑 這是日後試題變深的一個關鍵。
24
正值TSA推行的初期,就遇上小學「殺校潮」。隨着小學適齡學童大 幅減少,當局便提出「統整成本高及使用率低的小學」政策,並向立法 會提交文件指出基於財政緊絀,使用率低的學校的單位成本高昂,故 此制定這一套機制以停辦使用率低的小學(教育統籌局,2003)。收 生不足的學校隨即面臨「殺校」危機,教育界前線同工人心惶惶,學校 間互相為收生競爭,直接影響教育生態,包括加劇TSA的「異化」。 2006年,三位教師自殺身亡,引起公眾高度關注教師壓力問題,最終 引致失言的高官被調離教育局。當時大家都察覺到自從人口下降,不 單是生存邊緣的學校,其他學校生態也在大變,個別學者更開始把矛 頭指向TSA: 「家長、校董會 等不斷與鄰 校 攀比,本應只作身體檢 查,在小三、小六所舉行的全港學生中英數考試(系統 性評估),也異化成為高風險的生死競賽。……簡單而 言,尤其是對小學,要讓各人能理性地按學校情况去改 革,而公眾又願意的話,唯一最直接的方法,就是移走 縮班的壓力,保證教師就業。……應考慮再減少外評的 頻率……及數年才做一次系統性基本能力評估(即將每 年檢視小三、小六、中三級中英數能力的考試,改為數 年一次。」 (侯傑泰,2006) 此外,人稱為「教改三頭馬車」之一學者程介明亦向記者表示:「遺憾 的是原本低風險的基本能力評估,被扭曲成高風險的操練」,他呼籲 教育部門「設法讓學校對此處之泰然」 (《大公報》報導,2006)。可 見冰凍三尺,非一日之寒,TSA的異化現象,早在2006年隨着「殺校 潮」已廣泛出現。
25
第四、五章為本研究的收穫及分析。本章首先分析TSA政策是否達到 政策的預期成效(Intended consequences);下一章再分析TSA預 期以外的效果,即其副作用。
4.1 TSA 政 策的預 期成效 綜合教統會(1997b)及教育局「基本能力評估及評估素養統籌委員 會」 (2016)等文件,TSA 政策的預期成效有三(包括較少提及的「 問責與監控」): 1. 改進學校,促進學習的評估:在學校層面,TSA希望有助優化 校本課程及教學,從而令學生有效學習。 2. 系統監察:在全港層面,系統評估提供的數據有助教育局訂定 支援學習措施的重點和方向,了解全港的成績水平。 3. 問責與監控:教育局較少談及TSA作為「問責」之用,可是,由 於TSA自2004年起一直作為質素保證機制的評量之一,加上 綜合各持分者的理解及政策脈絡分析,本研究發現TSA用於學 校問責的目的是清楚不過的。 以下將逐一分析TSA的實施能否達到上述三項預期成效。
26
4. 2 「改 進學校 」的成效不彰 整體而言,我們看不到TSA對改進學校帶來明顯的成效。 香港中文大學教育行政與政策學系曾榮光教授(2016)提供了有力的 說明。他利用考評局每年發布的《全港性系統評估學生基本能力報 告》的數據,把全港學生分為四個群組,並列成一表(見【表一】) : 1. 小三及小六成績均達標 2. 小三達標、小六不達標 3. 小三不達標、小六達標 4. 小三及小六均不達標 【表一】小三至小六學生系統評估成績的追蹤群組間分布,2004-2015 (%)
27
曾榮光認為: 「……從表一所展示過去已有的六屆系統評估裡,中、英、數 達標率分布可以得知,系統評估一直未有發揮它聲稱具備 的「回饋學與教的功能」和支援學習的「補底」功能。首先, 這可證之於「小三及小六均不達標」學童群組的百分率,在 過去六屆三個學科的有關百分率一直沒有改善。譬如以中國 語文科為例,那些在小三通過系統評估已被發現未達標的約 10%學童,若系統評估真正發揮其聲稱的「回饋學與教」功 能,則部分學童應可在繼後小四、小五的學與教中,得到支援 以至改進;但實際上在過去十年已有的六屆數據中,有關百 分率一直沒有下降,始終穩定地維持在10%(英國語文科的 相關百分率是16%,數學科是8%)。據此可以推論,系統評估 在小學階段,沒有發揮它聲稱具備在學與教方面的「回饋」、 「進展」以至支援及提升的功效。其次,考察表一中「小三不 達標、小六達標」這學生群組,若系統評估真正具備「回饋學 與教的進展性評估」的功效,預期這學生群組的百分率在過 去十年會有所上升,但可惜有關百分率在過去六屆的三個學 科均不斷下滑;以中國語文科為例,有關百分率就由2004– 2007年的5.1%不斷下降至2012–2015年的2.3%(英國語文 科的相關數字是由5.1%下降至2.8%,數學科是由4.7%下降至 3.2%)。換言之,若系統評估真的具備在學與教方面的「回 饋」、「進展」與「補底」效能,這方面的效能十分微弱(三科 均只對5%以下的學童產生效用),而且這方面的效能更是每 況愈下。」 (頁202) 曾榮 光 的上 述分析,主 要 從 效 果 着 眼。我們 的 研究嘗試了解 T S A 為何在改 進學校 這一點上 失 效。要做 到「改 進學校 」,「促 進學習 的評估」,TSA在設計上包含了三個主要手段:(一) 「學生評估」; 28
(二)向學校提供的TSA報告;(三)專業支援。以下逐一分析:
甲、「學生評估」(SA) 很多人忽略了,TSA是「 基 本 能 力 評 估 」( B a s i c C o m p e t e n c y A s s e s s m e n t , B C A ) 的 一 部 分,其 評 估 對 象 為 學 校 系 統;而 「 基 本 能 力 評 估 」除了 T S A 外,還 包 括「 學 生 評 估 」( S t u d e n t A s s e s s m e nt,簡稱 S A),其評 估 對象是 個別學生。 「學生評估」在網上進行,原本的理念,是讓教師自行安排學生利用 網上試題,了解學生的基本能力水平,教師便可利用即時的回饋改善 教學。整個過程並不涉及成績上報。可是,「學生評估」的使用率非 常低,根據香港《蘋果日報》報導,「80%中學及60%小學去年從沒 安排學生登入該系統進行評估」(2014年11月21日)。 本研究的受訪校長和教師亦一致表示,目前並沒有使用「學生評估」。 其中小部分受訪者表示曾於早期使用過,但自從TSA試卷可供下載後, 學校均選擇直接使用TSA試卷。有受訪者亦提及學校的電腦設備有 限,加上安排小學生到電腦室和登入系統都非常花時間,安排上不可 行。這與《明報》的報導相當一致︰「鮮魚行學校初期有採用SA(學生 評估),但該校馮老師指出,該計劃屬網上評估,要一人一電腦才可做 到,『學校只有一個電腦室,學生要分批去做,可能一年只做到兩科』, 故自考評局於2004年開始上載TSA的歷屆試卷開始,學校已改為下載 TSA試卷供學生練習,棄用SA。」 (2014年11月21日) 由此可見,花費不少經費開發的「學生評估」系統目前已跡近荒廢, 難以在改進學校這項目標上作出貢獻。
29
乙、TSA報告 當局為學校提供的TSA報告,是一種訊息的回饋(feedback)。TSA的 設計假設學校在收到TSA報告之後,可以根據這些訊息回饋掌握學 生學習表現的得失,從而調整教學方法,最終收到改進學校的結果。 然而事與願違,本研究發現上述假設並不成立。首先,學校主要獲得 的回饋訊息,僅是與其他學校的「相對成績」,而非學生是否達到基 本能力。每年,學校均會收到中英數三科的TSA報告,每份約數十 頁,羅列一大堆數字和百分率。以下是我們以某校(甲校)中文科其 中一份試卷的其中一頁報告作為示例,讓我們了解到底學校每年從 TSA報告中獲得怎樣的回饋? 【表二】甲校 中文科TSA報告 某卷目 報告的其中一頁 中國語文 Chinese Language (Sub-paper: Reading and writing)
30
上表 顯 示,校 長和 教 師 看 到 的,主 要 是該校 學 生答 對某一 題 的百 分率 與 全 港 的百分率 的比 較。多 位 受 訪 校 長和 教 師 均 表 示,他們 是以這樣的方式來閱讀TSA 報告的︰ • 「我們會去看每一條題目,我們的小朋友與全港的達標率的比較。」 • 「有全港和自己對比的數據,例如「數」的範疇,全港是這樣的,自己 學校就這樣。」 • 「我focus(着重)的就在於最尾那裡,即與全港相差多少。」 • 「會做對比,對比自己同全港的成績。」 • 「我們會去看,與全港那個水平,我們是否能保持到。啊,原來過往 是OK的,今年這一個範疇下跌了,我們就會研究,為何會下跌。」
只着眼比較 我們發現,幾乎全部校長和教師閱讀學校TSA報告的方式,都是拿 本校和全港的百分率作比較,到底是高於全港平均,還是低於全港平 均。而事實上,每一條題目都有一半學生位於全港平均之上,另一半 學生位於其下。全港一半學生「被比上去」,而另一半「被比下去」, 問題是:這樣的比較究竟有多大意義呢? 實際上,報告的表達方式令校長和教師只着眼於與全港水平的比較, 而非該校學生的表現是否達到「基本水平」。至於具體改善教學的回 饋,如學生如何犯錯、教學如何改善等,TSA報告均沒法提供。
小部分學校認為有用 儘管如此,仍有小部分受訪校長和教師表示能夠從這種「相對」比較 了解學生的強弱,從而去思考如何改善。他們認為: • 「這些數據讓我們知道,全港數據(指與全港數據比較下),例如度 量範疇上,我們的小朋友是比別人弱的,那麼我們便需於教學上下 點功夫。」 31
• 「我覺得既然這個data(數據)來到,可以幫助我們去分析我們的 教學,來得更加具體和客觀,因為以往我們看不到其他學校是如何 的,但現在有全港的數據作一個參考。」
大部分學校認為沒有用 可是,更多教師指出,TSA報告無法讓他們了解學生出錯的原因。兩 位任教小學超過十年的科主任有以下分享︰ • 「老師會分組進行分析,大家一齊想,為何成績會低那麼多,原因 是什麼,你用你的自我解釋,去解釋小朋友為何成績會低了,即是 老師認為的合理解釋。……主要是很主觀地分析一些問題,未必 中,未必準確。」 • 「我會跟同事們進行會議,拿着數據(TSA),拿着試題,容許我用個 『估』字!因為我們其實是不知道學生答的情況,我們只是看到多 少百分比,但我們是不清楚他們錯在哪裡,究竟他是不小心計算, 還是理解題目錯誤而得不到分數呢?我們就不知道了。我們就靠估 去分析這個數據,我覺得缺點就在這裡。」 TSA主要是紙筆考試,報告基本上是以量化數據表示,受訪教師大多 表示未能透過報告了解學生的犯錯情況。
學校不知悉個別學生的表現 局方以「為未能達標的同學及早進行支援及輔導」(教育局,2015)為 TSA的政策目標,因此,理論上,教師應該能夠透過TSA報告,為成 績稍遜的學生提供重點的幫助,這點亦是局方所期望的。可是,為了 減低TSA的風險,TSA報告並不會發放學生的個人成績,報告只顯示 每題題目的整體學校答對率,教師並無法得知個別學生的成績表現, 不知道每位學生到達什麼水平。因此,教師根本無法利用TSA數據 去幫忙成績稍遜的學生。 32
回饋時間滯後 從回饋的時間上看,每年TSA評估於學年完結前(約四至六月)進 行,而報告則於下一學年上學期(約十一月)向學校發出,獲得報告時 已是進行評估後的半年之後的事,換言之,教師並不能獲得即時的教 學回饋。例如,當教師們獲得小三TSA成績的時候,該批學生絶大多 數已升至小四;而獲得小六TSA成績時,小六生已經升上中學。 此外,由20 14 年起,考評局推出「網上 題目分析」(O n li n e I t e m Analysis, OIA) ,目的是幫助 教師利用T S A 數 據 改善 教學,例如顯 示 學 校 於 各 題 目 的 三 年 答 對 率。研 究 員曾向 受 訪 校 長和 教 師 查 詢,大 多 對 此 並不知 情,其 中 有一 位 教 師 表 示 知 道 有此 平台,但 表示 對改善 教學沒有幫助。
丙、「校本專業支援計劃」 自2004年起,教育局設有「校本專業支援計劃」和「網上學與教支 援」為學校提供支援(教統局,2004),教育局常指這是配合TSA進 行學校改進的手段。2016年的《檢討報告》對於「校本專業支援計 劃」有以下說法︰ 「於2014/15學年間,全港約有360所小學接受校本支援服 務,當中約有280所小學接受與中文、英文、數學科有關的支 援。……教育局以到校形式提供校本支援服務,按個別學 校的不同需要和校情,加強學校的課程領導和提升教師對 課程的理解,並讓他們掌握如何把基本能力結合在日常教 學及評估中,運用相關的顯證和資料,例如學生上課情況、 學生作業、校內和校外評估資料等,檢視和回饋學與教,並 針對學生能力的強弱項讓學生掌握基本能力,有效地在下 一階段學習。」
33
可是,我們接觸到的校長和教師之中,均沒有參與這些計劃,因此並 未能獲得更多資料。研究員曾以多種方式希望向教育局了解,可惜未 能成功(詳見第二章)。 從教育局的官方網頁資料,我們只能知道「校本專業支援計劃」包括 「校長支援網絡」、「學校支援夥伴計劃」、「專業發展學校計劃」、 「大學-學校支援計劃」及「同儕參與校外評核」五種形式。 一位非前線教學的被訪者與我們分享,這些支援服務會透過到校支 援,與教師進行「學生前測」、「共同備課」、「後測」等,並利用TSA 數據改善教學。當問及為何已有TSA數據,但仍需進行前測後測時, 受訪者表示TSA不是單獨存在的工具,而是作為輔助角色,支援人員 仍需到校按個別校情及了解學生情況,與教師進行共同備課,來改進 教學。 另外,我們發現,對於校長及教師而言,教育局的支援形式普遍被理 解成「由上而下」的事情。不同受訪者的觀點如下︰ • 有校長表示覺得支援是好的,可讓教師改善教學。 • 有校長認為局方外來的「專家」不了解學校情況,無法作有效的支援。 • 有校長認為這些支援容易讓教師感到受威脅。 • 有校長認為局方從來沒有提供協助,如學校於TSA的表現不理想, 局方沒有給予額外資源扶助弱勢學生。 至於「網上學與教支援」(Web-based Learning and Teaching Support, 簡稱WLTS),是由教育局設立的網上平台,就中、英、數的 「基本能力」提出學生常見的學習困難,以及相應的網上教材和活動 建議。可是,我們未能知道教師對這些材料的意見、使用率和成效。
34
小結 總括而言,根據我們有限的資料,並無證據顯示教育局強調的「校本 支援」能夠達到「學校改進」和「促進學習的評估」的目的。
4.3 系統監察的成效無從考究 系統監察的意義 教育局利用TSA希望達到的第二個主要目標,我們簡稱為「系統監 察」。先回顧教育局於文件中對「系統監察」的定義︰「為政 府及學 校管 理當局提 供全 港學校學習範疇水平的資料,以便 政 府為有需 要的學校提供支援和監察教育政策執行的成效。」 (教育統籌委員 會,2000,第58頁) 2016年的《檢討報告》中,局方亦再次重申此目的: 「在全港層面,系統評估提供的數據,協助政府檢視教育 政策,為學校提供重點支援。教育局過去一直使用系统評 估的資料以觀察香港學生中、英、數的整體水平和變化,並 每年由考評局編製《全港性系統評估報告》上載網站。教育 局亦參考全港學生整體上在系統評估及不同基本能力的表 現,制訂專業培訓及校本支援服務方向和重點,例如優化閱 讀教學及校本評估策略等。」(教育局基本能力評估及評估 素養統籌委員會,2016) 此外,於立法會教育事務委員會會議上,議員曾多次嘗試了解「系統監 察」的具體的運作和成效。教育局副秘書長陳嘉琪發表了以下說法︰ 「我們會看看數據是否有效度和信度,是否能夠年與年之間, 就着基本能力,可以看到不同的變化。」 (2016年3月23日會議) 35
系統監察的作用 考評局自2004年起,每年製作TSA學生基本能力報告,報告全港學 生於各階段的中英數整體情況,分析全港學生於各基本能力上的表 現,亦描述具基本能力的學生的一些表現。我們認為報告對於了解本 港學生的中英數表現,是有一定幫助的,情況就如TSA的前身「香港 學科測驗」一樣。 然而,每年出版報告之後,是否有進一步的作用呢?是否能協助當局 改善全港層面上的教育措施呢?社會希望知道的是,教育局對於「系 統監察」進行了什麼實際工作?有什麼結論?利用大量資源進行的 TSA,對香港的教育有什麼參考價值?教育局有否因此而調整過哪些 教育政策?可是,教育局官員從未公開對此作出具體回應,本研究亦 未能直接向教育局官員進行了解。 一 位非前線 教學人士向我們提 供 資料,教 育局官員及學 者曾利用 TSA數據進行一些研究,但沒有向外公開,包括︰ 1. 追蹤不同性別學生的數學成績,隨成長階段的變化; 2. 追蹤學生家境情況,與成績的關係; 3. 學習語言(Medium of Instruction)和考試語言(Medium of Test)與成績的關係; 4. 吃早餐與成績的關係。 至於以上資料的真確性、詳情、研究結果,是否真的有價值,都有待教 育局交待。
36
4.4 問責與監控 作為政策分析,根據Steven J. Ball(1997)的說法,重要的不單只是要 分析當局「說了些什麼」,更重要的是揭示「沒有說些什麼」。教育局 一向較少提及以TSA作為問責的行政手段。可是,TSA過去一直作為 質素保證機制的評量指標之一,加上研究的過程中,我們發現於各持 分者的理解當中,「向學校問責」的作用於現實上清楚不過。此外,曾 榮光(2016)亦透過回顧英美的評估改革,再對照於回歸以來的教育改 革,繼而指出,為了「講求質素」,TSA事實上是作為「量度成績」的「 管治工具」而非「回饋學與教的功能」。所謂「回饋學與教的功能」, 僅屬「政策修辭」(policy
rhetoric)。以上種種,本研究有理由將「向
學校問責」歸納為TSA隱藏的目的。 很 多學 者以「國 際 標 準 化組 織 」(I n t e r n a t i o n a l O r g a n i z a t i o n f o r S t a n d a r d i z a t i o n , I S O) 中的「投入-過程-產出」來比對 改善 教 育質 量的方法,教 育 被視 為 猶 如工 廠的生 產 線,能 夠 利用 質素保證(Qualit y Assurance)的量化指標,檢視其「產品」的生產 成效,然後進行「問責」。這種ISO的管理模式,主要是被「產出為本」 (outcome-based),以及「科學實証」的思維主導︰「產出為本」是指 以最終成果為基本考慮,例如實質的學習成果,即學生的知識和技能; 「科學實証」是指相信科學是理性思維之本,要尋求真相,就需要以 有系統、統一、公平的方式去進行。從這個角度去看,教育的「問責」 即利用「生產」的成果,多數指利用標準化測驗(standardized test), 亦可配合其他的問責指標,去進行「問責」。換言之,學生是教育制度 下的「產品」,而教師是生產線的「員工」,學生完成某階段後,就以標 準化測驗來檢視成效。英美兩國,是最早期採用問責作為推動教育改 進的國家,詳見W. C. Smith (2014)。 自2004年TSA開始實施,TSA一直是質素保證機制的評量指標之一 (詳見第一章)。直到2014年,因面對很大的社會壓力,政府於優化措 37
施中,把TSA一項加上「小學不適用」字眼,並於公開場合多次表示, 不再以TSA衡量學校表現。由此可見,TSA於2004年至2014年間,一 直是「正式地」作為學校問責的指標之一。至於2014年後,TSA並非 全面廢除,它仍然需要小三、小六學生參加評估考試,只是理論上「存 而不用」而已(曾榮光,見《明報》,2015)。 質素保證機制其實已經包括了各式各樣衡量學校質素的指標,可能教 育局仍很「需要」一把簡單的尺,去簡單量化學校的教育結果。不少人 經已提出,「問責」或這種「由上而下的監控」才是教育局於很大的社 會壓力下,仍不願意取消TSA的最大原因。 於訪談過程中,本研究發現於現實上TSA用於「向學校問責」的作用 非常清晰,以下是考評局一位高層行政人員的分享︰ 「我覺得學校是要accountable(被問責)的。即是說,你的 工作,你是要accountable的,現在問題是,沒有人知道怎樣 使學校accountable,但又不影響士氣,又不令到老師擔心, 以至他們要去操練學生,不太知道怎樣取得好的平衡。…… 你也需要appraisal(員工評價),我們每一個人都要向自己 的工作問責。……但是你用這件事(指TSA)去說,單純只因 為一間學校不夠其他學校的達標率高,向這間學校問責,這 個我覺得是不對的(指由於有學校收取背景不同的學生)。 我想政府現在都承認了不應該這樣做。」 另外,當研究員問及受訪校長或教師「如何理解教育局使用TSA數據 的方法」,以下是一些理解︰ • 「好肯定的是,教育局的地區辦事處一定有去看(指學校的TSA數 據),否則他們不會說我們的成績差,不可能是看我們校內的考試 吧。」
38
• 「我理解教育局是用這些數據去rank學校(將學校排名次),我自 己這樣覺得。」 • 「現象就是,教育局的確是有意圖,利用TSA的成績逼學校正視成 績的問題。」 而津貼小學議會前主席張勇邦,也曾於香港電台《香港家書》分享︰ 「TSA的『達標率』這個學校表現指標,原本是教育局外評隊手上的 一把尺,但在學校看來就等於一把架在頸上的利刃。」 此外,亦有學者撰文指出,「就算用於問責,亦是國際習慣」。文章並 不直接指出教育局利用TSA問責,卻提供利用TSA問責的合理原因 (侯傑泰,2015)。 不過,許多研究都反映出家庭社經地位與學業成就的關係。不少受 訪學者及校長都指出,TSA並沒有將學生背景計算在內,單純比較不 同學校的學生表現,如果作為「監察」和問責工具的話,明顯對於收 取社經背景較弱學生為主的學校不公平。
39
第四章已分析TSA是否達到政策的預期效果,本章將分析TSA帶來 的的種種副作用(Unintended consequences)。研究發現,透過侵 害專業的壓力輸送,TSA嚴重地改變了小學的教育生態。
5.1 操 練的現象 壓力 從教協三次教師問卷調查的結果可見,小學教師和學生因TSA所承 受的壓力是巨大的,【表三】是根據2013及2015年教協調查所得的 數據。 【表三】TSA對師生的壓力 教師評價TSA構成的壓力(10分為壓力最大) 0-3分
4-6分
7-10分
2013年
4%
18%
79%
2015年
1%
19%
80%
教師認為TSA對學生構成的壓力(10分為壓力最大) 0-3分
4-6分
7-10分
2013年
4%
18%
79%
2015年
3%
24%
73%
兩次調查均顯示,教師對於評價TSA構成的壓力上,有約八成教師 表示壓力達最高的「7-10分」;至於對學生構成的壓力,有七成多教 師也認為達到「7-10分」,可見師生同時受TSA的壓力嚴重影響。
40
操練 操練情況方面,75%教師以最高的「7-10分」評價操練的嚴重程度(見 【表四】),75%教師表示有因TSA而為學生補課(2013年教協問卷 調查)。 【表四】教師認為TSA操練的嚴重程度
5. 2 教育局是濫 用數據的禍首 既然教育局一再聲稱TSA乃是「低風險」評估,何以上述壓力和操 練現象一直居高不下呢?
教師開始時都相信TSA低風險 TSA實施的初年確實是低風險地進行。因其不與學生升學掛鈎、不 公開學生成績的設計,大多學校均相信TSA是一項低風險評估,因 此並沒有為學生作準備。普遍教育工作者的講法都非常一致︰ • 「2004年開始,我們起初都沒有什麼預備。」 (受訪教師) • 「2004年TSA開始的時候,我們學校並沒有為TSA而作任何準 備,相信TSA是低風險評估,是一項不用準備的評估措施。」 (受 訪校長) 然而,我們發現,情況很快就出現變化。 41
教育局高官濫用TSA數據 首先,是教育局高官於與辦學團體的會議上濫用TSA數據。據多於 一 位的不同辦學團體 成員表示,教育局每年都與 辦學團體安排會 面,討論辦學團體轄下的學校的各種事宜,例如財政、行政、學校的 成績表現等。一位辦學團體委員指,教育局曾在會上利用TSA數據 向辦學團體施壓,其中一次介乎2004至2006年之間,是由教統局 最高層官員約見,出席的包括該辦學團體高層和教育部門代表。會 議進行超過四小時,教育局將該辦學團體轄下學校歷年的TSA及公 開考試成績、升中派位等數據放滿一枱,指出他們的學業成績表現 惡劣,不能達到一般學校的水準。他指出,該位高官說話很不客氣, 會議結束時氣氛惡劣,最後拂袖而去: 「我個人的經驗是,教育當局是會藉這些所謂數據,向辦學 團體施壓。我起碼參與過兩次至三次這類型式的聚會,就 是說教育局約見辦學團體的代表。我代表我的辦學團體, 去參加過這種會議。……肯定是兩次,很清楚的,或以上次 數,有些就可能是非正式。非常正式的會議有兩次。至少其 中一次,是由XXXX邀約我們,……整體的氣氛,我覺得是 非常惡劣,之後於我們會內,即辦學團體內的高層同事甚至 會覺得是很沒面子的。非常清楚,覺得很沒面子。……這個 相當清晰,XXXX非常不客氣,最後甚至我會形容呢,是拂 袖而去,這是我的感覺。不是很客 套的、有點禮儀上的那 種,一點禮儀也沒有,最後的那個階段是一點也沒有,沒有 的。……就是這樣的批評你成績差,即不能達到一般學校 的水準。會說你整體的教學表現,不能夠做到一個水準,令 到別人,令到家長不報讀。……例如你轄下多間學校,TSA 的指標,當然她不是以一年數據去說,她手頭上有過去好幾 年的數據資料,然後整體說出來時,就像一個整體圖像,就
42
是說,從TSA反映出來你們學校的成績,對比於整體是偏 低的,這個很清楚。清楚的意思是指,她可以說這些其實真 的是一些 hard facts(事實),你沒有抗辯的能力,它是hard facts,羅列了多年的數據,你轄下的學校小學三年級是怎 樣,六年級是怎樣,中三是怎樣。」 另一位辦學團體成員(屬於另一個辦學團體)有以下分享︰ 「我們作為辦學團體,教育局每年亦會約我們會面。……說 起一些事情,他(指教育局人士)會說︰我先看看你們的學 校。你們的A校、C校、D校那幾間似乎不夠落力啊。就是這 樣的原因令辦學團體感受到壓力的。」 本地學校的收生背景有着明顯差異,TSA政策的設計上,並沒有考慮到 學生背景的資料,以致於教育局高官使用這些數據時,顯然亦並沒有 考慮到這點,然後過於簡單地將學校放於同一把尺上比較,繼而以此 作為評論學校教學成效的根據。再者,教育工作不止於中英數的學習, 對於主要收取社經背景低的學生的學校,他們對弱勢學生的全人發展 的培育,就無法呈現於TSA數據上。從辦學團體與教育局的此類會議 上,被訪者認為教育局官員似乎對學術以外的學校貢獻毫不重視。
「殺校危機」加深TSA壓力 2003年,教育局宣布由於適齡學童人數下降,自2003/04學年起, 在官立及資助小學實施「統整使用率低的小學」政策(俗稱「殺校政 策」),收生不足的學校將面臨停辦。然而,除了受歡迎程度之外,成 績的指標亦是評量學校的指標。一位於2009年曾經面臨殺校的教 師,對教育局如何以TSA作為殺校的指標,有以下經驗︰ 「他們(教育局)說TSA是低風險其實是騙你的,……低風險 只是一個口號,暗地裡就不是低風險。我們自己親身經歷
43
過,2009/2010那段時間我們學校收生不是太好,只得十幾 個小朋友報名左右,差不多接近殺校,教育局分區那邊,他 們直接地會說你們學校考TSA成績很差。……教育局向校 長說,校長覆述給我們知道,然後校長就將TSA數據給我 們看,與全港對比,給壓力。……打出來(指用投影器)將全 港成績,與自己學校對比,那個差異相差多少。校長說,這 是其中一個原因,成績不好,就會殺校,我們已經處於殺校 邊緣,局方已講得很清楚……邊緣,非常邊緣,如果不能夠 令成績好一點的話就被殺校的了,被殺的啦。」 殺校的實際影響只限於一定數目的學校,然而,教育界自此卻認知TSA 的成績對學校的風險。無論是否受到當年殺校潮的直接威脅,幾乎大 多數受訪者於訪談期間,均主動以不同論述方式提及殺校潮的影響。 一位學科主任跟我們分享學校操練TSA的情況,除了補課外,大多數 課堂時間亦用來做TSA練習,急於令小朋友懂得答TSA題目。 「(研究員︰你提 及 歷年來都受到殺校壓力,你覺得這個 是否貴校操練TSA的主要誘因?)是的,正是這樣。很久以 前,李國章是局長殺校的時候,有學校上訴,局方不批准, 有兩個理據,一說學校不受歡迎,因為他們成績不好,另一 樣就是TSA的成績差,反映這間學校的教學效能很低,是 有這件事的,否則大家不會那樣擔心。……由殺校衍生的 一種想法就是,TSA的成績是作為教育局怎樣去看這間學 校,因為現在縮班殺校已經不再影響生死(指學校)了,但 是我覺得這個是後遺症,即使局方不殺你,他們用這個指 標去衡量你。」 研究亦發現,除了直接受到殺校威脅的學校外,收生理想、TSA成績理 想的學校,亦高度注意TSA與學校生存的關係,視TSA為一個有風險 44
的評估。兩位沒有受到任何殺校威脅的前線同工這樣分享︰ 「2009年的時候還是很惡劣(指殺校潮),誰人敢說不理 會呢?現在是說殺校呀,對嗎?即使沒有人直接用那個數 據向你施壓,你也會給自己壓力吧? 我覺得一定是與學校生存有關係的,沒可能是沒有。(研 究員︰但是你學校沒有這個生存危機吧?對你們的影響較 少?)傻啦,我們沒有生存危機,是因為我們一向都好重視 危機管理。」
校外評核指標 2004至2014年間TSA是校外評核的主要評量指標之一。「校外評 核」(簡稱外評,或ESR - External School Review)是教育改革以 來質素保證機制的其中一個重要環節: • 外評是輔助學校自評的一項恆常措施,旨在核實學校自評的成效。 • 外評隊伍會透過閱覽文件、觀察及與持分者進行面談,了解學校工作 的進程。 • 外評隊伍一般包括三至四位教育局人員及一位由前線學校人員擔任 的外間評核人員。 • 學校須向外評隊伍提交的文件包括:最近兩個發展周期的學校發展 計劃,最近兩個學年的學校周年計劃、學校報告,以及最近期的學校 表現評量報告和持分者問卷報告。 • 外評期間會進行的事宜︰閱覽學校現存文件及學生課業、觀察學校活 動及觀課、進行小組會議或個別面談、進行集體判斷及對學校作口頭 回饋。 • 學校接獲外評報告定本後,須向持分者發布外評結果。為加強問責和 透明度,學校須把外評報告存放於校園易於取閱的地方,供主要持分 者閱覽。教育局鼓勵學校把外評報告上載到學校網頁,以體現問責 精神。(教育局,《校外評核︰學校資訊》,2016) 45
外評的結果需要上載到學校網頁,用途之一是向公眾及各不同持分 者匯報學校表現,而學生的學業成績往往是備受關注的一環。換言 之,外評報告如像學校的公開成績表,學校普遍對此非常認真。 自2004年起,TSA表現被列入外評23項「學校表現評量指標」之一。 至2014年,為減少TSA的操練壓力,教育局為TSA一項後面加多了一 個附註:「小學不適用」,以顯示教育局並不以TSA作為評估學校效能 的指標。可是,小三、小六學生仍需要參加評估考試,只是「理論上」 不使用而已。無論如何,2004至2014年之間,TSA是外評的正式指 標,用以檢視學校於中英數三科的表現,毫無疑義。直至2016年2月, 教育局的檢討委員會將TSA剔除於外評指引之外,加強「理論上」不 作為評量學校的指標的意思,不過校長和教師知道,教育局仍存有各 校的TSA成績。
外評重視和依賴TSA成績 本研究發現,校長和教師均指出接受外評時(2004至2014年間),外 評隊以TSA成績為重要基礎,評量學校教學表現。一間以收取社經背 景極低的學生為主的學校校長,談到外評的情況時說︰ 「有的,有提 及,成績不太 好(指學 校的TSA成績)…… oral feedback, written feedback(口頭報告和正式報告) 都有講,說學生TSA成績不太好。」 這位校長說學校經常收取教育局派來的新移民插班生,面對一群來自 草根階層、包括家庭背景複雜的學生們,學校教育除了學術外,還包括 非常多的課外活動︰唱歌、書法、電腦、工藝、舞蹈,發展多元智能等。 對於學校的TSA成績不太理想,校長反問:是否可把兩班插班生退回 給教育局?
46
另一位校長分享,外評隊以「高於水平」和「低於水平」字眼來評量 學校的教學表現: 「我們於20XX年進行外評,那時候仍然有一個章節是有關 學校的中英數學生表現的。第四個範疇,其實他們(外評隊) 是會看TSA的,及達標率。他不會說是TSA,他不會。他會 說成︰『你中英數的成績是高於水平』。雖然表面上他會說︰ 『我們綜合很多資料,會看你們的試卷啦,會觀課啦,我們 亦會參考一些 TSA數據,學校派位成績啦』,就是這樣。」 另外,有受訪主任表示,於2004至2014年期間曾兩度接受外評(兩間 不同學校),過程中外評隊再三查問教師,課程和教與學上如何回應 TSA的數據。 「因為他們(指外評隊)一直都拿著TSA文件去問我們的 教與學,是如何回應TSA, (指出自己有兩次參與外評的經 驗),他們問同一個問題,你們的教學如何回應TSA數據? 問我課程的情況,其中一點是,你們這間學校,其實課程 上是如何回應TSA數據?因為我校幾個科目都不達標。」 由此可見,外評隊以TSA成績為重要基礎,評量學校教學表現,前線 的學校同工因此「學習」到學生的TSA成績是用來評量學校表現的 「證據」。
利用TSA數據作為新校舍審批的指標 有辦學團體的受訪者表示,對於辦學團體轄下的學校訴求,如「申請 新校舍」,教育局亦會利用學校的TSA作批准與否的其中準則。 「這個TSA,教育局是會用來針對學校。我們有些學校(指 辦學團體轄下的學校)想申請新校舍,『喂,這學校不是很 47
受家長歡迎的,他的TSA成績不高。』(指辦學團體與教育 局的會議上)於是,我想設計初期可能是大家都覺得沒有 風險,但有人利用它來做了一些手段。」 研究員追問︰「即是說,以你的理解,對於你辦學團體轄下的學校申請 新校舍時,你是指教育局利用TSA作為其中的考慮?」 「教育局是不會明確告訴你怎樣分配新校舍,但一定是有 看TSA來批的。例如我們轄下有學校申請新校舍,局方會 說他看很多東西,說看你收生情況、校舍年齡,但其實沒 有人知道他們是如何決定的。可是我們於批發新校後再去 重看,例如他現在將個新校舍批給間XXX學校,我們的屬 校明顯比那間學校殘破,我們就知道審批的其中條件,是 TSA成績。」 TSA的壓力,就是這樣形成、加強的。
5.3 壓力層層輸送,教師臣服 於TSA 這裡 先簡介 辦學團體 於 體制上的角色。本港的中小 學多屬資助學 校,學校由非牟利的辦學團體按政府訂定的標準管理,財政則絕大 部分由政府承擔。辦學團體各自有不同的辦學理念,大多有宗教、慈 善團體或商會為背景,轄下有一至超過五十間學校。辦學團體並非 參與日常的管理當中,而是透過校董會管理學校。校董會與辦學團 體的關係密切,其成員(稱為校董)大部分來自辦學團體。
48
校董會受託管理學校,須就學校的整體表現向教育局、辦學團體及 家長負責。【表五】顯示了學校的管理架構︰ 【表五】學校的管理架構
本研究發現,不同的辦學團體對於轄下學校的管理模式,有着顯著的 差異。有辦學團體對轄下學校以信任為原則去管理,極少進行指導或 干預,基本上完全尊重校長和教師按自己的專業去工作;亦有辦學團 體以高壓的方式去管治學校。對於TSA的處理方式,我們接觸到有 辦學團體基本上完全沒有運用TSA數據進行任何問責,沒有任何與 TSA有關的管理政策,另一邊廂,我們亦接觸到一些辦學團體利用 TSA數據向轄下學校問責,並以種種行政方式去向學校施壓。
排名榜 首先,有辦學團體會利用TSA成績「排名榜」向轄下學校施壓。部分 辦學團體,過去曾經或者一直以來,利用轄下學校的TSA成績及其 他資料製成「排名榜」,送到轄下各校的校董會作「檢視」,或於辦 學團體與校長們的會議內「討論」,實際上,是要各校警惕提升學生 的成績表現。一位辦學團體的受訪者分享,其辦學團體以追求「成 49
思維,會想辦法提升學校的成績表現,「排名榜」便是其中的手段。 每年,各校需向辦學團體遞交各式各樣的成績資料,這些「排名榜」 送到學校及其校董會,因此各人能看到轄下其他學校的成績表現: 「我的經驗就肯定是有(指施壓)。問題就是,他們(指自己 所屬的辦學團體)有着所謂追求卓越,要辦名校的思維,他們 是藉着教育局的壓力,去壓他們下面的屬校。可是,如果我說 得更直率點的話,我不認為他們只是受壓力,而將壓力施到 屬下的學校身上,他們本身亦有這種想法的,為何我這樣說 呢?因為他們(指辦學團體)過去都已經,即使教育局不施予很 大壓力的時候,他們都會將各校的成績,例如小學的收生情 況如何,小學過去有學能測驗的時候,你(指學校)的成績如 何,中學以往未轉為六年的時候(指新高中六年制),中五時 你(指學校)的會考成績如何,高考成績如何,是會全都排列 出來,然後於我們的教育部門裡全排列出來,我們作討論。 之後,將這些結果,送去各校的校董會,請他們自己去檢視。 言下之意就是說,他們可以看到其他學校的成績,是不是? 從而他們要警醒,要警覺,如何提升自己的成績。這個過去整 個practice,於X(所屬辦學團體)一路都是這樣。這個當然 包括了最近這十多年引進的TSA,當然亦會成為他們的所謂 league
table的一部分,排列出來。……像個排名榜吧,列出
來就已經清楚的了,它未必需要話一、二、三、四、五,你一看 就已經知道,你這個多少percent,那個多少percent。……即 各校是需要呈交他們每一年這些資料給我們的教育部門,然 後我們就將它排一次,情況就很清楚地出來的了。」
50
另一位教師指出,其學校的辦學團體於TSA開始實施後的幾年,曾將 轄下學校的TSA成績排名次,A校第一,B校第二等,校長每次去跟辦 學團體開會後,都會跟教師滙報開會的情況,然後跟教師審視學校 的TSA成績,受訪者指那時候教師和校長都很緊張和擔心,可是幾年 後此做法便漸漸「低調」了。(「教」指教師受訪者,「研」指研究員) 教︰因為我們是X(辦學團體名稱)學校,每一間學校都有 個成績去排次序,他們(指辦學團體)就拿那些TSA、 公開試成績,就排 次序,那麼就會排到那間學 校排第 幾,另外一間學校排第幾,排列Y間(辦學團體轄下學 校的數目)。 研︰即你是指X排成績? 教︰是,那時候我們就很緊張自己。 研︰你是指何時?現在?還是以前? 教︰不是現在,是以前。以前都有TSA的吧,那時都差不多 十年前,但後來就低調了,就不是那麼公開地用來講。 研︰你說X將學校成績排次序,你是如何知道的? 教︰校長說的呀,用螢光幕投射出來,全都會跟我們說。校 長會說,「我去X開會,那 位總主任就排,排到你的學 校第幾名,這樣講的。」
問責 排名榜外,有辦學團體會利用TSA成績向校長問責。一位受訪教師 分享,曾經任教一間學校,校董會 很着緊TS A 成績,如成績不理想 會向校長興師問罪,並利用TSA成績質疑校長的領導能力和教師能 力,當時的教育局亦會致電學校討論TSA成績: 「我曾任教的一間學校,校董會是很緊張TSA成績的,成 績不好 會興師問罪那種。……我離了職後,校長跟我講, 51
原來那時校董會會以這件事(指TSA)去質疑他的領導能 力,亦都質疑老師的能力,那時教育局又真的會打電話來 找學 校,所以他很擔心,很擔心隨時又有ESR、重點視學 呀、QAI (Quality assurance inspection),很擔心會否拿著那 些資料來批評我們。」 另外,有受訪的辦學團體成員指,辦學團體內的高層會請教育部門的 成員,到個別學校進行探訪,期間會透過觀課,與校長及所有教師開 會等形式,討論學校情況。氣氛雖然是客氣和鼓勵形式的,然而,最 大目的是希望學校能夠「醒醒定定」,提醒學校改善成績表現。 「教育部門會到學校去訪問,從而去觀課之類,當然觀課只 不過是一個形式,因為我們去也只不過去一日或者大半日, 但意思即是說只是想觸動起校長那個意識,在會(指辦學團 體)來說,是在關注個別學校的學業成績。教育部門去到你 們這間學校入面去了解情況,當然,從所謂正面的講法就是 說,了解你有什麼需要,有什麼可以幫你,但是從另一個角度 就是說,真的去到你學校裡面去看你們的情形。當然,氣氛 是很客氣的,老實講那些都是自己人來的,只不過真的帶一 個訊息,即是說高層(指辦學團體)希望教育部門會藉住這 樣的探訪活動,帶一個訊息給校長和老師。我們到了學校, 是會召見所有老師,與他們一起開會。然而,種種我們覺得都 只是一個形式罷,一年去一次,傾講一下,觀一些課,然後學 校又介紹一下他們本身的情形。我覺得其實只是一個姿態, 給教師一個訊息,或者藉住校長給教師,話醒醒定定啊,教 育部門亦來看你們工作,其實是這個訊息罷了,希望帶這個 訊息,讓他(指學校)有些改善。」
52
校長轉介壓力至教師 一位受訪主任表示,於入職時校長對他的首要要求便是提高TSA成績︰ 「面對TSA,我新到埗這間學校,校長第一件事便要我想 盡方法去搞掂(處理)它,這個搞掂,是因為不達標,而且大 比數拋離呀。」 另一位受訪主任,被校長要求利用補課提高TSA成績︰ 「因為各科成績都嚴重低於全港平均,校長就要求我們為 學生補課,集中和學生做TSA past paper。」 另外兩位教師均任教於主要收取基層學生的學校,他們都承受着外 在的多方壓力,他們這樣講述處境︰ 「根 本得到個數據( TSA) 之後,老師就會被校長 或校董 會逼迫,然後老師逼迫學生,一路這樣逼迫下去。現在我 們已收到成績,例如這個,這條題目,答案是C,全港答中 率是78%,可是我們只有55%,然後呢,就要分析,為-何會-這-樣-差!大部分人都只會歸因於老師教得不好,不會 歸因學生是否有特殊學習需要、家庭背景,校長亦會說, 其他學校的小朋友也來自背景欠佳的家庭,為何別人的分 數就可以那樣好呢,不就是老師的問題嗎?這樣地,怎麼 可以沒有壓力呢?一定會有壓力吧,所以就造成整個日常 課程為着TSA而去教。老師是無力抵抗的,不能作聲,最 慘是這點,老師被怪責成懶散,做得不夠好之類。」 「如果同全港(平均成績)相差很遠呢,大家就會覺得 很 有問題,除此之外,這些TSA報告是會交上校董會的,所 以校董會的人都會知道各間學校的成績情況,那麼,亦從 而會有比較,即是說,同一個辦學團體,轄下有多間學校, 53
為何這間會有這樣情況,變成會有比較,校長之後再放些 壓力下來,情況就會是這樣。」 然而,外在壓力並不限於基層學校,TSA成績優異的學校教師有這 以下分享︰ 「曾經有一年我校TSA成績下跌,我校長從來不會瞪大隻 眼的,突然間對我們說『不行喎,這樣不行啊』,即是說他 知道這件事是很嚴重的,因為他會知道,這是會影響學校 收生的,我們的學校收生人數多,就是因為我們中學派位 做得好。所以,我覺得一直以來,我於這間學校這麼多年, 校長是很緊張成績的,他不會有特別要求我們對TSA要做 些什麼,可是我們會覺得,考得好是一個基本要求,因為如 果這個做得不好呢,就會影響我們的派位,即是說我們於 這區裡面,領先頭的位置就會失去。所以其實校長沒有很 刻意去說要做些什麼,但是基本上我們都會看着個成績去 發現,呀,這班學生這方面差了喎。」
教師的臣服與轉變 校長和教師年復年地收到學校的TSA報告,漸漸改變著教師如何看待 自己的教學。局方雖沒有「規管」教師怎樣進行日常教學,但TSA的評 量,逐漸地為教師的行為帶來改變。 一位受訪校長有這樣的觀察︰ 「起初兩年呢,學生考試後我們收到報告,我都會請同事 去看一下,即中英數三科的主任去看一看每一科的情況, 起初兩年都覺得可以反映我們自己一些弱的地方,再落去 第三第四年呢,我就發覺很多事開始『鑽左牛角尖』。」
54
另一間收取中產家庭背景學生為主的學校,學生的學業成績好,沒受到 辦學團體或教育局的施壓,校長卻分享TSA如何令教師「轉變」︰ 「我們的老師做事很認真,逐個範疇逐個題目去看的時候 (TSA報告),你看得很仔細的話呢,於是你會催促自己, 催促自己於這一方面,是否要再做好些呢。於是老師就自 不然,慢慢地進行自我調較,自我調較是指例如『這一類型 的題目,我們做得不是太好吧,去年也是這樣,那麼我們 是否需要於我們的課堂裡面,於這方面加強?』這樣地,於 是呢,經過一段日子,時間短,兩三年呢你不會發覺的,但 經過現在這十多年,當你再回望TSA早期實施的時候,我 會看到,其實老師的心態是會有不同,自然會變成追 趕着 TSA題目去走。」 此外,亦有學校學業成績良好的受訪教師這樣說︰「我想,是老師個 人會覺得,嘩,考得差不行。」教師已經順應外在壓力,把外在壓力 內在化,成為對自己的要求!
5.4 試題難 度 進一步令情 況惡化 上述濫用數據的壓力傳遞是TSA異化的主要因素,而試題難度令情 況進一步惡化。 不少受訪教師有相同的疑問,就是既然TSA作為「基本能力」評估, 但從題目可見,所評估的並不是學生的「基本能力」,不少題目就並 不可能是一般只擁有「基本能力」的學生能夠答對的。(坊間出版的 補充練習,參照TSA評估中較深的題目出題,又進一步加深TSA試 題艱深的印象。)
55
一位科主任有這樣的疑問︰ 「為何TSA的題目考的東西不是所講的基本能力呢?因為 見到這個考試的試題的模式,以及小朋友的作答表現都不 是屬於基本能力。……說是基本能力,就應該是基本能力。 現在因為這些題目出成這樣刁鑽,變成小朋友答不到。」 透過與考評局以及曾參與設計TSA題目的人士的訪談,本研究將TSA 試題愈出愈深的原因歸納成兩項︰一,是「基本能力評估」與「促進學 習的評估」這兩個概念之間;二,是考評局出題的方法和過程。
「基本能力」與「促進學習」之間的矛盾 先說「基本能力評估」與「促進學習的評估」這兩個概念之間。TSA 於實施之初,確實是以評 估學生的「基 本能力」為目的及基 礎,因 此,設 題 上確實是較簡單,大部分的學生都可 輕易答 對。可是,當 TSA 政策落實了一段日子後,在「基本能力」外,卻同時強調於「促 進學習的評估」。根據受訪者解釋,要做到有效的「促 進學習的評 估」,題目就如像「跨欄」中的「欄」一樣,定得太低的話人 人能跨 到,就不能分 辨 誰的跨欄能力 較 高,而 誰 的 跨 欄 能 力中等; 相 反,定 得太高的 話人 人都 不 能跨過,也達不到效果。因此, 「 欄 」必 須 是 圍 繞 中 等 的 高 度,大約一半人能跨過,另一半不能跨過;同時需包括較高和較低的 「欄」,以分辨不同的能力程度。即試題難度要像一個「鐘型曲線」 (bell
curve),除主要的中等難度的「欄」外,讓學業水平較高的學
校有一些較高的「欄」,可以知道學生的能力達到哪裡,也讓學業能 力較低的學校有一些較低的「欄」。換言之,TSA題目不可能只圍繞 「基本能力」,而要涵蓋不同難度的題目,考評局或教育局中人形容 56
容這只是「多獲取一些數據 」,即更 能了解學生的能力。至於達標 率,不論題目的深淺,考評局都會利用統計學的方法去「畫一條線」 決定學生達標的水平。 以上解釋了為何稱為「基本能力評估」的試題一點都不「基本」。因 此,教師看到實際上是「鐘型曲線」難度但稱為「基本能力評估」的 題目,當然不會想到背後出題的道理,而是設法令學生達到試題的 要求。一位校長這樣分享︰ 「作為基本能力評估,學生的基本能力掌握不到,那麼學校 是否有責任幫學生要掌握這些基本的能力呢?……所以你 問我30%(指答對率)有沒有問題,當然有問題啦,當然要做 功夫啦。做功夫的原因是因為我覺得我未有盡責呀,不是我 要我的校譽如何提升,或者我要怎樣做,而是我真心地覺 得我有責任,我要幫我的細路仔。」 由此可見,由於教師普遍理解TSA的題目是作為評定學生的「基本 能力」,可是題目實際上是包括不同程度的難度,而教師認為必須讓 學生能夠應付TSA 題目才是為具有「基本能力」,這種不一致的理 解,造成進一步的操練誘因。
出題的方法與過程 第二,是考評局出題的方法和過程。TSA作為標準參照(criterionreferenced)的「基本能力評估」,與一般的考試有很大分別,由定 義何謂「基本能力」的水平、設定相應試題、水平維持以作年與年間 的比較,均牽涉到很多專業知識,審題過程相當複雜,是需要很多專 業知識的工作。每年,考評局會邀請教師為TSA出題,然後由考評局 的「專責小組」審批。
57
【表六】 評估設計
來源: 香港考試及評核局(2015):《2015 年全港性系統評估報告學生基本能 力報告》
根據幾位曾參與設計TSA題目的受訪學者、教師、考評局代表及相關 人士的資料,我們歸納試題愈來愈深的三種原因︰ 1. 欠缺傳承 TSA出題是很專業且需花時間的工作,可是欠缺傳承,逐漸失去嚴 謹性。 2000至2004年間,即TSA實施前的工具制定階段,準備試題的工 作組花大量時間於調適和審議題目上,務求做到準確地評估學生的 基本能力。可是,隨着時間過去,漸漸地,對於量度基本能力的設題 要求上,已大不如前。考評局以商業模式運作,TSA實施了一段時間
58
之後被認為已上了軌道,不再投放資源於審題過程上。知情的受訪者這 樣形容︰ 「考評局是一個 Business model(商業制度),成個operation (運作),上了軌道它(考評局)不會再投放資源的了。我覺得 導致今日的壓力就是,它(考評局)出卷,可是那些資源不會 放在moderation(審題)上,我們那時moderate一條題目要一 個星期(指TSA開始實施時)。……當它(TSA)上了軌道,我相 信他們(考評局)沒有了那個縝密的過程,因為都考了十年。」 他補充出題的過程如下︰ 「我知道他們(考評局)現在仍然有兩個committee(委員 會),一個committee負責出題,然後moderate條題目(審 題),另一個independent committee(獨立委員會)就是考 完之後再去看這些題目有沒有問題,仍然有這個機制。可是 一個商業運作的機制未必能夠做到很足,我覺得這也是一 個壓力來源,因為我看有些題目真的很差,出得太刁鑽。」 另一位受訪者於2007-08年度曾參與設計TSA題目的委員會,他有這 樣的經驗︰ 「開會的時候,我發覺有些老師是不知道什麼叫做TSA,隨 便地出些題目。……他們(指出題的老師)是拍膊頭找的(指 考評局隨便找些相熟的教師),水平很差,什麼叫BC(基本能 力)也不知道。」 受訪者續指出考評局的人手交替轉變很密,解釋為何早期強調的「基本 能力」缺乏傳承: 「這件事(TSA)無承接,TSA當時講到天花龍鳳(指起初的時 候有很好的理念),講的時候我們知道在做什麼,可是難以於 那份Minutes(會議紀錄)裡交待得清楚,有時請他(委員會內 負責紀錄的人)寫多些他又不願意寫,請他寫些explanation notes又不寫。……所以當時(委員會內)就有老師問, 『與其既 然都是這樣出題,這樣淺,為什麼不考深一些?』」 59
2. 已出的題目不可重複的原則。 已出的TSA試題評估後會送到「學生評估」作為資料庫一部分,加上坊 間出版的模擬試題,要做到試題不重覆,就會變成愈出愈深。 「那時候想做到兩個試的形式一樣(指學生評估和TSA),於 是就建議這個TSA的題目考完後,就調到 SA (學生評估) 那裡,作為 item pool (試題庫)的一小部分,換言之 TSA 和 BCA(基 本能力評 估)的題目就沒有差異,這樣問題就產 生,因為一旦全調出來,所有人知道,那麼下一年又要出新 的試題,再下一年又要出新的,於是十年之後出無可出,就 開始變得刁鑽。……因為題目要與舊的有所不同。」 加上坊間出版的模擬試題,再增添出題的難度: 「第二,中途又有很多出版商出現,抄啊改啊之類,於是考 評局出題那些人,就要全看過這些題目,又要與這些題目不 同,於是更加刁鑽。……於是他(考評局)要出一些別人無 法估到的,就變成愈來愈刁鑽。」 3. 題型不斷轉變 過去為了杜絶操練,每年的題型不停轉變,讓人知道題目無法估計,因 此無法操練。 一位TSA檢討委員會內的成員這樣解釋︰ 「出怎樣的題目呢?有兩派學說,教授們都有兩派。一派說, 應該年年的題型都轉變,學校就知道操無可操,都估不到你 出什麼題目,我有什麼可以操呢?這樣不就杜絕了操練嗎?但 另外一派的學說就會說,不是這樣,你時時都變的話,他(學 校)更加驚,他驚就會怎樣呢?去坊間找別人胡亂出的題目, 60
還要『捉路』(預測試題),就更加操得厲害。兩派學說也有, 我們之前是被某一派學說影響,是每年試題目的,試題型。」 他補充,轉題型是為了「回饋到更好的數據」,但「社會不接受」,近年 又改變取態: 「試一些新的題型,看會不會有些好的方法回饋到更好的數 據給學校,我們於早幾年是多試了不同東西的。但既然社會 很不接受,很不喜歡,那麼另外一派學說又開始dominate(主 導),我們就再轉變,因此現在那些題型都是差不多的,不會 怎樣變。」
5.5 課程狹窄化、教學過程測考化 普遍學校的教學過程和考測均受到TSA的干擾,而程度上有不同。 曾經面對嚴重收生壓力的學校,受到最大的影響,TSA主導了整個 課程、教學和考測。一位受訪教師如此分享︰ 「向着TSA進發,譬如我校就差不多100%向準TSA方向,基 本上每天的教學就是教TSA。」 「現在有了TSA之後,所有事情都TSA化了。」 大多數的學校,都出現課程狹窄化的情況。一位課程領導有以下體悟︰ 「我自己最着重的是中英數三科裡面將課程狹窄化,或者 TSA化,……教學的內容狹窄到只是看着個TSA,這個是我自 己覺得最可悲和最心痛。」 TSA為教育社群帶來的轉變,與國際上對高風險評估的研究相當一 致。例如 George Madaus (1989) 指出,短期而言,教師們會將注意 力放於評估目標,可是長遠而言,如果教師、校長或領導層開始意識 61
到這些評估數據是用以評核他們,或這些成績對於他們或他們的學 生造成影響,評估就會變成課程。一位教師這樣形容他的教學︰ 「例如,要教一些技巧,好像現在去閱讀一條題目,首先要 「間」了些 main point(重點),到底問題問什麼,然後要 小朋友拿支筆去lo c ate(找尋)個答案出來,於 一篇文章 裡面,叫Q1, question one,個答案原來是從這裡找到,小 朋友呢,就寫個multiple choice(多項選擇題)的答案,我 強調是用multiple choice的答案,佢用支筆,去填個洞洞, 日日都是這樣做。可是,例如我們以前讀書那些sentence ma k i ng,根本是少了好多。他們現在只懂得填洞洞,填洞 洞,填洞洞。如果要寫句子呢,他們不懂得寫。」 而一位副校長亦對他們的教學有這樣的觀察︰ 「例如,TSA,因為它的考試,考兩種說話模式,但是你語 文科的說話教學是很闊的,可是,情況是,有學校『操』來 『操』去就是『操』這兩樣,這個就是我講的所謂狹窄化 了。或者它不考的我就不教,這個就是都很差的一件事。」 另外有一些學校,指其教學上不會受TSA有太大影響,卻於考測上跟隨 TSA而設計。 「的而且確,我學校近幾年來的考試出題模式呢,其實是 「TSA化」了的,是指出題的模式,問問題的方式,都是用 TSA的問題的問法。以至於我們的教學有時呢,都會「TSA 化」了。(研究員問考試有多大程度的TSA形式?)我想都有 70至80%是identical(一樣)的。教學呢,指課堂裡的教學 呢,其實我們不會因為有TSA的緣故而令我們的教學有太 大的轉變。」
62
一位教師指出他們的考試會有一半以上的題目型式按TSA模式去設 計,例如會有較多多項選擇題,中文閱讀理解文章由一至兩篇改為 三篇,以及評分標準亦會依照TSA的準則。 然而,很多校長和教師亦提及TSA並非課程的全部,也不準確量度 學生的能力。 「TSA只是課程的一小部分,課程是很闊的。」 既然 T S A只是課程的一小部分,校內考測作為檢視學生學習的功 能,卻縮窄成檢視學生達到TSA的程度,而非按照教師專業去全面 地評估學生。 整體而言,幾乎所有學校均受TSA的不同程度的干擾,受壓較大的學 校受到的干擾自然較大。當TSA變成了高風險評估,教師容易被引領 進入一種機械式「應試教學」(teaching to test),這樣令教師的教學變 得簡化,對教師專業造成「去專業化」(deskill/deprofessionalize), 從教師手上取去很多重要的決定(George Madaus, 1989)。
5.6 教師「去專業化」(De-Professionalized) TSA令不少教師花大量時間和精力於「TSA專業」上,而壓縮了以「全人 發展」為目標的教師專業及教師價值。一位科主任表示自己有這樣的轉 變︰「開始不是去想如何教書了,而是怎樣去考好這個試(指TSA),如何 於教書裡面去追這個TSA。……我們做數學老師呢,已經將個syllabus放 在一旁了。」
63
整體上,較多校長和教師均表示會花大量時間於研究TSA試題。有 教師每年收到報告後,會仔細地進行很多分析,一位課程領導有以 下分享︰ 「TSA,這麼多年來我們都有追蹤它的試題,每一年去看 學生的表現,每題題目去分析,去看它的文章。……其實每 一年收到(TSA報告)之後,我們的科主任就會做他們自己分 科的分析,分析分幾個層次,幾個層面。首先我們會做一些 試題的分析,我們每一年都會分析試題,看能力的層次,即 BC(基本能力),其實我們自己會再去分層,甚至是題型有 沒有轉變、每一篇閱讀理解的字數,我們都會有一個追蹤 的比較,會不會愈來愈長呢,或者它的文章種類等等,其實 每年都有一直累積着。另外就是我們會看每一條題目,我們 的小朋友同全港的達標率的比較。」 以小學階段數學科為例,教師專業其中的意義是指,幫助學生建構數 學概念,通過具體的動手操作,幫助學生建構抽象概念。可是,教師被 去專業化,一位科主任這樣形容她校的數學教師︰ (研究員︰TSA的壓力會否壓縮了一些平時應有的教學呢?) 「會,絶對會。記得那時我發現一年級小朋友不懂得永備 尺(數學課題),不懂得自訂單位(數學課題),然後我問 同事,想知道他們怎樣去教,會否跟學生做些實作活動, 後來我去觀課,就發覺大件事,同事只習慣拿着工作紙, 用個實物投影機,跟學生一齊 做,學生錯了,然後改正個 答案就算,可是我們教 數學呢,要有實物,要給小朋友有 機會做實物操作,做多了學生才會入腦,可是這些都沒有 了,然後我問同事,為何不用工具呢,他很鄙視地看着我, 問哪有時間做?」
64
他繼續解釋當中的原因,是因為外在壓力,教師為了急於令學生能 夠應試,他這樣分享︰ 「後來我發現,原來是因為之前一兩年,校長逼得他們(指 同事)很緊要,要有成績啊,我說這樣其實不會有成績。簡 單說,就是很急於要小朋友要懂得答題目,其實要學生懂 得答一條題目,老師要準備很多,去建構這個知識,現在 沒有了,整個數學教育最重要的,具體到抽象,沒有了。」 然後,他這樣形容對學生的影響︰ 「例如TSA有些所謂很tricky(刁鑽)的題目,其實是考概念 呀,學生就會錯,愈tricky愈是要知道個概念怎樣用吧,炒! (指學生做錯),愈是艱深愈是要用最基本的concept(概 念)去拆解,沒有了。……如果學生本身一些技巧或者概念 不清晰,升到上高班,很多時,是會拉牛上樹。」
5.7 前線對教育局信任的崩解 TSA既沒有發放學生個人成績亦與升學無關,可是,TSA於2004年實 施後幾年間,教育界開始「明白到」它於現實上的用處,對學校而言逐 漸變成高風險。 隨之而來,是對教育局信任的崩解。多位受訪校長和學者均不約而同地 指出,TSA的成績比較並不公平,因為學校本來就收取背景非常不同的 學生。不只是受到施壓的學校,TSA成績良好的學校校長雖然沒受到施 壓,但卻於校長之間的群體中知道教育局或辦學團體利用TSA數據向其 他學校施壓,明白學業水平弱的學校會首當其衝,因此,即使自己沒受 到施壓,卻知道這些情況而對教育局失去信任︰「我們認識其他校長,知 道教育局和辦學團體是有向學校施壓的。」 65
此外,多位受訪校長亦不約而同地提及教育局於2015年12月發出的遏 止操練通告(教育局,2015),並表示憤怒。其中一位受訪校長,表示近 年小學校長界對教育局已經失去信任,她指小學校長們大多一向都是 很温婉平和的,現在經過局方出信要求學校停止操練TSA,以及近年的 其他事件,很多校長們都非常憤怒,對教育局完全失去信任,她認為轉 換局長是重建信任的其中辦法。另一位校長認為TSA問題是由於局方 與業界的溝通失效,過去對於大是大非的事情,教育局會與業界作良好 溝通,可是近年來就如處理TSA操練問題,局方明顯沒有與業界好好協 調,就對學校發出遏止操練通告,做法令人憤怒。 亦有教師提及TSA檢討委員會的組成,令他對局方失去信任。 「其實我已經不太相信這個政府,很多時都是講一套做一 套,沒有信心。……政府的檢討委員會(指基本能力評估及 評估素養統籌委員會)沒有多元化的意見在會內,這點令信 任基礎都沒有了。……我看不到有多元化的意見是能夠放 於這個檢討會裡面,而得出的結果能夠客觀,配合到小朋 友的發展,我作為一個老師,我只是想學生學以致用,學得 開心,以及願意繼續去學。……其實很可憐,我亦不相信考 TSA的本意,他們叫做異化,我說不是異化,是變異形。」
結語 本章分析TS A預期以外的副作用,都是非常有破壞性的。壓力和操練 的普遍化,令師生均深受其苦;更 嚴重的是TSA的影響已深入整個課 程和日常教學生活之中,令課程狹窄化,甚至教師「非專業化」,可謂 觸目驚心。把 教育工作以簡易指標 量化成數 據,加上 數 據的誤 用,使 TSA由「尺」變為「刀」指向學校,學校陷入恐慌,操練學生,成了一系 列的教學問題,於現實上影響着很多學校的生態和運作。
66
我們接觸到受訪者中,有主要收取非常弱勢學生為主的學校,校長有 着堅強的個人信念,亦獲得辦學團體的支持,並不受TSA太大的干擾, 但這畢竟是例外。也有普遍學業成績良好的學校,因為種種擔心或壓 力,對學生 進行過多操 練。校長和教師的個人信念固然重要,但制度 上的壓力更不容忽視。
67
本章是在以上各章所描述的現象及分析的基礎上,反思TSA幾個重 要的錯誤和教訓。
6.1 誤以為「系統監察」和「學校改進」可以兼容 教育局TSA檢討委員會(2016)的報告書作了一個非常有意思的探 討。它比較了不同的TSA改善方案,考慮以不同的「評估周期」、「抽 樣形式」、「報告形式」的組合,試圖得出一個能同時做到「減少操 練的誘因」、「提供客觀數據供政府參考」及「提供回饋學與教的功 能」的方案。結果令人失望,要達到橫行的三個「剔」,幾乎不可能, 說明這麼一個理想的方案並不存在。 【表七】不同TSA改善方案的比較
資料來源:教育局(2016)《TSA檢討報告》附件十一
評 估 周 期
減少操練 的誘因
提供客觀 數據供 政府參考
提供回饋 學與教的 功能
取消小三系統評估
有可能
×
×
暫緩一年小三系統評估
有可能
×
×
每年舉行 (優化及調整)
有可能
✓
✓
×
✓
✓
隔年舉行 (單數年或雙數年舉行)
68
×
以學校為抽樣單位
✓
✓ (只限參加的 學校)
抽 樣
報 告
其 他
✓可以
×
以學生為抽樣單位
✓
× (沒有 學校報告)
✓
中、英、數三科 每年各考一科
×
政府有報告(有校名) 學校有報告
×
✓
✓
政府有報告(沒校名) 學校沒有報告
✓
✓
×
政府有報告(沒校名) 學校有報告
有可能
✓
✓
政府有報告(沒校名) 學校有報告 家長/學生有報告
×
✓
✓
於小四舉行
×
✓
✓
✓
(每年只有 一科的回饋)
× 不可以
其中一個方案較為接近成功,是「政府有報告(沒校名),學校有報 告」。然而,正如第四章的分析,倘學校有報告的話,仍然難以避免 辦學團體或其他有權者濫用數據。報告書在「減少操練誘因」這一 欄給的是「有可能」而不是滿意的「剔」,也是實事求是的評估。
一個評估,多個目的,可能嗎? 關鍵在於,TSA的兩個主要目的(「系統監察」和「學校改進」)之間 存在難以化解的矛盾。
69
不少國際和本地學者均清楚指出,一項評估未必能兼容多種目的。 學者Paul Black (1998)提出三種學校評估的主要目的,包括(一) 支援學習、(二)報告個人成績以作證書用途、及(三)滿足向公眾問 責的需要。他繼而指出,不同目的之間存在着張力,考慮時須審慎選 取最好的機構、最合適的工具及最好的分析方法,以對應不同的目 的。如果希望使用一項評估來滿足多種目的,很大可能導致各種目的 均不能達成。 Walt Haney(1991)這樣比喻,「使用一項評估來達到一系列的目的,就 如同由腦手術至打樁,都使用同一個槌子」(“Using one assessment for a multitude of purposes is like using a hammer for everything from brain surgery to pile driving.”)。 我們 也 就 此向多位本 地 學 者請 教。不 約而同地,幾 位學 者 都同意 TSA只適宜用作概括地了解本港學生的中英數成績的用途,或建議 把『系統監察』和『學校改進』兩者分開進行。
「系統監察」與「學校改進」評估的區別 讓 我 們 檢 視「系 統 監 察 」和「 學 校 改 進 」兩 類 評 估 的 區 別。參 考 Lorna Earl (2003)的分析︰ 「系統監察」的評估︰ • 於某階段結束,作為總結性評估,為教育局的施政和社會提供整 體性的數據,廣義地解釋學生的知識和能力。 • 以真正低風險的運作進行,如像學生每年進行的量度身高和體重 一樣,校長、教師和學生不感到壓力,明白只在於提供全面的數 據,而非評價個別學校,因此不需作任何準備。
70
「學校改進」的評估︰ • 由教師主導評估。 • 作為「進展性評估」,於教學過程中進行,透過日常互動、觀察、各 小測或考測,獲得豐富的資料,為教師提供適切的回饋。 • 並非用來比較學生,而是強調了解學生的強與弱,做到「促進學習 的評估」。 要跳出TSA檢討委員會「無法達到橫行三個剔」的無奈局面,看來目 前只能承認現實上的限制,並按「系統監察」和「學校改進」的不同 需要而設計不同的評估工具。
6. 2 誤以為TSA 是改 進教學的利器 既然兩大目標不易兼得,應該如何取捨呢? 本研究在第四章已詳盡分析,利用TSA 進行「促進學習」的成效不 彰。究其原因,是因為TSA性質乃「總結性評估」,並不適合作為「促 進學習的評估」的工具。教育局在支援學校的時候,其實並不能單靠 TSA,而必須配合前測、後測等其他工具方能成事。把TSA視為「促 進學習」的利器,是一大錯誤。 這裡,我們必須清楚區分兩類評估: 「總結性評估」(Summative Assessment)︰ • 於某學習階段結束時進行,如學期、學年完結前。 • 用作報告學生的整體數據。 • 可用於比較不同學生的成績。 • 由教師或學校以外的機構主導評估,往往以一套既定指標衡量學 生的表現,例如學期考試、中學文憑試。 • 用來作為「學習的評估」(Assessment of learning)。 71
「進展性評估」(Formative Assessment)︰ • 於教學過程中進行。 • 為教師提供即時的回饋以提升教學。 • 主要並非用於比較學生,而是了解個別學生的學習情況。 • 形式多元化,包括課堂觀察、學生回應、功課作業,以及用於掌握 學習進展的測驗和活動。 • 由教師主導評估,衡量的指標往往配合所教導學生的實際情況。 • 用來作為「促進學習的評估」(Assessment for learning)。 毫無疑問,TSA的性質屬於「總結性評估」。事實上,教育局在介紹 「促進學習的評估」的網頁中,亦把TSA歸類為「總結性評估」、校 外評估(見【圖】)。由此可見,TSA: 1. 並非由教師主導,一般教師並不理解其出題的意義,單是理解便 要費一番氣力。其題目也並非針對所教學生的實際情況而定。 2. 只 能提供宏觀的整體 數 據,無法協助教師了解個別學生的學習 情況。 3. 今 年評估,明年才出報告,根本並非即時回饋。當時接受評估的學 生已於同一所學校升班,或者已離開小學升中。 4. 作 為階段性的總結,它須涵蓋大量內容,對每一個教學環節所能 提供的訊息相對十分貧乏。 明乎此,可知TSA並非「促進學習」的利器。 刀劍均為利器,長處各有不同。前者長於斬,後者長於刺。「總結性 評估」長於監察整體水平或評定個別的等第,卻非「促進學習」的利 器。強調TSA「改進教學」的功能,是對TSA不切實際的期望。如果 重點在「改進教學」,當局應該考慮使用其他「進展性評估」的手段。
72
【圖】教育局網頁中的「促進學習的評估」 http://w w w.edb.gov.hk/tc/curriculum-development/ assessment/about-assessment/assesment-for-learning.html
• 讓學生理解學習的目標 • 有效的提問(提供時間, 讓學生思考及回答問 題;不同類型的問題 – 開放式題目和固定答案 的題目、由內容主導轉 為學生主導) • 觀察(例如﹕身體語言、 面部表情) • 同儕學習(例如﹕學生 在班上留意及反思同學 的答問) • 有效的回饋(例如﹕提供 明確的建議,讓學生能 有所改善或鞏固所學) • 學生主動學習 • 提高學生的自我形象
• 多元化
• 以測驗、考試成績評定
− 不同模式的評估 (例如﹕ 等級或級別(例如﹕期考/ 筆試、課堂觀察、促進 年終試) 學習的評估資源庫(網上 • 記錄 評估)、專題研習、學習 歷程檔案等)配合學習目 − 追蹤學生的學習進度 標和過程 • 報告 − 多方參與 (例如﹕學生自 評、同儕互評、教師作 − 使用評語,減少依賴等 評估、家長作評估) 級和分數 − 以多元化策略評估學習 • 基本能力—學生評 的質素 (例如﹕提供適 估網站 合學生能力亦富挑戰性 的評估)
全港性系統評估
• 利用測驗結果作為診斷 及改善學與教 (例如﹕ 串字、閱讀理解、數學 測驗等) • 提供機會讓學生學習及 顯示學習的過程和成 果 ,而不是要他們互相 比較分數
6.3 着重「問責 」違背低風險 原則 「低風險」是TSA明確的政策意向。2000年教統會提出《香港教育 制度改革建議》,訂明TSA「旨在反映全港學生水平,而並非個別學 校或學生的表現,因此不帶有任何風險」 (詳見本報告第一章)。直至 近年的TSA爭議中,教育局官員亦多次重申TSA是「低風險」評估。 可是現實上,TSA作為「問責」的作用卻最為清晰。「公開」的與「隱 晦」的問責都導致TSA變成對學校的高風險評估。「公開」的問責,是 指2004至2014年間TSA一直作為質素保證機制的評量指標之一,用
73
以評量學校的教與學。「隱晦」的問責則是指教育局或辦學團體等利 用學校的TSA成績,在沒有明文的政策下,在各種會議、殺校政策、 新校舍審批、TSA成績排名榜、校長問責等情景中顯示權力,對學校 或教師進行問責。(詳見本報告第五章) 這些「隱晦」的問責,有理由相信是政策設計時沒有預料到的。數據 於政策實施的過程中,受到施政者內部和外部的濫用,使原本為「 低風險」的評估在現實上以「高風險」的形式運作,違背當初「低風 險」的原則。 無數的學術研究已清楚指出,以一般意義的問責(以別於下文討論的「 智慧型問責」)為目的的評估測驗,本質而言就已經按學生的成績為教 師造成正式或非正式、正面和負面的後果(Figlio & Loeb, 2011),因而 對教師造成一定影響力。「考什麼便教什麼」(teaching to the test), 是教師們最常見的應對方式(Cuban,.2007)。過去很多學者進行有關研 究,結果顯示︰ • 教師們會將時間和資源集中在與測驗有關的教學上,使整體課程 收窄(Supovitz, 2009)。 • 使成績欠佳的學生不參與測驗(Figlio, 2006)。 • 對於趨近水平的學生進行集中的訓練(Reback, 2008)。 • 進行直接而非有意義的教學(explicit direct instruction)(Certo, 2006)。 • 擴大學生們基於背景所帶來的差異(如家庭貧富的差異和學生個 人成績上的差異),造成不均等現象。 以上幾乎全部都已應驗於TSA政策之中。
74
6.4 重新定位「問責 」 TSA龐大的壓力輸送系統,由上而下的層層問責,令前線教師和學生 無處可逃。然而,問責不一定是單向的,也不一定是量化的,更不一定 只是製造壓力的。學校教育不能避開問責,但我們必須尋求一種有利 於教育健康發展的問責制度。
智慧型問責 對於學校問責所造成的問題,不少學者提出了智慧型問責(intelligent accountability)的概念,當中強調「信任」、「相互的責任」、「內在問 責與外在問責的平衡」。問責政策的原則應該滿足公眾需要的同時, 亦要維護學生的發展。一定程度的向外問責是需要的,但必須有智慧 地設計和實施,才不會使教師陷入兩難局面——即一方面要求教師秉 持專業道德價值,以學生為本;另一方面又追求效益和成績表現,逼 令教師以應試的方式教導學生。這種精神分裂般的單向問責制度,只 會令問題更加嚴重。 其中,芬蘭學者Pasi Sahlberg(2008)強調「智慧」與「非智慧」問責 政策的分別。智慧型問責制度的特點如下︰ 1. 強調「信任」:信任是為智慧型問責的最根本條件,包括校內的信 任、學校間的信任、以至整個社會的信任。 2. 強調「相互的責任」(Mutual
responsibility)︰問責的過程是一個
雙向的概念,學校無疑應向社會各界問責,政策制定者、官方機構 和校董會等亦有責任為學校、教師、學生提供適當的資源和條件, 以達到各方同意的教育目標。 3. 結合和平衡「內在問責」(Internal accountability)和「外在問責」 (External accountability)︰「內在問責」指的是教育界同工承擔問 責的責任,對自己的工作負責;「外在問責」則指利用抽樣及切合學 生發展階段的評估,以監察學校。 75
著名學者Michael Fullan等(2015)亦提出相似的觀點,指出問責 制度的發展方向,於確保教育符合社會期許的「外在問責 」之上, 更需 要「內在問責 」,即學校 對自己的專 業負責。他提 議 側重「外 在問責」的美國教育政策制定者重整其管理哲學的優次,為建立學 校的專業資本(Professional Capital)創造空間,「信任」和「賦權」 予教師專業就是最佳的具體做法。
TSA的智慧型問責 就此,以下幾點值得我們思考: 1. 學校取錄背景差異極大的學生,以同一把尺量度不同學校的TSA 成績表現是否公平呢? 2. T SA只是課程的一小部分,有不少事情比TSA評估更為重要,特 別是在初小階段,是否應該把TSA看得如此重要呢? 3. 教 育局手握個別學校的TSA數據而向學校問責;教育局是否也應 該向社會交代其施政成效,以及如何利用TSA數據調整施政呢? 4. 教 育局在要求學校負責的同時,它有否同時負起自己的責任,例 如確保它的要求合理、已向學校提供相應而充足的支持與支援, 同時避免一切不良的副作用呢? 5. 如 何減少問責帶來的困擾,例如是否可以收窄和減少評估的規模 和次數呢?
76
本章總結整個研究,提出六項具體的政策建議。
7.1 開展深入研究 本研究的目的,是嘗試有系統地分析TSA問題的成因和現狀,進而尋 求解決之道。但由於種種的局限,本研究只能視作引玉拋磚,當局應 認真委託有公信力的學術機構展開深入研究,作為決定TSA何去何 從的堅實基礎。 正如本報告第一章提到,政府在TSA問題上並沒有進行深入而客觀 的政策實施評估。多年來只是主觀地認為TSA是「低風險」的,面對 現實中操練極其嚴重的情況,卻依然故我,導致TSA不斷「走樣」。 在2016年發表的檢討報告也未有基於堅實的事實基礎而進行檢討。 因此,當局若要就TSA作任何實質而重大決定,都應該先進行一項 認真的政策實施研究。
7. 2 重整「應試文化」 「應試文化」是一種社會 — 文化的結構。在東亞地區受傳統影響, 不少人都重視外在的成就和指標,而輕視學生的均衡發展,以及個 人特點、興趣和需要。此種文化往往忽略學生的承受能力。 我們無意將TSA壓力歸咎於傳統文化,大量研究顯示,東方文化也 有其值得珍視的一面。TSA的實踐經驗告訴我們,在惡劣的制度下, 77
應試文化可以變得更加猖獗。弔詭地,TSA源於2000年的教育改革 方案,而該改革方案所秉持的核心價值之一,是要克服當時盛行的 操練文化和應試文化。改革措施包括馬上取消小六的「學能測試」 等,想不到改革的結果反而被應試文化所吞噬,令操練由高小蔓延 至初小,可謂始料不及。 當年推動改革的官方,也從改革者走向了它的對立面,變成應試文化 最堅定的支持者。它重視數據的收集多於兒童的健康,對長期出現 的過度操練現象視若無睹。甚至在無法保證TSA不會異化的情況下 全力維持這個傷害兒童、損害教育專業的制度,令人搖頭歎息。 與此同時,前線教師的專業精神在行政霸權之下也顯得非常脆弱。 部分辦學團體、校長和教師在高壓下仍能秉持專業精神,抗拒過多 的操練。然而,在殺校和其他行政措施下,部分團體、學校和個人只 能選擇順從。因此,梳理香港的應試文化、加強專業精神、賦權於前 線教師,是日後必須走的方向。 幸運的是,經過近年教育界的反思,以及自2015年TSA爆發成社會 議題以來,越來越多的家長和教師意識到問題的嚴重性。在這一點 上,我們應該對香港 教育的前景保持信心。無論如何,重整應試文 化,教育局責無旁貸。
7.3 不應全面恢復小三TSA 評估 要重整應試文化,教育局應該身先士卒,邁出勇敢的第一步,不應全 面恢復小三TSA。 小三、小六、中三的TSA評估之中,爭議最大的是小三評估,其次是 小六評估。小三評估之所以特別受關注,是因為學生年齡尚小,評估 令整個壓力和變質問題向初小蔓延,禍害極大。 78
幼兒教育應以兒童健康成長為最高原則,這是不證自明的。在過去 一段時間,這項原則似乎被教育局忽略和輕視了。我們希望今後的政 策釐定勿以行政方便、監察方便等等為先,而應以兒童身心健康成 長為首先考慮。 因此,在未能改變異化變質的惡果、未有可靠的對策和未重建持分 者的信心之前,教育局不應恢復小三TSA評估。
7.4 重新設計「系統監察」工具 正 如第六章的分析指出,T S A要 達 到「系統 監察 」、「 改 進學校教 學」兩個目標是矛盾的,教育局應該採用不同的工具以達致不同的 功能。 TSA是由以「系統監察」為主的「香港學科測驗」蛻變而成的。如果 比較兩者,TSA在某些方面無疑是較成熟的(例如在「基本能力」的 界定)。但從實施的效果而言,「香港學科測驗」在實現真正的「低 風險」 (甚至「零風險」)這一點上則勝過TSA。 我們並不反對政府在學校教育有「系統監察」的工具,以宏觀地了解 學校教育的表現與成效。但教育局必須考慮,「系統監察」工具應: 1. 是真正的「低風險」 (甚至「零風險」)。 2. 考慮抽樣、隔年或隔多年等縮小規模、減少頻率的做法。 3. 考慮消除壓力源,例如在行政安排上無法辨認學校的身分,令學 校安心。 4. 思考如何利用這些數據,協助改進香港的整體教育措施。
79
7.5 另行思考「改 進教學」的評估模式 正如第六章的分析指出,TSA並非「改進教與學」的利器,它既不及 時,又不深入,只能讓教師得悉本校學生與全港平均的相對位置,並 無大作用,最多只作為參考。因此我們不應誇大TSA在「改進教與 學」方面的功能。 「改進教與學」是極其重要的工作,如果TSA並非這方面的利器,便 應該找尋更佳的替代品。在評估方面,教育局應該加強由教師主導 的「進展性評估」,利用日常的、不斷的、多元的回饋,令教師深入而 具體地掌握所教學生的強弱項,以及問題的成因。這方面的評估素 養大有提高的潛質,而且也需要當局和高等院校在資源和專業上提 供支援。
7.6 重建信任 TSA引發的另一個危機,是教育局管治威信受到嚴重質疑,教育局被 社會批評為背棄教育精神,而教育界的持分者更對局方的信任崩解。 我們認為當局應該尊重前線教師和各持分者的意見,認真諮詢主要 的持分者,包括持不同意見的教師團體和家長群組等。 教育局更應摒棄一向以來「問責」即「怪責」的權力心態,重建以互 信、互相負責的「智慧型問責」觀念(見第六章分析)。
80
徵引文 獻 《大公報》專訪報導(2006) :「程介明:教改需優化」,2月8日。 王啟思(2004) :「非一般的評估──基本能力評估」,原載教育局官方網站 (7月25日),收入葉建源、黃家樂編:《全港性系統評估(TSA)評論文集》 (2015年增訂版),頁225-227。 《明報》報導(2014) :「考評局單一招標 考評價不斷升 2.8憶,『學生評估』 少學校用」,11月21日。 《明報》報導(2015) :「曾榮光︰TSA低風險?」,12月23日。 侯傑泰(2006) :「不移走縮班恐懼教師無法減壓」,《明報》,1月27日。 侯傑泰(2015):「TSA爭議(三):家長是「老闆」,升中派位才是問題核心」, 《星島日報》10月29日。 《星島日報》報導(2016) :「明年復考小三TSA,曾榮光批理據不足」,7月28日。 香港考試及評核局(2015) :《2015年全港性系統評估報告學生基本能力報告》 香港教育專業人員協會(2014):《全面消除操練誘因,取消小三TSA!──全 港性系統評估(TSA)問卷調查結果公布》,1月7日新聞稿。 教育局(2015),「遏止為準備全港性系統評估(系統評估)的操練 」 (致小學校 監、校長的函件),12月11日。 教育局基本能力評估及評估素養統籌委員會(2016):《全港性系統評估檢討 報告》,2月。 教育統籌局(2003) :《統整成本高及使用率低的小學》,立法會教育事務委員 會4月28日會議討論文件。 教育統籌局(2004):《「校本專業支援計劃」的推行》,通函第239/2004 號,10月4日。 教育統籌委員會(1994) :《學校教育質素︰教育水準工作小組報告書》,香港: 政府印務局。 教育統籌委員會(1997) :《第七號報告書》,香港:政府印務局。 教育統籌委員會(1999) :《教育制度檢討教育目標諮詢文件》,政府印務局。 教育統籌委員會(2000) :《終身學習、全人發展︰香港教育制度改革建議》,香 港:政府印務局。 教育統籌委員會核心能力測試小組(1999):「擬議的核心能力評估」,收入教 育署編:《教師在教育改革中的角色與承擔》(1999)。 教育署(1998) :《學校教育質素保證—表現指標》,香港:政府印務局。 梁淑坤主編(2001):《評核與數學教育──「數學課程全面檢討:之後又如 何?」研討會跟進論文集》,香港:香港中文大學教育學院課程與教學學 系及香港數學教育學會出版。 曾榮光(2016):「全港性系統評估檢討報告的批判︰政策評鑑研究的視域」, 《教育學報》第44卷第1期,頁195-212。 張勇邦(2015年10月24日) :香港電台《香港家書》 葉建源、黃家樂編(2015):《全港性系統評估(TSA)評論文集》 (增訂版),香 港:香港教育專業人員協會及香港數學教育學會聯合出版。
81
廖佩莉(2009):「析論香港小學中國語文科教師為學生準備『全港性系統評 估』(TSA)的策略」,載《教育研究與發展期刊》 (台灣)第5:4期(12月)。 《蘋果日報》 (香港)報導(2014) :「學生評估使用率低」,11月21日。
Ball, S. J. (1994). Education reform: A critical and post-structural approach. Buckingham: Open University Press. Black, P. (1998). Testing: Friend or Foe? Theory and Practice of Assessment and Testing. London, Falmer Press. Certo, J. (2006). Beginning teacher concerns in an accountability-based testing environment. Journal of Research in Childhood Education, 20(4), 331-349. Cuban, L. (2007). Hugging in the middle. Teaching in an era of testing and accountability, 1980–2005. Education Policy Analysis Archive, 15(1).. Diamond, J. B. & Cooper, K. (2007), “The Uses of Testing Data in Urban Elementary Schools: Some Lessons from Chicago”. Yearbook of the National Society for the Study of Education, 106: 1 (Apr), pp. 241– 263. Earl, L. (2003). Assessment of learning: Using Classroom Assessment to Maximise Student Learning. Thousand Oaks, CA, Corwin Press. Figlio, D. & Loeb, S. (2011). School accountability. Handbook of the Economics of Education, 3, 383-421. Figlio, D. (2006). Testing, crime, and punishment. Journal of Public Economics, 90, 837-851. Madaus, G. (1989). On misuse of testing: A conversation with George Madaus. Haney, W. (1991). We must take care: Fitting assessments to functions. Expanding student assessment, 142-163. Reback, R. (2008). Teaching to the rating: School accountability and the distribution of student achievement. Journal of Public Economics, 92, 1394-1415. Smith, W. C. (2014). The global transformation toward testing for accountability. Education Policy Analysis Archives, 22(116). Supovitz, J. (2009). Can high stakes testing leverage educational improvement? Prospects from the last decade of testing and accountability reform. Journal of Educational Change, 10, 211-227.
82
附錄一 葉建源議員辦事處 全港性系統評估(Territory-wide System Assessment)(簡稱 TSA ) 個案訪談指引2016 訪談簡介
我們以個案訪談形式,了解全港性系統評估(TSA)於 中小學之實施情況、過程、及其成效和影響,以及了 解不同持分者對TSA政策的改善建議。 中小學校長和教師是我們的主要研究對象。 我們參考John B. Diamond 及Kristy Cooper (2007) 對於美國測驗數據之使用的研究,訂定研究 問題的框架,主要包括︰(一)政策與課室行為;(二)學 校內對政策的互動反應;及(三)學校領導對政策的 理解。
訪談第一部份︰ [政策與課室行為]
1. 你認為TSA是否對日常教學造成影響?如何影 響?(例如於課程和學生活動的安排上,如有, 這樣的情況維持了多久?) 2. 你認為TSA對學生的課堂學習有哪些影響?(例 如於他們學習的積極性,學習動機等。) 3. 你認為TSA對教師的課堂教學有哪些影響?(老 師的教學方法有哪些轉變?是否因此而改進?) 4. 你認為TSA對課程有哪些影響? 5. 你認為TSA試題的深淺程度如何?(學生是否 需要進行操練以應付TSA?操練能提高TSA 成績嗎?) 6. 你認為TSA如何影響學生的功課量?
訪談第二部份︰ [學校內對政策的 互動反應]
7. 學校內有哪些政策用以回應TSA?(例如是否有 進行補課?如有,頻率如何?是否有常規課程外 的補充練習?) 8. 學校如何利用TSA的成績數據?(例如是否有用 於學校自評、對老師的工作表現評鑑等。) 9. 你認為TSA成績是否有助老師明白學生的強弱 項,進而改進教學效能? 10. 請描述TSA對教師的工作量之影響。 11. 你認為TSA對家長的影響如何?(家長是否會更 關注子女的功課、進度、情緒、身心等。) 83
訪談第三部份︰ [學校領導對政策的 理解]
訪談第四部份︰ [改善建議]
12. 你認為TSA這項政策對學校整體有什麼影響? 13. 據你所知教育局如何使用TSA之數據? 14. 你認為學校是否受到教育局利用TSA數據以造 成壓力? (收生/學校營運) 15. 你認為TSA成績對家長選校有什麼影響? 請盡量提出你對TSA政策的改善建議
Reference Diamond, John B., and Kristy Cooper. "Chapter 10 The Uses of Testing Data in Urban Elementary Schools: Some Lessons from Chicago." Yearbook of the National Society for the Study of Education 106.1 (2007): 241-263
84
附錄二 Consent to Participate in Research Office of Legislative Councillor Hon Ip Kin Yuen Introduction and Purpose Mr Ip Kin Yuen, Hong Kong Legislative Councillor, Ms Bonnie Lam, co-workers at Mr Ip’s Office, and XXX# would like to invite you to take part in a research study, which concerns the forms and practices of the Territory-wide System Assessment (TSA) in Hong Kong and their related issues. Procedures If you agree to participate in this research, we will conduct an interview with you at a time and location of your choice. The interview will involve questions about your knowledge, experiences and understanding of TSA and its related issues. It should last about 2 hours. With your permission, we will audiotape and take notes during the interview. The recording is to accurately record the information you provide, and will be used for transcription purposes only. Benefits There is no direct benefit to you from taking part in this study. It is hoped that the research will help to inform Mr Ip Kin Yuen as he considers and formulates education policy proposals thereby improving the quality of Hong Kong’s education at large. Risks/Discomforts If any of the research questions makes you uncomfortable or upset, you are free to decline to answer or to stop the interview at any time. As with all research, there is a chance that confidentiality could be compromised; however, we will take every precaution to minimize this risk. Confidentiality Your study data will be handled as confidentially as possible. If results of this study are published or presented, individual names and other personally identifiable information will not be used. In the rare case that we need to present results that may disclose your identity, your further consent will be sought before such actions are taken. To minimize the risks to confidentiality, the data will be stored securely 85
and made available only to the staff and bona fide researchers from Mr. Ip’s office, who are committed to the same standards with regard to protecting the confidentiality of this study data. Compensation You will not be paid for taking part in this study. Rights Participation in research is completely voluntary. You are free to decline to take part in the project. You can decline to answer any questions and are free to stop taking part in the project at any time. Whether or not you choose to participate in the research and whether or not you choose to answer a question or continue participating in the project, there will be no penalty to you or loss of benefits to which you are otherwise entitled. Questions If you have any questions about this research, please feel free to contact Mr. Ip at ikyoffice@hkptu.org. ************************************************************ CONSENT You will be given a copy of this consent form to keep for your own records. If you wish to participate in this study, please sign and date below.
_____________________________ Participant's Name (please print)
_____________________________ _______________ Participant's Signature Date (This form is modified from a standard interview consent form used at the University of California at Berkeley) # XXX is an anonymous scholar assisted the research. 86
附錄三
教統會小組:《擬議的核心能力評估》(1999) 參考文件 教育統籌委員會核心能力測試小組 1999年10月 目的 1. 本文件旨在提出下列有關核心能力測試的問題,並載列小一至中三中、英、 數核心能力測試的構思,以徵詢公眾意見︰ •
核心能力測試的目的為何?
•
測試結果將作何種用途?由何人使用?
•
測試的形式及內容為何?測試的對象是誰?
•
測試應由哪個機構主辦?
核心能力測試的目的為何? 2. 一項測試的整體設計,取決於測試的目的。然而我們須特別注意,不同的 目的,不一定能夠兼容配合。因此,我們必須就建議測試的目的達致共 識,並了解各個測試方式的利弊,然後以”切合目的”為原則,研究有關測 試形式、目標學生及測試次數等事宜。 3. 測試的其中一個主要目的,是在教與學的過程中,讓教師和學生接收「回 饋」。透過測試,可得悉學生的強項和弱項,為成績好的學生安排精修課 程,需要幫助的學生則可獲得輔導支援;而教學策略亦可因應學生的情 況予以改善。 4. 問責是一個重要的考慮因素。隨著當局推行校本管理,以及把更多職責下 放給學校,我們必須制訂一個問責架構。就透明度而言,市民(特別是家 長)都希望得知更多關於個別學校的資料。因此,我們必須充份考慮應否 或能否根據測試結果,就學生的成績,向學校、校董會、辦學團體或其他 有關方面問責。 與問責有關的問題 5. 問責所帶出的第一個問題,是如果測試成績直接引致奬懲,這個測試便關 係重大,成為一個高風險測試。因為這個測試結果代表了學校能否教導出 優秀學生,並會被用來評定學校的等級或衡量其表現。測試越重要,學校 便會把注意力放在測試的準備上,而所花的時間也越多。如測試不是用來 量度重要而有意義的內容、能力及知識,便會浪費了寶貴的時間及資源。 由此而引起的是測試可能對學校的教學產生反流效應,例如縮窄/扭曲課 程、採納不理想的教學模式,以及進行無意義的操練。 6. 美國最近的研究結果凸顯了一個問題︰不少學校把教學重點放在提高測 試分數上,致令測試結果失去真正效用。研究結果亦顯示,雖然測試分數 有所提高,但學生的知識可能是完全沒有增進的;同時,由於高風險測試 87
通常會引致測試失準或測試分數謬誤,研究指出應避免讓全國性的測試 出現這些情況。 7. 另一重要問題是學校之間的比較。我們須制定措施,確保學校之間的比較 是基於公平及準確的原則,即是我們必須考慮學校的增值表現。為此,我 們須知悉學生的社會經濟狀況,以前的成績,以及基線的訂定等資料,但 要持平地查究這些資料是極端困難的。 8. 測試結果亦能客觀而真確地反映學生的學習結果。換言之,問責機制亦可 輔助學校進行自我評估和作出定期滙報。這會有助學校監察在達致全港 教育目標及校本目標方面的進度,以及在有需要時,對教與學作出改善。 測試結果將作何種用途?由何人使用? 系統層面測試 9. 在系統層面的監察方面,核心能力測試是要描繪本港現時的教育發展狀 況,以便能解答一些問題,例如︰ •
學生學到多少知識?他們有哪些強項和弱項?
•
有關科目的整體水平正在上升還是下降?學生現時學到的東西是否 較五年或十年前為多?
•
把兩類學校(例如官立學校與資助學校)的學生比較,他們的表現有 什麼差別?
•
在什麼程度上,現行教育制度能達到所訂的教育目標?
學校層面測試 10.在學校層面的監察方面,核心能力測試的目的可以是評估學生的學習進 度,使學校獲得客觀的測試數據,從而透過自我評估,改善教與學的成 效。測試結果可解答下列問題︰ •
學校本身有沒有進步?
•
與其他背景相若或學生質素相近的學校比較,有什麼差別?
•
與全港所有其他學校比較,有什麼差別?
此外,學校層面的數據亦可用以向學校問責或提示學校/教師致力提高 教學水平。英國和法國公布類似學校排名表的資料,而美國和澳洲維多 利亞省則公開全國測試中學校層面的數據。因此,這些學校層面的數據 可能非常敏感,而第4和7段提及的問題亦將會出現。 學生層面測試 11. 藉著結合測試與學習,為學習者提供「回饋」,以助確定目標,並鼓勵他們 為自己的學習負責。所收集的數據亦會用以協助未能發揮潛能的學生。測 試數據有助解答一些問題,例如︰ 與其他背景相若或學生質素相近的學校比較,有什麼差別? 88
•
某一所學校、某一班別或某一學生在有關科目中有哪些強項和弱項?
•
哪些學生有學習困難及需要輔導?
•
教學大綱及工作安排中,哪些範疇需要修訂,以及須改善哪些教學策 略和方式?
核心能力測試結果的使用者 12.下列人士可能會利用測試結果作所述用途︰ •
教師可分析測試結果,以改善教學方法及幫助個別學生(學生及學校 層面的數據)。
•
校長可分析測試結果,以協助個別教師,並與各教師合作策劃改善校 內教與學的質素(學生及學校層面的數據)。
•
決策者可透過測試結果,找出有關系統或系統其中一部分的優點和缺 點,並引導各有關方面致力改善教與學的質素(系統及學校層面的數 據)。
•
教育署的督學及其他人員可以測試結果作為指引,以決定如何向學校 及教師提供技術協助及支援(系統、學校及學生層面的數據)。
•
負責課程發展及編寫課本的人士可從測試結果中找出教材及課程的優 點和缺點(系統層面的數據)。
•
師資訓練人員可透過測試結果找出師資訓練課程的優點和缺點,並作 出適當的改善(系統層面的數據)。
•
測試設計人員可分析測試結果,以改善測試的設計,並滙報學生的成 績是否有所改變(系統、學校及學生層面的數據)。
•
家長可利用有關資料輔助子女的學習(學生層面的數據)。
從核心能力測試中獲得的資料,對校本管理、質素保證視學中的自我評估, 以及課程整體檢視,均十分重要。因此,應在上述各項工作間設立一個介 面,以確保測試結果運用得宜。 查閱數據 13.一般意見均贊同,系統層面的數據可以向所有有關人士公布,但學生層面的 數據則不能公開。然而,下列與學校層面數據有關的問題仍有爭議︰ •
應否容許公眾和家長查閱學校層面的數據?
•
在什麼程度上,校董會能夠根據學校層面的數據來判斷校長是否稱 職,以及在什麼程度上校長可以根據這些數據來評估教師的表現或確 定哪些教師不稱職?
•
政府應否用學校層面的數據,把各學校評級或加以比較?
•
應否容許學校公開一些資料,使學生之間可進行比較,或提供任何刊 物把學校比較或評級? 89
14.關於上述問題,須考慮的事項如下︰ •
對學校表現的知情權與保護學校和學生免受不公平比較的責任,兩者 之間的取捨;
•
「不必要的傷害」原則(即公布有關結果或以其他方式傳遞有關結果, 不應對當中提及的人士造成不必要的傷害)與「查閱資料的權利」原則 (可供查閱的資料應該準確和適當),兩者之間的取捨;
•
應在哪個層面透露資料?(例如學校層面的數據只限學校查閱,不得 公開班級、教師及學生的數據等) ;
•
應由何人收集和提供資料?
•
資料被濫用的機會有多大?
•
有關表現的資料在多大程度上有助提高教與學的成效?
一般意見 15.當局須避免測試結果遭到濫用,這點至為重要。關於這方面,使用者應注意 測試數據有其局限性。這些數據︰ •
只是在所根據的原則和基準範圍內才可使用;
•
不會分辨出表現理想或未符理想的原因;
•
沒有說明日後的理想表現應如何;
•
只採用一種評估工具,因此必須與其他定性和定量資料一併研究;
•
沒有提供迅速或妥善的方法,以助學校改進。
因此,測試數據,特別是學校和學生層面的數據,應與其他定性及定量證據 來源一併研究,例如學校的背景、歷史和學生質素,學生的生理和心理狀況 等。更重要的是,為免把焦點過分集中於學業成績,應制定範疇指標,以更 全面反映教育的成果。 核心能力測試的形式及內容為何?測試的對象是誰? 16. 測試題目的形式大體上分兩類︰構建式回應題目及選擇式回應題目。在構 建式回應題目中,學生必須通過構思,作出回應(例如論說文式測驗或表現 能力的課業);在選擇式回應題目中,學生則有多個答案可以選擇)例如選 擇題、搭配題或是非題)。 17. 很多人主張測試必須涉及高層次的技巧和才能,例如解決問題、探究及分 析的能力等,因而必須採用遠較傳統測試更為”真實”或切合實際的課業。 我們也確實難以從選擇題中,評核學生在這類高層次技巧方面的表現。在 統一測驗中廣泛採用的選擇題形式,一直備受嚴厲批評。然而舉例來說, 雖然英國的全國測試系統採用能力表現測試,但要全國劃一施行所有測 試,以及判斷學生的表現,是相當困難;因而令到測試數據的質素也有問 題。另一方面,在某些國家舉行的全國或全省測試中(例如澳洲新南威爾 90
斯省的基本技能測試【Basic..Skills..Test】、維多利亞省的學習能力測 試計劃【National Program for Qualit y Assessment of Basic Chilean Education】),則只採用或主要採用選擇式回應題目。
18.其實,每種形式都各有優劣。我們在決定測試題目或課業的形式時,往 往要作出取 拾。在權衡各種 形式的利弊時,必須考慮有關測試對教與 學和財政方面的影響、以及測試的可靠性和效力。 19. 若 以有三個層面數據(即系統、學校及學生層面)的假設下,可能採用 的題目形式、目標學生及測試次數,見於下表︰
系統層面數據 題目形式
目標學生
測試數目
以選擇題較為可取 有代表性的樣本,例如 (省時、成本低、較 每級的1/30(全港每級 客觀、可包括較多 約有2500個樣本) 題目) 測試通常每隔二至三 年舉行一次,而非年 一次
測試甚少在每級或每班 舉行,但會在小學階段舉 行一至兩次及在中學階 段舉行一次 可採用矩陣設計
學校層面數據 題目形式
目標學生
測試數目
同時採用構建及選 擇題目
一所學校的全體學生 所有關鍵階段基本上每 或每所學校取一個有代 年一次可採用矩陣設計 表性的學生樣本 可每年1/3的學校或每 一些關鍵階段結束時, 年都抽樣本或三年內每 例如小三、小五及中三 年1/3樣本,然後一次全 體測試
學生層面數據 題目形式
目標學生
測試數目
同時採用構建及選 擇題目
所有級別(小一至中 三)的學生
每年一次或兩次
20.倘若資源許可,在全國測試中同時 採用兩種 形式的題目(可分兩次舉 行),是較為可取。總括而言,測試形式應取決 於測試的目的、技術上 是否可行(例如測試對象的數目)、測試密度,以及對財政的影響。
91
內容及標準 21.用以監察表現的核心能力測試(學生、學校及系統層面)是與課程有關,因 此其內容涵蓋方面須較為全面。測試應包括課程內所有重要範疇,而不應 像傳統考試一樣,只抽取少部分內容進行測試。此外,亦必須訂立測試規 格,列明核心能力測試所涵蓋的主題及各種技能。在這方面,舉辦核心能力 測試的一個重要先決條件,是製備一套有關基本能力的核心/主要元素, 以及有關科目中較低層次及較高層次能力的資料。另外亦須訂立內容標準 (列出教什麼及何時教)和有關目標(界定標準適用於哪些學生、符合標準 的學生比例及達致標準的時間)。長遠來說,我們須要制定一套附有各等級 範例,界定不同表現水平的標準。 測試應由哪個機構主辦? 22.應委派哪個機構主辦建議的核心能力測試?應該是政府機關、外界機構, 還是其他機構? 23.教育署在舉辦標準測驗方面具有專業知識和經驗,例如香港學科測驗,即 涵蓋小一至中三的中文、英文及數學科目。本港學校多年來一直採用香港學 科測驗,作為教與學成效的分析判斷工具。 24.把核心能力測試的設計交由信譽卓著的評核機構負責,例如香港考試局, 並由外界技術及課程專家提供協助,亦是一個可行的辦法,以兼取兩類人 士的專長,同時可以增加核心能力測試的一般認受程度和可信性。此外,若 本地沒有所需的專才,便可能要在海外聘請。在智利,國家測試(SIMCE)是 由教育部與一所大學(Pontificia Universidad Catolica)聯合舉辦,在三至 四年內分三個階段推行。該三個階段分別是︰由大學主辦測試、把測試轉交 教育部負責,以及教育部管理測試。 25.不論由什麼機構主辦測試,該機構必須有良好聲譽,即工作質素高、具專業 技術及公平正直。該機構需要有多方面的專才,包括計劃管理、研究設計、 課程分析、測驗及問卷設定、抽樣測試、印刷及分發、蒐集、處理和分析資 料與及撰寫報告。 核心能力測試的建議模式 26.教統會核心能力測試小組(該小組)經過多番深入研究後,建議首先制定中 文、英 文及數學科的核心能力測試(有關測試)。有關測試包括︰
(a) 小一至中三各級的網上測試。這些網上測試由電腦輔助進行,目的是︰ • • • •
評估小一至中三學生的中文、英文及數學科成績; 分析學生在這些科目中的強項和弱項; 找出能力稍遜的學生,為他們安排輔導,而優秀的學生,則為他 們開辦精修課程; 讓學校可監察各級每年在這三科達致的成績水平。
網上測試採用互動形式,並會按照學生的能力,調節題目的難度。網內會建 92
立一個大型資料庫,儲存大量客觀,以及與課程有關的題目,以支援網上 測試。同時,我們會鼓勵學校制定課業式試題,以作補充。有關部門應為 學校提供足夠的樣本,用作參考或經修訂後採用。 (b) 在重要的教育階段,例如小三、小五、中一和中三,進行由中央統 籌的保密筆試。這些測試圍繞學校課程,目的是監察學生在系統 和學校層面的表現,因此,只須抽選部分學生參加測試。(請參閱 第19段) 27. 待 有關測試準備妥當後,便會訂定中文、英文及數學科的最低限度成績 水平。長遠而言,亦會為這些科目訂立表現水平。 28.小組展望日後應為其他學習範疇,例如科技及情意和社會範疇,設計核心 能力測試。 有關測試的目的 29.有關測試與學位分配無關,所以不屬高風險測試。有關測試的作用是監察 學生中、英、數三個學習範疇系統層面表現,以及找出學生的強項及弱項, 以便學校調整教學策略,改善教學。小組並未就是否設立學校層面測試一 事達成共識,並會在諮詢公眾後提出最後建議。假若學校層面測試會在將 來舉行,小組認為有關測試資料只可供政府參閱,以便由政府考慮為有需 要的學校提供額外資源,改善質素。 推行策略 30.香港尚須培養出使用測試數據以改善教與學成效的文化。我們須制定策 略性的推行計劃,列出每個推行階段應達致的最終目的及目標,以推廣這 個文化。並確保各有關方面,例如教師、校長及家長,在設立核心能力測試 後,懂得妥善使用測試數據。 31. 網上測試起初只在小三推行,但最終會在五年內擴展到小一至中三所有級 別。小三的網上測試將於二零零一年以試驗形式推行。中學方面,中一的 網上測試會在二零零四年推出。在網上測試推出前,各中、小學仍會沿用 香港學科測驗。長遠來說,全面拓展及推行核心能力測試需要八至十年時 間。 意見及建議 32.請各界踴躍提出意見及建議,並於一九九九年十二月十五日之前送交 教育統籌委員會秘書處,地址是香港中區政府合署中座714室)傳真號 碼︰25374591),或以話音郵件(中文留言請電1833133,英文留言請電 1833122)或電子郵件(電郵地址︰div3@emb.gcn.gov.hk)發表意見。 原載教育署編:《教師在教育改革中的角色與承擔》(1999)
93
96