Ah30

Page 1

CONTENT 教育心理測驗─目 錄 第一章 緒 論 ................................................ 1-1 第二章 測驗的信度 ......................................... 2-1 第三章 效 度 ................................................ 3-1 第四章 常模與測驗分數 .................................. 4-1 第五章 教學目標與教學評量........................... 5-1 第六章 命題分析與試題分析........................... 6-1 第七章 智力、性向與成就測驗 ....................... 7-1 第八章 人格測驗 ............................................ 8-1 第九章 項目反應理論與適性測驗 ................... 9-1 附錄一 解釋名詞 ........................................... 10-1 附錄二 統計機率分配表 ................................. 11-1 附錄三 歷屆試題 ........................................... 12-1


第一章 緒 論 1-1

1

緒 論

測驗、評量、評估與測量的意義。 測驗意義與特性   測驗特性。   測驗功能:認知測驗與情意測驗。    測驗時間點:安置性測驗、預備性測驗、形成性     測驗、診斷性測驗、總結性測驗。    測驗人數:個別測驗與團體測驗。    測驗分數:常模參照測驗、標準參照測驗。   測驗類別區分 測驗標準化過程:標準化測驗與非標準化測驗。    測驗時限:速度測驗與難度測驗。    測驗反應型態:最大表現測驗與典型表現測驗。    測驗評分方式:主觀測驗與客觀測驗。   緒 測驗材料:文字測驗與非文字測驗。   正式評量與非正式評量。 論   教學決定功能。    行政決定功能。 測驗功能   諮商與輔導功能。    幫助學生學習功能。   效度。    信度。   優良教育測驗特徵 常模。    實用性。    客觀性。


1-2 教育心理測驗

   測驗倫理的規範

測驗的必要性。  選用適當的測驗。  測驗的發行。  測驗倫理。


第一章 緒 論 1-3

 教育測驗─歷屆試題分析  良好測驗特徵、常模參照測驗與標準參照測驗(意義、異同、 優缺點)(常考)、測驗時間區分、心理測驗實施注意事項、 傳 統 教 育 歐美測驗產生背景、認知測驗與情意測驗、心理測驗意義與種 測 驗 考 題 類及功能、測驗功能、團體測驗與個人測驗優缺點、測驗在諮 商輔導功能 最 新 教 育 測驗倫理、選用適當測驗步驟、古典測驗理論基本假設與優缺點 測 驗 考 題

、測驗與評量發展史 一、心理計量學(Psychometrics) 心理計量學是一門研究心理測驗與評斷(Assessment)的科學,包括量 化心理學、個別差異與心理測驗理論等研究範圍的學問。法國學者比奈 ─西蒙(Binet-Simon)於 1905 年所編製的智力測驗即人類有史以來第 一個客觀心理測驗、智力測驗與兒童智力測驗,而測驗理論便以此為架 構發展至今。 二、心理測驗 美國心理學家卡泰爾(J.M. Cattell)在 1890 年發表《心理測驗與測量 》首先創用「心理測驗」或「心智測驗」(Mental Test)一詞,更使心 理學研究從哲學的玄學轉向實證科學。1894 年 Dr. Rice 創用「教育測 驗」名稱。即使學者對心理測驗的定義不同,但幾乎所有學者都認同心 理測驗應該有三個共同屬性,分別: 客觀性: 測驗過程中採用程序、評分與解釋,均不受個人主觀因素影響,如觀 察與測量的結果,多位施測者採用相同程序得到相同結果,則表示測 驗結果具有客觀性;當二位評分者針對同一份測驗採用相同的計分規 則計分時,相同的作答反應會得到相同(或相似)的計分。唯有測驗 過程具有客觀性,不同施測者在進行相同測驗,才能得到相同結果, 其測驗結果必較為可信。 行為樣本(Behavior Sample): 心理學者 Cronbach(1984)將心理測驗界定為對行為樣本以系統化


1-4 教育心理測驗

的步驟加以觀察並將結果以數字表示,亦即心理測驗在本質上是測量 行為樣本的客觀與標準化工具;Anastasi 則認為心理測驗是一種對行 為樣本所做的一種具標準化和客觀化的測量。心理測驗所蒐集的資料 是行為樣本而非全體,受到時間或空間限制無須對行為全體一一觀察 ,僅以合理抽樣從樣本去對行為全體加以估測與瞭解,所以心理測驗 被視為行為取樣所設計之工具。而行為樣本的代表性可經效度觀念檢 驗。 標準化: 在標準化情境下,不同受試者才會受到相同對待,測驗者才能以相同 基準將所有受試者加以比較,並進一步推論其結果。標準化測驗( Standardized Test)測驗在編製程序與實施程序均由專家、教師、學 校施測者擔任。測驗題目編製經由試題分析選擇而來,尚須建立常模 、信度、效度,而測驗實施標準化方式,如施測步驟、計分與結果解 釋均須依指導手冊進行。一致性規範包括:測驗發展程序的標準化、 施測過程的標準化、測驗計分和使用與解釋的標準化。  Gregory ( 2004 ) A test can be defined as a standardized procedure for sampling behavior and describing it with categories or scores. In addition, most tests have norms or standards by which the results can be used to predict other, more important behaviors. 心理測驗一套可用於測量行為樣本所進行的標準化程序,且以類別或分數 予以描述。此外多數測驗具有常模或標準化,而其結果可據以預測某種重 要行為。  三、古典測驗理論 古典測驗理論(Classical Test Theory, CTT)是最早發展的測驗理論, 源自 Gulliksen 著作《古典測驗理論》,也是目前最實用的理論,現今 許多測驗都是依據古典理論編製,並建立資料間的實證關係。 四、概化理論


第一章 緒 論 1-5

概化理論(Generalizability Theory, GT)是由 Cronbach, Rajaratnam, and Gleser 於專著《推論力理論》(Generalizability Theory)1963 年提出, 概化理論基本上可視為是古典測驗理論的擴展統計模式。 五、試題反應理論 試題反應理論(Item Response Theory)與傳統測驗理論有所不同,源 自 Lord(1980)著作《試題反應理論》,利用數學函數關係除結合傳 統測驗試題特性(如試題分析、命題原則),尚考量到受試者個人的能 力特性。隨著時代演進科技發明,電腦等相關科技問世,配合掃描器使 計分更迅速可靠,同時可在施測過程中加入音效與色彩。電腦尚可隨受 試者作答狀況,自動選取適當的題目給受試者,即隨受試者答對考題時 ,下一題會較難,反之則較簡易,即為電腦適性測驗(Computerized Adaptive Testing)。

、古典測驗理論 一、古典測驗理論簡介 古典測驗理論(Classical Test Theory, CTT)是最早發展的測驗理論, 也是目前最實用的理論,現今許多測驗都是依據古典理論編製,並建立 資料間的實證關係。「古典測驗理論」又稱「古典信度理論」,其主要 在估計受試者測驗的實得分數與真實分數的關聯性,又稱「真實分數理 論」。本書所介紹信度、效度、測驗編製、試題分析……均為古典測驗 理論的內容。 以數學公式表示 X  t  e X:實得分數(測驗結果觀察分數) t:真實分數(考生真正能力分數或潛在特質的部分) e:誤差分數(即代表該測驗無法測得學生真正能力或潛在特質的部分) 二、古典測驗理論基本假設 古典測驗理論 X  t  e(實得分數真實分數誤差分數)。 誤差分數與真實分數間無關(te  0)。 二個不同測驗之誤差分數間無相關存在( e1e2  0)。 不同測驗的誤差分數與真實分數呈零相關( e1t2  0)。


1-6 教育心理測驗

 E(X ) t(實得分數的期望值等於真實分數)。 學者 Nitko 在 1983 年提出確定複本之相等性,同一個人在二份測驗 有相同的真實分數,二個測驗誤差彼此獨立,且誤差變異相等,即 t2  t1;e1 e2。 余民寧(民 95)提出傳統測驗理論對測量問題觀點,包括假設具有潛 在特質存在、多次測量的推論結果、單獨一次測量必有誤差、假設潛在 特質與誤差之間是獨立、複本測驗嚴格假設。 三、古典測驗理論優缺點 優點: 以古典真分數理論為基礎架構,假設較少,容易滿足,又稱弱勢理 論(Weak Theory)。發展時間最久、應用與流通最廣的測驗理論 ,採用計算公式簡單明瞭易懂,適用大多數教育與心理測驗情境、 社會科學研究資料分析。 施測流程較少限制,且流程是直線性,作答程序先從簡單回答再作 困難題目,回答可以跳答且允許更改答案。 規定每一位受試者都要作答所有題目,不論受試者是否會作答,均 需作答相同題目與題數,且評分標準亦以相同長度試題評論結果。 以原始分數衡量受試者成就,或衍生分數表示受試者在團體中相對 位置。 推廣容易,實際應用較容易。 缺點: 同一份測驗的難易程度會因不同受試者樣本結果不同:如給資優班 施測,大部分同學均答對,則試題傾向容易;反之給普通班同學, 試題就變得很難。因此傳統測驗分析並不理想。傳統測驗試題分析 如難度、鑑別度、信效度等都依照樣本指標,上述指標會因不同受 試者樣本,在同一份試卷卻得到不同難度、鑑別度與信效度。 同一位考生能力估計因不同測驗而不同:作答較易考題,答對題數 會較多,表示考生程度較好;作答較難考題,答對題數會較少,表 示考生程度較差。因此難易程度不同,造成同一位考生產生不同能 力,是不合乎邏輯的。


第一章 緒 論 1-7

假設每位受試者的測量誤差均相同,以相同測量標準誤為指標,並 未能考量受試者能力,對高低能力極端值同學非常地不合理也不正 確。 對於非複本,但功能相同測驗測得分數間,無法提供有意義的比較 :有意義的比較僅限於相同測驗前後測量之量數或複本測驗分數之 間。(余民寧,民 95) 假設原始分數的相同受試者,其能力必定相同,未考量受試者試題 反應組型,即使原始分數相同,其反應組型未必相等,能力估計值 亦不同。

、測驗意義 一、測量的意義 測量(Measurement): 依據量尺,用數字來量化或分配數字,做為研究者感興趣之人事物之 屬性、特徵、現象或表現多寡程度;用以描述個人特質的歷程,測量 不是使用文字或品質來描述。測量最常使用紙筆測驗執行,又稱心理 測量(Psychological Test)。 根據比西量表(Binet-Simon Scale): 測量某一個體結果,用智商(IQ)來描述個體的智力特質,此一過程 就稱為測量。例如使用溫度計測量溫度多少、體重計測量人類體重。 :測量量尺:將研究蒐集到的數量資料,把數字分派於人、事件和 物體上的法則。心理與教育研究中,有四種不同測量量尺,即名 義量尺、次序量尺、等距量尺、比率量尺。根據上述量尺,可以 測量到四種不同資料,應用統計分析方法也不同。 二、評量的意義 評量(Evaluation)根據一項標準,對所測量到的數字(量)做主觀價 值的判斷,評量所涵蓋內容比測量還大,因此測量只是評量的一部分; 測量是依據數量做客觀的描述,而評量除測量數字的依據,尚包括主觀 價值判斷。評量特性包括評量方式可以彈性而多樣化、評量是瞭解學生 學習結果的一種方式、評量適用於教學前中後、評量需有參考的衡量標


1-8 教育心理測驗

準,以做為判斷依據。 :評量(Evaluation)定義是「以系統方式探討教學過程和學習成就 是否達到預期水準的過程,並且所得的資料也可以做為教學回饋與 課程修正的依據」。 三、測驗的意義 狹義看法(Test): 測驗是測量學生行為樣本的工具與材料。如智力測驗、性向測驗、評 定量表、檢核表、觀察、晤談等。 廣義看法(Testing): 測驗即採用數字量尺或分類系統,來觀察和描述個人特質的一種系統 程序。測驗是指採用一套標準的刺激,對個人的特質做客觀測量的有 系統程序。 :心理測驗所稱的「標準刺激」包括測驗的材料本身(如教師課堂 上抽考的題目)及其實施過程,而非如人格測驗所用的例題、實 驗器材、課堂上學生提出的問題;「數量的描述」並非絕對,有 時也可做質的描述。 四、評定(Assessment) 評定指蒐集、統整、解釋學生學習訊息的一個歷程,以幫助教師進行教 學決定的一種歷程,包含測量與測驗二種。強調評量時應考量各種相關 的資料,從各種可行的面向蒐集資料,從各種角度加以分析、比較所得 資料,並作綜合研判,進行整體詮譯。近年來教學評量趨勢提倡多元評 量,藉以測量學生高層次思考能力與關注學習歷程,因此評定( Assessment)逐漸取代評量(Evaluation)。


第一章 緒 論 1-9 紙筆測驗 量化

觀察分數

價值判斷

評定等級

其他工具 評定量表、問卷、 晤談、檢核表、口 試、投射技術 (測驗)

(測量)

(評量)

系統性方法

某種特質數量之

使用蒐集、分析與解

具體工具

過程

釋方法讓教師回答學 生成果的價值判斷

圖 1-1 測驗、測量與評量關係 (余民寧,民 86)

五、考試的意義 考試(Examination)是一種相當複雜的活動,通常是以試題或是其他 工具來測量(Measure)應考者,以獲得分數、等第和級別等結果;以 入學考試為例,由於組別與科系不同的要求,應試者必須參與學科考試 ,甚至加考實作考試。考試所需的試卷通常稱為測驗。(劉安彥,民 92) 六、測量特性 個體具有可測量特質: 心理測量需假設特質是具體且可測量的,測量時個體具有真實分數, 用以算出誤差分數。 心理與教育的測量是間接的: 心理特質屬於抽象,只能間接測量或根據測驗行為結果推論個體。 測量均有誤差存在: 實際測到分數,並非真正分數,總會有誤差存在;單獨一次測量必存 在有誤差。測量誤差分為系統誤差與非系統誤差,古典測驗理論所關 心誤差分數(e)為非系統誤差。 測量時常是相對的: 測量得到的分數皆為相對分數,而非絕對分數。測量分數必須和他人 比較才有意義,如「常模參照測驗」為相對性質。


1-10 教育心理測驗

七、測驗與評量的問題(負作用)(王文中,民 88) 測驗可能侵犯學生的隱私權。 測驗可能會造成學生焦慮並干擾學習過程。 測驗可能會將受試者分類,會造成學生心靈傷害。 測驗可能對具有創意性與聰明的學生不公平。 測驗可能對語文能力不佳的學生不公平。 測驗的範圍可能只涵蓋部分的學習內容。 測驗可能造成教師自我判斷的效果。

、測量量尺 研究者在研究過程中,所蒐集到資料數據中,應以何種特性或測量為 準則。因不同測量尺度其資料計算與進行統計推論方式均不同,因此對於 「變項」的基本概念與區辨方式,是初學者進入「教育統計學」領域的必 備概念。而最常見測量尺度區分方式是以 1951 年 S. S. Stevens 將測量尺 度區分為四大類: 一、類別變數(名目變數、名義變數)(Nominal Variable) 係為標示事物與事物間不同特質或類別而指定的數字,無法比較二者間 大小和形式,亦即二變項間具有互斥性(Mutually Exclusive)與完整性 (Exhaustive Categories)。僅眾數有意義,如身分證號碼、血型、性別 、郵遞區號。 二、次序變數(順序變數)(Ordinal Variable) 不僅能標示事物與事物間不同特質或類別而指定的數字,亦能指出大小 次序(等級順序)、多寡、優劣、高低,但無法衡量其距離差異大小值 ,僅中位數有意義。如考試名次、作文成績甲等乙等、百分等級、教育 程度、社經地位、大學教授層級。 三、等距變數(區間變數)(Interval Variable) 不僅能標示事物與事物間不同特質或類別而指定的數字,亦能指出大小 次序(等級順序)、多寡、優劣、高低,尚可以數值方式表示二事物差 別之大小的變數。平均數、標準差都有意義,尚有溫度、明暗度、音量 、智商、成績分數。等距變數具有一基本特性「相等單位」,但無絕對


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.