本書內容分為三大部分︰古典測驗篇、現代測驗篇、心理測驗篇。古典測驗篇主要介紹信度、效度,以及試題分析中的難度、鑑別度、誘答力分析。接著導入現代測驗篇,介紹了試題反應理論(IRT)中常見的二元計分模式、多元計分模式,並兼論試題特徵曲線、試題訊息函數、試題差異功能分析等議題,最後介紹心理測驗篇常用的心理測驗、問卷或量表。
作者以統計學專業背景,深入淺出方式,試圖讓讀者了解每個模式的意涵,這也是作者多年來的期許,希望不是統計背景的學生也能更切入模式的測量意義,但又擔心說明過多,讀者更模糊,所以每個章節末都會作個小結,方便讀者聚焦。同時每個模式輔以R程式繪出模式圖形,沒有比圖形能更快認識模式的,在程式普及的當今,模式、程式、圖形缺一不可。
本書內容適合大學部學生或研究生。古典測驗篇、心理測驗篇及現代測驗篇的部分章節,應可滿足大學部學生有關教育測驗或心理測驗課程的需求。現代測驗篇所有章節可以作為進階課程用,亦適合研究生需求。本書每章所附習題,可以提供讀者練習,有助於內文的理解,有些題目取自國家考試,對於讀者準備相關考試亦有所助益。
作者簡介:
洪來發
現職︰長榮大學健康心理學系副教授
學歷︰
國立中正大學心理學博士(主修心理計量)
國立中興大學法商學院(現為國立臺北大學)統計學碩士
國立臺灣師範大學文學士
經歷︰
長榮大學科技工程與管理學系助理教授、副教授
曾獲科技部補助大專校院獎勵特殊優秀人才榮譽
著作︰
實用統計學:使用Excel、SAS、R語言分析(全華出版)
研究論文發表在Multivariate Behavioral Research, Journal of Educational and Behavioral Statistics, and Applied Psychological Measurement等SSCI期刊上
章節試閱
第一節 測驗的意義
一、測驗
什麼是測驗?測驗是測量的工具,是對行為樣本所作的一種客觀化和標準化的測量。測驗亦可視為一種搜集資料的工具,以有系統的程序提供問題(questions)、作業(tasks)或刺激物(stimuli)給受試者作答,藉此獲得受試者行為樣本(特質或屬性)。通常測驗包含三部分:
1. 標準刺激(或稱行為樣本):是指測驗中讓受試者回答的問題、作業或刺激物。
2. 個體特質:測驗所要測量的個體的認知能力或情感特質。
3. 系統程序:是指測驗的標準化過程,標準化過程從一開始的題目設計、施測情境控制、實施過程、成績計分、結果的解釋都有其一致性步驟及程序。
測驗的種類繁多,若依測驗功能(認知、情意、技能)來分,有測量個人能力的認知測驗,例如,智力測驗、性向測驗、成就測驗等,這類認知測驗通常會有標準答案;也有測量個人態度、情緒、動機、價值觀、興趣、人格特質的情意測驗,情意測驗評量方式有很多種,例如,問卷(questionnaire)、訪談(interview)、觀察(observation)、調查(survey)、量表(scale)等,其中量表是情意測驗最普遍使用的方式,量表作答型式也有多種,例如,李克特氏量表(Likert scale)、詞意分辨量表(semantic differential scale)、固特曼量表(Guttman scale)。其中李克特氏量表最普遍型式是五點量尺︰題目敘述後,由受測者從非常同意、同意、普通、不同意、極不同意,五個量尺中勾選與自己最相符的選項。例如,
1. 我覺得統計學很有趣。
2. 我覺得統計學很簡單。
詞意分辨量表最常使用的型式是將欲評估的項目(或屬性)分列在兩端(例如,左端能力強,右端能力弱,左右屬性是對立的),中間列有空格提供受測者選擇,受測者衡量題目中所敘述的項目(或屬性)跟自己情況最相符的位置勾選。詞意分辨量表如下所示,例如,請根據下列各項屬性評估該專案團隊的表現︰
能力強 : : : : : : 能力弱
主動 : : : : : : 被動
迅速 : : : : : : 緩慢
固特曼量表較適合質性分析,敘述語句較為冗長,為美國心理學家固特曼(Guttman, 1950)所編製設計的態度量表。其主要特色是單一向度設計,由同一性質的題目所構成,正因為是單向性的組成,所以,題目間的關係可以由弱到強依序排序,通常每一題都是由4個敘述句組成,
固特曼量表較適合質性分析,敘述語句較為冗長,為美國心理學家固特曼(Guttman, 1950)所編製設計的態度量表。其主要特色是單一向度設計,由同一性質的題目所構成,正因為是單向性的組成,所以,題目間的關係可以由弱到強依序排序,通常每一題都是由4個敘述句組成,例如,針對外籍配偶的看法?
( )我願意與她成為點頭之交。
( )我願意與她成為普通朋友。
( )我願意與她成為好朋友。
( )我願意與她未來結為親戚。
這例子中,不難發現題目描述的現象或屬性,由點頭之交、普通朋友、好朋友到結為親戚,是以漸增方式排序,且由4個敘述句組成。固特曼量表是一種累積式量表(cumulative scale),在累積式量表中,受測者如果勾選鶷(願意與她成為普通朋友),那表示受測者也會同意鰡(願意點頭之交,才有可能成為普通朋友);如果勾選鶶(願意與她成為好朋友),那表示受測者會同意鶷,也會同意鰡;如果鶶沒被勾選,但鶷被勾選,那麼鰡仍會被同意。這類情意測驗的答案沒有絕對的對或錯,不會有標準答案。除了上述認知測驗、情意測驗外,還有一種技能測驗,主要在測量個體實作或肢體反應協調能力的一種測驗,例如,實作評量中的各種體育活動的運動表現或是機械儀器的操作表現等。
若依測驗的材料來分,則有文字測驗與非文字測驗,前者以語言文字為素材編製測驗,例如,語文推理測驗、文字智力測驗等,後者則以非語言文字為編製的媒介,又稱作業測驗,例如,操作物體或儀器、組裝、拆卸等。
若依施測人數來分,則有個別測驗與團體測驗,個別測驗通常實施於某一約定時間,一位主試者、一位受試者的情況。常見的個別測驗有比西量表(Binet-Simon scale)、修訂版魏氏兒童智力量表(Wechsler intelligence scale for children revised, WISC-R)等。團體測驗是同時對多人測驗,常見的有美國研究所入學考試(graduate record examinations, GRE)、普通性向測驗(general aptitude test battery, GATB)、軍勤職業性向測驗(armed services vocational aptitude battery, ASVAB)等。
若依測驗的評分方式來分,則有客觀測驗(objective test)與主觀測驗(subjective test),前者如選擇題、是非題、填充題等,後者如作文測驗、美術作品、口試、投射測驗(projective test)等。客觀測驗雖不會因評分者不同而有不同的評等分數,但較無法測量出受試者在綜合、評鑑、統整分析方面的能力。而主觀測驗可以評量受試者組織、統整、觀念表達的能力,但易受評分者主觀分數的影響,如能多位評分者評量,則可提升測驗結果評分的可信度。
若依測量時間來分,則有速度測驗與難度測驗,前者主要在測量受試者在規定的時間內,對刺激(例如,測驗或作業)的反應速度,題數多但不難,幾乎不太可能做完所有題目。後者主要測量受試者的能力高低,測驗(或作業)包含不同難度的題目,越是能解決難度高的題目表示受試者能力越高,但並不是所有題目都能被解出。
第一節 測驗的意義
一、測驗
什麼是測驗?測驗是測量的工具,是對行為樣本所作的一種客觀化和標準化的測量。測驗亦可視為一種搜集資料的工具,以有系統的程序提供問題(questions)、作業(tasks)或刺激物(stimuli)給受試者作答,藉此獲得受試者行為樣本(特質或屬性)。通常測驗包含三部分:
1. 標準刺激(或稱行為樣本):是指測驗中讓受試者回答的問題、作業或刺激物。
2. 個體特質:測驗所要測量的個體的認知能力或情感特質。
3. 系統程序:是指測驗的標準化過程,標準化過程從一開始的題目設計、施測情境控制、實施過程、成...
推薦序
推薦序
美國心理學家桑戴克(E. L. Thorndike)於1918年說過:「凡存在的東西,必有數量。」(Whatever exists at all, exists in some amount.)測驗專家麥克爾(W. A. McCall)於1923年也說過:「凡有數量的東西,皆可測量。」(Anything that exists in mount, can be measured.)人類為了解各種存在的事物,包括各種物質與心理特質的存在,設計了各種測驗工具與統計方法,透過數量的統計、分析、解釋,描述既存的現象,甚至將測驗、統計與分析結果用來預測未來。
俗話說:「人心不同,各如其面。」人的內在心理特質存在著個別差異,宛如其外表長相都不相同一樣。人的內在心理特質既存在著差異,當然就可透過科學性工具來測量其差異情況。而心理測驗是用來測量人類心理特質的科學性工具,其設計、施測、分析與解釋,當然都有其理論基礎與實際作法之規範,其施測結果透過規範性的解釋,即可用來描述、分析、預測既存及可能發生的現象。於今日我們所處的世界裡,已無法與心理測驗脫離關係。
心理測驗的發展一日千里,新的觀念與方法也不斷推陳出新。從早期三千多年前中國以六藝取士以及隋唐開始的科舉制度可謂測驗之濫觴。但若以科學的觀點來看,心理測驗早從英、法、德學者開始,至測驗在美國發揚光大止,其歷史雖短,但成果卻豐碩,心理測驗儼然已成一門深奧且甚富內涵的科學學門。
洪來發博士是一位遊走多學門的卓越學者,從早期浸潤於文學哲學,至後來沉浸於統計領域,近來又對測驗極感興趣,遊走於文哲與數理領域,都能暢順有成,也能於各專精領域發表學術性論文,可謂難能可貴的學術人才。其近期所著《心理測驗理論與應用──含IRT與R軟體分析》一書,可說是近來他在心理測驗領域裡孜孜矻矻的研究成果。本書內容大要觀之,皆能切中問題核心,內容精煉,是研究心理測驗學者可以參考,學生可以精讀的難能可貴新書。
完成一本學術著作是極其辛苦的歷程,從資料的蒐集,架構的擬定,內容的撰寫,文字的潤飾、校對,無不需要精力與時間的投入。但當其完成,可如欣賞藝術作品一般,品賞之餘,內心所顯現的高峰經驗,其樂無比。為敬佩洪來發博士的高品質學術成果,爰為之序。
鄭來長 謹識
推薦序
美國心理學家桑戴克(E. L. Thorndike)於1918年說過:「凡存在的東西,必有數量。」(Whatever exists at all, exists in some amount.)測驗專家麥克爾(W. A. McCall)於1923年也說過:「凡有數量的東西,皆可測量。」(Anything that exists in mount, can be measured.)人類為了解各種存在的事物,包括各種物質與心理特質的存在,設計了各種測驗工具與統計方法,透過數量的統計、分析、解釋,描述既存的現象,甚至將測驗、統計與分析結果用來預測未來。
俗話說:「人心不同,各如其面。」人的內在心理特質存在著個別差異,...
作者序
自序
本書係為教育系、心理系、測驗與統計系所相關領域學生而寫,內容分為三大篇︰古典測驗篇、現代測驗篇、心理測驗篇,總共十三章。古典測驗篇有五章,分別介紹測驗、信度、效度、常模以及試題分析等心理測驗理論的基礎分析。現代測驗篇亦分五章,內容主要有二元計分Rasch模式(I)、二元計分2PL、3PL模式(II)、多元計分GRM、PCM、RSM模式、參數估計法以及DIF分析等心理測驗理論進階分析,最後介紹心理測驗篇常用的智力測驗、人格測驗以及性向測驗等心理測驗理論的實務應用。
編寫方式分為筆算過程和電腦分析,筆算過程是為了讓讀者知道每個公式的計算步驟,筆算後緊接著R軟體分析,方便讀者對照學習。R語言是一種開放原始碼的free software,除了內建多種統計分析功能外,亦可透過下載套件(packages),補足使用者的需求。
回想本書撰寫過程中,幾經修改,修改主因常是為了讓讀者更了解每個公式的意涵。認識我的人都知道,我大學念的是文組,畢業後轉讀數理統計,考上當時中興大學臺北校區的統計學研究所,因為數統的訓練,我希望竭盡所能讓生硬的數理符號,更貼近人的認知直覺,即使沒有數理訓練,也能掌握要義,這也是撰寫本書的初衷︰編寫一本讓想知道理論證明的或是想知道應用的皆適用的教科書。過程中,每每憶起當年從完全不知道微積分是什麼,一路走向數統的苦與樂,如何讓完全不知道的學習者快速理解,一直是下筆的思考主軸。
最後,特別感謝前國立臺灣圖書館館長鄭來長博士撰序,為本書增色良多。也要感謝五南圖書出版公司王俐文副總編輯的協助與促成,以及編輯部的辛勞。長榮大學健康心理學系提供筆者教學及研究上自由揮灑的空間。唯筆者才疏學淺,錯誤在所難免,尚祈讀者不吝指正。
自序
本書係為教育系、心理系、測驗與統計系所相關領域學生而寫,內容分為三大篇︰古典測驗篇、現代測驗篇、心理測驗篇,總共十三章。古典測驗篇有五章,分別介紹測驗、信度、效度、常模以及試題分析等心理測驗理論的基礎分析。現代測驗篇亦分五章,內容主要有二元計分Rasch模式(I)、二元計分2PL、3PL模式(II)、多元計分GRM、PCM、RSM模式、參數估計法以及DIF分析等心理測驗理論進階分析,最後介紹心理測驗篇常用的智力測驗、人格測驗以及性向測驗等心理測驗理論的實務應用。
編寫方式分為筆算過程和電腦分析,筆算過程是為了讓讀者知道...
目錄
推薦序
自序
PART 1 古典測驗篇
第一章 測驗
第一節 測驗的意義
第二節 測驗的功能
第三節 教學評量的種類
第四節 良好測驗的條件
習 題
第二章 信度
第一節 信度的意義
第二節 信度的種類及求法
第三節 影響信度的因素
第四節 效標參照測驗的信度
習 題
第三章 效度
第一節 效度的意義
第二節 效度的類別
第三節 影響效度的因素
習 題
第四章 常模
第一節 常模的意義與功能
第二節 常模的類型
第三節 常模衍生量尺
習 題
第五章 試題分析
第一節 試題分析的功用
第二節 常模參照測驗的試題分析
第三節 效標參照測驗的試題分析
第四節 試題刪選分析
習 題
PART 2 現代測驗篇
第六章 二元計分IRT模式(I)
第一節 緒論
第二節 Rasch 模式
第三節 LLTM模式
習 題
第七章 二元計分IRT模式(II)
第一節 1PL、2PL模式
第二節 3PL模式
習 題
第八章 多元計分IRT模式
第一節 GRM模式
第二節 PCM模式
第三節 RSM模式
第四節 MFRM模式
習 題
第九章 參數估計
第一節 試題參數估計
第二節 能力參數估計
習 題
第十章 DIF分析
第一節 IRT取向的DIF檢定法
第二節 非IRT取向的DIF檢定法
習 題
PART 3 心理測驗篇
第十一章 智力測驗
第一節 智力理論
第二節 智力量表
習 題
第十二章 人格測驗
第一節 加州人格量表
第二節 十六人格因素問卷
第三節 個人偏好量表
第四節 羅夏克墨漬投射測驗
第五節 主題統覺測驗
習 題
第十三章 性向測驗
第一節 美國常用的性向測驗
第二節 國內性向測驗
習 題
附錄
參考文獻
推薦序
自序
PART 1 古典測驗篇
第一章 測驗
第一節 測驗的意義
第二節 測驗的功能
第三節 教學評量的種類
第四節 良好測驗的條件
習 題
第二章 信度
第一節 信度的意義
第二節 信度的種類及求法
第三節 影響信度的因素
第四節 效標參照測驗的信度
習 題
第三章 效度
第一節 效度的意義
第二節 效度的類別
第三節 影響效度的因素
習 題
第四章 常模
第一節 常模的意義與功能
第二節 常模的類型
第三...