模糊統計遇上R語言,激盪出美麗的火花,成為您統計之路最好運用的工具!
本書在模糊統計導論的基礎上,針對每種模糊統計分析方法提供R語言的撰寫語法,讓讀者更容易應用與計算。
「當有人說他今天感到很快樂時,究竟他對於快樂的認知為何呢?什麼樣的測量標準可以稱得上快樂呢?或是這樣的感覺持續多久的時間以上才能算是快樂呢?」
模糊理論是一種定量化處理人類語言、思維的新興學門。模糊邏輯並非如字面上意思那樣的馬虎、不精確,而是面對生活上各種的不確定性,以更合理的規則去分析及管理控制,以期得到更有效率、更合乎人性與智慧的結果。模糊統計並不模糊,它是處理不確定事件的新技術,帶領我們從古典的統計估計與檢定研究計算,進入一個需要軟計算、穩健性的高科技e世代。
原本模糊統計導論就已經建構了相當完整的定義與計算公式,但苦於沒有容易操作使用的統計軟體平台,所幸R語言的成熟,提供了一個便於計算與理解模糊統計方法的平台,透過程式語言的撰寫,更能印證模糊統計方法的各種設想,而且也能由讀者自行撰寫更彈性與多元的語法,讓模糊統計的應用更為廣泛與深入。
作者簡介:
吳柏林
現職:國立政治大學應用數學系教授(1993~)
學歷:美國印第安那大學數學博士
經歷:英國劍橋大學客座研究教授(1995)
美國史丹佛大學客座研究教授(1997)
國立政治大學傑出研究講座(2002、2004)
榮譽:1996年獲國立政治大學優良研究教授獎
1997年獲美國傅布萊特(Fulbright)研究學者獎
2000年獲中華發展基金會講學教授獎(北京大學數學科學院)
多次國科會甲種研究獎
專長:模糊統計、時間數列分析與預測及模糊邏輯與人工智慧
著作:《現代統計學》、《時間數列分析與預測》等專書5本
於國際著名學術期刊發表論文30餘篇、國內學術期刊論文40餘篇
林松柏
現職:國立暨南國際大學教育政策與行政學系教授
學歷:國立暨南國際大學教育政策與行政研究所博士
經歷:國立暨南國際大學教務處副教務長、教學發展中心主任
國立暨南國際大學校務研究中心分析組組長
國立暨南國際大學學務處生輔組組長、校安中心主任
專長:教育政策分析、計量研究方法、教育資料採礦
章節試閱
1緒 言
難易指數:非常簡單
學習金鑰
理解模糊統計與人類思維的特性
認識模糊理論隸屬度描述的概念
1.1 模糊理論之概念
人類的思維主要是來自於對自然現象和社會現象的認知意識,而人類的知識語言也會因本身的主觀意識、時間、環境和研判事情的角度不同而具備模糊性。模糊理論的產生即是參考人類思維方式對環境所用的模糊測度與分類原理,給予較穩健的描述方式,以處理多元複雜的曖昧和不確定現象。因此,人類思維有兩類,一為形式化思維(formal thinking),另一為模糊思維(fuzzy thinking);前者是有邏輯性和順序性的思考,而後者則是全體性和綜合性的思考。當面臨決策判斷而進行思考時,基於形式化思維的二元邏輯,常很難表示出人類思考的多元邏輯特性。
當有人說他今天感到很快樂時,究竟他對於快樂的認知為何呢?什麼樣的測量標準可以稱得上快樂呢?或是這樣的感覺持續多久的時間以上才能算是快樂呢?然而,這樣的問題,每個人的回答皆因其主觀性而有不同,即使回答者為同一人,也會因為所處的環境、或是外在條件的不同,而可能出現
與之前相異的答案。諸如此類很多的論點和問題,都不是能夠用絕對的二元
邏輯所可以界定的。原因則皆來自於人類思維的模糊性。但人類卻常常被要
求做出絕對的判斷或選擇,以人性的觀點來看,這是十分不合理的。
模糊理論的概念,主要強調個人喜好程度不需非常清晰或數值精確,因此對人類而言,模糊模式比直接指定單一物體一個值,較合適於評估物體間的多元或相關特性。
對不確定性的事物作決策,是相當重要的人類活動。如果這種不確定性僅僅是由於事物的隨機所引起的,模糊統計分析發展為這類決策活動提供了不錯的理論依據。事實上,我們在決策過程中所遇到的不確定性問題,往往不只是由於事物的隨機所引起,這種不確定性還可能是:不完全的資訊、部分已知的知識、對環境模糊的描述等,這類資訊來自於測量與感知中的不確定因素,主要是我們的語言及人類思維對某些概念表達模糊所引起。這些不明確性經常比我們想像的要複雜許多。
顯然地說,如果要對人類思維的模糊性做出比較好的判斷,我們必須盡量將所得到的資訊都考慮在內,特別是屬性問題。由於屬性問題本身的不確定性與模糊性,若我們利用此假性的精確值來做因果分析與計量度量,可能造成判定偏差及決策誤導,甚至會擴大預測結果與實際狀態之間的差異。因此對於這些在思考認知不易表達完善的屬性問題,藉由軟計算方法與模糊統計分析可更明確表達出來。
雖然古典集合在數理科學上建立一套完整的系統邏輯,但是,若將此集合關係應用於描述某些實務現象時,常發現不合理的情形。因為某些現象並不一定存在「非此即彼」的關係。例如:進行某一教學單元後,將班級的學生劃分成「精熟」和「不精熟」兩類,這樣的劃分很明顯地有不合理之處,因為學生的精熟度並非是二元的現象,而是有各種不同精熟程度連續性之特性。自Zadeh(1965) 提出模糊理論以來,此思維可解釋許多實務現象。模糊理論將元素和集合之間的關係,以介於[0,1] 之間的隸屬度(membership) 描述。
由於傳統集合中二元邏輯與人類思維模式出入頗大,若能引用隸屬度函數,應能得到較合理的解釋。例如:人們認為身高200公分絕對屬於高,則其隸屬度函數值自然屬於1,而身高180公分或178公分的隸屬度函數值則約等於0.8,此表示身高180公分或178公分屬於高的程度有0.8之多,再根據隸屬度函數的定義,我們可描繪出模糊集合中高的隸屬度函數。又如果某人認為40歲絕對屬於中年,則其隸屬度函數值自然屬於1,而39歲或41歲的隸屬度函數值則約等於0.9,此表示39歲或41歲屬於中年的程度有0.9之多。
根據隸屬度函數的定義,我們可繪出模糊集合中年的隸屬度函數。與傳統集合的特徵函數比較,隸屬度函數似乎是將特徵函數平滑化了。不僅如此,隸屬度函數讓每個年齡層都擁有一個介於0到1之間的值,來代表屬於高或中年的程度。相較於傳統集合的特徵函數,在描述模糊的概念時,利用模糊集合的隸屬度函數來解釋是更適當的。
模糊理論是以模糊邏輯為基礎,它將傳統數學之二元邏輯做延伸,不再是只有對錯或是非二分法。對於元素與集合的關係,古典集合論中元素是否屬於集合A,必須十分明確不容模糊。即X ∈ A或X ∉ A二者必居其一,且只能居其一。這種邏輯正是所謂的二元邏輯。然而人類的思維,因來自於對自然現象和社會現象的主觀意識影響,其知識語言也會因本身的主觀意識、時間、環境和研判事情的角度不同而具模糊性。對和錯之間還有「不完全對」、「一點對」或「不完全錯」等,是非之間還有「有些是」、「有些非」等地帶,正所謂的灰色地帶與模糊觀念。要了解模糊的意義,亦可從模糊的相反詞明確來做反向思考。
有些學者認為模糊理論既是研究不確定的現象,應與機率論類似。然而機率論是研究隨機性問題,隨機性雖不確定,但那是因為條件不充分引起的,事件的發生是隨機的,事件之後卻是確定的,例如:擲一公正骰子,出1,2,3,4,5,6點之機率均為1/6,當丟完一次之後,出現多少就是多少。而模糊理論的事件本身卻是模糊不明確的,例如:回答家中經濟屬於不錯、小康或中等等,這些均不屬於隨機,而是事件本身的不完整性與不明確性。Zadeh(1999)更建議引用感覺測度(perception measure)和軟計算(soft computing system)共同應用作為模糊函數估計量,這種應用模糊概念將屬性關係數學模式化的方法,我們統稱為軟計算方法。希望此研究方向提供未來計量研究方法的一個有用的工具。
模糊概念並不只侷限在研究人類的思維與情感而已。在以往嚴謹精確的原則要求下,許多技術層面所衍生出的灰色地帶,都必須耗費相當大的心力為複雜的系統寫下嚴密的定義與敘述,灰色地帶中的每一個細微末節,都必須完全地考慮到,盡全力使得其中的模糊變得明確,但若稍有一遺漏,則全盤皆墨,一切又得從頭做起。而模糊理論卻提供一種新的思維模式,只需要明瞭各種屬性的狀況,利用軟計算方法建立大略性的處理模式,即可處理系統中灰色地帶的問題。所以我們應該要了解到:灰色或是模糊不清的事件是層出不窮的,也是無法完全避免的,也因此,才讓我們體認到研究模糊理論的重要性。
隸屬度函數是模糊理論的基礎, 它是從傳統集合中的特徵函數(characteristic function) 所衍生出來的,用以表達元素對模糊集合的隸屬度(membership grade),其範圍介於0 到1 之間。對於元素和集合的關係,古典集合將元素和集合之間的關係以特徵函數來說明,亦即I(x) = 1,若x ∈A;I(x) = 0,若x ∉ A。但是Zadeh(1965) 在模糊集合論中則提到,若一個元素屬於某一個集合的程度越大,則其隸屬度值越接近於1,反之則越接近0。
隸屬度函數是模糊理論最基本的概念,它不僅可以描述模糊集合的性質,更可以對模糊集合進行量化,並且利用精確的數學方法,來分析和處理模糊性資訊。然而,要建立一個足以表達模糊概念的隸屬度函數,並不是一件容易的事。其原因在於隸屬度函數脫離不了個人的主觀意識,故沒有通用的定理或公式,通常是根據經驗或統計來加以確定,很難像客觀事物一樣有很強的說服力。因此,隸屬度函數的建立經常是具有爭議性的,也沒有一種隸屬度函數是可以被廣泛接受而使用。
近年來,由於科技知識水平的提高與智慧科技多元發展,造就了現今財金、經濟、教育與心理研究環境的多變與複雜化。以往的社會科學研究多利用傳統的統計分析方法,如今卻因為時代的不斷進步,而漸漸不符合現今多變環境的複雜性,以致於常感到研究方法之缺乏與不適用。如何以較為進步而精確的方法來分析目前瞬息萬變的大環境是非常必要的。故本書提出應用模糊理論的概念,將人類的喜好程度及各種屬性關係,轉換成各種便於計算的效用函數,進而適當建立假設的數學模式。這些參考人類思維方式而建構出來的各種模糊統計分析,將可廣泛地應用於處理分析各種多元複雜的不確定現象。
1.2 R語言語法說明
為了使讀者更容易理解本書建構的各種模糊統計分析模式,也讓讀者更容易應用與計算,本書將介紹與建構的各種模糊統計分析模式為R語言。R語言是免費開放原始碼軟體(open source software),雖然必須使用命令行撰寫程式語言才能進行統計分析,但卻能使分析者更為自由與彈性撰寫符合個人需求的分析程序,同時也能使讀者透過本書所附的R語言,更加理解各種模糊統計的定義或公式,並且將之轉換為具體的計算公式,再加上R語言安裝簡易與更為小巧,更有利讀者使用。
本書在後續各章節的定義或實例分析都會附上「R語言語法」,提供讀者檢視與運用,有興趣的讀者可以參考本書提供的R語言語法,改寫為符合自己需要的語法,或者是直接使用本書的語法與原始資料驗證本書的實例資料。雖然R語言可以透過安裝各種相關的統計套件(packages)使功能得到擴展,但本書所撰寫的R語言語法大多不需要另外安裝套件,以基本的語法即可完成模糊統計分析。本書亦提供各種自訂函數,提供讀者容易進行不同情境的模糊統計分析。
因本書並非介紹R語言的專書,故本書並不針對如何安裝與撰寫R語言語法進行說明,像是for()、if()、read.csv()等,有興趣了解或學習R語言的讀者可以自行參酌各種專門討論R語法的專書。然而,即使不懂R語言的讀者亦毋須擔心無法使用本書的語法,在R語言語法的命令行前,均會以#註記說明文字,提供讀者理解各命令行的功能。也建議讀者可以先模仿本書的寫法,再逕自修改語法即可進行分析。
1緒 言
難易指數:非常簡單
學習金鑰
理解模糊統計與人類思維的特性
認識模糊理論隸屬度描述的概念
1.1 模糊理論之概念
人類的思維主要是來自於對自然現象和社會現象的認知意識,而人類的知識語言也會因本身的主觀意識、時間、環境和研判事情的角度不同而具備模糊性。模糊理論的產生即是參考人類思維方式對環境所用的模糊測度與分類原理,給予較穩健的描述方式,以處理多元複雜的曖昧和不確定現象。因此,人類思維有兩類,一為形式化思維(formal thinking),另一為模糊思維(fuzzy thinking);前者是有邏輯性和順序性的...
作者序
原序
統計是用來分析、處理自然科學及社會科學資訊的工具。幫助人們在複雜的自然或社會現象中,藉由樣本資料所提供的訊息,經歸納分析、推論檢定、決策、預測等過程,使我們對現實狀況更了解,更能明確地處理現實世界的問題。傳統統計學的目的主要針對各類資訊,擬定一套估計檢定的測度方法,其過程包括:(1)設定合適的理論或模式,(2)蒐集樣本資料,實驗設計、抽樣或模擬,(3)資料分析與研判,(4)估計與檢定,(5)決策或預測。
近年來由於智慧科技發展一日千里,研究方法亦不斷地更新。傳統統計分析工具已漸感到不敷應用。一個主要的原因是:如何更有效處理分析日益複雜、巨量的網路情報資料。雖然資料採礦的興起,解決了不少資料分析的問題,但是對於如何處理非實數樣本資料,比如區間資料、多值資料形式之模糊樣本,應用架構在實變函數與機率論之傳統統計方法,實在已無法有效地分析與掌控。尤其是我們在決策過程中所遇到的不確定性問題,比我們想像得更為複雜。情報資訊除了隨機性外,還包括不完全的資訊,部分已知的知識,或者對環境模糊的描述等。
事實上,我們所獲得的資訊來自測量與感知,而感知資訊中的不確定因素,主要是我們的語言對某些概念表達模糊所引起的。顯然要做出比較好的判斷,我們必須盡量將所能得到的資訊都考慮在內。這包括用自然語言描述的行為、意義等之屬性資訊。因此我們需要用機率將模糊概念數學模式化,其實這也展示了不確定性的另一種形式。模糊理論是一種定量化處理人類語言思維的一個新興學門。模糊邏輯並非如字面上意思那樣的馬虎、不精確。而是面對生活上各種的不確定性,以更合理的規則去分析去管理控制,以期得到更有效率,更合乎人性與智慧的結果。模糊統計並不模糊,它是處理不確定事件的新技術,帶領我們從古典的統計估計與檢定研究計算,進入一個需要軟計算、穩健性的高科技e世代。
在傳統的統計推論方法中,為了了解未知母體參數值,我們常藉由一些評估準則,找出適當的統計量來對母體參數進行估計。平均數是了解母體集中趨勢最重要的母體參數之一,我們常以其不偏估計量,亦即樣本平均數來估計。然而,在日常生活中,母體平均數常為帶有模糊、不確定性的語意變數,或為一可能區間,傳統的估計量評估準則及估計方法便無法適用於此種情形。
本書基於以軟計算方法,配合模糊集合理論,定義出模糊樣本均數、模糊樣本眾數及模糊中位數,並給定很多相關之性質。同時,針對模糊參數之估計量,我們提出適當可行估計法的評判準則。對於古典的統計檢定必須陳列明確的假設。當我們想檢定兩母體平均數是否有差異時,虛無假設是「兩個平均數相等」。然而,有時我們想要知道的只是兩平均值是否模糊相等,此時傳統的檢定方法並不適用於這種包含不確定性的模糊假設檢定。因此本書提出基於模糊樣本之統計檢定方法,針對模糊均數相等、模糊屬於與卡方齊一性檢定作進一步探討。
為了將傳統統計方法延伸到模糊集合與系統的實務應用之中,本書將詳細介紹:模糊問卷調查、模糊聚類分析、模糊迴歸分析、模糊無母數統計、模糊時間數列分析與預測、模糊相關分析。我們舉了很多社會科學的應用實例,尤其是台灣生活化例子,如:模糊問卷北市選情預估、樂觀量表、風景區滿意度調查、台灣茶葉模糊分類、模糊迴歸與景氣循環、模糊時間數列與股價指數預測等等。期望藉以拋磚引玉,開創21 世紀模糊統計與應用的嶄新領域。
吳柏林於台北
秋季,2014
新版序
時光茬苒,距離《模糊統計導論:方法與應用》初版發行已歷15年了,雖然在2015年進行部分內容修訂並發行第二版,但因為R語言的開發與廣泛使用,我們在模糊統計的推廣應用多了一項強大的生力軍。
原本模糊統計導論就已經建構了相當完整的定義與計算公式,但苦於沒有容易操作使用的統計軟體平台,並不像一般統計分析方法能夠使用常見的套裝軟體進行操作與學習,所以模糊統計在研究或教學的運用就相當受限,讓人對它更為卻步,也更讓人模糊了。所幸R語言的成熟,提供了一個便於計算與理解模糊統計方法的平台,透過程式語言的撰寫,更能印證模糊統計方法的各種設想,而且也能由讀者自行撰寫更彈性與多元的語法,讓模糊統計的應用更為廣泛與深入。
本書在模糊統計導論的基礎上,針對每種模糊統計分析方法提供R語言的撰寫語法,並且為了讓讀者們能夠逐步了解模糊統計的計算過程,所以並不使用既有的R語言套件,而是使用較容易理解與基本的語法來撰寫,像是常用的向量定義、迴圈、判斷句等。雖然部分語法會因此多出許多coding,但我們都會在各語法進行註解說明,能夠減輕讀者還要再學習程式語言的負擔。
本書能夠得以發行,感謝各位讀者來信對模糊統計方法的指教,以及提供了許多實務例子,激勵我們不斷思考與提出各種設想,也使得模糊統計能更為清晰展開在各位面前,而非其名的模模糊糊。模糊統計的應用還有很大的發展空間,加上各種程式語言的開發使用,相信能為更多人所理解與投入,期待能在本書的拋磚引玉之下,讓模糊統計方法論的發展更為扎實茁壯。
吳柏林
林松柏
謹識
秋季,2021
原序
統計是用來分析、處理自然科學及社會科學資訊的工具。幫助人們在複雜的自然或社會現象中,藉由樣本資料所提供的訊息,經歸納分析、推論檢定、決策、預測等過程,使我們對現實狀況更了解,更能明確地處理現實世界的問題。傳統統計學的目的主要針對各類資訊,擬定一套估計檢定的測度方法,其過程包括:(1)設定合適的理論或模式,(2)蒐集樣本資料,實驗設計、抽樣或模擬,(3)資料分析與研判,(4)估計與檢定,(5)決策或預測。
近年來由於智慧科技發展一日千里,研究方法亦不斷地更新。傳統統計分析工具已漸感到不敷應用。一個主要的...
目錄
原序
新版序
1 緒言
1.1 模糊理論之概念
1.2 R 語言語法說明
2 隸屬度函數與軟計算方法
2.1 隸屬度函數與模糊數
2.2 模糊集合的軟運算
2.3 語意軟計算與相似度
3 模糊敘述統計量
3.1 模糊樣本平均數(fuzzy sample mean)
3.2 模糊樣本眾數(fuzzy sample mode)
3.3 模糊樣本中位數(fuzzy sample median)
3.4 模糊統計量的次序與距離
3.5 模糊統計量的一些性質
4 模糊問卷調查
4.1 社會思維的多元性與模糊性
4.2 模糊問卷設計與特徵攫取
4.3 模糊量表
4.4 實證研究
5 模糊估計
5.1 模糊母體均數
5.2 模糊母體均數最佳估計方法
5.3 模糊估計量之評判準則
6 模糊假設檢定
6.1 距離與決策準則
6.2 模糊母體均數檢定
6.3 模糊類別資料之卡方χ2 齊一性檢定
7 模糊聚類分析
7.1 模糊聚類法
7.2 模糊權重分析與判定程序
7.3 加權模糊分類
7.4 茶葉等級分類實例
7.5 結論
8 模糊迴歸模式及應用
8.1 模糊迴歸簡介
8.2 模糊迴歸建構
8.3 模糊迴歸的參數估計
8.4 模糊迴歸模式估計
8.5 景氣對策信號實例
8.6 家長教育投資與學生學業成就的相關
8.7 結論
9 模糊樣本排序及無母數檢定方法
9.1 模糊樣本之排序
9.2 模糊中位數於符號檢定(sign test) 之應用
9.3 模糊樣本排序方法應用於威爾卡森符號等級檢定(Wilcoxon signedrank test)
9.4 模糊樣本排序方法應用於威爾卡森等級和檢定(Wilcoxon ranksum test)
9.5 模糊樣本排序方法應用於KruskalWallis 檢定(一因子變異數分析)
9.6 結論
10 模糊時間數列分析與預測
10.1 前言
10.2 模糊ARIMA 模型
10.3 區間預測之效率分析
10.4 模糊時間數列模式分析與討論
10.5 實證分析
10.6 區間效率評估的一些性質
10.7 結論
11 模糊相關
11.1 前言
11.2 模糊相關係數
11.3 上網時間與數學成就
11.4 睡眠時間與數學成就
11.5 睡眠時間與上網時間
11.6 數學成就與國文成就
11.7 小結
11.8 教育投資與評量總成績及各科評量關係
11.9 結論與建議
參考文獻
原序
新版序
1 緒言
1.1 模糊理論之概念
1.2 R 語言語法說明
2 隸屬度函數與軟計算方法
2.1 隸屬度函數與模糊數
2.2 模糊集合的軟運算
2.3 語意軟計算與相似度
3 模糊敘述統計量
3.1 模糊樣本平均數(fuzzy sample mean)
3.2 模糊樣本眾數(fuzzy sample mode)
3.3 模糊樣本中位數(fuzzy sample median)
3.4 模糊統計量的次序與距離
3.5 模糊統計量的一些性質
4 模糊問卷調查
4.1 社會思維的多元性與模糊性
4.2 模糊問卷設計與特徵攫取
4.3 模糊量表
4.4 實證研究
5 模糊估計
5.1 模糊...