活用後設資料,加強資訊的連結和透通
文/食夢黑貘(洪進吉)|全端資料科學家(full stack data scientist)、新文易數全端工程師兼創辦人、網路產業與新聞網站顧問
哪些人最該讀這本書:
1.圖書館相關人士
2.資料庫管理師
3.資料科學家/資料工程師
4.搜尋引擎最佳化(Search Engine Optimization,SEO)專家
5.對開放資料(Open Data)有興趣的人
一千年前,教育尚未普及,也沒有印刷術,當時創作資訊的人,是最有價值的人。但是,隨著第一間報社的創立,能夠創作的人愈來愈多,傳遞資訊的人,反而成為最有權力的人。
到了網路時代,資訊傳遞的成本愈來愈低,資訊的創作、儲存、傳遞,已經不是問題,能夠找到使用者想要的資訊是最困難的,最後搜尋引擎或是提供閱讀索引的公司無庸置疑的成為市值最高的公司。
從創作、傳播、搜尋,到真正的解讀使用中,還有一個很重要的環節,就是串接這些資訊。只是這些串接起來的因子,不單單是內容而已,有時更重要的是「超乎內容」(Beyond Content),像是創作者的資訊、使用者的觀點、市場的價值、搜尋的情境等等在內容之外的訊息。這些並不是內容本身,但價值不比內容低的就是「後設資料」(Metadata;編按:描述資料的資料)。
後設資料雖然是當網路成熟後變成顯學,但事實上,當知識被創作、被記錄開始,去蒐集、使用這資料就是很重要的事,這件事情就是圖書館在做的事。所以有人說,圖書館是歷史最悠久的資訊,因為當資訊還去分門別類時,最需要的就是「如何找到資訊」。
事實上,任何人不可能走進圖書館,把所有的資料與內容讀完一遍,從中找到資訊,這時就要靠後設資料。其中目前大家還在用的「索書號」,就是一種不是屬於書本的內容,但若沒有索書號,我們就無法找書、借書、看書。因此,說這些後設資料可能比內容更重要、更實用,一點也不為過。
當然,過了幾百年,現在的後設資料發展已經不像在前網路時期的「出版品預行編目」(Cataloging in Publication,CIP)記載的那麼簡單,更別說當時的分類法對於數位典藏而言已經失去意義。所有的資訊都是網狀連結而不是階層分散,甚至這些後設資料也是模糊並且隨時改變,也會隨著使用者觀點的改變和使用情境而變化。
到了現在,後設資料已經無所不在了,就像是相片中的「可交換圖檔格式」(Exchangeable image file format,Exif),記載著時間、地點之外,還有拍攝時使用的相機、鏡頭、光圈和快門等資訊。雖然這些資訊並不是真正產生影像的資料,但若沒有這些資訊,就很難找資料。現在任何相片整理軟體或服務,都會加註人物、文字、包含影像辨識後的物品內容,這讓使用照片和搜尋照片更方便、更快速。
從這個角度來看,後設資料不只是和內容有關的作者、時間,這些在創作出來就被局限的資訊,更包含使用者的使用權限、方式、統計等等資訊,而這個資訊可以說是隨時變化,甚至資料量說不定會比內容多很多倍。
相反地,在資料量非常龐大的大數據(Big Data)中的後設資料,也是有很重要的應用,因為大數據強調的不只是大量資料,而是更快速地從中獲得有用的資料。而要整理出資訊的方法除了內容整理之外,也是要靠後設資料的協助。
就像本書所說,不需要去探討每一通電話的通話內容,而是可以透過通話時間、對象、地點等等通話內容以外的資訊,就可以整理出有價值的資訊。透過內容的後設資料,不只能用「降冪」的方式讓資料大量縮簡成為可處理、可整理的有價值資訊,並且可以知道,想去應用或使用資料,需要的不只是資料本身,更需要的是後設資料。
說到大量資料,沒有比網站或網頁更龐大的資訊,網站的資料量目前大到只能用搜尋引擎處理。但若沒有像是Schma.org推動的後設資料,搜尋出來的只是一個個網頁,讀者還是要逐一閱讀網頁,才能從中找出想要的資料。雖然這樣已經讓尋找資料的使用者更方便找到要的資料,但透過後設資料,更可定義出結構化的資訊,找資料時可以知這個資訊的概觀(Outline),甚至可以直接Zero Click在搜尋結果頁(Search Engine Result Page)獲得答案。
這樣的資訊連結靠的不只是後設資料,而是後設資料的開放性與連結性,就像是後設資料的結構化,靠的就是對資料定義上的公開標準,用固定的格式描述,讓所有的資訊都可以連結在一起。甚至透過這樣的連結,讓資訊的透通 (Transparent)更快速、更可以溯源,讓資訊的新增和更新觸及更廣,再加上與 應用程式介面(Application Programming Interface,API)的結合,內容資料已經和後設資料無法切割,甚至沒有後設資料的資料,是很難被應用的。
在人工智慧發展之後,後設資料從結構化資料就像影像辨識出人物那樣更接近內容,透過語意網路的解讀,已經可以摘出內容的重點與摘要。此時,這種更貼近內容的後設資料,更能識別出內容的價值和使用情境。這種接近內容又能配合讀者情境的,有時就像是一個圖書館的讀者諮詢服務那樣,更像在電影《人工智慧》(A.I. Artificial Intelligence)中的萬事通博士(Dr. Know)那樣,可以回答任何問題,此時的後設資料,已將問題和答案緊密相連。
這本書是否實用,可能只有一小部分是有價值的,因為後設資料更是屬於還在發展蓬勃的時代,尤其是 Schema和Google推動的富數據(Rich-Data;編按:意指涵蓋眾多面向的大數據。以襯衫為例,如果得到的是各種襯衫的顏色的巨量資料,這是大數據;若得到的是各種襯衫的尺寸、材質、顏色等等多面向的巨量資料,就是富數據)、知識圖譜(Knowledge Graph;編按:意指連接所有不同種類的訊息而得到的一個關係網絡,提供從關係的角度分析問題的能力,有利於優化搜尋引擎返回的結果,並增強使用者搜尋體驗),隨時增加應用範圍和更新使用情境與呈現。
的確,資訊的價值在於再利用,而創作、傳遞、搜尋還不夠,更需要的是「連結」,要去把資訊給連結起來,是很不容易的事情,甚至這個連結的技術、成本、觀念,大家都還不是很了解。這包含本書最後章節提到的應用程式介面(Application Programming Interface,API),而API需要的不只是「網路化」、「數位化」而已,也要將資料「結構化」。更重要的是資訊的連結,也就是資訊的透通(Transparent;按:使用者直接使用資訊所展現的功能,不必了解轉換碼、系統內部結構、資料間連結和組成架構,或是如何建立這些功能),因為資訊的流動最需要的就是對於資料使用的後設資料,如果沒有這些後設資料,所有的資訊都要透過人力,此時資訊使用的成本就很高了。
所以身為圖書館相關人士、資料庫管理師、資料科學家/資料工程師、SEO專家、對Open Data有興趣的你,怎能不夠了解後設資料呢?