大數據如何為古村落畫像?
——專訪中國民協副主席、廣東省民協主席李麗娜
中國古村落傳播力指數排名前三村落之一開平自力村
隨著大數據、云計算等新一代信息技術的迅猛發展,備受關注的古村落保護與傳承也有了新的思路和手段,不久前,“基于大數據架構的中國古村落文化保護與傳承云服務平臺建設”項目成果在廣州展示,并發布了中國古村落傳播力指數。作為該項目的主要負責人之一,中國民協副主席、廣東省民協主席李麗娜接受記者采訪時表示,通過這個云服務平臺,古村落呈現給大眾的不再只是停留在紙上的文字描述和模糊的印象,而是以互聯網中多種數據格式為記錄載體,為古村落畫出更豐富和更鮮活的形象,滿足信息社會以網民為主要力量的社會大眾的實際需求。
記者:廣東省民協長期致力于古村落保護工作,過去的工作為該項目的實施起到了什么作用?
李麗娜:古村落云平臺項目是由廣東省民協和華南理工大學出版社等團隊聯合開發的。廣東村落資源豐富,有自然村落17萬個,行政村落1.9萬個,其中不乏有著悠久歷史的古村落,其中160個被列入國家傳統村落名錄,這些村落少則二三百年,多則七八百年的歷史。2007年,在廣東省委宣傳部的領導和支持下,廣東省文聯與廣東省民協共同開展了“廣東省古村落”普查與認定工作,目前,共公布5批296個古村落。這些散落在嶺南大地的代表農耕文明的古村落不僅是一個社會單元,也是物質與文化的綜合體。它們包含著豐富深邃的歷史文化信息。項目首期建設首先對廣東省內的前3批共204個“廣東省古村落”進行數字化處理,利用項目中提出的方法進行相關信息資料的收集、整理,并提供相關服務,從而驗證平臺及方法的可行性和有效性,為下一步更大范圍的推廣奠定了基礎。比如,數據平臺采集了大量音頻、視頻、圖片、文字等信息,以村落為單位分類存放,后續還將有更深入的大數據分析,例如地區分布、內容分析等。平臺采集到的信息數據可以精確到整個房屋的框架構造和歷史年份,以及村落整個的變遷歷史,并涵蓋族譜等文獻資源。
記者:如何理解利用大數據為古村落畫像?數據來源是否足以保證畫像的準確性?
李麗娜:古村落文化遺產的數字化保護,由3個空間的復雜系統集成:第一空間為“物理空間”,即由古村落所處的空間載體組成,包括地理場景和物質文化遺產;第二空間為“信息空間”,即由計算機、信息網絡和大數據組成的“虛擬”空間;第三空間則為“社會心智空間”,即在物理和信息空間支撐下的社會認知和決策空間。古村落畫像是利用大數據技術對古村落在網絡上的形象進行勾勒,基于網絡上獲得古村落網絡大數據(主要是文本信息)進行文本挖掘,抽取文本中的關鍵詞為古村落打上一系列文本標簽,實現古村落的標簽化。古村落特征抽取的文本數據來源于網絡,網絡信息技術的發展和普及促使大量網絡數據的產生,也使得通過收集和分析這些數據構建古村落的村落畫像成為可能。利用大數據技術為古村落畫像是項目研究內容的一部分,除了古村落網絡大數據可以從網上信息空間中進行抓取,項目組還提出利用眾包模式對真實世界中的物質和非物質文化遺產進行全面的信息采集,為將來更精準的古村落畫像奠定堅實的數據基礎。
記者:中國古村落傳播力指數可以為古村落的保護做些什么?排名靠后的村落怎么辦?
李麗娜:中國古村落傳播力指數是以一定標準評判某個古村落在網絡上的影響力并輔助人們決策的一種手段。本次發布的中國古村落傳播力指數中,小洲村、沙灣古鎮、自力村碉樓群與村落位列前三甲。古村落在網絡上的傳播力可以用古村落網絡信息資源豐富程度來衡量,古村落的發展、保護和傳承與傳播力指數有密切關系?,F在,互聯網對社會有著深遠影響,某個古村落傳播力指數越大,說明它的網絡信息資源越豐富、質量越高,它在網絡上的傳播力和影響力就越強、知名度也會越高,較高的知名度和網絡排名對提高古村落在現實世界中的經濟發展、文化保護和傳承具有一定的輔助效果。另外,古村落傳播力指數有利于決策者和管理者正確認識古村落網絡傳播現狀,對管理者做出發展決策起到參考作用。對于排名靠后的古村落,說明按照項目團隊所提出的評價標準,這些古村落的網絡信息資源缺乏,可以有針對性地建設其網絡信息資源,從而提高其網絡信息傳播力指數。借助各種平臺的力量,讓古村落的傳播、保護、經營、發展得以實現良性循環,才是“傳播指數”真正的意義所在。
記者:古村落信息采集過程中的難點是什么?有沒有信息采集的嚴格標準?
李麗娜:古村落信息數據的采集可以精確到整個房屋的框架構造和歷史年份,以及村落的變遷史,還有一些珍貴的族譜,詳細記錄了這個家族的繁衍及重要人物的事跡,還有一些是通過村民口述的方式,記錄這些村落流傳的軼事。但物質空間的信息采集還好,精神層面信息的采集是項目操作落地的一大難點。我們主要通過規范化和培訓等手段來解決這個問題,保證數據采集的客觀和完整。為此,我們制定了數據采集規范,以及規范化的任務包。數據采集規范包括采集的前期準備、人員聯絡、拍攝內容及方法、數據存放、文件命名等詳細規定。例如對古建筑拍攝角度、內容等都有要求,對一個村落的各部分信息有很明確的劃分。通過上述方法,盡量使收集數據的過程做到客觀、規范、完整,為后面的統一分析打下基礎。
記者:這個項目對其他省份的古村落保護有什么啟示?
李麗娜:在信息高度發達的大數據時代,古村落保護應該有新思路、新途徑。通過信息技術手段,探討古村落文化傳承與保護的新模式,能為國內外的古村落研究者帶來極大便利,亦對我國各地古村落的保護和開發工作起到極好的示范作用。古村落數字資源的生成、搜集和分析,是古村落管理和發展必定會遇到的問題,我們項目組提出了能有效評價古村落網絡傳播力的中國古村落傳播力指數,提出了挖掘古村落網絡形象的村落畫像,在如何評價和利用這些資源上進行了嘗試。古村落文化遺產的數字化保護與傳承,獲得大量的古村落數據信息是第一步,有了古村落大數據,還需要利用大數據分析技術把碎片化的數據進行分析和挖掘,從而產生有價值的信息和知識。大數據分析技術包括描述性分析、預測性分析和規范性分析,本項目主要應用描述性分析方法,特別是應用聚類分析方法對古村落大數據分析與挖掘進行了初步嘗試,得到了部分有意義的結果,現將這些方法與結果發布出來,希望能夠為古村落研究者提供一種新的思路與方法。