郵箱帳號: 密碼:
      English日本語簡體繁體

      國學大數據時代來了

      時間:2013年09月16日來源:《光明日報》作者:

        訪談嘉賓:趙敏俐:首都師范大學文學院教授、中國詩歌研究中心主任

        孫茂松:清華大學計算機科學與技術系教授、中國中文信息學會副理事長

        張 濤:北京師范大學易學文化研究院教授、院長

        尹小林:首都師范大學電子文獻研究所所長

        特邀主持人:杜曉勤(北京大學中文系教授、中國古代詩歌研究中心副主任)

        主持人:21世紀進入第二個十年,信息技術得到突飛猛進的發展。我們正在進入一個全方位的“大數據時代”,呈現出從“云計算”到“大數據”的發展趨勢。這個發展趨勢不是虛空的,而是正在對社會生活和學術研究產生著實實在在的重大影響。今天在座的都是中國古籍數字化事業的參與者和見證人。我們希望通過這樣一個小型的討論,與廣大讀者一起分享各位關于古籍整理與國學研究如何應對“大數據時代”問題的思考。

         

        趙敏俐:“大數據時代”已經降臨了。它表現在各個領域,不僅僅是生產領域,還包括知識領域。“大數據時代”是一場革命,它不僅會促進經濟發展、科技進步,在文化領域也會起到巨大的作用。十七屆六中全會《關于深化文化體制改革、推動社會主義文化大發展大繁榮若干重大問題的決定》明確提出:“要加強文化典籍整理和出版工作,推進文化典籍資源數字化建設。”我們應站在“大數據時代”這樣一個新的高度,來理解和認識中央推進古籍數據化事業的戰略意義。

        主持人:趙敏俐教授,您是倡導古籍數字化的重要學者,而且已經主持研制了一些古籍數據庫。請問您對“大數據時代”之“大”是如何理解的?

        趙敏俐:我想,“大”應該包括兩個方面的內容。首先是規模上的“大”。按尹小林的提法,幾百萬到一千萬字的數據庫算是小型數據庫;幾千萬到一億字的數據庫算是中型數據庫;從一億字到十億字算是大型數據庫,超過十億字以上的應該算是超大型數據庫。

        另一方面是功能上的“大”。功能的強大是超大規模古籍數據庫很重要的標志。怎樣才能算功能的強大?到目前為止,我們雖然已經做了很多古籍數字化的工作,比如把古籍做了一般的簡單掃描,入庫后也可以進行一般的查找,實現了一部分功能,但這個功能和我們想做的超大規模古籍數據庫還有差距。按照我的理解,超大規模古籍數據庫應該有這樣幾方面的特點:第一,因為它有超大規模的數據量,其中文獻種類和內容都非常豐富,有更大的包容性。和過去中小規模數據庫只是某一個類別、某一個專題的內容相比,通過這樣的數據庫進行綜合整理之后,可以把更多更豐富的信息匯集在一起,可以獲得更多、更全面、更準確的資料,為研究者提供更多的便利。第二,超大規模古籍數據庫的建設因為有更多技術層面的支持,所以能夠實現更多的功能,如對古籍的自動識別、自動標點、自動排版、智能檢索、智能分析,可實現多種數據格式的轉換和輸出,可以滿足文、史、哲、經各學科研究所提出的各種特殊需要,更能適應跨學科綜合研究的高級需要。只有具備了這樣兩個特點,才能稱之為超大規模古籍數據庫。

        為什么“大”就會帶來一些功能上的突破呢?比如說,關于“中國古代詩詞韻律的發展狀況”這一研究課題。一直以來,我們的理想是把先秦、兩漢、魏晉南北朝到唐宋時代每一首詩、每一首詞的每一個字的讀音、聲調、韻部等全都統計出來,由此再考察中國古代詩歌聲律的發展,弄清它們之間的變化。這在過去是不可能做到的?,F在有了中國古代詩歌文本和古代漢語音韻數據庫,這樣的工作就可以做了。超大規模古籍數據庫的建設,可以使得學者們從那種非常繁重的翻檢古書的勞動當中騰出更多的時間,發現前人未能發現的課題,或者前人雖已發現但囿于精力和技術條件未能研究的課題,進行更多的創造性勞動。將人文社會科學的研究和現代科學技術手段完美結合起來,是未來的發展方向。超大規模古籍數據庫所帶來的功能是不可比擬的,對于學術的發展和人文學科的建設的推動都是巨大的。

        再比如,《二十四史》的標點。這項工作從上世紀五十年代末開始,先后參與的專家學者上百人,歷時20年才得以完成。如果用同樣的傳統人工方式,來標點總字數是《二十四史》25倍的《四庫全書》,同樣人力需要工作500年時間,這顯然是不現實的。今天就不一樣了,借助于現代技術手段來標點,效率可以提高50倍以上。也就是說,最多10年就可以完成《四庫全書》的標點整理工作。而且在這期間,技術還會不斷進步,時間因此還會縮短。我們預計,用5到8年把這個工作完成,是有相當把握的。

        孫茂松:利用現代信息技術,將傳統文化典籍以數字化“大數據”的形式保留下來,并且發揚光大,正在日益引起許多國家,特別是發達國家的重視。一個典型的例子是,由哈佛大學、麻省理工學院、Google和大英百科全書的專家學者組成的一個研究小組,2011年1月在著名的《科學》雜志發表了一篇題為《基于數以百萬計數字化圖書的文化定量分析》的文章。該項工作利用Google Books中數字化質量比較高的超過500萬種圖書,時間跨度從公元1500年到公元2000年,規模總計5000億詞,其中英文3610億詞、法文450億詞、西班牙文450億詞、德文370億詞、中文130億詞、俄文350億詞,以及希伯來文20億詞(據估計,占人類有史以來出版圖書總種數的4%),借鑒基因組學(Genomics)的思路,對這些圖書組成的“大數據”進行分析,如發現單詞或人名在歷史文獻中隨時間變化的頻率,由此推導出人類文化的發展趨勢和演變規律。他們把這個全新的研究領域稱為“文化組學”(Culturomics)。這個例子表現了歷史文獻“大數據”建設與高水平研究的成功結合。值得注意的是,Google Books中的中文圖書其實已經具有相當規模了,這顯然對我們形成了一種巨大壓力。還需要指出的一點,與現實世界中源源不斷產生的科研大數據、互聯網大數據、企業大數據、感知大數據相比,歷史文獻大數據的總量規模要小得多,并且基本上已經“固化”了,原則上不會產生新的數據,數字化一點就離目標近一點,只要我們本著“愚公移山”的精神,就一定可以完成中國古籍數字化的歷史重任。

         

        主持人:標點整理《四庫全書》的藍圖真是令人振奮。我在想,如果把它作為我們國家應對大數據時代的挑戰,一個率先建設的超大規模古籍數據庫,一個文化強國的龍頭工程,諸位專家認為會有怎樣的文化意義和社會影響?

        張 濤:《四庫全書》的整理是一個意義非凡的大型項目。如何更好地閱讀和使用《四庫全書》,怎樣進一步挖掘其在各個方面的價值,實際上也是我們古典文獻學、歷史文獻學,特別是新興的數字文獻學學科建設和學術發展需要面對的一個重要課題。

        根據我對古籍的認識,《四庫全書》的版本,也就是庫本,其文獻價值不容低估。有許多重要典籍,庫本是最好的。而要深度挖掘和廣泛應用庫本在學術研究、文化推廣、社會影響等方面的價值,就需要超大規模數據庫的建設。

        《易經》是群經之首。我們最近幾年一直在做易學典籍的整理研究工作,其中一個重要項目就是與首都師范大學電子文獻研究所合作研發《中華易學全書》。這是一次大型專題數據庫建設,是古籍數字化的一個很好的示范項目,也是我們進一步深刻認識數字文獻學之價值和意義的一個重要切入點。

        《四庫》經部易類圖書共有158種,1757卷,2400多萬字,可謂集大成,都是經典中的經典。這說明四庫館臣的學術眼光、文化修養和研究水平是值得景仰和稱道的,而數據庫的建設又凸顯了這些易學典籍的價值。尤其現在是一個讀圖時代,需要有高清晰度的易圖。以前出書的時候,光易卦符號和易圖就很難弄好,現在首都師范大學電子文獻研究所把這個問題解決了。有了高清晰度的易圖,對易學研究者來說是一個大大的驚喜,其中的學術價值自然也是毋庸置疑的。

        另外我認為,雖然《四庫全書》的紙質版印了這么多,但翻閱、查找極其不便。盡管現在已有可以檢索的電子版,但沒有標點整理,存在不少問題。因此,超大規模古籍數據庫建設,先選擇《四庫全書》作為一個切入點,以后再選擇更多的文化經典,這是切實可行、簡捷高效的工作思路,也符合學術研究的發展規律。

        國家要求中華文化應以更大的步伐走出去,并不斷擴大在世界文明對話中的話語權,大規模古籍數據化正順應了這一要求,將大大助力中華文化的對外傳播,助力更好地搭建中外文明對話的橋梁,推動人類文明進一步向前發展。

        孫茂松:可以預期,這個古籍數據庫一旦建成,將對推動我國的文化傳承事業發揮重要作用,尤其是為相關研究的開展提供堅實的數據基礎。我在前面講過,國際上基于歷史文獻數據庫開展的研究是成果眾多的。如哈佛大學和麻省理工學院的學者2007年10月在著名的《自然》雜志上發表的文章《語言演化動力學的定量化》,利用一個規模近1800萬詞、跨度長達1200年的英語歷時語料庫CELEX,通過定量分析揭示了英語不規則動詞向規則動詞的演化規律。再如,多倫多大學的學者最近借助計算機統計技術對大約100多萬份中世紀英國的契據(其中大多數契據都沒有標明年代)進行斷代:他們使用1萬份署有年代的契據,考察所使用的語言隨時間的變化情況,以此來確定其他契據的年代,取得了有價值的實驗結果。此外,從2007年開始,歐洲每年都舉辦“文化遺產、社會科學和人類學中的語言技術論壇”(LaTeCH),研討的話題包括:文化遺產、社會科學和人類學中的知識表示、知識發現和文本挖掘、本體、數據模型和層級體系的自動構建和標準化、語篇分析、不同來源、載體信息的鏈接和檢索等。我國在這方面的研究實際上是落后了,需要奮起直追。依托“超大規模古籍數據庫”,可做的事情有很多,如計算機自動作詩和集句、歷史文獻斷代和作者推斷、中國歷史典籍和古典文學作品的詞匯層語言加工、中國傳統文化本體體系和知識圖譜構建、中國傳統文化基因在現代生活中使用狀況大規模量化調查等,囿于時間關系,我在這里就不展開談了。

         

        主持人:尹所長,就目前你們所掌握的技術而言,對超大規模古籍數據庫建設的支撐性到底如何,你們能夠建成一個怎樣規模的大數據庫?

        尹小林:超大規模古籍數據庫建設專業性很強,難度非常大,除了需要計算機硬件、軟件、網絡等現代信息技術外,還涉及到文字、版本、目錄、訓詁、音韻等多個學科。只有打通這些專業領域,才能將時間跨度上千年、不同地域的存世文獻整合在一個大系統下。為什么我們今天能夠提出這個問題?因為我們在建設超大規模古籍數據庫的核心技術方面,已經取得重大突破。以前的一個數據庫為什么大多只有幾百萬字、幾千萬字,至多一兩億字?原因就在于技術上缺少一個環節,缺少對超大規模數據進行加工整合的能力。

        具體需要哪些技術呢?首先需要一個龐大的字庫,這個字庫必須能夠把所有數據文獻中所用的不同的字在同一個平臺上顯示。現在的計算機字庫已有很大的改觀,Unicode有7萬多字,再加上一些造字,漢語存世古籍的字庫問題基本上解決了。

        第二個問題是數據加工。過去十年,我國處理轉換的古籍大概已經有數十億字,如《四庫全書》有7億字,《中國基本古籍庫》有20億字,這些古籍都已經完成了掃描識別轉換。但文字的數據化轉換,只是數據庫建設的第一步。超大規模古籍數據庫不僅僅是數據量大,而且數據整理和軟件功能也需要達到一個標準。超大規模古籍數據庫中的古籍文獻必須是經過標點整理并進行正確標引的結構數據,這一環節的難度和工程量都非常大。傳統的人工古籍標點的工作量十分巨大,而且只有經過訓練的專業人員才能做。按一個專家一年標點50萬字的工作量計算,如果建設一個10億字的超大規模古籍數據庫,需要100個專家連續工作20年。首都師范大學電子文獻研究所經過多年的潛心研究,在古籍自動標點技術上取得了突破,成功開發了一套自動標點軟件。去年在二十四史和唐宋詩文集上做了成功的嘗試,完成了上億字古代文獻的自動標點,正確率達90%以上,具有很高的實用價值。

        主持人:你們開發這一技術大致用了多長時間?

        尹小林:研制時間很長,從2003年算起,用了將近10年時間。今年年初開始投入試用。經過測試,如果前期數據準備工作做好了,每天可以標點500萬字。

        除了自動標點,我們還開發完成了自動比對、自動排版軟件。這些技術的推廣使用,可以大幅度提高古籍整理的質量和速度,整體上降低出版成本。自動排版軟件還可應用于網絡出版和個性化出版。

        需要100年才能完成的事情,我們很難規劃;如果是5~8年就能完成的事,我們就可以計劃立項。中國歷史上有名的文化工程《四庫全書》的編撰,前后歷時十多年。除去收集圖書、編寫目錄和確定版本的時間,僅正式抄寫一項,最多時就用了2000人,花了5年多時間?!端膸烊珪肥諘_3400多種,都是中國文化史上的重要文獻,全部標點整理后,總規模將超過10億字。如果正式立項,標點整理可在5至8年內完成。超大規模古籍數據庫不僅可在互聯網平臺上運行,還可廣泛應用于各種移動終端。特別值得一提的是:超大規模古籍數據庫投入使用,將進一步提高古籍整理出版的創新能力和水平,為現代個性化出版、網絡出版提供強大支撐。

        主持人:孫教授,從技術的角度,您對首都師范大學研發的古籍自動標點、自動比對、自動排版三項技術有什么評價呢?

        孫茂松:無疑,這三項技術對建設超大規模古籍數據庫都非常重要。分析起來,其技術難度是有所區別的。相比較而言,自動比對技術難度相對較小,但也很好地利用了計算機能夠對海量文本進行快速查找、匹配的“天然”能力,而這一點恰恰是人類能力之所短,因而可以十分顯著地提升比對效率;自動排版難度更大,需要將古籍排版知識引入到計算機算法中,可以認為是一個基于“排版知識”的古籍排版專家系統;自動標點最難,這需要在專家標點過的大規模古籍語料庫的支持下,設計相應的計算機算法,才有可能實現。其工作過程大體上是:計算機算法從標點過的大規模古籍語料庫中學習有關標點(句讀)的知識,據之對新的古籍語料進行標點,經過專家校對后的帶有標點的語料再補充到這個語料庫中,由計算機算法再行學習。經過這一次“輪回”,自動標點的性能會得到提升。上述過程多次迭代,便有望使得自動標點技術漸趨完善。錢鐘書先生在他修改過的一篇文章《電腦里的唐詩》中曾經講過一句非常深刻的話:“能夠幫助人的電腦,需要人的更多幫助?!弊詣訕它c技術在一定程度上“呼應”了錢先生的這個想法。應該說,自動標點技術較為充分地反映了“大數據”的特點,即:經過標點加工的數據規模越大,自動標點的性能便越好,于是乎對大數據的標點效率就越高,其結果是人工標點數據規模的進一步擴大,構成了正反饋。

        主持人:這三大核心技術,讓首都師大電子文獻研究所在中國古籍數字化的道路上有了獨領風騷的能力與實力。這一點令人欽佩。

        趙敏俐:首都師范大學早在2002年就開始了古籍數字化的建設過程,2003年成立了電子文獻研究所,2007年又成立了國學傳播中心。為了適應古籍數字化建設發展的需要,2013年,我們將國學傳播中心擴建為國學傳播研究院。在近十余年的時間內,首都師范大學在古籍數字化方面做了一系列的工作,取得了有目共睹的成績。第一項工作是國學網的建設。國學網建于2000年,現在已經發展成世界知名的中國文化網站,在國內外的人文社會科學研究領域里具有廣泛的影響。國學網的成功建設,顯示了數字化技術下的網絡文化傳播的巨大潛力與功效。第二項工作是數據庫的建設。我們開發研制的《國學寶典》,從一開始就探索與國內相關研發機構不同的古籍數字化方式。其核心是將浩如煙海的古籍一部一部、一字一字地錄入計算機系統,為今后日益先進的古籍數字化技術提供堅實的基礎,走可持續發展之路。在此基礎上,我們從2002年開始,聯合國內四所高校開發了具有多種功能的《中國古代文學電子史料庫》,匯集了將近2億字左右的文獻資料。第三項工作是學科建設。我們從2007年開始,在國內高校設立了第一個以古籍數字化為研究對象的交叉學科——數字文獻學,獲得了北京市教委的支持,被列為北京市重點學科。這是北京市所建設的第一個人文科學和自然科學的重點交叉學科。2013年9月,第一屆數字文獻學研究生入校,這在國內也開了先例。人才的培養,必將為“大數據庫時代”的中國傳統文化建設提供長久的、堅實的支持。

        我們的努力得到了國務院有關領導的高度肯定,教育部領導指示首都師范大學在以往取得成果的基礎上,聯合全國高等院校、各大圖書館,在大數據庫的建設方面做出新的成績,要在全國起引領作用。我們為此深受鼓舞,今后將進一步加快大數據庫的建設,以適應世界范圍“大數據時代”已經到來的形勢,為全國的人文社會科學發展,繁榮社會主義文化作出應有的貢獻。

         

        主持人:各位專家的發言,使我們對超大規模古籍數據庫的建設充滿信心。當然,這一工程是浩大的,面臨很多現實的困難。那么,還有哪些問題需要得到解決呢?

        尹小林:如果這個項目能變成一個國家工程,動員全國高校的古籍整理力量,有充足的經費保障,完成這個項目則指日可待。總的來說,需要三個方面的條件:第一,要有觀念上的突破。堅決打破古籍數據庫建設“小、散、亂”,各自為政的模式,形成學術共識。第二,要有體制上的變革。單純的商業模式或完全的政府立項,都難以完成這一巨大的文化工程。沒有高校和學術界的支持,這項工程無法達到所需的質量;沒有企業高效率的管理模式,成果難于推廣,無法發揮持續的影響力。政企結合,是一個高效合理的模式。第三,要有政策上的支撐。大型古籍數據庫建設涉及到許多新情況、新問題,如何處理國家和個人、局部與全局、保護與創新的關系,需要有關部門制訂相應政策,扶持和鼓勵這一產業的健康發展。我們正處于一個偉大的時代,需要產生偉大的作品,創造偉大的成果。

        主持人:這也就是說,比起技術手段來,現在更需要決策者的決心。這項工程單純依靠一個高校的一個學術機構確實是難以完成的,需要多學科多個相關單位的通力合作,古代文史研究界和計算機信息化處理相關領域的合作,以及國家政策的配套,科研基金項目的支持等等,這樣的一些條件如果都具備了,超大規模古籍數據庫的建設就能夠開展得比較順利。

        尹小林:的確,超大規模古籍數據庫建設是一個大型文化工程,非一己之力、一家之力、一時之力可以完成。像《中華大典》《清史》《儒藏》都動員了全國的專家學者,這個項目規模比《儒藏》《子藏》都要大得多,將來出來的成果也會大得多。


      (編輯:高晴)
      国产成人AV无码精品| 中文字幕精品无码久久久久久3D日动漫 | 国产福利电影一区二区三区久久老子无码午夜伦不 | 精品三级AV无码一区| 亚洲中文字幕在线观看| 亚洲日产无码中文字幕| 亚洲AV无码成人精品区大在线| 7国产欧美日韩综合天堂中文久久久久 | 无码中文字幕日韩专区视频| 国产精品中文久久久久久久| 中文字幕丰满乱子伦无码专区| 日韩美无码五月天| 中文精品无码中文字幕无码专区| 亚洲中文字幕无码不卡电影| 特级无码毛片免费视频尤物| 中文字幕乱码无码人妻系列蜜桃| 最近免费中文字幕中文高清| 日韩A无码AV一区二区三区| 中文字幕无码久久精品青草| 国产亚洲精品无码专区| 亚洲欧洲美洲无码精品VA| 中文在线资源天堂WWW| 无码H肉动漫在线观看| 最近2019年中文字幕6| 无码免费又爽又高潮喷水的视频 | 亚洲熟妇无码另类久久久| 日韩久久久久久中文人妻| 国产成A人亚洲精V品无码性色| 最近2019中文字幕免费大全5| 内射无码午夜多人| 无码一区二区三区| 日日日日做夜夜夜夜无码| 五月天中文字幕mv在线| 精品人体无码一区二区三区| 亚洲AV无码精品色午夜果冻不卡 | 日韩欧美成人免费中文字幕| 中文字幕无码不卡免费视频| 无码囯产精品一区二区免费| 亚洲性无码一区二区三区| 久久亚洲中文字幕精品一区| 中文字幕AV中文字无码亚|