中評社北京6月27日電/據人民日報報導,打開瀏覽器,登錄“智慧古籍平台”,可在線查閱4.4萬篇古籍,除了著述、篇目詳情等基本內容外,還有著者小傳、人物行跡、世系圖及社會網絡關係圖等延伸信息,全面立體地展現古籍內容,滿足讀者一站式查詢、閱讀與研究需求。
這是由浙江大學徐永明教授及其團隊打造的人機交互式智慧數據共享平台,將中國古典文獻和研究成果圖譜化、智能化,打造了集瀏覽、查詢、研究、欣賞於一體的古籍大數據平台,通過科技賦能,讓古籍知識變得“觸手可及”。
科技賦能,推動古籍資源“上線”
在浙江大學文學院,記者見到技術團隊負責人徐永明時,他正專心致志地坐在電腦前,忙著審核已完成校對的古籍篇目並準備上線發布……
“目前平台已上線著述總字數約700萬字。”說罷,徐永明招呼記者上手體驗。在“智慧古籍平台”,古籍內容按“著述導覽”“篇目導覽”“著者導覽”等板塊分類呈現,界面設計古典雅致、功能齊全,令人眼前一亮……
“平台引入知識圖譜理念,綜合運用大數據進行計量統計、定位查詢、聚類查詢等,讓讀者輕鬆便利地獲取古籍知識。”徐永明邊演示邊介紹,點擊“篇目導覽”按鈕,即可進入文本閱讀界面,“文本閱讀是本平台的特色功能,為提高文本的真實性和準確性,平台提供了古籍圖片與古籍數字化文本一一對應的功能。”
不僅如此,“智慧古籍平台”還有許多其他亮點:為降低閱讀時查閱相關資料的頻率,平台提供了關鍵字詞釋義功能,文本中重要信息及疑難詞按照人名、地名、職官、時間、典故等不同類型以不同顔色顯示,點擊即可查看釋義;借助地理信息系統軟件,結合在線地理信息系統,古籍中留存的地理信息實現了可視化,點擊著者詳情,即可查看所鏈接的人物行跡圖……
而提及地理信息可視化,不得不提徐永明團隊的另一個平台——“學術地圖發布平台”,其中匯集了李白、蘇軾等500多位中華歷史名人的行跡圖、《全元詩》作者分布圖等各類學術地圖……“其實這個平台比‘智慧古籍平台’還要早一些,是中國首個綜合性學術地圖平台。”他介紹,平台迄今已發布1600餘幅地圖,共有70餘個國家100萬讀者的訪問量。
綜合利用這兩個平台,徐永明團隊將文史數據與數字地圖相結合,極大地增強閱讀體驗,旨在豐富讀者對古籍知識的綜合認知。
為解決技術難題,文科背景出身的徐永明自學編程
在徐永明看來,完善豐富的前端體驗少不了強大的後台技術支持,“比如,要將古籍圖像中的文字轉換成文本格式,就需要OCR識別,即‘光學字符識別’技術,平台現用的OCR技術能較為精確地識別版刻古籍,準確率達到90%以上。”他向記者科普起來,再如,借助計算機學習技術,平台採用的“機器古籍標點技術”,可根據特定算法為古籍文本自動標注現代中文標點符號,準確率也穩定在90%以上。
“但正所謂‘隔行如隔山’,僅靠我一人無法建起這個平台,需要許多相關專業人員的支持。”他介紹,作為項目負責人,從2020年項目立項以來,他找來浙江大學計算機科學與技術學院、地球科學學院和校圖書館等相關學院和部門老師,組建起一支20餘人的技術團隊。
這期間,曾遇到不少難點,“比如,前期需要不斷跟第三方公司磨合,解決前、後台頁面設計、框架布局、功能模塊等問題;到了後期,我們更換了合作方,又得重新磨合,主要解決地域導覽、編輯器、職官圖譜、智能OCR服務引入等相關問題。”徐永明說。
緣何要研發這樣的古籍知識大數據平台?徐永明坦言,這跟自己早年的經歷有關。上世紀90年代末期,他曾在浙江圖書館古籍部工作過一段時間,目睹了讀者來看古籍善本有多不方便,比如只能抄錄,復制的話也要經過許可,且費用很貴。
在他讀博期間,國內還沒有出全文檢索的《四庫全書》電子產品。那時,他寫作博士論文材料,都是靠自己翻閱原書,一條一條抄錄。這些經歷讓徐永明深深地感到,紙質文獻難以保存傳播,古籍信息存在“孤島化”“碎片化”現象,“如今,數字技術發展日新月異,我們便琢磨著能否將大數據技術與古籍進行深度融合,為傳承中華優秀傳統文化探索新的可能。”
在“學術地圖發布平台”開發階段,面對界面不美觀,操作不方便,功能有限,經常出現程序故障等問題,文科背景出身的徐永明開始了他的自學Python(計算機編程語言)開發之路。在他的朋友圈,他時常發布學習編程的動態、用Python完成的各種小成果、自己編寫的代碼,等等。
面對海量數據,徐永明善於利用團隊的力量,“過去整理古籍,主要是個體作業,以書為單位,不能修改、不可關聯,效率不高。”他說,“現在,我們將古籍整理任務通過勤工儉學、暑期社會實踐等形式,遴選相關專業學生、專家,在線上線下一同參與,努力發揮集體的智慧。”
|