近期,合合信息聯合上海大學、華南理工大學,發布業內首個古彝文基礎編碼數據庫,以智能圖像處理、智能文字識別等AI技術,開展統一編碼,古彝文在數字社會中有了“身份證號碼”。
以往,古文字主要通過人工識別、校正和進行文獻編撰,工作量繁多且效率低下。近年來,人工智能,特別是深度學習技術的發展,為古文字識別提供了高效的工具。據悉,古彝文數字化方面的成果相對較少,一方面,古彝文字符集龐大,且缺乏成熟的手寫樣本庫。另一方面,在彝文的發展過程中,由于種種因素,導致異體字、變體字豐富,字符和釋義“一對多、多對一”是常態。
基于上述情況,合合信息與華南理工大學共同成立的文檔圖像分析識別與理解聯合實驗室,聯合上海大學社會學院組建研究團隊,共同解決數據庫建設中的學術性、技術性難點。
在對7萬6千字符的樣本進行訓練后,團隊成功建立了包含上千個古彝文基礎編碼的數據庫。通過API數據接口等形式,該數據庫有望幫助高校研究人員、文化工作者、興趣愛好者等人群,快速找到古彝文在字典中的讀音、漢語釋義、用法,如同“大字典”一般,幫助人們降低古彝文書籍、文獻閱讀的門檻。
合合信息在智能文字識別領域已有17年深耕經驗。此前,在AI識別甲骨文、西周鐘鼎文(金文)領域,公司已進行了領先的探索和研究,為古彝文識別積累了經驗,奠定了良好的技術基礎。
以上就是合合信息及2所高校發布業內首個古彝文編碼數據庫的全部內容了,希望大家喜歡。