校園快訊

國發會推廣檔案研究應用獎勵 銘傳資工論文獲佳績

【本刊訊】國家發展委員會檔案管理局主辦的「2023檔案研究及文創徵選」11/4在松山文創園區創意空間舉行頒獎典禮,銘傳大學資訊工程學系碩士班葉玟廷(合照左4)以畢業論文《利用深度學習進行公文資料去識別化之研究》獲得檔案研究論文類佳作。

由資工系何祖鳳副教授指導,碩士生葉玟廷的論文《利用深度學習進行公文資料去識別化之研究》,根據我國《個人資料保護法》,不論是傳統的紙本公文或是現代的電子公文,提供民眾公開閱覽前,需要對文本內容的特定資訊進行去識別化處理,例如姓名、地址等,有鑑於去識別化作業大多仍需以人工方式進行,本研究提出利用深度學習技術進行公文資料去識別化的方法,以提升處理效率並降低人力負荷。

研究針對目前較受歡迎的兩種中文斷詞系統進行評估實驗,選擇對於判斷是否為姓名具較優異表現之Ckip中文斷詞系統,以獲得斷詞、詞性與命名實體辨識等相關資訊,並據此訓練多層感知器(Multilayer Perceptron)、卷積神經網路(Convolutional Neural Networks)、長短期記憶網路(Long Short-Term Memory)及變換神經網路(Transformer)等模型,以進行兩項深度學習之實驗。

針對國家發展委員會檔案管理局典藏之國家檔案,經本研究實驗類型一模型所生成之訓練資料集來訓練實驗類型二模型後,其辨識正確率可達92.92%。此外,本研究利用訓練後的深度學習模型,建置一套公文去識別化雛型系統,以驗證本研究所提方法之可行性。