【840專論】談電腦缺字問題-3

缺字問題所引發的問題 缺字問題主要是因為電腦內碼對應文字的不完備所引發的瀏覽、輸入、傳播、查詢、描述、造字等問題。 本質問題:指目前內碼系統設計的限制。 同字不同碼問題:在不同電腦或同一台電腦都有可能發生同一個字放在不同的缺字碼中。 同碼不同字問題:在不同電腦間有可能發生同一個缺字碼放置不同的缺字。 缺字內碼有限問題:例如Unicode只提供E000-F8FF擴充區段。但對於CNS11643所規定的48,027個繁體字來說自然不夠使用。 瀏覽問題:指無法正確顯示文件中的缺字。 跨系統文件瀏覽問題:例如甲電腦中的文件含有缺字BIG5:FA40 「堃」,當我們將這份文件移至乙電腦中,則會因為乙電腦對於BIG5:FA40的解釋不同而有錯誤的顯示。 跨程式文件瀏覽問題:例如 「堃」對於BIG5內碼來說是一個缺字,在BIG5網頁中使用例外編碼「堃」來表示之,該網頁被觀看時能正常顯示「堃」,但是用本文編輯器來開啟時則會造成瀏覽問題。 輸入問題:無法自然使用輸入法輸入缺字。 輸入法相容問題:我們覺得解決缺字的輸入問題應該要讓使用者可以繼續使用其原本慣用的輸入法,而不須重新學一個輸入法。 缺字檢索問題:一般人對於缺字是相當陌生的,即使可以使用現有輸入法來定義其輸入碼,但因為缺字的少用性使得使用者很難根據外形來猜測其注音輸入碼、拼音輸入碼或倉頡輸入碼。 傳播問題:指無法自然地傳播系統內使用過的缺字或內含缺字的文件。 缺字傳播問題:缺字應該由專家認真的造一次,然後輕易地傳播給所有人使用。而傳播的動作應該讓使用者在不知不覺中完成。 文件傳播問題:網頁或是應用程式的文件規格實在太多。在給定一份文件,如何在傳播前在文件中內嵌缺字資訊或是指示缺字資訊所在地,進而在傳播後可以取得缺字資訊? 查詢問題:指無法以缺字碼當成關鍵字來對文件資料庫進行全文檢索。 跨系統文件全文檢索問題:對網路上文件來說,會因為各個電腦的缺字內碼不協調而造成同字不同碼或同碼不同字,進而影響文件的全文檢索。 系統內部文件全文檢索問題:對於內部文件來說,如果有同字不同碼或是同碼不同字問題則仍會發生查詢問題。 造字問題:大多發生在典藏過程。 重複造字問題:針對不同領域或不相干的環境,重複造字在所難免且問題不大,但是如果在一個典藏過程中重複訂定缺字則浪費缺字碼且造成查詢問題。 造字完整性問題:造字工作對於一般人來說,是一份繁瑣的工作。應該統一由為數不多的專家認真地處理,然後分享給其他人一起使用。 統一造字問題:為了在某計畫內執行統一造字,首先遇到的是哪些缺字要訂定,所以我們需要在典藏過程中需要一個紀錄或描述缺字的方法,所以引發了描述的問題。 描述問題:典藏過程中如何紀錄描述缺字。 缺字描述速度問題:在典藏過程中,我們不希望每遇到一個缺字就須造一個新字,或是需要去查詢是否已經造過,所以需要一個簡單描述缺字的方法。 缺字描述式重複問題:我們用來描述缺字的方法必須唯一或是可對應到唯一的缺字。

發表迴響