首頁 > 文章中心 > 正文

      生僻字信息處理

      前言:本站為你精心整理了生僻字信息處理范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。

      摘要:漢字生僻字的輸入,一直是困擾文史工作者的難題,本文試在前人的研究基礎(chǔ)上,提出一些關(guān)于漢字信息處理的設(shè)想和相關(guān)的解決方案。

      關(guān)鍵字:生僻字;字符集;信息處理

      漢字的信息處理經(jīng)過多年的摸索,沖破了以前漢字不能進(jìn)入計(jì)算機(jī)的迷信,取得了可喜的成績,但離能完全滿足實(shí)際使用的需要還有很長一段距離。

      我們先回顧一下計(jì)算機(jī)中的字庫,然后討論生僻字的信息處理方法。

      一、漢字庫發(fā)展簡介

      漢字庫通俗地說就是計(jì)算機(jī)軟件系統(tǒng)中的漢字倉庫,依據(jù)不同的標(biāo)準(zhǔn),字庫中漢字的數(shù)量是不同的,以前的主要標(biāo)準(zhǔn)有:

      1、GB2312漢字編碼字符集

      從1975年開始,我國為了研究漢字的使用頻度,進(jìn)行了大規(guī)模的字頻統(tǒng)計(jì)工作,內(nèi)容包括工業(yè)、農(nóng)業(yè)、軍事、科技、政治、經(jīng)濟(jì)、文學(xué)、藝術(shù)、教育、體育、醫(yī)藥衛(wèi)生、天文地理、自然、化學(xué)、文字改革、考古等多方面的出版物,在數(shù)以億計(jì)的浩瀚文獻(xiàn)資料中,統(tǒng)計(jì)出實(shí)際使用的不同的漢字?jǐn)?shù)為6335個(gè),而其中有3000多個(gè)漢字的累計(jì)使用頻度達(dá)到了99.9%,而另外的3000多個(gè)累計(jì)頻度不到0.1%,說明了常用漢字與次常用漢字的數(shù)量不足7000個(gè),這就為國家制定漢字庫標(biāo)準(zhǔn)提供了依據(jù)。1980年頒布了《信息交換用漢字編碼字符集—基本集》的國標(biāo)交換碼,國家標(biāo)準(zhǔn)號(hào)為:GB2312-80,選入了6763個(gè)漢字,分為兩級,一級字庫中有3755個(gè),是常用漢字,二級字庫中有3008個(gè),是次常用漢字;還選入了682個(gè)字符,包含有數(shù)字、一般符號(hào)、拉丁字母、日本假名、希臘字母、俄文字母、拼音符號(hào)、注音字母等。以前我國大陸的各種中文DOS版本、Windows3.1/3.2版本,裝入的字庫都是國標(biāo)一二級字庫。遇到“镕、啰、瞭、袆、祎、曌、赟、贇、鱻、驫、犇……”等漢字,既無法輸入,又不能打印。

      后來國家技術(shù)監(jiān)督局又頒布了一個(gè)與之相對應(yīng)的繁體字集,全稱《信息交換用漢字編碼字符集輔助集》,標(biāo)準(zhǔn)號(hào)為GB/T12345-90。

      2、臺(tái)灣BIG5字庫

      BIG-5碼是通行于臺(tái)灣、香港地區(qū)的一個(gè)繁體字編碼方案,俗稱“大五碼”。地區(qū)標(biāo)準(zhǔn)號(hào)為:CNS11643,這就是人們講的BIG5碼。

      BIG-5碼收錄漢字13053個(gè),分為常用字和次常用字兩部分,各部分中的漢字按筆劃/部首排列。其中常用字5401個(gè),包括臺(tái)灣教育管理部門頒布的《常用漢字標(biāo)準(zhǔn)字體表》中的全部漢字4808個(gè),臺(tái)灣中小學(xué)教科書常用字587個(gè),異體字6個(gè);次常用字7652個(gè),包括臺(tái)灣教育管理部門頒布的《次常用漢字標(biāo)準(zhǔn)字體表》的全部漢字6341個(gè),《罕用漢字標(biāo)準(zhǔn)字體表》中使用頻率較高的字1311個(gè)。

      后來為了協(xié)助解決眾多使用BIG5碼單位于進(jìn)行公文電子傳遞時(shí)遇到自造字無法轉(zhuǎn)換CNS的問題,實(shí)行了“BIG5碼字集擴(kuò)編計(jì)劃”,1986年7月擴(kuò)編完成,這就是所謂的“BIG5+碼”。

      BIG5+碼系以CNS為藍(lán)本,共增編標(biāo)準(zhǔn)字集4760個(gè)字符與推薦字集3250個(gè)字符;其標(biāo)準(zhǔn)字集即納編CNS第3字面字集內(nèi)之4145個(gè),第4個(gè)字面字集內(nèi)之219個(gè)字,均為一般文書常用之中文字,總支持文字量達(dá)141376個(gè)

      3、大字符集字庫(又叫GBK字庫)

      國際標(biāo)準(zhǔn)化組織為了將世界各民族的文字進(jìn)行統(tǒng)一編碼,制定了UCS標(biāo)準(zhǔn)。根據(jù)這一標(biāo)準(zhǔn),中、日、韓三國共同制定了《CJK統(tǒng)一漢字編碼字符集》,其國際標(biāo)準(zhǔn)號(hào)為:ISO/IEC10646,國家標(biāo)準(zhǔn)號(hào)為:GB13000-90,該漢字編碼字符集就是通常人們所說的大字符集,它編入了20902個(gè)漢字,收集了大陸一二級字庫中的簡體字,臺(tái)灣《通用漢字標(biāo)準(zhǔn)交換碼》中的繁體字,58個(gè)香港特別用字和92個(gè)延邊地區(qū)朝鮮族“吏讀”字,甚至涵蓋了日文與韓文中的通用漢字,滿足了方方面面的需要。Windows95/98/NT/2000中都裝入了大字符集漢字庫,人們一般稱它為GBK(“國家標(biāo)準(zhǔn)擴(kuò)展”的拼音縮寫)字庫。

      4、新標(biāo)準(zhǔn)漢字庫

      2000年3月,國家信息產(chǎn)業(yè)部和質(zhì)量技術(shù)監(jiān)督局在北京聯(lián)合了《信息技術(shù)和信息交換用漢字編碼字符集、基本集的擴(kuò)充》,國家標(biāo)準(zhǔn)號(hào)為:GB18030-2000,收錄了27000多個(gè)漢字,還收錄了藏、蒙、維等主要少數(shù)民族的文字,以期一舉解決郵政、戶政、金融、地理信息系統(tǒng)等生僻漢字與主要少數(shù)民族語言的輸入,該標(biāo)準(zhǔn)于2000年12月31日強(qiáng)制執(zhí)行。GB18030-2000作為GBKforUnicode3.0的更新而誕生,它帶有包含所有Unicode的擴(kuò)展,完全向下兼容GB2312-1980和GBK。

      二、對于漢字庫設(shè)計(jì)的想法

      字集不是越大越好,因?yàn)楝F(xiàn)存于大型字典辭書的字有一部分是歷史用字,還有大量的異體字。根據(jù)使用的需要和研究的情況,對漢字的信息處理可以分為幾個(gè)層次

      1、日常生活用字:(可有一個(gè)人名、地名輔助集和錯(cuò)字集)

      日常生活用字就是常用字,這個(gè)數(shù)字可能就在3000字左右,再加上一些次常用字,可能也就在6000字左右,當(dāng)然,其中哪些是常用字,哪些是次常用字,具體的字可能要隨著時(shí)代不同而發(fā)生變化。日常生活用字要求有規(guī)范性,現(xiàn)在進(jìn)行的“規(guī)范漢字表”課題研究可能有助于此字集的確定。

      人名和地名用字是一個(gè)比較特殊的問題,國家語言文字工作委員會(huì)正在進(jìn)行“人名、地名規(guī)范”的研究,如果此研究成果面世,則可能有助于解決現(xiàn)代人的人名、地名用字問題。

      此集中最好還應(yīng)該有一個(gè)錯(cuò)字集,在早期識(shí)字教育和對外漢語教學(xué)中,經(jīng)常要使用到一些錯(cuò)別字,別字好打,缺筆少劃的錯(cuò)字沒有辦法處理,所以應(yīng)特置一個(gè)錯(cuò)字集,有利于錯(cuò)別字教學(xué)的信息化與錯(cuò)別字的集中糾正。

      2、一般古籍整理用字:(應(yīng)該有一個(gè)異體字輔助集)

      古籍用字,數(shù)量比現(xiàn)代生活用字多。因?yàn)闅v代沉積下來的異體字、死字比較多。關(guān)于這個(gè)問題,首先應(yīng)該進(jìn)行異體字的整理,異體字整理完成后,正體字就可以確定一個(gè)數(shù)量。為了保持古籍版本原樣,古籍整理工作者和語言文字研究者也要用到異體字,所以附錄一個(gè)異體字集。

      還有一個(gè)問題就是方言字,很多方言字來源于古代的字典辭書、地方韻書和方言詞典,少部分來源于民間文藝作品。首先方言字有一個(gè)規(guī)范的問題,那些有本字又意義比較明確的,應(yīng)該首先選用本字。如本字不明,可沿用俗字。

      3、古文字用字:(也有一個(gè)異體字輔助集)

      關(guān)于古文字,一般定義為小篆以前的文字為古文字,其中有很多字還不可識(shí),這種情況,就首先要區(qū)分出可識(shí)字(與小篆或楷書有對應(yīng)字)與不可識(shí)字,然后進(jìn)行異體字的整理。并且要能為每個(gè)不可識(shí)字設(shè)計(jì)可以調(diào)用的編碼,以利于檢索。

      漢字庫的設(shè)計(jì),針對不同的用戶與使用目的,分級分層次是很必要的。各級之中首先要全,同時(shí)要考慮各級之間正體字與異體字、繁體與簡體、古文字與今字的正確對應(yīng)等。

      此外,各種常用圖符也可考慮收錄到各級字庫中,如傳世古籍中出現(xiàn)的圈點(diǎn)符號(hào)、古文字中的有句讀作用的符號(hào)。少數(shù)民族和外域的漢字型變體字,也可考慮單置一類,以有利于文字的比較研究。三、解決方案

      以下所使用的操作系統(tǒng),沒有特別指出的為Windows98,字處理軟件則為Word2000。其它則專門指出。

      (一)利用GBK漢字集解決生僻字的輸入方法。

      微軟從Windows95(簡體中文版)視窗操作系統(tǒng)起,都采用了GBK字庫,該字庫收字20902個(gè),基本能滿足日常生活用字(生僻人名、地名字除外)。要利用該字庫,通??刹捎孟铝袔追N方法。

      1.改用GBK輸入法

      Windows95版本及以后版本提供了GBK內(nèi)碼、GBK全拼、GBK雙拼、GBK表形碼和GBK鄭碼5種GBK輸入法。但這些輸入法不是安裝的默認(rèn)選項(xiàng),需要從“控置面板”中打開“輸入法”對話框來添加。Windows98默認(rèn)安裝全拼輸入法則可以選擇輸入一般漢字和GBK漢字(使用該輸入法的屬性設(shè)置)。其它同樣需要安裝。

      這些GBK輸入法中只有全拼比較常用,而且,這些輸入法所輸入的漢字,包括了GBK繁體和GBK簡體,數(shù)量非常大,所以造成兩方面的不便:一是重碼率高,選字非常麻煩;二是繁體簡體同時(shí)出現(xiàn),有些字不容易分辨繁簡,同時(shí)如果不知道字的讀音,也很難選擇拼音輸入法。

      現(xiàn)在已有軟件研制商研制出能輸入GBK字庫的五筆字形輸入法,如智能陳橋,對于熟悉五筆輸入法者,比較便利。

      2、用Word插入符號(hào)的方法

      選“插入”菜單中的“符號(hào)”命令,在“字體”下拉列表中選“標(biāo)準(zhǔn)字體”(Word97是“宋體”),在“子集”中選“CJK統(tǒng)一漢字”(Word97是“部首及難檢字”)。一般可在列表中找到所需的漢字。雖然該字庫大致是按部首和筆畫進(jìn)行編排的,但查找起來還是相當(dāng)麻煩。以前有萬學(xué)仁先生編有《通用字符集部首表及區(qū)位碼(16進(jìn)制)》[1],有利于查找,如果沒有該部首表,還有一種方法可以采用,先輸入一個(gè)與所要輸入的生僻字相同偏旁的漢字,并選中該漢字,然后用鼠標(biāo)單擊“插入”菜單中的“符號(hào)”項(xiàng),此時(shí)會(huì)彈出“符號(hào)”對話框,再用左右方向箭進(jìn)行逐個(gè)查找和挑選,就會(huì)很快找到該生僻字的。如果是一個(gè)獨(dú)體字,則可以輸入一個(gè)筆畫相同的的獨(dú)體字(也不作偏旁)。很快會(huì)在其附近找到該字。

      (二)GBK字集以外生僻字的輸入

      1、使用Windows自帶的“造字程序”

      該程序操作簡單,使用方便,既可以用兩個(gè)字重新拆分組合成一個(gè)新字;也可以選一個(gè)相近的字加以修改而造一個(gè)新字;還可以直接在編輯框中畫出您所需要的字,比較便利的是前兩種方法,其步驟如下。

      (l)取兩個(gè)字中有用的部分,重新組合成一個(gè)新字。以“腘”字為例(為便于排版,沒有選用GBK以外的字作為例字,下同),單擊“開始”按鈕,選“程序”、“附件”、“造字程序”,出現(xiàn)“造字程序”窗口。在彈出的“選定代碼”窗口中確定所造的字的代碼位置,比如AAA1后按“確定”按鈕(如沒有出現(xiàn),則選“編輯”中的“選定代碼”命令),此時(shí)在“造字”窗中出現(xiàn)“編輯”工作區(qū)。再選“編輯”菜單中的“調(diào)用”命令(在Windows2000、XP中則為“復(fù)制字符”命令),單擊“字體”按鈕,選擇字體后,在“形狀”框中輸入?yún)⒖甲帧芭D”,按“確定”按鈕。在“編輯”框中出現(xiàn)“臘”字。再選“窗口”中的“引用”命令(在Windows2000、XP中則為“參照”命令),一樣選定字體,輸入?yún)⒖甲帧皳潯保凇霸熳帧贝爸谐霈F(xiàn)帶有“摑”字的引用框。用“造字”窗左邊的圈選工具圈選“編輯”框中的“昔”,按Del鍵。圈選“引用(參照)”框中的“國”,將它拖到編輯框中合適的位置,然后關(guān)閉“引用”框。再選“編輯”菜單中的“保存字符”命令,在對話框中按“確定”按鈕。

      此時(shí)該字已經(jīng)建立,如文章中需要用到“腘”字只要將輸入法切換至區(qū)位輸入法,鍵入AAA1,即可出現(xiàn)“腘”字。

      如果要在以后能以平時(shí)的輸入方法輸入該字,那還要補(bǔ)上下一步操作;選“編輯”中的“輸入法鏈接”命令,如為第一次輸入,將彈出搜索對話框,在文件名輸人框中以英數(shù)方式輸入你常用的輸入法,單擊“打開”按鈕,彈出是否要?jiǎng)?chuàng)建該文件的詢問,單擊“是”。如有多種輸入方法,則依次鍵入不同的輸入法文件名,完成后彈出輸入外碼對話框,輸入該字的外碼(如鏈接了多種輸入法,則有不同輸入法的外碼)。按“注冊”按鈕。但要注意輸入的外碼必須符合該輸入法的規(guī)定,計(jì)算機(jī)不承認(rèn)你自行定義的外碼。

      (2)用相近的字修改。以“臿”字為例:前邊的步驟與前例相同,只是將參考字改為“插”。用上述的方法刪除“插”字的提手旁后圈選“編輯”框中的“臿”,將它向左拖至框的中間,通過調(diào)整八個(gè)控制點(diǎn)來改變形狀大小至滿意。以后的操作與上例相同。

      該法的優(yōu)點(diǎn)是:不管是否知道該字的讀音,總能通過拆分組合的方法造出來。并且,當(dāng)正確輸入外碼注冊后,平時(shí)還能以習(xí)慣的輸入方法輸入該字。缺點(diǎn)在于如果需要將使用了該造字文件的文檔拷貝到其它計(jì)算機(jī)中,還需要拷貝造字文件。

      (3)對于某些類似于圖形的字,可以選用各種工具畫出需要的字形。

      2、用Word組字

      Word2000的“格式”菜單中有“中文版式/雙行合一”功能,工具欄上有“字符縮放”按鈕,利用它們您可組合一些冷僻字。較之用其他方法要簡便得多,操作方法如下:

      (l)對于左右型字體,以“嬿”字為例:輸入“女”字后緊接著輸入“燕”字;選中“女”字,單擊“字符縮放”按鈕,選擇合適的比例(該字可選50%);選中“燕”字,單擊“字符縮放”按鈕,選擇合適的比例(該字可選80%);同時(shí)選中“女”與“燕”,選“格式/字體”命令,單擊“字符間距”標(biāo)簽,在“間距”框中選“緊縮”,再單擊“確定”按鈕即可。

      (2)對于上下型字體(以“斊”字為例):鍵入“文耳”兩字,然后選中它,在“格式”工具欄上的“字號(hào)”框內(nèi)選擇合適的字號(hào)(通常輸入“四號(hào)”字時(shí)可選“小五”號(hào),輸入“五號(hào)”字時(shí)可選“小六”號(hào)。但有時(shí)差距可能還要大一些);單擊“字符縮放”按鈕,選擇合適的比例(該字可選200%);選“格式/中文版式/雙行合一”命令,按“確定”按鈕。

      采用上法輸入冷僻字要使字型漂亮,對于左右型字關(guān)鍵在于輸入合適的比例;上下型字則在于合適的比例及“大小”框中的數(shù)值,當(dāng)然字號(hào)的大小也是十分重要。但此法對于結(jié)構(gòu)復(fù)雜如包圍型、半包圍型、聲(形)占一角型等的字則不適用。采用該法組成的字,還可以作為字符串檢索。

      3、如果要經(jīng)常運(yùn)用到大量生僻字形,則可以選用已有的自造字字庫進(jìn)行插入。

      現(xiàn)在已經(jīng)有大型的自造字字庫出現(xiàn),如由日本《今昔文字鏡》研究所制作的《今昔文字鏡》,包括24個(gè)TTF格式的矢量字庫,共包括九萬個(gè)漢字。其中收錄日本《ISO10646字符集》漢字兩萬個(gè),《大漢和字典》漢字五萬個(gè),其他四萬個(gè)漢字包括:甲骨文、梵文、大陸、臺(tái)、港漢字、水文、越南字喃、漢字偏旁和造字部件、日文假名、俄文、拉丁文等各種常用字母和符號(hào)。適用于WINDOWS95/98/NT為操作系統(tǒng)的各種文字處理應(yīng)用軟件。還提供了一個(gè)簡單易用的檢索應(yīng)用軟件。

      還有如北師大漢字與中文信息處理研究所研制的《說文小篆輸入法》,能夠輸入所有小篆字形和《說文》所收古文、籀文等字形。

      其它還有一些古籍?dāng)?shù)字化機(jī)構(gòu)與研究人員也造了各種各樣的字庫,只需要安裝到字體中,就可以顯示打印他們所造的字。此種字庫,如能有統(tǒng)一的規(guī)范與標(biāo)準(zhǔn)就比較好交流使用。并且最好能有一個(gè)檢索和輸入字符的相應(yīng)軟件才可資重復(fù)利用。

      4、用字體制作軟件制作自己的字庫。現(xiàn)在已經(jīng)有比較好用的字體制作軟件,如FontCreatorProgram,如果能熟練使用,則可以自己量身定做自己的字體,優(yōu)點(diǎn)在于可以隨時(shí)補(bǔ)充修改。缺點(diǎn)在于自造字庫千差萬別,通用性差。

      參考文獻(xiàn):

      [1]萬學(xué)仁.談?wù)劮浅S米值男畔⑻幚韀J].內(nèi)江師范學(xué)院學(xué)報(bào),2001,(3).

      文檔上傳者
      亚洲精品国产精品国自产观看| 亚洲日产2021三区在线| 久久久无码精品亚洲日韩蜜臀浪潮| 亚洲综合区小说区激情区| 亚洲AV中文无码乱人伦在线视色| 亚洲精品无码专区在线| 亚洲欧美精品午睡沙发| 亚洲高清一区二区三区电影| 亚洲日韩AV一区二区三区四区| 亚洲成A人片在线播放器| 色婷五月综激情亚洲综合| 亚洲国产激情在线一区| 亚洲 日韩 色 图网站| 亚洲中文字幕无码爆乳app| 亚洲色无码国产精品网站可下载| 亚洲砖码砖专无区2023| 亚洲熟妇AV一区二区三区浪潮| 一本色道久久88亚洲精品综合| 亚洲久热无码av中文字幕| 亚洲精品国产首次亮相| 国产精品亚洲lv粉色| 亚洲成?v人片天堂网无码| 亚洲国产精品成人久久蜜臀| 亚洲欧洲一区二区三区| 亚洲中文字幕无码一区| 亚洲Av熟妇高潮30p| 久久青青草原亚洲av无码app | 亚洲男人的天堂一区二区| 亚洲精品国产综合久久一线| 亚洲一级片免费看| 亚洲人成伊人成综合网久久久| 亚洲精品成人网站在线观看| 好看的亚洲黄色经典| 亚洲日本一区二区| 亚洲永久中文字幕在线| 亚洲AV成人影视在线观看| 国产成人亚洲综合无| 亚洲综合伊人久久大杳蕉| 亚洲AV无码一区二区三区DV| 亚洲视频在线免费播放| 亚洲高清一区二区三区|