前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇自然語(yǔ)言處理范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。
Abstract: This paper analyzes the role and status of morphological analysis in natural language processing from the view of the features and difficulties. Then, the author lists some typical automated segmentation algorithm in Chinese lexical analysis.
關(guān)鍵詞: 自然語(yǔ)言理解;詞法分析;自動(dòng)分詞算法
Key words: natural language understanding;morphological analysis;automatic segmentation algorithm
中圖分類(lèi)號(hào):TP27 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2010)10-0157-01
0引言
自然語(yǔ)言理解是語(yǔ)言信息處理技術(shù)的重要研究方向之一,一直以來(lái)都是人工智能領(lǐng)域中的核心研究課題。計(jì)算機(jī)的出現(xiàn)使得自然語(yǔ)言研究成為可能。語(yǔ)言是以詞為基本單位的,詞匯在語(yǔ)法的支配下構(gòu)成有意義的和可理解的句子則進(jìn)一步地按一定的形式再構(gòu)成篇章。詞法分析是理解單詞的基礎(chǔ),因而也是自然語(yǔ)言理解和處理的基礎(chǔ),其主要目的是從句子中切分出單詞,找出詞匯中的詞素,從中獲得單詞的語(yǔ)言學(xué)信息并由此確定單詞的詞義。
1自然語(yǔ)言理解的難點(diǎn)及處理層次
自然語(yǔ)言也就是人類(lèi)本身所使用的語(yǔ)言。廣義上講,自然語(yǔ)言理解是指機(jī)器能夠執(zhí)行人類(lèi)所期望的某些語(yǔ)言功能,如回答問(wèn)題、文摘生成、釋義、翻譯等。由于自然語(yǔ)言的多義性、上下文有關(guān)性、模糊性、非系統(tǒng)性和環(huán)境密切相關(guān)性、涉及的知識(shí)面廣等眾多因素,使得對(duì)自然語(yǔ)言的理解成為非常困難的研究課題[1]。語(yǔ)言雖然被表示成一連串的文字符號(hào)或者是一串聲音流,但實(shí)質(zhì)上,語(yǔ)言的內(nèi)部是一個(gè)層次化的結(jié)構(gòu)。因此,自然語(yǔ)言的分析理解和處理過(guò)程也應(yīng)當(dāng)是一個(gè)層次化的過(guò)程。許多現(xiàn)代語(yǔ)言學(xué)家將自然語(yǔ)言理解的過(guò)程劃分為語(yǔ)音分析、詞法分析、句法分析、語(yǔ)義分析和語(yǔ)用分析五個(gè)層次。
2詞法分析的在自然語(yǔ)言理解中的地位和作用
2.1 詞法分析的特點(diǎn)和任務(wù)詞法分析是理解自然語(yǔ)言中最小的語(yǔ)法單位――單詞的基礎(chǔ)。語(yǔ)言是以詞為基本單位的,而詞又是由詞素構(gòu)成的,即詞素是構(gòu)成詞的最小的有意義的單位。詞法分析包括兩方面的任務(wù)[2]:第一:要能正確地把一串連續(xù)的字符切分成一個(gè)一個(gè)的詞;第二:要能正確地判斷每個(gè)詞的詞性,以便于后續(xù)的句法分析的實(shí)現(xiàn)。以上兩個(gè)方面的處理的正確性和準(zhǔn)確度將對(duì)后續(xù)的句法分析產(chǎn)生決定性的影響,并最終決定語(yǔ)言理解的正確與否。
2.2 不同自然語(yǔ)言中詞法分析的特點(diǎn)和難點(diǎn)不同的語(yǔ)言對(duì)詞法分析有不同的要求。例如,英語(yǔ)和漢語(yǔ)在詞法分析處理方面就存在著很大的差異。英語(yǔ)語(yǔ)言中,由于單詞之間是以空格自然分開(kāi)的,而漢語(yǔ)則不具備英語(yǔ)以空格劃分單詞的特點(diǎn),其單詞的切分是非常困難的,不僅需要構(gòu)詞的知識(shí),還需要解決可能遇到的切分歧義。對(duì)于詞性分析和判斷,由于英語(yǔ)單詞有詞性、數(shù)、時(shí)態(tài)、派生、變形等繁雜的變化,再加上英語(yǔ)的單詞往往有多種解釋,詞義的判斷非常困難,僅僅依靠查詞典常常是無(wú)法實(shí)現(xiàn)的。而漢語(yǔ)中的每個(gè)字就是一個(gè)詞素,所以找出詞素是相當(dāng)容易的。可見(jiàn),在自然語(yǔ)言理解的詞法分析處理中,漢語(yǔ)、日語(yǔ)、韓語(yǔ)等語(yǔ)言的詞法分析的難點(diǎn)在于分詞切詞,而英語(yǔ)、法語(yǔ)等語(yǔ)言的難點(diǎn)則是詞素區(qū)分。漢語(yǔ)自動(dòng)分詞是漢語(yǔ)語(yǔ)言處理和理解中的關(guān)鍵技術(shù),也是中文信息處理發(fā)展的瓶頸,其困難主要在“詞”的概念缺乏清晰的界定、未登錄詞的識(shí)別、歧義切分字段的處理三個(gè)方面。
2.3 典型的中文自動(dòng)分詞算法漢語(yǔ)連續(xù)書(shū)寫(xiě)導(dǎo)致了漢語(yǔ)自動(dòng)分詞中的歧義問(wèn)題將始終存在。在漢語(yǔ)自動(dòng)分詞算法的研究中,歧義字段的處理是各種算法研究的重點(diǎn)。至今專(zhuān)家學(xué)者們研究出了一系列的自動(dòng)分詞算法,如:最大匹配法(Maximum Matching Method:簡(jiǎn)稱(chēng)MM)[3]、基于標(biāo)記法[4]、約束矩陣法[5]、句模切分法[6]、基于統(tǒng)計(jì)語(yǔ)言模型(Statistical Language Models:簡(jiǎn)稱(chēng)SLM)的中文自動(dòng)分詞算法[7]、神經(jīng)網(wǎng)絡(luò)分詞算法、專(zhuān)家系統(tǒng)分詞算法、基于詞典的中文分詞算法等。MM法是最早出現(xiàn)的自動(dòng)分詞算法,是一種機(jī)械分詞方法。該算法首先建立詞庫(kù),將所有可能出現(xiàn)的詞都事先存放在詞庫(kù)中,對(duì)于給定的待分詞漢字串,采用某種策略進(jìn)行匹配分詞。策略有兩種:一是最大匹配法,每次匹配時(shí)優(yōu)先考慮長(zhǎng)詞;另一種則是最小匹配法,每次匹配時(shí)優(yōu)先考慮短詞。在機(jī)械分詞的基礎(chǔ)上,利用各種語(yǔ)言信息(如規(guī)則、語(yǔ)法、語(yǔ)義、標(biāo)點(diǎn)、數(shù)字等)進(jìn)行歧義校正,從而提高其分詞的正確性。上文中提到的基于標(biāo)記法、約束矩陣法、句模切分法等就屬于機(jī)械匹配與切分歧義處理方法相結(jié)合的算法。基于SLM的中文自動(dòng)分詞方法又稱(chēng)為無(wú)詞表分詞算法。所謂無(wú)詞表是指分詞匹配的詞表并不是事先建立的,而是利用機(jī)器學(xué)習(xí)手段從生語(yǔ)料庫(kù)中直接獲取分詞所需要的某些適用知識(shí)作為分詞依據(jù)的重要補(bǔ)充手段。該算法的核心思想是:詞是穩(wěn)定的漢字的組合,上下文中漢字與漢字相鄰出現(xiàn)的概率能夠較好地反映成詞的可信度,因此,將相鄰共現(xiàn)的漢字組合的頻率進(jìn)行統(tǒng)計(jì)并將其統(tǒng)計(jì)信息作為分詞的依據(jù)。神經(jīng)網(wǎng)絡(luò)分詞算法和專(zhuān)家系統(tǒng)分詞算法都屬于基于人工智能技術(shù)的自動(dòng)分詞方法。該類(lèi)方法應(yīng)用人工智能中的神經(jīng)網(wǎng)絡(luò)和專(zhuān)家系統(tǒng)來(lái)進(jìn)行中文自動(dòng)分詞。周程遠(yuǎn)等人提出的基于詞典的中文分詞算法是在機(jī)械分詞算法基礎(chǔ)上的改進(jìn)。他們綜合TRIE樹(shù)和逐字二分分詞的特點(diǎn)提出分層逐字二分算法,以較小的開(kāi)銷(xiāo)來(lái)實(shí)現(xiàn)較快的匹配速度,從而提高自動(dòng)分詞的綜合性能,其本質(zhì)還是機(jī)械分詞。
3總結(jié)
詞法分析是自然語(yǔ)言理解的基礎(chǔ)。本文在介紹自然語(yǔ)言理解處理層次的基礎(chǔ)上,討論了詞法分析的重要性和難點(diǎn),特別是漢語(yǔ)的詞法分析中切詞的難度,并列舉了一些著名的自動(dòng)分詞算法。
參考文獻(xiàn):
[1]王文杰,史忠植.人工智能原理輔導(dǎo)與練習(xí)[M].北京:清華大學(xué)出版社,2007,12:250.
[2]田霓光.自然語(yǔ)言的詞法分析[J].咸寧學(xué)院學(xué)報(bào),2008,(06):70-73.
[3]劉遷,賈惠波.中文信息處理中自動(dòng)分詞技術(shù)的研究與展望[J].計(jì)算機(jī)工程與應(yīng)用,2006,(03):175-177+182.
[4]亢臨生,張永奎.基于標(biāo)記的分詞算法[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),1995,17(3).
[5]雷西川,余靖維,盧曉鈴.基于相鄰知識(shí)的漢語(yǔ)自動(dòng)分詞系統(tǒng)研究[J].情報(bào)科學(xué),1994,(2).
關(guān)鍵詞:自然語(yǔ)言處理 語(yǔ)言翻譯 人工智能
一、引言
近年來(lái)隨著計(jì)算機(jī)技術(shù)和人工智能的快速發(fā)展,自然語(yǔ)言信息處理技術(shù)已取得了長(zhǎng)足的發(fā)展。于此同時(shí)人們?cè)诳焖傩畔z索、語(yǔ)言翻譯、語(yǔ)音控制等方面的需求越來(lái)越迫切。如何將自然語(yǔ)言處理中取得的研究成果應(yīng)用于文本、語(yǔ)音等方面已成為目前應(yīng)用研究的一個(gè)關(guān)鍵。論文將從自然語(yǔ)言信息處理的基礎(chǔ)出發(fā),系統(tǒng)的論述它在語(yǔ)音和文本方面的廣泛應(yīng)用。
二、自然語(yǔ)言信息處理技術(shù)簡(jiǎn)介
自然語(yǔ)言信息處理技術(shù)產(chǎn)生于上個(gè)世紀(jì)40年代末期,它是通過(guò)采用計(jì)算機(jī)技術(shù)來(lái)對(duì)自然語(yǔ)言進(jìn)行加工處理的一項(xiàng)技術(shù)。該技術(shù)主要是為了方便人與計(jì)算機(jī)之間的交流而產(chǎn)生的。由于計(jì)算機(jī)嚴(yán)密規(guī)范的邏輯特性與自然語(yǔ)言的靈活多變使得自然語(yǔ)言處理技術(shù)較復(fù)雜。通過(guò)多年的發(fā)展,該項(xiàng)技術(shù)已取得了巨大的進(jìn)步。其處理過(guò)程可歸納為:語(yǔ)言形式化描述、處理算法設(shè)計(jì)、處理算法實(shí)現(xiàn)和評(píng)估。其中,語(yǔ)言形式化描述就是通過(guò)對(duì)自然語(yǔ)言自身規(guī)律進(jìn)行研究,進(jìn)而采用數(shù)學(xué)的方法將其描述出來(lái),以便于計(jì)算機(jī)處理,也可認(rèn)為是對(duì)自然語(yǔ)言進(jìn)行數(shù)學(xué)建模。處理的算法設(shè)計(jì)就是將數(shù)學(xué)形式化描述的語(yǔ)言變換為計(jì)算機(jī)可操作、控制的對(duì)象。處理算法實(shí)現(xiàn)和評(píng)估就是通過(guò)程序設(shè)計(jì)語(yǔ)言(如C語(yǔ)言)將算法實(shí)現(xiàn)出來(lái),并對(duì)其性能和功能進(jìn)行評(píng)估。它主要涉及到計(jì)算機(jī)技術(shù)、數(shù)學(xué)(主要是建模)、統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)等多個(gè)方面。
三、智能應(yīng)用
通過(guò)多年的研究,自然語(yǔ)言信息處理技術(shù)已經(jīng)取得了巨大的進(jìn)步,特別是在應(yīng)用方面。它主要被應(yīng)用于文本和語(yǔ)音兩個(gè)方面。
(一)自然語(yǔ)言信息處理在文本方面的智能應(yīng)用
在文本方面,自然語(yǔ)言處理技術(shù)主要應(yīng)用在語(yǔ)言翻譯、字符識(shí)別、文本信息過(guò)濾、信息檢索與重組等方面。其中,語(yǔ)言自動(dòng)翻譯是一個(gè)十分重要并具有極大現(xiàn)實(shí)意義的項(xiàng)目。它涉及到計(jì)算機(jī)技術(shù)、數(shù)學(xué)建模技術(shù)、心理學(xué)以及語(yǔ)言學(xué)等多個(gè)方面的學(xué)科。通過(guò)近些年的努力已得到了一定的發(fā)展。自然語(yǔ)言處理技術(shù)已在多個(gè)方面提升了翻譯的效率和準(zhǔn)確性。如自然語(yǔ)言處理中的語(yǔ)言形態(tài)分析與歧義分析對(duì)翻譯技術(shù)來(lái)說(shuō)十分重要,可以很好的處理翻譯中的多意現(xiàn)象和歧義問(wèn)題,從而提高翻譯的準(zhǔn)確性。字符識(shí)別具有廣泛的商業(yè)應(yīng)用前景,它是模式識(shí)別的一個(gè)分支。字符識(shí)別的主要過(guò)程可分為預(yù)處理、識(shí)別以及后期處理。目前,字符識(shí)別已得到了廣泛的應(yīng)用,并且效果良好,但還存在識(shí)別不準(zhǔn)確的問(wèn)題,其主要問(wèn)題就出在合理性上,其中后期處理就涉及到采用詞義或語(yǔ)料庫(kù)等對(duì)識(shí)別結(jié)果進(jìn)行合理性驗(yàn)證,通過(guò)該技術(shù)就能很好的解決識(shí)別不準(zhǔn)確的問(wèn)題,當(dāng)出現(xiàn)識(shí)別不準(zhǔn)確、出現(xiàn)多個(gè)識(shí)別結(jié)果時(shí)可以通過(guò)合理性驗(yàn)證技術(shù)高效的過(guò)濾掉異常選項(xiàng),從而實(shí)現(xiàn)快速、準(zhǔn)確的識(shí)別。目前自然語(yǔ)言信息處理技術(shù)在文本方面應(yīng)用最廣的就是文本檢索。通過(guò)采用自然語(yǔ)言信息處理技術(shù),一方面能快速分析用戶輸入信息并進(jìn)行準(zhǔn)確理解為檢索提供更加準(zhǔn)確的關(guān)鍵詞,并且可以擴(kuò)展檢索輸入的范圍,讓其不僅僅局限在文本輸入方面,如采用語(yǔ)音輸入或基于圖像的輸入;另一方面,通過(guò)采用自然語(yǔ)言信息處理技術(shù)可以對(duì)搜索到的信息進(jìn)行處理讓用戶獲取的是更加有效、準(zhǔn)確的信息而不是海量的信息源(如許多網(wǎng)頁(yè))。因?yàn)閷⒆匀徽Z(yǔ)言處理技術(shù)與文本重組技術(shù)相結(jié)合就可以極大的提高檢索的效果,縮小答案的范圍,提高準(zhǔn)確性。當(dāng)然,還可以提高檢索的效率。目前,在中文全文檢索中已得到了廣泛的應(yīng)用,并且效果良好。
如果能進(jìn)一步的研究自然語(yǔ)言信息處理技術(shù),將能實(shí)現(xiàn)信息的自動(dòng)獲取與重組,這樣將能實(shí)現(xiàn)自動(dòng)摘要生成、智能文本生成、文件自動(dòng)分類(lèi)與自動(dòng)整理。若能進(jìn)一步結(jié)合人工智能技術(shù),將能實(shí)現(xiàn)文學(xué)規(guī)律探索、自動(dòng)程序設(shè)計(jì)、智能決策等諸多方面的應(yīng)用。這樣可以減輕人類(lèi)的工作強(qiáng)度,讓我們從繁瑣的基礎(chǔ)工作中走出來(lái),擁有更多思考的時(shí)間,從而能更加有效的推動(dòng)技術(shù)的進(jìn)步。
關(guān)鍵詞:3S技術(shù) 水污染 自動(dòng)監(jiān)測(cè) 應(yīng)急處理
1引言
近年來(lái),隨著各種傳感器的上天,許多國(guó)家十分重視水體的衛(wèi)星遙感監(jiān)測(cè)技術(shù)研究。采用計(jì)算機(jī)技術(shù)、通信網(wǎng)絡(luò)技術(shù)、微電子技術(shù)、計(jì)算機(jī)輔助設(shè)計(jì)技術(shù)和3S(GIS、GPS、RS)等一系列高新技術(shù)對(duì)水環(huán)境綜合管理的技術(shù)手段,建立水環(huán)境和部分重點(diǎn)污染源的在線監(jiān)測(cè)系統(tǒng),結(jié)合環(huán)境保護(hù)管理信息系統(tǒng),并運(yùn)用污染源解析的科學(xué)成果,對(duì)水環(huán)境和污染源實(shí)施有效監(jiān)控。荷蘭采用TM衛(wèi)星數(shù)據(jù)、SPOT衛(wèi)星數(shù)據(jù)以及多種水體監(jiān)測(cè)數(shù)據(jù)、機(jī)載多光譜掃描數(shù)據(jù),對(duì)水質(zhì)進(jìn)行了綜合遙感研究;以色列通過(guò)分析100多個(gè)水體污染的SPOT衛(wèi)星數(shù)據(jù),實(shí)現(xiàn)了對(duì)水體污染的識(shí)別。
本項(xiàng)目采用3S信息技術(shù)手段,建立以遠(yuǎn)程控制及自動(dòng)化技術(shù)為依托對(duì)水流域內(nèi)的重點(diǎn)污染源進(jìn)行自動(dòng)監(jiān)控系統(tǒng),對(duì)水污染事故問(wèn)題進(jìn)行模擬預(yù)測(cè)分析;可以定性和定量分析在水源區(qū)域內(nèi)工業(yè)開(kāi)發(fā)對(duì)區(qū)域環(huán)境,尤其是對(duì)區(qū)域內(nèi)的飲用水源地敏感目標(biāo)的環(huán)境影響和潛在風(fēng)險(xiǎn),并識(shí)別出區(qū)域環(huán)境風(fēng)險(xiǎn)的主導(dǎo)因子。同時(shí)采用環(huán)境監(jiān)測(cè)、環(huán)境預(yù)測(cè)、計(jì)算機(jī)軟件集成和遠(yuǎn)程通訊等技術(shù)研究開(kāi)發(fā)環(huán)境風(fēng)險(xiǎn)監(jiān)控預(yù)警體系,建立可視化管理信息系統(tǒng)。通過(guò)3S技術(shù)可以實(shí)現(xiàn)對(duì)水污染的全方位監(jiān)測(cè)。
2污染水體遙感監(jiān)測(cè)研究
2.1采用的研究方法
2.1.1對(duì)比分析法
收集長(zhǎng)江、遼河、鴨綠江、大連沿海諸河四個(gè)流域典型示范區(qū)域,已有各類(lèi)衛(wèi)星遙感及相關(guān)資料,進(jìn)行綜合分析研究,確立環(huán)境與水污染遙感解譯標(biāo)志,與已有遙感資料進(jìn)行對(duì)比、分析,推斷國(guó)產(chǎn)衛(wèi)星的解譯力、可行程度及精度,與其它衛(wèi)星數(shù)據(jù)圖像進(jìn)行對(duì)比,分析國(guó)產(chǎn)衛(wèi)星的優(yōu)勢(shì)及差距。
2.1.2同步或準(zhǔn)同步監(jiān)測(cè)
為實(shí)現(xiàn)天地一體化動(dòng)態(tài)模擬試驗(yàn),必須開(kāi)展星地同步或準(zhǔn)同步監(jiān)測(cè)。在統(tǒng)一監(jiān)測(cè)規(guī)范和分析方法基礎(chǔ)上,對(duì)各模擬試驗(yàn)進(jìn)行星、地高光譜特性測(cè)量和分析實(shí)驗(yàn)同步或準(zhǔn)同步監(jiān)測(cè),并求得規(guī)律特性,找出相關(guān)關(guān)系,確定適用范圍。
2.1.3天地一體化模擬試驗(yàn)
衛(wèi)星有效載荷天地一體化模擬試驗(yàn)是本項(xiàng)目的重要步驟。要確定CCD相機(jī)的不同監(jiān)測(cè)對(duì)像輻射能量范圍、動(dòng)態(tài)范圍;提出紅外多光譜不同分辨率對(duì)地面的響應(yīng)系數(shù)、最佳響應(yīng)波段或組合波段,確定監(jiān)測(cè)方法。
2.2采用的技術(shù)路線
3.構(gòu)建基于GIS/GPS/RS技術(shù)的江河流域水污染事故應(yīng)急處理決策支持系統(tǒng)
3.1系統(tǒng)構(gòu)成與運(yùn)行流程
依照運(yùn)行的過(guò)程,系統(tǒng)主要包括數(shù)據(jù)層、模型層、評(píng)價(jià)層和用戶層四個(gè)層面,各層次構(gòu)成及系統(tǒng)運(yùn)行流程見(jiàn)圖。
3.2水污染事故模型庫(kù)設(shè)計(jì)
模型庫(kù)設(shè)計(jì)與開(kāi)發(fā)分為三個(gè)層次,即指標(biāo)管理模型、評(píng)價(jià)對(duì)象模型和評(píng)價(jià)方法模型。
3.2.1指標(biāo)管理模型
系統(tǒng)針對(duì)一系列評(píng)價(jià)對(duì)象給出默認(rèn)的、經(jīng)過(guò)優(yōu)化的評(píng)價(jià)指標(biāo)體系,包括指標(biāo)的組成、結(jié)構(gòu)與權(quán)重向量等,但由于評(píng)價(jià)指標(biāo)對(duì)于評(píng)價(jià)對(duì)象的影響程度在不同地區(qū)和不同時(shí)間均會(huì)有所差異。因此,評(píng)價(jià)指標(biāo)體系是動(dòng)態(tài)的,指標(biāo)管理模型就是針對(duì)指標(biāo)的這一特性進(jìn)行動(dòng)態(tài)管理。
3.2.2評(píng)價(jià)對(duì)象模型
評(píng)價(jià)對(duì)象模型是針對(duì)具體評(píng)價(jià)內(nèi)容涉及的評(píng)價(jià)模型。按照評(píng)價(jià)內(nèi)容分為江河污染現(xiàn)狀評(píng)價(jià)、水體污染嚴(yán)重性評(píng)價(jià)、影響區(qū)域評(píng)價(jià)、事故災(zāi)害損失評(píng)價(jià)和污染災(zāi)害預(yù)警預(yù)報(bào)等5個(gè)方面。按照評(píng)價(jià)的深度和層次可以分為但因素評(píng)價(jià)和多因素評(píng)價(jià)兩種。單因素評(píng)價(jià)主要是對(duì)單一點(diǎn)源污染擴(kuò)散速度的現(xiàn)勢(shì)和趨勢(shì)性的評(píng)價(jià)等。多因素評(píng)價(jià)主要針對(duì)一些復(fù)雜的評(píng)價(jià)對(duì)象,利用多種指標(biāo)綜合反映其總體特征,挖掘隱藏與諸多數(shù)據(jù)之后的重要信息。
3.2.3水污染事故報(bào)警系統(tǒng)
采用航天衛(wèi)星、低空遙感及地面監(jiān)測(cè)相結(jié)合的技術(shù)手段,及時(shí)發(fā)現(xiàn)水污染事故隱患,實(shí)時(shí)提供事故污染動(dòng)態(tài)變化。當(dāng)發(fā)現(xiàn)事故時(shí),一般通過(guò)無(wú)線對(duì)講機(jī)或附近的有線電話向污染防治管理部門(mén)匯報(bào),對(duì)事故發(fā)生位置的描述可采用“手持巡查報(bào)警系統(tǒng)”,它集成了GPS技術(shù)和GSM無(wú)線通訊技術(shù),能夠快速地將發(fā)生事故的地點(diǎn)和事故類(lèi)別發(fā)送到指揮中心的監(jiān)控系統(tǒng),及時(shí)作出反應(yīng)。事故報(bào)警系統(tǒng)采用GPS定位技術(shù),可以精確地定位事故發(fā)生的地點(diǎn)(誤差不超過(guò)10M),系統(tǒng)持有者只需輕輕一個(gè)按鍵,系統(tǒng)就會(huì)通過(guò)GSM短信息將報(bào)警信息和位置信息發(fā)送到指揮中心,同時(shí)系統(tǒng)還具備通話功能,可以實(shí)現(xiàn)現(xiàn)場(chǎng)和指揮中心的自由對(duì)話,方便進(jìn)一步溝通。在事故發(fā)生一小時(shí)之內(nèi),事故應(yīng)急流動(dòng)監(jiān)測(cè)站,監(jiān)測(cè)車(chē)(船)、微航低空遙感監(jiān)測(cè)均要趕赴現(xiàn)場(chǎng),及時(shí)開(kāi)展監(jiān)測(cè)攝影。及時(shí)掌握水體動(dòng)態(tài)變化狀況,及時(shí)事故變化信息。
4 結(jié)論
該項(xiàng)目利用3S信息技術(shù),實(shí)現(xiàn)了江河流域水污染自動(dòng)預(yù)防和應(yīng)急處理決策系統(tǒng)的研發(fā)與應(yīng)用,其采用自主研發(fā)和二次開(kāi)發(fā)的事故應(yīng)急監(jiān)視、監(jiān)測(cè)系統(tǒng),及時(shí)掌握水體動(dòng)態(tài)變化狀況,及時(shí)事故動(dòng)態(tài)變化信息,及時(shí)采取應(yīng)急處理措施;采用衛(wèi)星遙感與江河流域水質(zhì)準(zhǔn)同步監(jiān)測(cè)技術(shù),實(shí)現(xiàn)天地一體化模擬實(shí)驗(yàn)。科學(xué)地求得衛(wèi)星遙感數(shù)據(jù)與污染水體的相關(guān)關(guān)系,快速、準(zhǔn)確的確定污染范圍和污染程度,建立水質(zhì)污染擴(kuò)散模型,確定衛(wèi)星遙感數(shù)據(jù)在水質(zhì)自動(dòng)監(jiān)測(cè)中的適用范圍;在國(guó)產(chǎn)軟件MAPGIS平臺(tái)支持下,采用GPRS無(wú)線傳輸技術(shù),創(chuàng)建了基于3S技術(shù)的江河流域的水質(zhì)自動(dòng)在線實(shí)時(shí)監(jiān)控系統(tǒng),實(shí)現(xiàn)跨流域江河水質(zhì)污染自動(dòng)監(jiān)測(cè)數(shù)據(jù)的實(shí)時(shí)傳輸;實(shí)現(xiàn)了對(duì)江河流域污染事故的應(yīng)急預(yù)警。對(duì)污染事故的及時(shí)發(fā)現(xiàn),提供輔助決策依據(jù);提供了水污染事故應(yīng)急處理決策支持的通用的、跨流域的計(jì)算機(jī)仿真系統(tǒng),建立水污染事故、污染物輸移擴(kuò)散模型,為突發(fā)事件預(yù)測(cè)、預(yù)警提供快捷的技術(shù)支持,提高事故的應(yīng)急處理水平,有力的輔助污染事故的監(jiān)測(cè)管理。
Abstract: In natural language processing, syntactic analysis is the analysis of deep processing. The lexical analysis technology has been basically mature, semantic analysis based on the basis of syntactic analysis. Therefore, the syntactic analysis’s position is very important. At present, parsing of natural language processing becomes a bottleneck. This paper gives a simple comment about the method of syntactic analysis.
關(guān)鍵詞: 漢語(yǔ)自然語(yǔ)言處理;句法分析
Key words: Chinese natural language processing;parsing
中圖分類(lèi)號(hào):G202文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2010)17-0162-02
0引言
自然語(yǔ)言理解是語(yǔ)言信息處理技術(shù)的重要研究方向之一,一直以來(lái)都是人工智能領(lǐng)域中的核心研究課題。自然語(yǔ)言理解是指機(jī)器能夠執(zhí)行人類(lèi)所期望的某些語(yǔ)言功能,如回答問(wèn)題、文摘生成、釋義、翻譯等。由于自然語(yǔ)言的多義性、上下文有關(guān)性、模糊性、非系統(tǒng)性和環(huán)境密切相關(guān)性、涉及的知識(shí)面廣等眾多因素,使得對(duì)自然語(yǔ)言的理解成為非常困難的研究課題[1]。
語(yǔ)言雖然被表示成一連串的文字符號(hào)或者是一串聲音流,但實(shí)質(zhì)上,語(yǔ)言的內(nèi)部是一個(gè)層次化的結(jié)構(gòu)。自然語(yǔ)言的分析理解和處理過(guò)程也應(yīng)當(dāng)是一個(gè)層次化的過(guò)程。許多現(xiàn)代語(yǔ)言學(xué)家將自然語(yǔ)言理解的過(guò)程劃分為語(yǔ)音分析、詞法分析、句法分析、語(yǔ)義分析和語(yǔ)用分析五個(gè)層次,分別完成音素區(qū)分、詞素劃分、句子或短語(yǔ)的結(jié)構(gòu)分析、確定語(yǔ)言所表達(dá)的真正含義或概念以及語(yǔ)言在特定環(huán)境中所產(chǎn)生的影響等分析工作。句法分析師自然語(yǔ)言處理的一個(gè)基本問(wèn)題,是在句法分析的基礎(chǔ)之上的語(yǔ)言層次結(jié)構(gòu)分析。其目的是確定句子所包含的譜系結(jié)構(gòu)和句子各組成成分之間的關(guān)系。關(guān)于漢語(yǔ)語(yǔ)言處理中的句法分析方法的研究,從20世紀(jì)80年代初以來(lái),一直都沒(méi)有停止過(guò),先后出現(xiàn)了大量的分析方法。
1漢語(yǔ)句法分析方法及演變過(guò)程
1.1 漢語(yǔ)句法分析的基本理論自然語(yǔ)言處理中,按照處理深度的不同,大致可以將自然語(yǔ)言處理中的語(yǔ)言分析技術(shù)劃分為淺層分析和深層分析兩大類(lèi)[2]。深層分析技術(shù)是對(duì)語(yǔ)言進(jìn)行語(yǔ)法、語(yǔ)義和語(yǔ)用的分析,包括句法分析、語(yǔ)義角色標(biāo)注等。與淺層的詞法分析不同,深層的分析需要對(duì)句子進(jìn)行全局分析才能得到正確的結(jié)果。句法分析在深層分析技術(shù)中處于十分關(guān)鍵的位置。
所謂句法分析,就是根據(jù)給定的語(yǔ)法體系,自動(dòng)推導(dǎo)出句子的語(yǔ)法結(jié)構(gòu),分析句子所包含的語(yǔ)法單位和這些語(yǔ)法單位之間的關(guān)系,將線型的句子轉(zhuǎn)化成一種結(jié)構(gòu)化、層次化的結(jié)構(gòu),是自然語(yǔ)言理解的一個(gè)關(guān)鍵組成部分。句法分析的主要作用是消除單詞的歧義,為后續(xù)的語(yǔ)義分析提供層次結(jié)構(gòu)上的技術(shù)支撐,其結(jié)果可直接用于及其翻譯、問(wèn)答系統(tǒng)、信息挖掘、信息抽取等應(yīng)用。
1.2 漢語(yǔ)句法分析方法句子是由詞構(gòu)成的。從結(jié)構(gòu)上來(lái)說(shuō),漢語(yǔ)句子中的詞是詞根詞,詞內(nèi)沒(méi)有專(zhuān)門(mén)表示語(yǔ)法意義的附加成分,而且,漢語(yǔ)還缺少英語(yǔ)語(yǔ)句里面的形態(tài)變化,因此,漢語(yǔ)句子中詞與詞的語(yǔ)法關(guān)系依靠詞序和虛詞來(lái)表示。
句法分析的研究大體分為兩種途徑:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法[3]。基于規(guī)則的方法是以知識(shí)為主體的理性主義方法,以語(yǔ)言學(xué)理論為基礎(chǔ),強(qiáng)調(diào)語(yǔ)言學(xué)家對(duì)語(yǔ)言現(xiàn)象的認(rèn)識(shí),采用非歧義的規(guī)則行事描述或解釋歧義行為或歧義特征。基于統(tǒng)計(jì)的句法分析則以某種方式對(duì)語(yǔ)言的形成和語(yǔ)法規(guī)則進(jìn)行描述,形成句法分析模型。漢語(yǔ)語(yǔ)言的句法分析方法自研究以來(lái),先后出現(xiàn)了中心詞分析法與層次分析法相結(jié)合的方法、配價(jià)分析法、語(yǔ)義指向分析法等多種漢語(yǔ)句法分析方法[4]。
1.2.1 中心詞分析法與層次分析法的結(jié)合中心詞分析法也稱(chēng)為句子成分分析法,是漢語(yǔ)句法分析中傳統(tǒng)的分析方法。該方法將句子分成主、謂、賓、定、狀、補(bǔ)六大成分。該方法能很容易地分析出句子的格局,確定句子的句型,但無(wú)法體現(xiàn)出句子的結(jié)構(gòu)層次。層次分析法則是基于句子語(yǔ)法結(jié)構(gòu)的一種句法分析方法,它不注重句子成分,而是在層次的控制下切分句法結(jié)構(gòu)的直接成分。該方法很容易顯示和分析句子的結(jié)構(gòu)層次,但卻不能很好地顯示句法結(jié)構(gòu)的格局。將中心詞分析法與層次分析法結(jié)合起來(lái),就形成了一種優(yōu)勢(shì)互補(bǔ)的分析方法。
1.2.2 短語(yǔ)結(jié)構(gòu)句法分析與西方語(yǔ)言中長(zhǎng)句非常常見(jiàn)的情況不同,漢語(yǔ)句子以短句為主。從漢語(yǔ)的句法上來(lái)說(shuō),短語(yǔ)是不會(huì)跨越句子的分界的。因此,漢語(yǔ)這種句子短小的特點(diǎn)為提取句子中的短語(yǔ)減輕了難度。
短語(yǔ)體系的句法分析是在漢語(yǔ)數(shù)庫(kù)(Chinese Penn Treebank:CTB)上開(kāi)展的。CTB與英文Penn Treebank屬于同一語(yǔ)法體系。漢語(yǔ)的短語(yǔ)結(jié)構(gòu)句法分析方法在改進(jìn)后的CTB的基礎(chǔ)上進(jìn)行,并進(jìn)一步地通過(guò)EM算法獲取樹(shù)庫(kù)中的規(guī)則來(lái)進(jìn)行。由于語(yǔ)言上的差異,在CTB上的漢語(yǔ)句法分析水平與英文Penn Treebank上的分析結(jié)果還存在一定的差距。
1.2.3 基于依存關(guān)系的句法分析統(tǒng)計(jì)句法分析方法中需要解決的關(guān)鍵問(wèn)題是如何發(fā)現(xiàn)和利用具有強(qiáng)消岐能力的語(yǔ)言特征姿勢(shì),同時(shí)保證語(yǔ)言知識(shí)的應(yīng)用不會(huì)使模型的參數(shù)急劇膨脹而導(dǎo)致嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。
在漢語(yǔ)的基本句型中,絕大多數(shù)句子的中心語(yǔ)是由動(dòng)詞或動(dòng)詞短語(yǔ)來(lái)?yè)?dān)當(dāng)?shù)?而句子的中心語(yǔ)則支配著句子中的其他成分。通過(guò)對(duì)動(dòng)詞、名詞和形容詞等各種詞的語(yǔ)義知識(shí)進(jìn)行分析并加以分類(lèi),進(jìn)而從中總結(jié)出中心詞與各被支配成分之間的語(yǔ)義依存關(guān)系,利用這種依存關(guān)系來(lái)很好地解決上述問(wèn)題。
1.2.4 基于語(yǔ)法功能匹配的句法分析方法一般的詞性標(biāo)注都是對(duì)單詞或短語(yǔ)的詞性進(jìn)行標(biāo)注。然后,通常情況下,一個(gè)詞類(lèi)是具有很多種語(yǔ)法功能的,并且,同一詞類(lèi)的不同詞的語(yǔ)法功能的差異有可能非常大,而有的情況下,不同詞類(lèi)的詞,其語(yǔ)法功能卻有可能相同。基于語(yǔ)法功能匹配的漢語(yǔ)句法分析方法通過(guò)使用詞和短語(yǔ)的語(yǔ)法功能集來(lái)代替現(xiàn)有的詞類(lèi)標(biāo)記和短語(yǔ)標(biāo)記,以語(yǔ)法功能匹配(Grammar Function Match:GFM)作為句法分析的基本方法來(lái)實(shí)現(xiàn)漢語(yǔ)的句法分析[5]。
1.2.5 基于句法語(yǔ)義特征的句法分析方法所謂語(yǔ)義特征分析法,是一種借用語(yǔ)義學(xué)分解語(yǔ)義特征的方法來(lái)解釋在漢語(yǔ)語(yǔ)句中,某個(gè)格式為什么可以用這一類(lèi)詞語(yǔ)而不能用另一類(lèi)詞語(yǔ)的原因,其主要目的是解釋歧義現(xiàn)象產(chǎn)生的原因。基于句法語(yǔ)義特征的句法分析方法通過(guò)在句法分析中加入語(yǔ)義信息,將句法分析與語(yǔ)義分析綜合起來(lái)進(jìn)行,從而解決句法分析中的歧義消解問(wèn)題。
此外,變換分析法、配價(jià)分析法、語(yǔ)義指向分析法等也是比較典型的漢語(yǔ)句法分析方法。
1.3 漢語(yǔ)句法分析方法的演變過(guò)程及原因漢語(yǔ)句法分析的方法主要是通過(guò)國(guó)外語(yǔ)言學(xué)理論引進(jìn)而來(lái)的,20余年來(lái),漢語(yǔ)句法分析方法隨著漢語(yǔ)語(yǔ)法研究的發(fā)展而不斷發(fā)展。
漢語(yǔ)語(yǔ)言自然處理研究中最早的句法分析方法是上文所述的中心詞分析法。這種分析法來(lái)源于西方的傳統(tǒng)語(yǔ)法。后來(lái),熙先生率先采用了變換分析法來(lái)進(jìn)行漢語(yǔ)的句法分析。語(yǔ)義特征分析則是對(duì)變換分析法的改進(jìn)和彌補(bǔ)。語(yǔ)義指向分析法也是隨著人們開(kāi)始對(duì)語(yǔ)義平面研究的重視而產(chǎn)生的一種句法分析方法,它根據(jù)句中某個(gè)成分或詞語(yǔ)的語(yǔ)義指向來(lái)研究與它相關(guān)成分或詞語(yǔ)之間的語(yǔ)義聯(lián)系,從而將句法分析和語(yǔ)義分析結(jié)合起來(lái)。
相對(duì)于英語(yǔ)等分析語(yǔ)型的西方語(yǔ)言來(lái)說(shuō),漢語(yǔ)是一種孤立型的語(yǔ)言,兩者的內(nèi)部結(jié)構(gòu)存在著很大的差異。從上述漢語(yǔ)句法分析的發(fā)展不難看出,漢語(yǔ)的句法分析方法的發(fā)展一直都受著西方語(yǔ)言學(xué)的影響。而簡(jiǎn)單地套用西方語(yǔ)言學(xué)的分析方法是不可取的。最近幾十年來(lái),我國(guó)的專(zhuān)家和學(xué)者開(kāi)始將西方語(yǔ)言學(xué)與漢語(yǔ)語(yǔ)法研究相結(jié)合,走符合漢語(yǔ)自身特點(diǎn)的道路。
2總結(jié)
漢語(yǔ)自然語(yǔ)言處理中的句法分析是一種層次結(jié)構(gòu)上的深層分析。漢語(yǔ)語(yǔ)言句法分析研究一直是漢語(yǔ)自然語(yǔ)言處理中的一個(gè)熱點(diǎn)問(wèn)題,出現(xiàn)了眾多的分析方法。早期的句法分析器大多是簡(jiǎn)單的符號(hào)推理,然而,句法分析不是簡(jiǎn)單的符號(hào)推理,而是一種實(shí)體推理,漢語(yǔ)句法分析方法在漢語(yǔ)自身特有的孤立型特點(diǎn)和分析方法本身的局限性的影響下不斷發(fā)展演變,使得漢語(yǔ)語(yǔ)言處理及漢語(yǔ)語(yǔ)法的研究正不斷地深化,對(duì)漢語(yǔ)語(yǔ)言的分析方法也提出了更高的要求。總的來(lái)說(shuō),漢語(yǔ)語(yǔ)言的句法分析方法越來(lái)越精密、細(xì)致和科學(xué)。同時(shí),語(yǔ)義分析和語(yǔ)法分析的結(jié)合也越來(lái)越緊密,這是漢語(yǔ)語(yǔ)法學(xué)朝著現(xiàn)代化科學(xué)化方向發(fā)展的必然趨勢(shì)。
參考文獻(xiàn):
[1]王文杰,史忠植.人工智能原理輔導(dǎo)與練習(xí)[M].北京:清華大學(xué)出版社,2007,(12):250.
[2]劉挺,馬金山.漢語(yǔ)自動(dòng)句法分析的理論與方法[J].當(dāng)代語(yǔ)言學(xué),2009,(02):100-112.
[3]袁里馳.基于依存關(guān)系的句法分析統(tǒng)計(jì)模型[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,(06):1630-1635.
[關(guān)鍵詞] 數(shù)字出版 外文原著 自然語(yǔ)言處理 云平臺(tái) 詞匯提取 難句抽取
[中圖分類(lèi)號(hào)] G237 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1009-5853 (2014) 01-0079-05
1 引 言
隨著電子計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的發(fā)展, 以電子書(shū)(electronic book,ebook)為代表的數(shù)字出版物已經(jīng)廣泛興起和發(fā)展起來(lái),并由此形成了數(shù)字出版產(chǎn)業(yè)。數(shù)字出版平臺(tái)和電子讀物自身的數(shù)字化特點(diǎn),使利用各種現(xiàn)代技術(shù)為讀者提供包括娛樂(lè)和輔助學(xué)習(xí)功能在內(nèi)的各種新型有效服務(wù)成為可能。多媒體技術(shù)與人工智能研究領(lǐng)域成果如自然語(yǔ)言處理等的應(yīng)用,將使數(shù)字出版不僅帶來(lái)信息載體、讀物來(lái)源和閱讀方式方面的變化,而且會(huì)使閱讀過(guò)程中的學(xué)習(xí)方式、學(xué)習(xí)效果等都發(fā)生很多變化[1]。
與此同時(shí),人類(lèi)進(jìn)入信息時(shí)代后,國(guó)際間的科學(xué)文化交流日益增多,了解學(xué)習(xí)不同國(guó)家的文化習(xí)俗、掌握世界新的科學(xué)技術(shù)發(fā)展動(dòng)態(tài)成為個(gè)人與國(guó)家發(fā)展的前提。因此,外語(yǔ)的學(xué)習(xí)和使用比以往任何時(shí)代更顯重要。現(xiàn)代社會(huì)很多人都需要閱讀外文原版文學(xué)讀物、學(xué)術(shù)專(zhuān)著和教材。但外文原版讀物閱讀的難點(diǎn)是剛開(kāi)始時(shí)生詞較多,有些句子不容易理解,容易產(chǎn)生閱讀挫折,當(dāng)所選讀物的閱讀難度和內(nèi)容不合適時(shí)就更明顯。對(duì)于專(zhuān)業(yè)文獻(xiàn),除了一般詞匯問(wèn)題外,由于強(qiáng)調(diào)語(yǔ)言的縝密性、準(zhǔn)確性,經(jīng)常會(huì)使用長(zhǎng)句和大量專(zhuān)業(yè)術(shù)語(yǔ),所以較一般文學(xué)讀物更不容易理解。能否解決閱讀中的詞匯和難句障礙,是能否克服外文原版讀物閱讀初期的困難,進(jìn)入熟練閱讀過(guò)程的關(guān)鍵。雖然我國(guó)在外語(yǔ)教學(xué)方面投入很大,但效果并不理想,原因之一是許多讀者沒(méi)能真正進(jìn)入外文原版文獻(xiàn)的熟練閱讀狀態(tài),未形成外語(yǔ)學(xué)習(xí)和使用實(shí)踐相互促進(jìn)、緊密結(jié)合的良性循環(huán)過(guò)程。缺乏應(yīng)用實(shí)踐,過(guò)多停留在應(yīng)試和學(xué)習(xí)過(guò)程本身的外語(yǔ)學(xué)習(xí)嚴(yán)重影響了外語(yǔ)繼續(xù)學(xué)習(xí)和終身學(xué)習(xí),以及在實(shí)踐中應(yīng)用外語(yǔ)的動(dòng)力。外文文獻(xiàn)對(duì)擴(kuò)大科研人員的研究視野、確定研究策略和方向、提高科研水平等發(fā)揮著非常重要的作用,但我國(guó)花費(fèi)大量經(jīng)費(fèi)購(gòu)買(mǎi)的外文文獻(xiàn)數(shù)據(jù)庫(kù)利用率較低,主要原因就是語(yǔ)言障礙。
目前數(shù)字出版技術(shù)、自然語(yǔ)言處理技術(shù)和云技術(shù)的發(fā)展,為人們改進(jìn)或解決上述問(wèn)題帶來(lái)了可能。本文首先介紹在數(shù)字出版中應(yīng)用自然語(yǔ)言處理技術(shù),通過(guò)詞匯抽取服務(wù)輔助外文閱讀的問(wèn)題,同時(shí)進(jìn)一步提出在數(shù)字出版中提供難句抽取服務(wù)的建議,并對(duì)可行性進(jìn)行分析及給出可供參考的抽取策略。
2 數(shù)字出版中的詞匯抽取服務(wù)
在數(shù)字出版中提供詞匯提取服務(wù)是把外文原著中讀者可能不認(rèn)識(shí)的生詞提前抽取出來(lái),給出解釋?zhuān)砂丛~頻分段,能按照頁(yè)碼和章節(jié)進(jìn)行篩選的詞匯表放到出版平臺(tái)上供下載;對(duì)于專(zhuān)業(yè)外文書(shū)籍,不僅提供常規(guī)詞匯表,還包括專(zhuān)業(yè)詞匯表。在數(shù)字出版提供詞匯抽取的最初理念由本文作者在2012年美國(guó)《出版研究季刊》中第一次提到[2],下面在介紹原理念的基礎(chǔ)上,總結(jié)擴(kuò)展分析如下。
2.1 提供詞匯抽取服務(wù)有助于提高外文閱讀效率
閱讀外文原著一直被認(rèn)為是學(xué)習(xí)外語(yǔ)的有效方法。認(rèn)知語(yǔ)言學(xué)的研究表明,語(yǔ)言是在具體的社會(huì)環(huán)境中、在真實(shí)互動(dòng)中學(xué)會(huì)的,因此強(qiáng)調(diào)學(xué)習(xí)者的自身參與,對(duì)于常用的表達(dá)要設(shè)法引起學(xué)習(xí)者的充分注意,讓他們結(jié)合語(yǔ)境多加練習(xí)[3]。而文學(xué)原著閱讀為學(xué)習(xí)者提供了語(yǔ)言習(xí)得的真實(shí)語(yǔ)境,可以與單詞大量、密切接觸,而且讀上手之后不會(huì)令人心煩,因此在讀者了解和學(xué)習(xí)文化知識(shí)、開(kāi)發(fā)智力的同時(shí),實(shí)現(xiàn)了學(xué)習(xí)單詞、強(qiáng)化語(yǔ)言學(xué)習(xí)的目的。通過(guò)把詞匯表下載到不同設(shè)備上顯示,如電腦顯示器、手機(jī),或打印、抄寫(xiě)等,可以使讀者在閱讀過(guò)程中方便快捷地查找生詞解釋?zhuān)绻芟纫皂?yè)碼或章節(jié)為單位抄寫(xiě)生詞,強(qiáng)化記憶,然后再閱讀對(duì)應(yīng)的頁(yè)或章節(jié)原文,不僅容易理解原著內(nèi)容,享受閱讀樂(lè)趣,而且這個(gè)過(guò)程本身就是一種有效的外語(yǔ)學(xué)習(xí)途徑。因?yàn)檎Z(yǔ)言學(xué)者已經(jīng)驗(yàn)證,要想在短時(shí)間內(nèi)大幅度提高詞匯量,有計(jì)劃地利用單詞表來(lái)學(xué)習(xí)并記憶新單詞是較好的、也是最直接的辦法[4-5]。外文原著的閱讀有兩種形式——紙質(zhì)書(shū)閱讀和電子書(shū)閱讀,而詞匯抽取服務(wù)可以使電子書(shū)和紙質(zhì)書(shū)讀者獲得同樣的幫助。
2.2 提供詞匯抽取的技術(shù)基礎(chǔ)
數(shù)字出版提供詞匯抽取服務(wù)的主要技術(shù)基礎(chǔ)是自然語(yǔ)言處理、云計(jì)算和數(shù)字出版。
首先,自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù)是用計(jì)算機(jī)來(lái)研究和處理自然語(yǔ)言的技術(shù),始于20世紀(jì)40年代末50年代初,已成為當(dāng)代計(jì)算機(jī)科學(xué)中一門(mén)重要的新型學(xué)科。詞匯抽取和各種詞典建設(shè)是自然語(yǔ)言處理技術(shù)的基礎(chǔ),屬于成熟的技術(shù)。英語(yǔ)的自然語(yǔ)言處理水平處于世界先進(jìn)水平,對(duì)英語(yǔ)實(shí)現(xiàn)詞匯抽取服務(wù)很容易實(shí)現(xiàn)。對(duì)于漢語(yǔ)這樣的表意文字,計(jì)算機(jī)自動(dòng)分詞的準(zhǔn)確率還不能令人滿意(大約90%)[6],影響了各種電子詞典的建設(shè)速度,目前大規(guī)模地實(shí)現(xiàn)詞匯抽取服務(wù)還有困難;但是,依靠在漢語(yǔ)自然語(yǔ)言處理技術(shù)方面幾十年的研究成果和建設(shè)的各種資源,在一定范圍內(nèi)實(shí)施詞匯抽取還是可以的。
其次,云計(jì)算是一種運(yùn)算模式,能實(shí)現(xiàn)無(wú)處不在、便捷按需的網(wǎng)絡(luò)訪問(wèn),信息處理和存儲(chǔ)在云數(shù)據(jù)中心完成。由于數(shù)字出版技術(shù)更新和管理費(fèi)用等問(wèn)題,數(shù)字出版采用云技術(shù)成為一種必然趨勢(shì)[7]。數(shù)字出版提供詞匯抽取服務(wù)需要云計(jì)算技術(shù)的原因在于詞典建設(shè)是龐大和困難的工作。現(xiàn)代社會(huì)發(fā)展迅速,新詞不斷出現(xiàn),詞典的更新維護(hù)是一個(gè)重要課題,也是單個(gè)出版社無(wú)法承擔(dān)的;由云平成詞典建設(shè)、更新維護(hù)及詞匯抽取軟件的建設(shè),以資源共享的形式提供給各出版社使用,則能夠保證其有效管理和經(jīng)濟(jì)可行性。
再次,數(shù)字出版決定了著作原稿在各個(gè)階段都是以電子文檔形式存在的,對(duì)于任何一本原著,只需在編輯完成后把對(duì)應(yīng)電子文檔的格式轉(zhuǎn)換成純文本,然后利用基于自然語(yǔ)言處理技術(shù)設(shè)計(jì)的詞匯抽取軟件和電子詞典即可完成詞匯抽取工作。
2.3 詞匯抽取策略
外文原著中的詞匯量很大,專(zhuān)業(yè)著作或原版教材則不僅包括普通詞匯,而且包含很多只能在專(zhuān)業(yè)詞典中查到的專(zhuān)業(yè)術(shù)語(yǔ)。每個(gè)讀者的外語(yǔ)水平也不同,遇到的生詞差異很大,所以要有效地抽取符合個(gè)人情況的生詞,并以方便學(xué)習(xí)的形式顯示,需考慮采用合適的抽取策略。
2.3.1 普通詞匯抽取
提供詞匯抽取服務(wù)主要基于這樣一個(gè)統(tǒng)計(jì)事實(shí),即一本書(shū)包含很多詞匯,但常用單詞占了絕大部分。據(jù)弗蘭西斯(Francis)和庫(kù)切拉(Kucera)(1982)統(tǒng)計(jì),在一百多萬(wàn)詞的Brown語(yǔ)料庫(kù)中,頻率居前的1000單詞就可以覆蓋72%的語(yǔ)料庫(kù);頻率居前的2000單詞可以覆蓋79.7%;頻率居前的5000單詞可以覆蓋88.7%;頻率居前的6000單詞可以覆蓋89.9%;而頻率居前的15851個(gè)單詞才覆蓋97.8%[8]。教育心理學(xué)家、心理測(cè)量專(zhuān)家、語(yǔ)言學(xué)家和其他研究人員多年來(lái)一直使用文本樣本中的單詞頻率統(tǒng)計(jì)作為估算單詞難度的方法,其基本假設(shè)是文本中出現(xiàn)頻率低的單詞是難度大的單詞[9]。一個(gè)讀者的外語(yǔ)水平越高,所認(rèn)識(shí)的難詞、或者說(shuō)低頻詞就越多。如果把一種語(yǔ)言的詞匯按詞頻分段,語(yǔ)言水平高的讀者生詞少且趨于低頻詞段;外語(yǔ)水平較低的讀者生詞較多,詞頻段跨度較大。因此,數(shù)字出版平臺(tái)可以通過(guò)采用不同的抽取策略提供不同頻段的詞匯表來(lái)滿足不同外語(yǔ)水平讀者的需要[10]。
2.3.2 專(zhuān)業(yè)術(shù)語(yǔ)抽取
專(zhuān)業(yè)外文文獻(xiàn)中有很多專(zhuān)業(yè)術(shù)語(yǔ),即某一學(xué)科領(lǐng)域所特有或?qū)S玫恼Z(yǔ)匯,其詞義常不為專(zhuān)業(yè)外讀者所明白。盡管術(shù)語(yǔ)只占全文的 5%—10%,但它們卻構(gòu)成科技英語(yǔ)翻譯與其他文體翻譯的根本區(qū)別[11],需要通過(guò)專(zhuān)業(yè)詞典解決專(zhuān)業(yè)術(shù)語(yǔ)的抽取問(wèn)題。對(duì)于只涉及某一個(gè)專(zhuān)業(yè)的外文專(zhuān)著,可通過(guò)軟件工具在原稿編輯完成后轉(zhuǎn)換成純文本格式,進(jìn)入對(duì)應(yīng)的專(zhuān)業(yè)詞典,抽取出其中的專(zhuān)業(yè)術(shù)語(yǔ),形成專(zhuān)業(yè)詞匯表供讀者下載。由于專(zhuān)業(yè)詞匯也可分為常用高頻詞匯、核心專(zhuān)業(yè)詞匯和低頻詞匯,所以,專(zhuān)業(yè)術(shù)語(yǔ)抽取時(shí)也可參考常規(guī)詞匯按詞頻分段的方法,列出不同頻段的專(zhuān)業(yè)詞匯,讀者可考慮先記住高頻詞匯,減少閱讀困難。為了與常規(guī)詞匯表相區(qū)別,每個(gè)專(zhuān)業(yè)術(shù)語(yǔ)后應(yīng)添加專(zhuān)業(yè)標(biāo)記[12]。
如果是涉及多門(mén)專(zhuān)業(yè)知識(shí)的綜合類(lèi)專(zhuān)著,則需要分別進(jìn)入不同的專(zhuān)業(yè)詞典進(jìn)行專(zhuān)業(yè)術(shù)語(yǔ)抽取。由于專(zhuān)業(yè)詞典一般存在一詞多域多義和一詞多域同義的現(xiàn)象,即同一詞匯可能會(huì)出現(xiàn)在不同的專(zhuān)業(yè)詞典中,在不同專(zhuān)業(yè)領(lǐng)域有不同的意義,也可能具有相同的意義[13]。所以,必要時(shí)需對(duì)從不同的專(zhuān)業(yè)詞典中抽取出來(lái)的詞匯進(jìn)行合并,減少數(shù)據(jù)冗余,方便讀者學(xué)習(xí)。
目前,對(duì)于數(shù)字出版中提供詞匯抽取的探討,還只限于文學(xué)原著或?qū)I(yè)文獻(xiàn)。實(shí)際上,通過(guò)考慮不同類(lèi)型讀物的特點(diǎn),通過(guò)采取合適的抽取策略,各種類(lèi)型的外文讀物,包括報(bào)紙、雜志等都可以實(shí)現(xiàn)詞匯提取,為提高外語(yǔ)學(xué)習(xí)效率發(fā)揮積極作用。
3 數(shù)字出版中的難句抽取服務(wù)
前面介紹了數(shù)字出版中提供詞匯抽取服務(wù)的問(wèn)題,實(shí)際上,還可以進(jìn)一步深化這種服務(wù),在提供詞匯抽取服務(wù)的同時(shí),提供難句抽取服務(wù)。
3.1 提供難句抽取服務(wù)的意義
外文閱讀中最主要的困難是詞匯問(wèn)題,而句式結(jié)構(gòu)復(fù)雜、成分關(guān)系多樣、具有高度邏輯性的長(zhǎng)難句是另一障礙,能否解決長(zhǎng)難句的理解是提高閱讀能力的另一個(gè)關(guān)鍵。對(duì)語(yǔ)篇整體結(jié)構(gòu)、深層含義、作者態(tài)度等信息的理解非常重要,提高學(xué)生對(duì)于閱讀材料的宏觀把握能力已成為語(yǔ)言學(xué)家及語(yǔ)言教師們研究的重要課題之一,但是詞匯和句子理解仍然是外語(yǔ)學(xué)習(xí)的基礎(chǔ)。特別在學(xué)習(xí)一門(mén)外語(yǔ)的早期,如初、高中及至大學(xué)階段,長(zhǎng)難句理解都是學(xué)習(xí)中常見(jiàn)的困難[14-15]。如果長(zhǎng)難句的理解能力提高,則外文閱讀速度和質(zhì)量將會(huì)得到極大提高。如果在讀者閱讀外文原著時(shí),不僅限于生詞,同時(shí)也能提前把讀者不容易理解的難句抽取出來(lái),給出解釋和分析,生成能按頁(yè)碼、章節(jié)和字母順序自由排序和篩選的難句表放到出版平臺(tái)上供下載,則能幫助讀者更好地理解這些難句。按頁(yè)碼、章節(jié)自由篩選,能迅速恢復(fù)其上下文語(yǔ)境,不僅對(duì)語(yǔ)言學(xué)習(xí)本身有利,同時(shí)有助于更好地理解原著。讀者可以選擇喜愛(ài)的章節(jié)里的生詞和難句,經(jīng)過(guò)有意識(shí)分析和學(xué)習(xí),然后對(duì)那部分更好地閱讀理解。
此外,在各種類(lèi)別的外語(yǔ)日常閱讀訓(xùn)練中,如果能集中選擇一些學(xué)習(xí)者熟悉內(nèi)容且感興趣的、具有代表性的長(zhǎng)難句,如選擇一些影響較大的文學(xué)名著中的長(zhǎng)難句進(jìn)行分析和強(qiáng)化翻譯訓(xùn)練,掌握規(guī)律就可以事半功倍。所以外文數(shù)字出版中提供難句抽取服務(wù)具有積極的意義。
3.2 提供難句抽取服務(wù)的可行性分析
雖然外文出版中的難句抽取服務(wù)對(duì)外語(yǔ)學(xué)習(xí)有積極的意義,但目前技術(shù)條件下還存在一些具體困難,需要通過(guò)某些特殊方法,采取合適策略來(lái)解決。
3.2.1 自動(dòng)化難句抽取中的困難
在數(shù)字出版中實(shí)現(xiàn)外文難句抽取的完全自動(dòng)化,從理論上說(shuō),需要涉及語(yǔ)篇的預(yù)處理、難句識(shí)別及抽取算法和機(jī)器翻譯。這些在目前都還存在一些困難。
首先,要在外文數(shù)字出版中把難句抽取出來(lái)并通過(guò)機(jī)器翻譯自動(dòng)給出翻譯結(jié)果,不僅涉及詞長(zhǎng)、詞頻和句長(zhǎng)的計(jì)算,還需要對(duì)句子結(jié)構(gòu)等進(jìn)行多方面的識(shí)別和判定,因此,需要對(duì)生語(yǔ)料(完成編輯后的書(shū)籍原稿文檔)進(jìn)行預(yù)處理,即進(jìn)行詞匯、句法、語(yǔ)義等的分析,添加相應(yīng)標(biāo)注,把生語(yǔ)料變成熟語(yǔ)料。雖然語(yǔ)料庫(kù)的自動(dòng)標(biāo)注技術(shù)已經(jīng)研究多年,有一些效果較好的語(yǔ)料庫(kù)自動(dòng)標(biāo)注工具軟件,但該過(guò)程一般仍然需要人工干預(yù)校正。語(yǔ)料庫(kù)標(biāo)注是一項(xiàng)代價(jià)昂貴的工作[16],需要大量人力、物力和資金,所以在目前的技術(shù)條件下,對(duì)出版的外文讀物生語(yǔ)料庫(kù)進(jìn)行標(biāo)注還是不現(xiàn)實(shí)的。
其次, 除了語(yǔ)料的標(biāo)注,難句抽取還需要根據(jù)高效準(zhǔn)確的難句識(shí)別和抽取算法,開(kāi)發(fā)相應(yīng)的難句抽取軟件工具。目前為止,對(duì)語(yǔ)篇難度(文本難度)進(jìn)行的研究很多,但多數(shù)都是基于文本難度的宏觀度量,對(duì)微觀的諸如語(yǔ)篇的基本組成部分——句子難度度量研究的較少[17],缺乏精確高效的難句抽取算法[18]。
第三,對(duì)于抽取出來(lái)的難句,需要用機(jī)器翻譯方法給出翻譯,而目前的機(jī)器翻譯水平無(wú)法保證難句翻譯的準(zhǔn)確性。
3.2.2 參考傳統(tǒng)文本難度算法及通過(guò)人工干預(yù)實(shí)現(xiàn)難句提取
首先,為了解決語(yǔ)篇預(yù)處理和缺乏準(zhǔn)確高效的難句識(shí)別和抽取算法等問(wèn)題,可以考慮在參考傳統(tǒng)的確定文本難度算法的基礎(chǔ)上,在純文本格式文件中實(shí)現(xiàn)自動(dòng)難句提取,這樣就可以避開(kāi)語(yǔ)篇預(yù)處理問(wèn)題。文本難度(也稱(chēng)為易讀性),是指文本易于閱讀和理解的程度和性質(zhì)。易讀性依賴于多種因素, 主要包括文章的句子平均長(zhǎng)度、生詞數(shù)和語(yǔ)法復(fù)雜度。英文易讀性的研究始于1920年代,研究者通過(guò)不懈的努力開(kāi)發(fā)出了上百個(gè)易讀性公式[19]。通常易讀性公式使用文本的詞匯難度和句法難度來(lái)判定文本難度,詞匯難度以詞頻和詞長(zhǎng)來(lái)衡量,句子難度以句子的長(zhǎng)度來(lái)衡量。此外,近年來(lái)統(tǒng)計(jì)語(yǔ)言模型被引入易讀性研究中[20],但是在對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)處理的基礎(chǔ)上進(jìn)行的,這里無(wú)法采用。而傳統(tǒng)的文本難度計(jì)算中的詞匯難度、詞頻和詞長(zhǎng)計(jì)算都可以在純文本格式文件中完成。由云平臺(tái)提供基于傳統(tǒng)文本難度算法的難句抽取軟件工具比較容易,雖然不能達(dá)到完全的抽取率,但大部分難句可提取出來(lái)。
其次,在基于傳統(tǒng)文本難度算法進(jìn)行難句提取時(shí),應(yīng)該注意成語(yǔ)和俗語(yǔ)問(wèn)題。難句一般比較長(zhǎng),但長(zhǎng)句不一定是難句;而含有成語(yǔ)和俗語(yǔ)的句子,有時(shí)雖然短,卻難以理解。因此,可從兩個(gè)方面考慮:首先是句長(zhǎng)和句子中的詞頻因素。句子越長(zhǎng)、其中詞匯難度越大(詞長(zhǎng)、詞頻低),則句子是難句的可能性越大。其次是句中是否包含成語(yǔ)和俗語(yǔ)因素。在文學(xué)類(lèi)讀物中,成語(yǔ)和俗語(yǔ)較多;在專(zhuān)業(yè)讀物中,也可能用到成語(yǔ)和俗語(yǔ),但非常少。隨著自然語(yǔ)言處理技術(shù)和語(yǔ)料庫(kù)技術(shù)的發(fā)展,成語(yǔ)或俗語(yǔ)電子詞典的建立日趨完善,鑒于成語(yǔ)和俗語(yǔ)對(duì)讀者帶來(lái)的不便,在對(duì)文學(xué)讀物原著進(jìn)行難句抽取時(shí),可增加對(duì)成語(yǔ)和俗語(yǔ)因素的考慮。目前,英語(yǔ)是國(guó)際通用語(yǔ)言,對(duì)文本難度研究最成熟的也是英語(yǔ),因而可嘗試首先在英文讀物中實(shí)現(xiàn)難句的自動(dòng)提取。
第三,對(duì)于通過(guò)文本難度算法提取出來(lái)的難句,由于不能通過(guò)機(jī)器翻譯方法給出準(zhǔn)確的翻譯結(jié)果和句子分析,可根據(jù)讀物特點(diǎn),從減少人力、物力需求的角度選擇不同的人工翻譯策略。對(duì)于文學(xué)作品中抽取出來(lái)的難句,可通過(guò)讀者論壇等方法討論解決;原版教材中的難句可由授課教師或教材引進(jìn)部門(mén)組織專(zhuān)家翻譯放到服務(wù)器上提供給學(xué)生,同時(shí)可參考通過(guò)雙語(yǔ)平行語(yǔ)料庫(kù)的信息服務(wù)平臺(tái)等輔助完成翻譯[21]。
第四,從語(yǔ)言水平級(jí)別劃分,外文讀物有很多種類(lèi),難句抽取應(yīng)注意從讀物本身的文本難度出發(fā)來(lái)設(shè)計(jì)難句抽取算法,以滿足不同語(yǔ)言水平讀者群的需求。
4 結(jié) 語(yǔ)
人類(lèi)已經(jīng)進(jìn)入數(shù)字出版時(shí)代,自然語(yǔ)言處理技術(shù)在云平臺(tái)的支持下將能為人們的語(yǔ)言學(xué)習(xí)提供多種服務(wù)。本文僅介紹和探討了最基礎(chǔ)的詞匯和難句抽取服務(wù),且主要是從理念上加以討論,具體實(shí)施還需要出版社、語(yǔ)言學(xué)家和軟件技術(shù)人員的共同努力,并在實(shí)踐中持續(xù)改善。需要注意的是,雖然詞匯和難句提取能對(duì)讀者的閱讀提供幫助,但內(nèi)容和文本難度仍然是外文原著閱讀能否成功的重要因素,出版社平臺(tái)應(yīng)提供外文書(shū)籍的內(nèi)容和閱讀難度分級(jí)信息。實(shí)踐證明,外文原著閱讀可以全方位地提高閱讀者的外語(yǔ)水平,教師許連贊 2001年通過(guò)讓學(xué)生閱讀原著的方法使學(xué)生的口語(yǔ)能力受到了外交官的好評(píng)[22],所以,我國(guó)數(shù)字出版如能提供外文原著的詞匯和難句抽取服務(wù),將會(huì)對(duì)我國(guó)外語(yǔ)水平的整體提高產(chǎn)生積極影響。
注 釋
[1][2][10]Jilan Sun. Popularizing vocabulary extraction service on digital publishing platforms[J]. Publishing Research Quarterly, 2012,28:65-72. DOI 10.1007/s12109-012-9255-6
[3]蔡金亭,朱立霞. 認(rèn)知語(yǔ)言學(xué)角度的二語(yǔ)習(xí)得研究:觀點(diǎn)、現(xiàn)狀與展望[J]. 外語(yǔ)研究,2010(1):1-7
[4]李慶燊. 論英語(yǔ)詞匯教學(xué)中的誤區(qū)[J]. 教育與職業(yè),2010(2): 176-177
[5]王淼. 中初水平學(xué)習(xí)者在外語(yǔ)學(xué)習(xí)環(huán)境下的偶遇詞匯學(xué)習(xí)[D]. 上海:上海外國(guó)語(yǔ)大學(xué),2004
[6]李興珊,劉萍萍,馬國(guó)杰. 中文閱讀中詞切分的認(rèn)知機(jī)理述評(píng)[J]. 心理學(xué)進(jìn)展,2011,19(4):459-470
[7]Ted Hill. The Inevitable Shift to Cloud-Based Book Publishing: The Next Step in the Digital Transformation of Book Publishing May be Closer than You Think[J].Publishing Research Quarterly,2012,28:1-7.DOI 10.1007/s12109-011-9249-9
[8]Francis WN,Kucera H. Frequency analysis of English usage: Lex-icon and grammar[M]. Boston: Houghton Mifflin,1982
[9]Breland,H. M. word frequency and word difficulty: A comparison of counts on four corpora[J]. Psychological Science,1996(2):96-99
[11]蔡子亮. 術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù)[J]. 英語(yǔ)科技術(shù)語(yǔ)的翻譯,2005(2):31-32
[12]孫繼蘭. 外文原版教材出版提供詞匯抽取服務(wù)可行性分析[J]. 科技與出版,2013(4):54-57
[13]黃河燕,張克亮,張孝飛. 基于本體的專(zhuān)業(yè)機(jī)器翻譯術(shù)語(yǔ)詞典研究[J].中文信息學(xué)報(bào),2007,21(1): 17-22
[14]劉婷婷. 云南省高職高專(zhuān)非英語(yǔ)專(zhuān)業(yè)學(xué)生英語(yǔ)閱讀理解長(zhǎng)難句的障礙研究及解決方法[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2013,29(1,上):251-253
[15]何正胤. 高中英語(yǔ)閱讀教學(xué)策略探析[J]. 湘潭師范學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2006,28(2):179-180
[16]常寶寶,俞士汶. 語(yǔ)料庫(kù)技術(shù)及其應(yīng)用[J]. 外語(yǔ)研究,2009(5):43-51
[17]江少敏. 句子難度度量研究[D]. 廈門(mén):廈門(mén)大學(xué),2009
[18]Kim,Young-Bum; Kim,Youngjo; Kim,Yu-Seop. Sentence difficulty analysis with local feature space and global distributional difference. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)[C].v 7425 LNCS,p 716-722,2012,Convergence and Hybrid Information Technology - 6th International Conference,ICHIT 2012,Proceedings.
[19]章辭. 英文易讀性研究: 回顧與反思[J]. 湖南工程學(xué)院學(xué)報(bào),2010,20(3):47-51
[20]邢富坤,程?hào)|元. 基于統(tǒng)計(jì)語(yǔ)言模型的英語(yǔ)易讀性研究[J]. 外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2010,33 (6): 19-24
[21]王傳英. 基于雙語(yǔ)平行語(yǔ)料庫(kù)的信息服務(wù)平臺(tái)建設(shè)[J]. 圖書(shū)館工作與研究,2010(12):79-82