首頁 > 文章中心 > 正文

      新句法標注模型

      前言:本站為你精心整理了新句法標注模型范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

      新句法標注模型

      論文關(guān)鍵詞:語料庫語言學(xué)語義處理句法標注模型

      論文摘要:由于自然語言的語義存在不確定性,形式化很困難,因此語義處理成為自然語言處理的瓶頸所在。基于大規(guī)模標注語料庫的語義處理已經(jīng)成為發(fā)展趨勢,語料標注本質(zhì)上就是語言知識(包括語義)形式化。現(xiàn)有句法標注模型主要包括基于短語結(jié)構(gòu)語法(PSG)和基于依存語法(DG)的句法標注模型,還存在一些局限性。文章在現(xiàn)有句法標注模型的基礎(chǔ)上結(jié)合認知語法(CG)的有關(guān)理論提出改進思路,以探索新的句法標注模型。

      人類社會發(fā)展的基本軌跡是:原始社會—農(nóng)業(yè)社會—工業(yè)社會—信息社會。人工智能的目標是用計算機模擬人的智能,以最大限度地解放和延伸人的智能,無疑是信息社會的制高點。語言是人思維的物質(zhì)外殼,人不可能離開語言而具備真正屬于人的高級智能。因此,模擬人類語言智能的自然語言處理無疑是人工智能的重要研究方向。然而,迄今為止的研究表明,在可以預(yù)見的將來,語義處理將是自然語言處理的瓶頸所在。原因是語義十分復(fù)雜,而基于現(xiàn)有計算機軟硬件的自然語言處理要求語義形式化。解決這一問題的根本之道是:探索新的句法標注模型,進行大規(guī)模的語義標注,基于語料庫進行語義知識獲取和自然語言處理。

      一、句法標注模型

      語言的復(fù)雜性在于語言與認識的關(guān)系。語言具有意義,而意義是入對主客觀世界的認識結(jié)果。主客觀世界的復(fù)雜性決定了意義的復(fù)雜性,進一步?jīng)Q定了語言的復(fù)雜性。語言本身又可以視為人的主客觀世界中的一部分,因此語言研究是一種特殊的認識活動,是人對語言的認識。由此可見,語言離不開認識。人對主客觀世界的認識可以如此描述:認識主體借助認識工具按照認識方法處理認識對象獲得認識結(jié)果。認識是由多種認識因素(主體、工具、方法、對象)共同作用的活動,認識結(jié)果是這一活動的產(chǎn)物,被多種認識因素共同決定,任何一種認識因素的改變必然導(dǎo)致認識結(jié)果出現(xiàn)或大或小的差異。顯然,認識結(jié)果與認識對象不能等同,是認識主體對認識對象的選擇性反映,認識具有主觀能動性。從這個意義上講。認識不可能也不應(yīng)該去被動地還原認識對象,而是從符合主體目的性出發(fā),力求簡單有效地描述和預(yù)測認識對象。借用模型的概念,認識結(jié)果就是認識對象的模型(model),認識就是建立認識對象的模型,簡稱建模(modeling)。這是一種實用主義認識觀。

      模型一般分為心理模型(psychologicalmodel)、數(shù)學(xué)模型(mathematicalmodel)和物理模型(physicalmodel)。心理模型是認識對象在人認識中的定性關(guān)系,是數(shù)學(xué)模型的基礎(chǔ);數(shù)學(xué)模型是認識對象在人認識中的定量關(guān)系,是物理模型的基礎(chǔ);物理模型是人借助特定材料和工具按照認識對象的數(shù)學(xué)模型實現(xiàn)的物質(zhì)結(jié)構(gòu)。傳統(tǒng)意義上的建模主要指建立數(shù)學(xué)模型和物理模型,一般意義上的建模還包括建立心理模型。人的認識能力是有限的,表現(xiàn)在:人不能建立任意認識對象的心理模型,也不能建立任意心理模型的數(shù)學(xué)模型,也不能建立任意數(shù)學(xué)模型的物理模型。由于具有明確的實用主義特點,建模在理工科領(lǐng)域大行其道,在文科領(lǐng)域也逐漸受到青睞。人類將二進制數(shù)學(xué)模型成功實現(xiàn)為晶體管物理模型,并開發(fā)出越來越復(fù)雜和先進的計算機軟件和硬件,從而進入信息時代。20世紀以來一些主要或次要的語言理論都或多或少應(yīng)用了數(shù)學(xué)模型,特別是一些面向語言計算的語言理論。隨著計算機技術(shù)的飛速發(fā)展,人們對計算機自動或輔助處理語言信息的需求越來越大。但計算機的根本缺陷在于,凡是不能建立數(shù)學(xué)模型的信息都無法處理。傳統(tǒng)語言理論往往只在心理模型層面定性研究,無法滿足這一需要。因此有必要引入數(shù)學(xué)模型研究語言,稱為語言數(shù)學(xué)模型,簡稱語言模型(1anguagemodel)。統(tǒng)計語言模型(sta-tisticallanguagemodel)就是一個成功的例子。但統(tǒng)計語言模型的性能取決于訓(xùn)練語料的規(guī)模和質(zhì)量。目前,由于語料的不斷積累和計算機技術(shù)的不斷進步,語料規(guī)模已不成問題,語料中包含語言知識的數(shù)量和質(zhì)量才是關(guān)鍵。

      計算機的語言知識主要來源于人。將語料中包含的語言知識標注出來,有助于計算機獲得更豐富、更有價值的語言知識,從而提高語言處理水平,這就是語料標注(corpustagging)。一般認為主要包括詞匯標注(1exicaltagging,分詞、詞結(jié)構(gòu)標注、詞性標注、詞義標注等)、句法標注(syntaxtagging,語法樹標注、語義樹標注等)、語篇標注(discoursetagging,語體標注、領(lǐng)域標注等)等內(nèi)容。經(jīng)過標注的語料還可以用于語言學(xué)研究、語言教學(xué)、語言測試、詞典編撰等諸多理論研究和實踐應(yīng)用領(lǐng)域,越來越受到人們重視,并形成一門新興學(xué)科——語料庫語言學(xué)(corpuslinguistics)。目前,相對句法標注,詞匯標注有更成熟的規(guī)范、準確率更高的技術(shù)和更大的標注規(guī)模。句法標注的主要困難在于,沒有一個真正成熟的語法或語義標注模型。句法結(jié)構(gòu)尤其是語義結(jié)構(gòu)很難統(tǒng)一描述,現(xiàn)有的句法理論還不完善,難以制定統(tǒng)一規(guī)范,標注主觀性很大,自動標注準確率比較低。因此,句法標注成了語料標注的瓶頸問題。由于句法知識在語言知識中的重要地位,有理由相信:如果有了大規(guī)模、高質(zhì)量的句法標注語料庫,圍繞語料庫的各種研究和應(yīng)用有可能在現(xiàn)有基礎(chǔ)上產(chǎn)生質(zhì)的飛躍。因此,研究句法標注模型應(yīng)是當(dāng)務(wù)之急。語料庫語言學(xué)屬于交叉學(xué)科,句法標注模型是語料庫語言學(xué)的基礎(chǔ)理論,又與語言學(xué)的句法理論密切相關(guān)。一方面可以借鑒現(xiàn)有句法理論,另一方面,也可以從語料庫語言學(xué)的角度研究句法,提出新的句法標注模型。

      二、現(xiàn)有句法標注模型

      句法標注(SyntaxTagging,ST)以句子的語法知識和語義知識為標注對象,是語料標注的重點、難點所在,要以一定的語法理論為基礎(chǔ)。根據(jù)語法理論制定的句法標注規(guī)則、過程和結(jié)果,稱為句法標注模型(SyntaxTaggingModel,STM)。短語結(jié)構(gòu)語法(PhraseStructureGrammar,PSG)和依存語法(DependencyGrammar,DG)是現(xiàn)有句法標注的兩種基礎(chǔ)語法理論,彼此卻有很大的不同。基于PSG的句法標注模型稱為短語結(jié)構(gòu)句法標注模型(PSG—basedTaggingMod—el,PSGTM),基于DG的句法標注模型稱為依存句法標注模型(DG—basedTaggingModel,DGTM)。根據(jù)現(xiàn)有語料標注的實踐結(jié)果來看,PSGTM與DGTM都存在一定缺陷。

      美國語言學(xué)家喬姆斯基(NoamChomsky)于1957年出版專著《句法結(jié)構(gòu)》,從而奠定了短語結(jié)構(gòu)語法(PSG)的理論基礎(chǔ)。其后發(fā)展起來的許多語法理論可以直接或間接歸到這一流派,如中心詞驅(qū)動的短語結(jié)構(gòu)語法(HPSG)、廣義短語結(jié)構(gòu)語法(GPSG)等。到目前為止,PSG仍然是最重要的句法標注基礎(chǔ)理論,為世界上眾多語料庫項目所采用和發(fā)展。法國語言學(xué)家特思尼耶爾(LucienTesnire)于1959年出版專著《結(jié)構(gòu)句法基礎(chǔ)》,從而奠定了依存語法(DG)的理論基礎(chǔ)。其后發(fā)展起來的許多語法理論可以直接或間接歸到這一流派,如詞匯依存語法(WD)、概念依存理論(cD)、核心依存理論(KD)等。相對PSG而言,DG偏重于語義,在CD、KD上表現(xiàn)得十分明顯。另外,DG更簡潔、直觀、經(jīng)濟,適應(yīng)性更強,因此反而有后來居上之勢,目前已經(jīng)成為世界上較為通用的句法標注基礎(chǔ)理論。不過,在具體的句法標注實踐中DGTM還是暴露出一些問題,“對一些沒有明確依存關(guān)系的成分,標注起來則有些力不從心”,存在“依存失敗”現(xiàn)象,最突出的是難以標注缺省結(jié)構(gòu)。缺省結(jié)構(gòu)一直是句法標注中經(jīng)常出現(xiàn)而且很難解決的問題。

      人類的自然語言符合經(jīng)濟性原則,而缺省結(jié)構(gòu)恰恰體現(xiàn)了這一原則。借助句子的前后上下文省略一些成分,人們?nèi)匀荒軌蚶斫猓珜τ嬎銠C來說卻是一種挑戰(zhàn)。句法標注的根本目的是讓計算機能夠正確提取句子的語法和語義知識。缺省結(jié)構(gòu)在真實語料中大量出現(xiàn),常常使得原本正常的句法結(jié)構(gòu)變得異常,難以按已有規(guī)則進行標注。這是任何句法標模型都必須面對的問題,目前PSGTM和DGTM都還沒能夠很好地解決。以DGTM為例,在很多情況下,DGTM不但不能正確標注缺省結(jié)構(gòu),反而在一些語言規(guī)則的強制限定下給出違背真實語法或語義結(jié)構(gòu)的標注結(jié)果,形成干擾信息。請看以下4個句子:

      句1:我看一下下書

      句2:(真是好書啊?)我看一下

      句3:我看一本書

      句4:(好多書啊!)我看一本

      句2是句1的賓語省略句,句4是句3的賓語省略句。(為簡便起見,把“一下”、“一本”作為一個詞處理)。

      問題出在句4。句1和句3的依存結(jié)構(gòu)是不同的,然而句2和句4卻有了相同的依存結(jié)構(gòu)。因為句4省略了“書”,根據(jù)DG理論,“一本”必須依存于獨立謂語成分“看”。于是“看一本”和“看一下”依存結(jié)構(gòu)相同,實際上違反了句3的正確結(jié)構(gòu)。當(dāng)然,我們可以采取補救措施,為d1標注一個特殊的依存關(guān)系屬性Cerror(即依存失敗),但這不是好辦法。

      三、改進DGTM

      美國認知語言學(xué)家蘭蓋克(Ronaldw.Langach.er)分別于1987年、1991年出版專著《認知語法基礎(chǔ)》一、二卷,開創(chuàng)了認知語法(CG)理論,關(guān)于語法結(jié)構(gòu)有如下觀點:如果一個構(gòu)件A使另一構(gòu)件B的一部分抽象變?yōu)榫唧w,那么構(gòu)件A就叫做概念自主(coneep.tuallyautonomos)的構(gòu)件,構(gòu)件B就叫做概念依存(conceptuallydependent)的構(gòu)件。

      舉例來說:獨立地看,“一本”隱含一個抽象的、可數(shù)的、可用“本”量化的事物,可表示為“一本(x)”。“書”使“x”變得具體,因此“書”是概念自主的,“一本”是概念依存的。從信息表達的角度來看,“書”表達了相對完整而具體的信息,因此是概念自主的;“一本”表達了不完整不具體的信息,因此是概念依存的。從數(shù)學(xué)表達式的角度來看,“一本”類似函數(shù),“書”類似參數(shù),函數(shù)的地位顯然是第一位的,決定了對參數(shù)的處理過程和返回參數(shù)。例如,“舊書”與“一本書”的區(qū)別不在“書”,而在“舊”和“一本”。再從閱讀認知過程來看,當(dāng)人們讀到“一本”時,實際上已經(jīng)在期待“一本”后面那個具體事物跟著出現(xiàn)。為什么我們覺得“我看一本”是缺省句?因為“看”和“一本”相對“書”都是概念依存的,因此人們會判定,“我看一本”的缺省成分可能是“書”。而讀到“我看書”時,人們不會認為這是一個省略句,因為“書”表達的信息已經(jīng)自足了。

      由此有足夠的理由認為:在句法結(jié)構(gòu)中,“一本”應(yīng)是“書”的父結(jié)點,而不是按傳統(tǒng)的補足中心原則,中心成分總是限定成分的父結(jié)點。依存成分是自主成分的父結(jié)點,這一原則可以稱為依存中心原則(DependencyHeadPrinciple,DHP)。采取這種原則的DGTM必然會有不同的標注結(jié)果。

      深入研究發(fā)現(xiàn),僅僅采用DHP是不夠的,DGTM的其他參數(shù)也需要改變。例如,“看(x)”和“一本(x)”這兩個表達式在與其他詞語組合時是有區(qū)別的。“看(x)”與“我”組合時由“看”與“我”產(chǎn)生聯(lián)系。“看”與“一本(x)”組合時卻是“x”(書)與“看”發(fā)生聯(lián)系。代表表達式與其他詞語組合的成分稱為返回參數(shù),不同表達式的返回參數(shù)是不同的。例如。“一本(x)”返回參數(shù)為“x”,“看(x)”返回參數(shù)為“看”。正因為如此,表達式“看(一本(書))”成立,“一本(看(書))”不成立。另外,表達式“(x)一下”的返回參數(shù)為“x”,即“看”;表達式“(x)看”的返回參數(shù)為“看”。根據(jù)這些定義,句1、2、3、4的改進DGTM。

      根據(jù)函數(shù)、輸入?yún)?shù)、返回參數(shù)的關(guān)系,各句結(jié)構(gòu)的逆構(gòu)造過程如下:

      句1:我看一下書:(((我)看(x))一下)(書)=((看(x))一下)(書)=看(x)(書)=看(x=書)

      句2:我看一下:((我)看(x))一下=(看(x))一下=看(x)

      句3:我看一本書:((我)看(x))(一本(書))=看(x)(書)=看(x=書)

      句4:我看一本:(我)看(一本(x))=看(x)

      句1和句3的x有明確取值,為完整句。句2和句4則是缺省句。基于看(x)和一本(x)的知識,可以預(yù)測并判定缺省結(jié)構(gòu)及其成分。

      直觀看來,改進DGTM與原DGTM的標注結(jié)果有了很大的差異由于不采用補足中心原則,因此改進DGTM標注結(jié)果并不符合在補足中心原則影響下人們長期以來形成的語感。但更符合人們閱讀認知經(jīng)驗,而且可以按函數(shù)標準給出形式化地解釋,其解釋結(jié)果符合句子本身的語法和語義結(jié)構(gòu),沒有錯誤和干擾信息。因此,改進DGTM更適合計算機處理,更符合句法標注的本來目的。

      四、結(jié)語

      PSGTM的語法理論基礎(chǔ)是PSG,DGTM的語法理論基礎(chǔ)是DG,改進DGTM的DHP受CG的啟發(fā),其語法理論基礎(chǔ)應(yīng)該是CG。但CG只是從理論上提出了“概念自主”和“概念依存”的概念,并沒有嚴格定義和證明依存成分與自主成分之間的主從關(guān)系。在CG的實際應(yīng)用中,存在有時自主成分為短語中心語,有時依存成分為短語中心語的情況。

      根據(jù)CG理論,“above”是“abovethetable”的中心語。“l(fā)amp”是“l(fā)ampabovethetable”的中心語。然而,根據(jù)CG對概念自主和概念依存的界定,相對“ta-ble”和“l(fā)amp”,“above”是概念依存的,具有兩個抽象部分“(x)above(y)”,“l(fā)amp”使“x”具體化,“table”使“y”具體化。如果嚴格執(zhí)行DHP,“abovethetable”和“l(fā)ampabovethetable”的中心語都應(yīng)該是“above”。但這樣一來,怎樣解釋“movethelampabovethetable”中“move”直接依存“l(fā)amp”的關(guān)系?根據(jù)改進DGTM,可以定義“(x)above(y)”的返回參數(shù)是“x”以解決這一問題,但CG不會這樣處理,而是將“l(fā)amp”限定為“l(fā)ampabovethetable”的中心語,從而與“move”直接聯(lián)系,這樣就不符合DHP的要求。

      因此,改進DGTM的語法理論基礎(chǔ)不可能是CG,必須構(gòu)建一種新的語言模型。目前我們正融合哲學(xué)二元論與本體論、心理學(xué)、信息科學(xué)、網(wǎng)絡(luò)通信模型、離散數(shù)學(xué)、語言學(xué)(依存語法、認知語法、范疇語法)、藝術(shù)學(xué)等理論的相關(guān)概念和原理,結(jié)合人的一般認知經(jīng)驗,建立一種新的句法標注模型,并初步用于經(jīng)典漢語句式的表征,取得了較好效果。

      文檔上傳者
      亚洲视频在线观看| 亚洲精品国精品久久99热一| 国产亚洲无线码一区二区| 亚洲AV无码一区二区三区国产| 久久久亚洲精华液精华液精华液| 亚洲制服丝袜中文字幕| 亚洲综合久久成人69| 亚洲综合在线成人一区| 中文字幕亚洲综合久久2| 99ri精品国产亚洲| 99久久亚洲精品无码毛片| 亚洲黑人嫩小videos| 亚洲精品自在线拍| 亚洲国语在线视频手机在线| 亚洲精品国产手机| 亚洲国产精品久久网午夜| 亚洲免费人成视频观看| 亚洲人成777在线播放| 国产成人精品日本亚洲网址| 亚洲一区二区无码偷拍| 亚洲av永久无码一区二区三区| 黑人粗长大战亚洲女2021国产精品成人免费视频 | 亚洲精品无码永久在线观看 | 国产精品国产亚洲区艳妇糸列短篇| 亚洲乱码中文字幕在线| 亚洲精品国产suv一区88| 激情无码亚洲一区二区三区| 婷婷亚洲天堂影院| 亚洲综合色视频在线观看| 在线亚洲午夜理论AV大片| 亚洲av日韩av无码| 亚洲短视频在线观看| 亚洲人精品亚洲人成在线| 亚洲va中文字幕| 亚洲精品国自产拍在线观看| 国产美女亚洲精品久久久综合| 国产亚洲人成网站在线观看不卡| 亚洲Aⅴ无码专区在线观看q| 亚洲经典在线观看| 亚洲一区二区三区在线观看网站 | 亚洲AV无码精品无码麻豆|