前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)過程范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞關(guān)鍵詞:人臉識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);圖像識(shí)別;深度學(xué)習(xí);模式識(shí)別
DOIDOI:10.11907/rjdk.171043
中圖分類號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005018603
0引言
人臉識(shí)別是近年來模式識(shí)別、圖像處理、機(jī)器視覺、神經(jīng)網(wǎng)絡(luò)及認(rèn)知科學(xué)領(lǐng)域的研究熱點(diǎn)[12]。所謂人臉識(shí)別,是指給定一個(gè)靜態(tài)人臉圖像或動(dòng)態(tài)視頻,利用存儲(chǔ)有若干已知身份的人臉數(shù)據(jù)庫驗(yàn)證單個(gè)或多個(gè)人的身份[1]。作為生物特征識(shí)別的一個(gè)重要方面,人臉識(shí)別有著廣泛的應(yīng)用場(chǎng)景,如:檔案管理系統(tǒng)、公安系統(tǒng)的犯罪身份識(shí)別、銀行和海關(guān)的監(jiān)控、安全驗(yàn)證系統(tǒng)、信用卡驗(yàn)證等領(lǐng)域。在人臉識(shí)別巨大魅力的影響下,國內(nèi)互聯(lián)網(wǎng)公司也開始了人臉識(shí)別應(yīng)用的探索,如百度推出的人臉考勤系統(tǒng)、阿里支付寶的刷臉登錄等功能都是人臉識(shí)別的具體應(yīng)用。目前,人臉識(shí)別的代表性方法主要有以下幾種:Turk和Pentland[3]提出的特征臉(Eigenface)方法;基于線性區(qū)別分析,Belhumeur 等[4]提出了Fisherface方法;基于統(tǒng)計(jì)理論,劍橋大學(xué)的 Samaria和Fallside[5]提出了隱馬爾科夫模型[5](HMM),Lawrence 等[6]提出的通過多級(jí)自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)[6]與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行人臉識(shí)別。上述方法雖然獲得了良好的識(shí)別正確率,但需要人工參與特征提取,然后將提取的特征送入分類器進(jìn)行識(shí)別,過程較為復(fù)雜。
卷積神經(jīng)網(wǎng)絡(luò)[79]是近年發(fā)展起來,并引起廣泛重視的一種高效深度學(xué)習(xí)識(shí)別算法,其已成為當(dāng)前語音分析和圖像處理領(lǐng)域的研究熱點(diǎn)。相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)而言,卷積神經(jīng)網(wǎng)絡(luò)具有權(quán)值共享、局部感知的優(yōu)點(diǎn)。局部感知的網(wǎng)絡(luò)結(jié)構(gòu)使其更接近于生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享大大減少了模型學(xué)習(xí)參數(shù)的個(gè)數(shù),同時(shí)降低了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性。在圖像處理領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)體現(xiàn)得更為突出,多維的圖像數(shù)據(jù)可以直接作為網(wǎng)絡(luò)的輸入,特征提取和分類均集成在網(wǎng)絡(luò)中,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和訓(xùn)練分類器過程。除此之外,卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像中的位移、比例縮放、旋轉(zhuǎn)、傾斜或其它形式的變形具有很好的魯棒性。為了解決傳統(tǒng)人臉識(shí)別算法特征提取和訓(xùn)練分類器困難的問題,本文借鑒Lenet-5[10]的結(jié)構(gòu),設(shè)計(jì)一個(gè)適合ORL數(shù)據(jù)集人臉識(shí)別任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
1卷積神經(jīng)網(wǎng)絡(luò)
1.1用于ORL人臉識(shí)別的CNN
本文提出的7層卷積神經(jīng)網(wǎng)絡(luò)模型由輸入層、2個(gè)卷積層、2個(gè)降采樣層、一個(gè)全連接層和一個(gè)Sigmoid輸出層組成。卷積核的大小均為5×5,降采樣層Pooling區(qū)域的大小為2×2,采用Average Pooling(相鄰小區(qū)域之間無重疊),激活函數(shù)均采用Sigmoid函數(shù)。每一個(gè)卷積層或降采樣層由多個(gè)特征圖組成,每個(gè)特征圖有多個(gè)神經(jīng)元,上層的輸出作為下一層的輸入。此外,本文實(shí)驗(yàn)學(xué)習(xí)率的取值為常數(shù)1.5,該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2卷積層
卷積神經(jīng)網(wǎng)絡(luò)中的卷積層一般稱C層[11](特征提取層)。卷積層的輸入來源于輸入層或者采樣層。卷積層中的每一個(gè)特征圖都對(duì)應(yīng)一個(gè)大小相同的卷積核,卷積層的每一個(gè)特征圖是不同的卷積核在前一層輸入的特征圖上作卷積,然后將對(duì)應(yīng)元素累加后加一個(gè)偏置,最后通過激活函數(shù)得到。假設(shè)第l層榫砘層,則該層中第j個(gè)特征圖的計(jì)算表達(dá)式如式(1)。
xlj=f(∑i∈Mjxl-1iklij+blj)(1)
這里的Mj表示選擇的上一層輸出特征圖的集合。
1.3降采樣層
降采樣層是對(duì)上一層的特征圖進(jìn)行下采樣處理,處理方式是在每一個(gè)特征圖內(nèi)部的相鄰小區(qū)域進(jìn)行聚合統(tǒng)計(jì)。常見的下采樣方式有兩種:Average Pooling和Max Pooling。其中,Average Pooling是取小區(qū)域內(nèi)像素的平均值,而Max Pooling是取小區(qū)域內(nèi)像素的最大值。降采樣層只是對(duì)輸入的特征圖進(jìn)行降維處理,不改變特征圖的個(gè)數(shù)。假設(shè)down表示下采樣操作,βlj表示乘性偏置,blj表示加性偏置,則降采樣層中某個(gè)特征圖的計(jì)算表達(dá)式如下:
xlj=f(βljdown(xl-1j)+blj)(2)
1.4輸出層
卷積神經(jīng)網(wǎng)絡(luò)的輸出層一般為分類器層,常用的有徑向基(RBF)函數(shù)輸出單元、Sigmoid輸出單元和Softmax回歸分類器。在ORL人臉識(shí)別任務(wù)中,采用Sigmoid函數(shù)輸出單元,輸出層的編碼采用非分布編碼“one-of-c”的方式。由于采用Sigmoid函數(shù),每一個(gè)單元輸出值是0-1范圍內(nèi)的一個(gè)正數(shù),代表該樣本屬于該單元對(duì)應(yīng)類別的概率。數(shù)值最大的那個(gè)單元即為樣本的預(yù)測(cè)類別。假設(shè)x為全連接層的輸出,則輸出層輸出結(jié)果的計(jì)算表達(dá)式如下:
y=f(wTx+b)(3)
其中,f表示激活函數(shù),這里采用Sigmoid函數(shù),Sigmoid函數(shù)表達(dá)式如下:
f(x)=11+e-x(4)
2實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)在Windows7 64位下的Matlab 2014a中進(jìn)行,采用Matlab深度學(xué)習(xí)工具箱DeepLearnToolbox。PC的內(nèi)存8G,CPU主頻為3.2GHZ。
ORL人臉數(shù)據(jù)集是在1992年至1994年之間由AT &T Cambridge實(shí)驗(yàn)室拍攝的人臉圖像所構(gòu)成。數(shù)據(jù)集中包含40個(gè)不同人物的臉部圖像,每個(gè)人物包含10張圖像,總共400張。每個(gè)類別中的臉部圖像在不同的時(shí)間拍攝得到,存在如下差異:①光線;②面部表情,如眼睛的閉合和睜開狀態(tài),面部是否帶有微笑的表情等;③一些面部細(xì)節(jié)上的差異,如是否佩戴眼鏡等。該數(shù)據(jù)集中所有人臉圖像均為灰度圖像,且圖像中人物面部朝向基本一致,都朝向正前方。
圖2為ORL數(shù)據(jù)集中部分人臉圖像。數(shù)據(jù)集中每個(gè)原始圖像大小為92*112像素,本文實(shí)驗(yàn)中對(duì)這些圖像進(jìn)行預(yù)處理,使每一幅圖像的尺寸調(diào)整為28*28,并對(duì)每一副圖像進(jìn)行歸一化處理,這里采用簡(jiǎn)單的除255的方式。隨機(jī)選取每一個(gè)類別的8張圖像作為訓(xùn)練樣本,剩下的2張作為測(cè)試樣本。因此,訓(xùn)練集有320個(gè)樣本,測(cè)試集有80個(gè)樣本。
2.1改變C3層卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)的影響
卷積神經(jīng)網(wǎng)絡(luò)性能的好壞與卷積層卷積核的個(gè)數(shù)密切相關(guān),但每一個(gè)卷積層應(yīng)該設(shè)置多少個(gè)卷積濾波器,目前并沒有數(shù)學(xué)理論指導(dǎo)。為了研究卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)最終識(shí)別準(zhǔn)確率的影響,本文保持C1層卷積核個(gè)數(shù)不變,通過改變C3層卷積核的個(gè)數(shù),形成新的網(wǎng)絡(luò)結(jié)構(gòu),用訓(xùn)練集訓(xùn)練網(wǎng)絡(luò),訓(xùn)練迭代次數(shù)均為60次,然后用測(cè)試集對(duì)每一種網(wǎng)絡(luò)結(jié)構(gòu)的性能進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表1所示。
從表1可以看出,當(dāng)C3層有10個(gè)卷積核時(shí),網(wǎng)絡(luò)模型對(duì)測(cè)試集的識(shí)別正確率最高。卷積核的個(gè)數(shù)與識(shí)別準(zhǔn)確率并不成正比關(guān)系,當(dāng)卷積核個(gè)數(shù)過多時(shí),網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率會(huì)下降,這是因?yàn)樵诰矸e核個(gè)數(shù)增加的同時(shí),需要學(xué)習(xí)的參數(shù)也隨之增加,而數(shù)據(jù)集中訓(xùn)練樣本的規(guī)模較小,已不能滿足學(xué)習(xí)的要求。
2.2改變C1層卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)的影響
由上述實(shí)驗(yàn)結(jié)果可知,C3層卷積核個(gè)數(shù)為10時(shí),網(wǎng)絡(luò)識(shí)別效果最好。因此,為了研究卷積層C1層卷積核個(gè)數(shù)對(duì)識(shí)別準(zhǔn)確率的影響, C3層保留10個(gè)卷積核,改變C1層卷積核的個(gè)數(shù)構(gòu)造新的網(wǎng)絡(luò)結(jié)構(gòu),用測(cè)試集針對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)就測(cè)試集和訓(xùn)練集的識(shí)別準(zhǔn)確率進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表2所示。
從表2的實(shí)驗(yàn)結(jié)果可以得到相同結(jié)論:卷積層卷積核的個(gè)數(shù)并非越多越好,卷積核個(gè)數(shù)過多,網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)也隨之增加,當(dāng)訓(xùn)練集中樣本個(gè)數(shù)無法滿足學(xué)習(xí)需要時(shí),網(wǎng)絡(luò)識(shí)別準(zhǔn)確率就會(huì)下降。
2.3與其它算法比較
為進(jìn)一步說明本文所提卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的有效性和優(yōu)越性,將該結(jié)構(gòu)(C1層6個(gè)卷積核,C3層10個(gè)卷積核,學(xué)習(xí)率1.5)的實(shí)驗(yàn)結(jié)果與其它識(shí)別方法在ORL數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,結(jié)果如表3所示。可以看出,本文所提方法比Eigface、ICA的識(shí)別效果好,與2DPCA方法的識(shí)別準(zhǔn)確率一樣,比FisherFace方法的識(shí)別準(zhǔn)確率只低了0.20%,這進(jìn)一步證實(shí)了本文所提網(wǎng)絡(luò)結(jié)構(gòu)的有效性。
3結(jié)語
本文在理解Lenet-5結(jié)構(gòu)的基礎(chǔ)上,提出一種適用于ORL人臉數(shù)據(jù)集的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,本文提出的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),不僅避免了復(fù)雜的顯式特征提取過程,在ORL數(shù)據(jù)集上獲得98.30%的識(shí)別正確率,而且比大多數(shù)傳統(tǒng)人臉識(shí)別算法的效果都好。此外,本文還通過大量驗(yàn)就每個(gè)卷積層卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率的影響進(jìn)行了詳細(xì)研究與分析,這對(duì)設(shè)計(jì)CNN網(wǎng)絡(luò)結(jié)構(gòu)具有一定的參考意義。
參考文獻(xiàn)參考文獻(xiàn):
[1]李武軍,王崇駿,張煒,等.人臉識(shí)別研究綜述[J].模式識(shí)別與人工智能,2006,19(1):5866.
[2]張翠平,蘇光大.人臉識(shí)別技術(shù)綜述[J].中國圖象圖形學(xué)報(bào),2000,5(11):885894.
[3]YANG M H.Face recognition using kernel methods[J].Nips,2002(2):14571464.
[4]祝秀萍,吳學(xué)毅,劉文峰.人臉識(shí)別綜述與展望[J].計(jì)算機(jī)與信息技術(shù),2008(4):5356.
[5]SAMARIA F,YOUNG S.HMMbased architecture for face identification[J].Image and Vision Computing,1994,12(8):537543.
[6]LAWRENCE S,GILES C L,TSOI A C.Convolutional neural networks for face recognition[C].Proceedings CVPR'96,1996 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1996:217222.
[7]陳耀丹,王連明.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法[J].東北師范大學(xué)學(xué)報(bào):自然科學(xué)版,2016,48(2):7076.
[8]盧官明,何嘉利,閆靜杰,等.一種用于人臉表情識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)[J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2016,36(1):1622.
[9]李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9):25082515.
[10]LCUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
關(guān)鍵詞:模式識(shí)別卷積神經(jīng)網(wǎng)絡(luò) google earth 應(yīng)用
中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007—3973(2012)009—087—02
隨著科技的進(jìn)步,許多發(fā)明、電子產(chǎn)品使人們的生活更加方便。生活經(jīng)常見到的有:筆記本電腦的指紋鎖、數(shù)碼相機(jī)的人像識(shí)別功能、電腦手寫板、語音錄入設(shè)備、門禁中的虹膜識(shí)別技術(shù)等等,這些設(shè)備與技術(shù)中都包含了模式識(shí)別技術(shù)。這些看似抽象的技術(shù)與算法正與其他技術(shù)一起悄然的改變?nèi)藗兊纳睢?/p>
1 什么是模式識(shí)別
人們的許多感官功能看似簡(jiǎn)單,但用人工的辦法實(shí)現(xiàn)卻比較困難。人與人見面相互打招呼。在看見對(duì)方的面部后,人能夠很快的認(rèn)定這張臉是個(gè)人臉,而且我認(rèn)識(shí)他,應(yīng)該和他打招呼。這個(gè)看似簡(jiǎn)單的過程其實(shí)并不簡(jiǎn)單,我們不僅僅要識(shí)別五官,還要掃描輪廓,而且還要判斷是否認(rèn)識(shí)等等。可見,很多看似簡(jiǎn)單的認(rèn)知過程,如果試圖用某一方法描述確實(shí)不宜。對(duì)人臉進(jìn)行模式識(shí)別就可以解決這個(gè)看似簡(jiǎn)單的問題。
模式識(shí)別(Pattern Recognition)是指通過用計(jì)算機(jī)對(duì)事物或現(xiàn)象的各種形式的(光信息,聲信息,生物信息)信息進(jìn)行處理和和判讀,以對(duì)事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過程,是人工智能的和信息捕獲的重要組成部分。現(xiàn)在被廣泛應(yīng)用于計(jì)算機(jī)視覺,自然語言處理,生物特征識(shí)別,互聯(lián)網(wǎng)搜索等領(lǐng)域。
2 模式識(shí)別與google earth衛(wèi)星照片
在衛(wèi)星圖片中識(shí)別特定的目標(biāo),如道路,湖泊,森林等等,往往要運(yùn)用模式識(shí)別技術(shù),現(xiàn)在較為主流的是神經(jīng)網(wǎng)絡(luò)識(shí)別。上一代的技術(shù)室根據(jù)RGB提取的,在提取森林或湖泊的時(shí)候,有很多干擾顏色,對(duì)衛(wèi)星照片精度有很高要求。根據(jù)RGB提取效果不是十分理想,而且計(jì)算量大,對(duì)硬件有一定要求。
隨著神經(jīng)網(wǎng)絡(luò)識(shí)別技術(shù)的發(fā)展,現(xiàn)在計(jì)算機(jī)可自動(dòng)識(shí)別目標(biāo)。不必使用特殊的衛(wèi)星波段影像,小型機(jī)計(jì)算,只要從GOOGLE EARTH獲取的普通衛(wèi)星影像就可以自動(dòng)識(shí)別了。
Google Earth是Google公司開發(fā)推出的一款虛擬地球儀軟件,它把衛(wèi)星照片、航空照相布置在一個(gè)地球的三維模型上,是一款全球地圖集成軟件。Google Earth與模式識(shí)別技術(shù)的綜合運(yùn)用,使其衛(wèi)星圖片在道路規(guī)劃,通信線路管理,土地勘察,遙感探測(cè)等等行業(yè)有著很大的運(yùn)用。
在實(shí)際情況下對(duì)衛(wèi)星圖片進(jìn)行模式識(shí)別,實(shí)現(xiàn)起來有許多困難,光線條件、大地背景、大氣云層情況影響以及由于拍攝角度或空氣密度等原因?qū)е抡掌谋徽瘴矬w的幾何變形等都會(huì)對(duì)識(shí)別效果有直接影響。這些都對(duì)識(shí)別算法要求很高。本文選用的神經(jīng)網(wǎng)絡(luò)識(shí)別方法,具有識(shí)別率高、對(duì)不規(guī)則物體識(shí)別效果好等優(yōu)點(diǎn),被廣泛運(yùn)用在許多領(lǐng)域。本文使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)對(duì)google earth 衛(wèi)星圖片進(jìn)行處理,幾乎不用對(duì)照片進(jìn)行預(yù)處理。這大大節(jié)省了運(yùn)算時(shí)間,而且避免了二次處理后對(duì)原始文件的污染,大量原始信號(hào)被最大程度地保留。
3 模式識(shí)別與卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)是近年發(fā)展起來并引起廣泛重視的一種高效識(shí)別方法。神經(jīng)網(wǎng)絡(luò)是受動(dòng)物神經(jīng)系統(tǒng)啟發(fā),利用大量簡(jiǎn)單處理單元互聯(lián)而構(gòu)成的復(fù)雜系統(tǒng),以解決復(fù)雜模式識(shí)別與行為控制問題。目前,CNN已經(jīng)成為國內(nèi)外科學(xué)家研究的重點(diǎn)方向,特別是在模式識(shí)別領(lǐng)域。它的優(yōu)點(diǎn)是不需要對(duì)圖像進(jìn)行復(fù)雜的預(yù)處理,成為大家廣為使用的方法。CNN的基本結(jié)構(gòu)一般包括兩層:(1)特征提取層。每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,與其他特征間的位置關(guān)系也隨之確定下來。(2)特征映射層。網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。
4 卷積神經(jīng)網(wǎng)絡(luò)在衛(wèi)星圖片識(shí)別中的應(yīng)用
為提高google earth衛(wèi)星照片中目標(biāo)的識(shí)別率,創(chuàng)造性使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模式識(shí)別,其主要部分基本設(shè)計(jì)結(jié)構(gòu)如圖1所示。
圖1中,整個(gè)結(jié)構(gòu)模仿動(dòng)物的神經(jīng)結(jié)構(gòu),大量的單一識(shí)別單元被關(guān)聯(lián)成一個(gè)網(wǎng)路。 C層則是由復(fù)雜(complex)神經(jīng)元組成的神經(jīng)層,它的輸入連接是固定的,不可修改,顯示接收信心被激勵(lì)位置的近似變化。網(wǎng)絡(luò)中C層的最后一層為識(shí)別層,顯示模式識(shí)別的結(jié)果。S層為簡(jiǎn)單(simple)神經(jīng)元組成的神經(jīng)層,完成主要信息提取,其輸入連接是不是固定的,可在訓(xùn)練的過程中不斷修改。這個(gè)系統(tǒng)進(jìn)過不斷的訓(xùn)練,輸入照片的格式和大小會(huì)自動(dòng)地被識(shí)別,大大節(jié)省了前期的工作時(shí)間,提高了識(shí)別速度。
在訓(xùn)練集中同時(shí)需要常規(guī)積極樣本和消極樣本,樣本包括衛(wèi)星圖片中房屋和道路的1000個(gè)圖像目標(biāo)積極訓(xùn)練集。大多數(shù)基于學(xué)習(xí)方法的目標(biāo)物體識(shí)別使用一個(gè)大約為10?0的最小輸入窗口,好處是可以做到不遺漏任何重要信息。為了達(dá)到穩(wěn)定的效果,對(duì)所有原有的訓(xùn)練樣進(jìn)行色彩轉(zhuǎn)換和對(duì)比還原轉(zhuǎn)換,得到的積極樣本訓(xùn)練集有2400個(gè)目標(biāo)樣本。
5 實(shí)驗(yàn)結(jié)果
分兩個(gè)步驟進(jìn)行試驗(yàn),第一步對(duì)衛(wèi)星圖片進(jìn)行定位和裁剪等預(yù)處理,第二步選取合格衛(wèi)星圖片200個(gè)樣本圖片訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練后得到各層3個(gè)主要數(shù)據(jù):閾值、權(quán)值及神經(jīng)元細(xì)胞平面數(shù),然后使用優(yōu)化后的神經(jīng)網(wǎng)絡(luò)識(shí)別機(jī)對(duì)200個(gè)測(cè)試樣本進(jìn)行檢查,其正確的識(shí)別率達(dá)到97%。實(shí)驗(yàn)要注意訓(xùn)練的時(shí)間,系統(tǒng)過度訓(xùn)練后,識(shí)別率會(huì)不斷提高,但訓(xùn)練時(shí)間的不斷增加,測(cè)試失敗率到最小值后出現(xiàn)及其微細(xì)震蕩,造成識(shí)別率的小幅波動(dòng)。(見圖2)
實(shí)驗(yàn)表明,卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于衛(wèi)星圖片目標(biāo)識(shí)別是完全可行的,訓(xùn)練樣本越豐富則則識(shí)別率越高。與傳統(tǒng)模式識(shí)別方法相比有更高的識(shí)別率和抗干擾性。本文采用一種改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別機(jī)制對(duì)衛(wèi)星照片中的目標(biāo)物體進(jìn)行識(shí)別。該識(shí)別方法通過對(duì)目標(biāo)物體圖片的學(xué)習(xí),優(yōu)化了系統(tǒng)中的關(guān)鍵參數(shù)的權(quán)值。大大提高了目標(biāo)物體的識(shí)別率。
參考文獻(xiàn):
[1] 高雋.智能信息處理方法導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2004.
[2] 高雋.人工神經(jīng)網(wǎng)絡(luò)原理及仿真實(shí)例[M].北京:機(jī)械工業(yè)出版社,2003.
[3] 邊肇祺.模式識(shí)別[M].北京:清華大學(xué)出版社,1987.
關(guān)鍵詞:
手勢(shì)識(shí)別;位運(yùn)算;卷積神經(jīng)網(wǎng)絡(luò);復(fù)雜環(huán)境;膚色似然
中圖分類號(hào): TP391.413 文獻(xiàn)標(biāo)志碼:A
0引言
現(xiàn)行的手勢(shì)識(shí)別方法的主要步驟是提取精確的手勢(shì)區(qū)域,然后作形狀或者輪廓識(shí)別。提取手勢(shì)區(qū)域的方法有依賴于測(cè)距設(shè)備的方法,比如Kinect[1-2]、雙目設(shè)備[3],也有依賴于單目視覺的方法[4]。前者的主要原理是人機(jī)交互中手的位置距離傳感器應(yīng)該在一定的區(qū)間內(nèi),之后進(jìn)行距離閾值分割。而基于視覺的方法主要是確定合理的膚色閾值,進(jìn)行膚色分割和去噪,確定手勢(shì)區(qū)域或者輪廓。
這些方法雖然依賴的特征不同,但是在整體處理步驟上比較相似,都需要首先對(duì)手勢(shì)區(qū)域進(jìn)行精確的分割。方法面臨的挑戰(zhàn)主要集中在復(fù)雜環(huán)境下的手勢(shì)分割。如果希望算法在距離、光照可變的環(huán)境下表現(xiàn)出良好的魯棒性,一般會(huì)將很多非手勢(shì)的區(qū)域也識(shí)別為手勢(shì),這將增加手勢(shì)分割的難度,在復(fù)雜背景下,這一問題會(huì)更加明顯。在背景環(huán)境復(fù)雜時(shí)如果想降低手勢(shì)分割的難度,一般需要對(duì)輸入的圖像特征進(jìn)行更嚴(yán)格的提取,這同時(shí)也降低了模型的魯棒性,在光照、距離等條件變化時(shí),會(huì)出現(xiàn)丟失手勢(shì)的問題。
兩類問題相互制約,針對(duì)這一情況,研究者們把精力主要放在如何更加精準(zhǔn)地提取特征上面。用作手勢(shì)分割的特征主要集中在膚色[4]和距離[1,3],有的學(xué)者采取了將輪廓信息結(jié)合先驗(yàn)形狀來進(jìn)行更加準(zhǔn)確的分割方式來處理這一問題[5],此類方法被廣泛地用于邊緣提取領(lǐng)域,在針對(duì)小規(guī)模噪聲區(qū)域以及手勢(shì)類別較少的情況時(shí)能獲取不錯(cuò)的效果。主要問題是對(duì)于多個(gè)先驗(yàn)形狀的表達(dá)沒有特別理想的方案,在形狀增多之后,形狀項(xiàng)的作用明顯下降,這與形狀之間本身的沖突有關(guān)。更重要的一點(diǎn)是圖像分割方法一般耗時(shí)都在數(shù)秒甚至數(shù)十秒,時(shí)間復(fù)雜度上無法滿足手勢(shì)識(shí)別的需要。因?yàn)槭謩?shì)分割的運(yùn)用場(chǎng)景多為動(dòng)態(tài)場(chǎng)景,所以運(yùn)動(dòng)目標(biāo)檢測(cè)的方法也經(jīng)常用來輔助手勢(shì)分割。
現(xiàn)行手勢(shì)分割方法中最常用的是按照提取膚色特征、二值化、形態(tài)學(xué)濾波、運(yùn)動(dòng)目標(biāo)特征或者距離特征協(xié)助檢測(cè)這個(gè)過程處理[3-4]。有時(shí)還需要做人臉檢測(cè),排除人臉區(qū)域的干擾。融合了多種特征的方法在光照變化和背景擁有類似膚色的物體時(shí)仍然會(huì)出現(xiàn)不能有效分割的情形。
在手勢(shì)識(shí)別方面,Dardas等[6]提出了一種基于特征包的手勢(shì)識(shí)別方法,在識(shí)別率和計(jì)算效率上都取得了較好的結(jié)果。對(duì)于良好的手勢(shì)輪廓,Belongie等[7]提出的形狀上下文能夠得到高準(zhǔn)確率和對(duì)非剛性畸變魯棒的結(jié)果。矩特征,指尖等手勢(shì)的幾何特征[1]也經(jīng)常被用作為手勢(shì)識(shí)別的特征。卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)獲取特征,在處理靜態(tài)圖片時(shí)表現(xiàn)出了非常高的準(zhǔn)確率,同時(shí)對(duì)噪聲以及各種形變魯棒。
本文提出一種新的方法來解決手勢(shì)識(shí)別中魯棒性和算法復(fù)雜性之間的矛盾。該方法第1步使用二進(jìn)制運(yùn)算實(shí)現(xiàn)的支持向量機(jī)(Support Vector Machine, SVM)分類器并用位運(yùn)算代替滑動(dòng)窗口,快速提取出多個(gè)可能的備選區(qū)域。第2步使用卷積神經(jīng)網(wǎng)絡(luò)來完成手勢(shì)的再判定與識(shí)別工作。文中算法的實(shí)現(xiàn)方式非常關(guān)鍵,直接關(guān)系模型的運(yùn)算效率。第1步中使用的分類器為線性SVM模型,需要在支持64位整型機(jī)器的環(huán)境下使用二進(jìn)制運(yùn)算的方式實(shí)現(xiàn),在執(zhí)行效率上相對(duì)于基于滑動(dòng)窗口的算法有著100倍左右的提升[8]。第2步使用的分類器為卷積神經(jīng)網(wǎng)絡(luò),在實(shí)現(xiàn)上使用了統(tǒng)一計(jì)算設(shè)備架構(gòu)(Compute Unified Device Architecture, CUDA)進(jìn)行卷積運(yùn)算的加速,能獲得10倍左右的加速比[9]。
1手勢(shì)區(qū)域提取
本文手勢(shì)區(qū)域提取的方法不要求精確提取手勢(shì)輪廓或者鎖定備選框。該方法核心思想是用最短的時(shí)間排除掉絕大部分的搜索區(qū)域,剩下無法判斷的區(qū)域結(jié)合其他方法進(jìn)行處理。
方法本身并不依賴于特定特征,所有能夠用來排除大量備選區(qū)域的特征均可以使用,比如通過測(cè)距設(shè)備獲取的距離似然特征,使用視覺設(shè)備獲取的膚色似然特征。因?yàn)槟w色似然特征對(duì)于硬件的要求更低,本文選擇膚色似然特征進(jìn)行實(shí)驗(yàn)。
1.1獲取膚色特征
本文使用橢圓模型提取膚色似然區(qū)域[10-11]。首先將膚色變換到Y(jié)CbCr空間,橢圓膚色模型認(rèn)為膚色在Cr和Cb分量組成的空間里的分布集中在一個(gè)橢圓區(qū)域內(nèi)。該橢圓中心點(diǎn)坐標(biāo)為(155.6,103),長短軸比例為1∶1.6,旋轉(zhuǎn)角度為43°。式(1)描述了Cr和Cb組成的空間中的像素點(diǎn)距離橢圓中心的距離,也可以理解成是膚色的概率。該值恒大于0,最大值為255,標(biāo)準(zhǔn)差系數(shù)為σ2。可以通過調(diào)整標(biāo)準(zhǔn)差系數(shù)σ2來控制膚色判斷的嚴(yán)格程度,不同σ2下的分割效果如圖1所示。不同的標(biāo)準(zhǔn)差系數(shù)對(duì)于膚色區(qū)域的判斷影響十分明顯。當(dāng)σ2較小時(shí)提取區(qū)域判斷為膚色的區(qū)域很小,此時(shí)真實(shí)的手勢(shì)區(qū)域可能被誤檢成非手勢(shì)區(qū)域;當(dāng)σ2增大時(shí),膚色似然圖中判斷為膚色的區(qū)域會(huì)一直增加,此時(shí)膚色似然圖中被誤檢為膚色的區(qū)域也會(huì)增加。
光照變化和膚色的多樣性會(huì)影響膚色似然特征的計(jì)算。針對(duì)光照變化以及膚色變化的情況。有以下方法可以改善:
方法1使用對(duì)光照魯棒的特征,比如距離似然特征。
方法2使用較大的標(biāo)準(zhǔn)差系數(shù)σ2,后面提取區(qū)域的過程中使用較多的備選框以提高召回率。
方法3使用迭代的方法調(diào)整橢圓模型的中心坐標(biāo)和標(biāo)準(zhǔn)差系數(shù),方法3一般用于光照連續(xù)變化場(chǎng)景,比如視頻流的處理。
1.2膚色似然特征與手勢(shì)區(qū)域檢測(cè)
獲取膚色似然圖之后,下一步需要計(jì)算似然圖中的手勢(shì)區(qū)域。手勢(shì)區(qū)域和非手勢(shì)區(qū)域在8×8膚色似然圖下有著明顯的差別,如圖2所示。這一步的思路是使用滑動(dòng)窗口的方法,對(duì)膚色似然圖進(jìn)行遍歷。因?yàn)樽罱K需要處理是在遍歷的過程中將窗口中的膚色似然圖像作為手勢(shì)區(qū)域分類器的輸入,得到一個(gè)“窗口值”,用來確定是否為備選窗口。
考慮到手勢(shì)識(shí)別應(yīng)用場(chǎng)景多為人機(jī)交互,手勢(shì)的長寬比固定,不會(huì)被人為拉伸,所以選用“正方形”滑動(dòng)窗口;并且手勢(shì)區(qū)域在整幅圖像中所占比例會(huì)有所變化但變化幅度不大,所以不用設(shè)定太多不同尺度的滑動(dòng)窗口。在此處設(shè)定4個(gè)不同尺度的手勢(shì)區(qū)域48×48、64×64、80×80、96×96用以檢測(cè)不同大小的手勢(shì)。
為了保證滑動(dòng)窗口的大小始終為8×8,將膚色似然圖調(diào)整為不同的尺度,以尺度為360×240的膚色似然圖為例,當(dāng)手勢(shì)區(qū)域大小由48×48調(diào)整為8×8時(shí),膚色似然圖的長寬也對(duì)應(yīng)變化原圖的1/6,變?yōu)?0×40。大小為的64×64、80×80、96×96的手勢(shì)區(qū)域所對(duì)應(yīng)的調(diào)整后的膚色似然圖尺度分別為45×30、36×24、30×20,如圖2(d)所示。
在分類器的選擇上選用的是線性SVM分類器[12]。實(shí)驗(yàn)正樣例選取的均為人工標(biāo)記的手勢(shì)區(qū)域的膚色似然圖,在選取正樣例的過程中可以先使用少量樣本訓(xùn)練一個(gè)線性SVM分類器,然后使用該分類器進(jìn)行樣本初篩,之后再人工調(diào)整。負(fù)樣例是在正樣例以外的區(qū)域中隨機(jī)選取。正負(fù)樣本均需要進(jìn)行歸一化處理,處理成為8×8的區(qū)域。“窗口值”表示SVM系數(shù)矩陣和8×8的內(nèi)積。“窗口值”的計(jì)算過程如式(2)所示:
s=〈w,x〉;w∈R8×8,x∈{0,1,…,255}8×8(2)
其中:w為權(quán)值矩陣;x為膚色似然圖的像素值,如圖2(c)所示;s為滑動(dòng)窗口的“窗口值”。
1.3BISL二進(jìn)制膚色似然特征
為了加速滑動(dòng)窗口的計(jì)算,本文借鑒了文獻(xiàn)[8]中一般物體識(shí)別時(shí)用到的方法,使用64位整型表示8×8的二進(jìn)制矩陣,并且使用一些列的位運(yùn)算操作來實(shí)現(xiàn)加速[13-14]。二進(jìn)制膚色似然特征(Binary Skin LikeHood, BISL)特征,是將膚色似然特征使用多個(gè)64位整型表示之后形成的特征。
1.3.1近似參數(shù)矩陣w
線性模型矩陣w∈R8×8可以使用文獻(xiàn)[13]中的算法1對(duì)其進(jìn)行近似可得w≈∑Nwj=1βjaj。其中:Nw代表基向量的個(gè)數(shù);aj∈{-1,1}8×8代表基向量; βj∈R代表相應(yīng)基向量的系數(shù)。
算法1使用二進(jìn)制方法近似w。
程序前
輸入:w,Nw。
輸出:{βj}Nwj=1,{aj}Nwj=1。
初始化殘差:ε=w
for j=1 to Nw do
aj=sign(ε)
βj=〈aj,ε〉/aj2(將殘差ε映射到aj上)
ε=ε-βjaj(更新殘差)
end for
程序后
1.3.2處理輸入矩陣x
本文截取x的高Nx位近似x(如圖3(a)),x可以由BISL特征表示成如下形式:
x=∑Nxk=128-kbk(5)
其中:x∈{0,1,…,255}8×8,bk∈{0,1}8×8。
算法2對(duì)區(qū)域獲取BISL特征。
參數(shù)含義:bx,y∈{0,1}8×8,rx,y∈{0,1}8,bx,y∈{0,1}。
程序前
輸入:膚色似然圖的二進(jìn)制值bW×H。
輸出:BISL特征組成的矩陣bW×H。
初始值:bW×H=0,rW×H=0
for each position(x,y) in scanline order do
rx,y=(rx-1,y
bx,y=(bx,y-1
end for
程序后
通常來說,獲取8×8的BISL特征需要遍歷64個(gè)位置。Cheng等[8]巧妙地利用了64位整型的特點(diǎn),在算法2中使用了“按位或”和“移位”操作避免了循環(huán)。首先BISL特征bx,y和它的最后一行rx,y分別使用一個(gè)INT64變量和一個(gè)byte變量存儲(chǔ)。然后相鄰的BISL特征有重復(fù)的部分,可以通過左移8位操作保留重復(fù)的部分并給不同的部分騰出空間,將騰出的這8位的空間與新的byte變量進(jìn)行“按位與”,就獲取了新的BISL特征。相鄰的byte變量的獲取過程與之類似。
綜合式(4)和(5)可以得到由BISL特征和分類器參數(shù)計(jì)算出窗口值:
s≈∑Nwj=1βj∑Nxk=1Cj,k(6)
其中Cj,k=28-k(2〈a+j,bk,l〉-bk,l)。
將窗口值topk的窗口作為候選窗口,進(jìn)行進(jìn)一步的識(shí)別。k的取值由實(shí)驗(yàn)環(huán)境確定,k越大,手勢(shì)檢測(cè)模型召回率越高,進(jìn)一步識(shí)別的時(shí)間復(fù)雜度也會(huì)增加。
2使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢(shì)識(shí)別
本章所提輸入是手勢(shì)檢測(cè)部分所得到的窗口值排名前k的候選窗口,這些窗口區(qū)域都是在上一步被判定為極有可能為手勢(shì)的區(qū)域,所以本章中需要使用更為復(fù)雜的特征和更強(qiáng)的分類模型來處理這個(gè)問題。卷積神經(jīng)網(wǎng)絡(luò)和一般的神經(jīng)網(wǎng)絡(luò)相比,具有權(quán)值共享、局部感知等特點(diǎn)[15-16],充分地利用了輸入值的空間關(guān)系信息,并且容易使用硬件加速[9]。綜合考慮模型的分類能力、魯棒性以及識(shí)別效率等因素,本文使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢(shì)識(shí)別。
2.1樣本、特征以及網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本是根據(jù)手勢(shì)檢測(cè)步驟中得到的窗口值topk 8×8窗口計(jì)算出來的。在確定窗口值topk 8×8窗口時(shí),記錄下這k個(gè)窗口在對(duì)應(yīng)的膚色似然圖中的坐標(biāo)。根據(jù)這個(gè)坐標(biāo)計(jì)算出原圖像所對(duì)應(yīng)的窗口坐標(biāo)。這個(gè)過程可以看作是根據(jù)圖2(c)中的8×8窗口位置來獲取圖2(a)中對(duì)應(yīng)尺度的窗口圖像位置,進(jìn)而獲得窗口圖像。在獲取窗口圖像后,本文將備選窗口圖像大小調(diào)整為29×29,然后計(jì)算它的膚色似然圖,得到29×29的膚色似然圖作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。卷積神經(jīng)網(wǎng)絡(luò)的特征選擇可以有很多,比如窗口的灰度圖、梯度特征、局部二進(jìn)制特征。選用29×29的膚色似然圖的原因是膚色似然圖在膚色檢測(cè)的過程中已經(jīng)計(jì)算過一遍,不需要再重復(fù)計(jì)算。訓(xùn)練樣本一共分為10類,6個(gè)備選手勢(shì)類,4個(gè)錯(cuò)誤類。這里設(shè)計(jì)4個(gè)錯(cuò)誤類的原因是因?yàn)樵谑謩?shì)區(qū)域提取的過程中,被錯(cuò)分成手勢(shì)區(qū)域的候選框是有著明顯的特點(diǎn)的。主要的幾類情況是識(shí)別到手勢(shì)邊緣,識(shí)別到手勢(shì)中心,識(shí)別到非手勢(shì)區(qū)域,可以參考圖2(b)的情形。在網(wǎng)絡(luò)設(shè)計(jì)的時(shí)候需要重點(diǎn)關(guān)注這些錯(cuò)誤的情形,實(shí)驗(yàn)發(fā)現(xiàn),將所有的錯(cuò)誤情形視為1類的模型識(shí)別率要低于將錯(cuò)誤情形分成4類的模型。將錯(cuò)誤情形分為4類的卷積神經(jīng)網(wǎng)絡(luò)一共有10個(gè)輸出節(jié)點(diǎn),其中6個(gè)代表6種不同的手勢(shì),另外4個(gè)代表4類典型的錯(cuò)誤。需要注意的是,在計(jì)算模型準(zhǔn)確率的時(shí)候并不將4類錯(cuò)誤加以區(qū)分。假定4類錯(cuò)誤分別為錯(cuò)誤1、錯(cuò)誤2、錯(cuò)誤3、錯(cuò)誤4,將錯(cuò)誤1識(shí)別成了錯(cuò)誤2,仍然認(rèn)為模型判斷正確。
為了使樣本具有平移和小幅度旋轉(zhuǎn)的魯棒性,對(duì)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本進(jìn)行了一些平移和旋轉(zhuǎn)上的擴(kuò)展。考慮到手勢(shì)與手寫字符的區(qū)別,本文并沒有進(jìn)行彈性形變擴(kuò)展。整個(gè)卷積網(wǎng)絡(luò)的結(jié)構(gòu)如圖4所示。
本文參照文獻(xiàn)[15]中提到的方法來設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)包含兩個(gè)卷積層:第1層用來提取一些類似于邊緣、角點(diǎn)、交線的底層圖像特征;第2個(gè)卷積層以這些特征為基礎(chǔ)生成更加復(fù)雜的特征。兩個(gè)下采樣層均按照2×2的因子進(jìn)行最大池化,卷積核的大小定為5×5,第1個(gè)卷積層有5個(gè)卷積核,第2個(gè)卷積層有10個(gè)卷積核。光柵化之后采用兩層全相連多層感知機(jī)結(jié)構(gòu),隱層單元數(shù)量設(shè)定為100個(gè),最后針對(duì)多分類問題,使用softmax設(shè)置10個(gè)輸出節(jié)點(diǎn)。
2.2卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算過程
本文使用的卷積神經(jīng)網(wǎng)絡(luò)主要參照文獻(xiàn)[17]中提到的算法實(shí)現(xiàn)。下面主要針對(duì)卷積層和下采樣層的正向計(jì)算和反向傳播計(jì)算進(jìn)行討論。
2.2.1正向計(jì)算
2.2.2反向傳播
3實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)平臺(tái)為Intel Core i74702MQ 2.2GHz, 4GB RAM, NVIDIA GeForce GTX 760M。CPU支持POPCNT命令,顯卡支持CUDA平臺(tái),操作系統(tǒng)為Windows 8 Pro 64位。
3.1手勢(shì)檢測(cè)部分
手勢(shì)檢測(cè)部分所采用的數(shù)據(jù)集是Sebastien Marcel Static Hand Posture Database數(shù)據(jù)集,數(shù)據(jù)集包含10個(gè)人的6種手勢(shì)(a,b,c,point,five,v)(A,B,C,Point(P),F(xiàn)ive(F),V),總共接近5000個(gè)樣本(如圖5)。
實(shí)驗(yàn)對(duì)簡(jiǎn)單環(huán)境和復(fù)雜環(huán)境分別取100張測(cè)試圖片進(jìn)行測(cè)試(如圖6)。在實(shí)驗(yàn)中發(fā)現(xiàn),在簡(jiǎn)單環(huán)境下,直接獲取“窗口值”最大的窗口作為備選區(qū)域即可。在光照變化和背景復(fù)雜的情況下,“窗口值”大小前4的窗口已經(jīng)可以覆蓋所有的實(shí)際手勢(shì)區(qū)域,即達(dá)到100%的召回率(如表1)。
實(shí)驗(yàn)對(duì)比了基于滑動(dòng)窗口方法實(shí)現(xiàn)手勢(shì)檢測(cè)、多模板匹配外加人臉排除以及本文的手勢(shì)檢測(cè)方法的運(yùn)算速度。在3種不同尺寸的樣本中分別取1000張測(cè)試圖片進(jìn)行測(cè)試,結(jié)果如表2所示。
3.2手勢(shì)識(shí)別部分
手勢(shì)識(shí)別部分的樣本來源于手勢(shì)檢測(cè)部分的結(jié)果。數(shù)據(jù)一共分為10類,除了6個(gè)手勢(shì)類之外,還設(shè)定4個(gè)錯(cuò)誤類。4類錯(cuò)誤分別命名為E1、E2、E3、E4。其中:E1代表識(shí)別到手勢(shì)中心;E2代表識(shí)別到手勢(shì)邊緣;E3代表識(shí)別到非手勢(shì)干擾區(qū);E4代表除E3之外的弱干擾區(qū),如圖7所示。
因?yàn)?0類的訓(xùn)練樣本數(shù)量有一定的差異。其中最多的手勢(shì)Point有1395個(gè)樣本,最少的V有435個(gè)樣本。錯(cuò)誤類樣本中總量為1216個(gè),其中E1 178個(gè),E2 81個(gè),E3 943,E4 14個(gè),這個(gè)具體數(shù)量與手勢(shì)檢測(cè)所設(shè)定的備選窗口數(shù)量有關(guān)以及選擇的輸入圖片有關(guān),可以調(diào)整,本文實(shí)驗(yàn)中備選窗口數(shù)量設(shè)為4,輸入圖片中背景復(fù)雜的一共有473張。在樣本不平衡的情況下所訓(xùn)練出卷積神經(jīng)網(wǎng)絡(luò)模型測(cè)試準(zhǔn)確率為93%左右。對(duì)樣本進(jìn)行抽樣和擴(kuò)展,擴(kuò)展方法如下。
1)對(duì)于6個(gè)手勢(shì)類,在每個(gè)類的訓(xùn)練集中隨機(jī)抽取350張樣本,對(duì)抽取的圖片在隨機(jī)方向上進(jìn)行1到2個(gè)像素的平移得到另外350個(gè)樣本,每一類總共會(huì)得到700個(gè)樣本。
2)對(duì)于錯(cuò)誤類E1,首先對(duì)訓(xùn)練集進(jìn)行4次隨機(jī)方向上1到2個(gè)像素的平移,每一次都會(huì)得到一個(gè)新的訓(xùn)練樣本,最后進(jìn)行隨機(jī)抽樣,每類選擇700個(gè)樣本。
3)對(duì)于錯(cuò)誤類E2,首先對(duì)訓(xùn)練集進(jìn)行10次隨機(jī)方向上1到2個(gè)像素的平移,每一次都會(huì)得到一個(gè)新的訓(xùn)練樣本,最后進(jìn)行隨機(jī)抽樣,每類選擇700個(gè)樣本。
4)對(duì)于錯(cuò)誤類E3,直接進(jìn)行隨機(jī)抽樣,每類選擇700個(gè)樣本。
5)對(duì)于錯(cuò)誤類E4,將樣本復(fù)制50次,獲取700個(gè)樣本。
擴(kuò)展后的訓(xùn)練集有6000張訓(xùn)練樣本,測(cè)試集有1000個(gè)樣本。手勢(shì)識(shí)別的結(jié)果如表3所示,在手勢(shì)識(shí)別部分修正后的準(zhǔn)確率為96.1%,空格部分代表0,4個(gè)錯(cuò)誤類準(zhǔn)確率計(jì)算方式在2.1節(jié)有說明。
圖8對(duì)比了本文算法和其他算法的性能,當(dāng)訓(xùn)練樣本大于100時(shí),本文算法和特征包算法的準(zhǔn)確率相近。算法的運(yùn)行效率明顯高于特征包(Bag of Features, BoF)算法,如表4所示,平均識(shí)別時(shí)間表示的是手勢(shì)識(shí)別算法對(duì)單一“窗口”圖像的計(jì)算時(shí)間,整體計(jì)算時(shí)間包含了手勢(shì)檢測(cè)和手勢(shì)識(shí)別兩個(gè)部分以及一些預(yù)處理環(huán)節(jié),基于特征包的兩類算法對(duì)應(yīng)的手勢(shì)檢測(cè)方法采用的是對(duì)模板匹配和人臉排除,本文的算法是采用位運(yùn)算支持向量機(jī)和CUDA卷積神經(jīng)網(wǎng)絡(luò)。CUDA卷積神經(jīng)網(wǎng)絡(luò)處理29×29大小的圖片用時(shí)約為0.001s。手勢(shì)識(shí)別過程中,因?yàn)榉指钏惴ㄇ蟮玫氖?個(gè)備選窗口,所以識(shí)別過程中需要識(shí)別4個(gè)窗口,對(duì)一幅輸入圖像而言手勢(shì)檢測(cè)和識(shí)別總用時(shí)約為0.013s。
實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠在光照變化、背景復(fù)雜的情況下依然保持高準(zhǔn)確率和良好的運(yùn)算效率。
4結(jié)語
本文提出了一種新型的手勢(shì)識(shí)別方法,與傳統(tǒng)的手勢(shì)識(shí)別方法相比,本文方法利用位運(yùn)算代替滑動(dòng)窗口,在數(shù)微秒的時(shí)間內(nèi)將備選窗口數(shù)量由千萬級(jí)別縮減到個(gè)位數(shù)。獲取備選區(qū)域之后使用基于CUDA的卷積神經(jīng)網(wǎng)絡(luò)對(duì)備選區(qū)域進(jìn)行細(xì)分和識(shí)別。在實(shí)際的計(jì)算過程中可以通過硬件優(yōu)化得到100至1000倍的加速比。本文方法僅僅通過膚色似然特征就在Marcel數(shù)據(jù)集上得到了96%左右的準(zhǔn)確率。本文提出的方法主要解決了魯棒性和計(jì)算復(fù)雜度的矛盾,并且方法所使用的特征可以使用其他的特征替換,這使得模型具有良好的可擴(kuò)展性。
本文方法的局限性主要體現(xiàn)在對(duì)特征提取的召回率有要求,如果完全沒辦法提取到特征,本文的方法會(huì)失效。另外,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練耗時(shí)長,網(wǎng)絡(luò)設(shè)計(jì)依賴經(jīng)驗(yàn),在更加復(fù)雜的分類上,卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的設(shè)計(jì)也會(huì)更加困難。
參考文獻(xiàn):
[1]
談家譜,徐文勝.基于Kinect的指尖檢測(cè)與手勢(shì)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2015,35(6):1795-1800.(TAN J P, XU W S. Fingertip detection and gesture recognition method based on Kinect [J]. Journal of Computer Applications, 2015, 35(6): 1795-1800.)
[2]
NEWCOMBE R A, IZADI S, HILLIGES O, et al. KinectFusion: realtime dense surface mapping and tracking [C]// Proceedings of the 2011 IEEE International Symposium on Mixed and Augmented Reality. Washington, DC: IEEE Computer Society, 2011: 127-136.
[3]
譚同德,郭志敏.基于雙目視覺的人手定位與手勢(shì)識(shí)別系統(tǒng)研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(1):259-264.(TAN T D, GUO Z M. Research on location and gesture recognition of hand based on binocular stereovision [J]. Computer Engineering and Design, 2012 33(1): 259-264.)
[4]
WACHS J P, KLSCH M, STERN H, et al. Visionbased handgesture applications [J] Communications of the ACM, 2011, 54(2): 60-70.
[5]
SAMUEL D, RATHI Y, A. TANNENBAUM A. A framework for image segmentation using shape models and kernel space shape priors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(8): 1385-1399.
[6]
DARDAS N H, GEORGANAS N D. Realtime hand gesture detection and recognition using bagoffeatures and support vector machine techniques [J]. IEEE Transactions on Instrumentation & Measurement, 2011, 60(11): 3592-3607.
[7]
BELONGIE S, MALIK J, PUZICHA J. Shape matching and object recognition using shape contexts [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 509-522.
[8]
CHENG M M, ZHANG Z M, LIN W Y. BING: binarized normed gradients for objectness estimation at 300fps [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 3286-3293.
[9]
STRIGL, KOFLER K, PODLIPNIG S. Performance and scalability of GPUbased convolutional neural networks [C]// Proceedings of the 2010 18th Euromicro Conference on Parallel, Distributed and Networkbased Processing. Piscataway, NJ: IEEE, 2010: 317-324.
[10]
BOJIC N, PANG K. Adaptive skin segmentation for head and shoulder video sequences [C]// Visual Communications and Image Processing 2000. Bellingham, WA: SPIE, 2000: 704-711.
[11]
KOVAC J, PEER P, SOLINA F. Human skin color clustering for face detection [C]// IEEE Region 8 EUROCON 2003. Computer as a Tool. Piscataway, NJ: IEEE, 2003, 2: 144-148.
[12]
FAN R E, CHANG K W, HSIEH C J, et al. Liblinear: a library for large linear classification [J]. Journal of Machine Learning Research, 2008, 9(12): 1871-1874.
[13]
HARE S, SAFFARI A, TORR P H S. Efficient online structured output learning for keypointbased object tracking [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 1894-1901.
[14]
ZHENG S, STURGESS P, TORR P H S. Approximate structured output learning for constrained local models with application to realtime facial feature detection and tracking on lowpower devices [C]// Proceedings of the 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway, NJ: IEEE, 2013: 1-8.
[15]
SIMARD P Y, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// Proceedings of the Seventh International Conference on Document Analysis and Recognition. Washington, DC: IEEE Computer Society, 2003: 958-963.
[16]
LECUN Y, BOSER B, DENKER J S, et al. Handwritten digit recognition with a backpropagation network [M]// Advances in Neural Information Processing Systems 2. San Francisco: Morgan Kaufmann, 1990: 396-404.
關(guān)鍵詞:Deep Learning;多隱含層感知;DropConnect;算法
中圖分類號(hào):TP181
Deep Learning是機(jī)器學(xué)習(xí)研究的新領(lǐng)域,它掀起了機(jī)器學(xué)習(xí)領(lǐng)域的第二次浪潮,并受到學(xué)術(shù)界到工業(yè)界高度重視。Deep Learning概念根源于人工神經(jīng)網(wǎng)絡(luò)[3],它由Geoffrey Hinton等在Science上提出。它致力于建立模擬人腦分析學(xué)習(xí)機(jī)制的多層次神經(jīng)網(wǎng)絡(luò),并通過這種網(wǎng)絡(luò)分析解釋數(shù)據(jù),如視頻、文本和聲音等。Deep Learning的多隱含層使得它具有優(yōu)異的特征學(xué)習(xí)能力,而且學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類。它的“逐層初始化”(layer-wise pre-training[4])可以有效克服深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度。本文在對(duì)Deep Learning算法分析的基礎(chǔ)上,著重闡述了對(duì)Regularization of Neural Networks using DropConnect模型的改進(jìn)。
1 Deep Learning算法分析
1.1 Deep Learning多隱含層感知架構(gòu)
Deep Learning算法最優(yōu)秀特征是多隱含層感知器架構(gòu),這種架構(gòu)通過組合低層特征來形成更加抽象的高層屬性類別或特征,并實(shí)現(xiàn)對(duì)數(shù)據(jù)分布式表示。Deep Learning的多隱含層結(jié)構(gòu)是由輸入層、隱層(多層)、輸出層組成的多層網(wǎng)絡(luò)(如圖1所示),只有相鄰層神經(jīng)元之間有連接,同一層以及跨層節(jié)點(diǎn)之間相互無連接,每一層可以看作是一個(gè)淺層機(jī)器學(xué)習(xí)模型(如logistic regression,Support Vector Machines)。
圖1 含多個(gè)隱含層的Deep Learning模型
Deep Learning的多隱含層感知結(jié)構(gòu)模擬的是人腦的大腦皮層工作。人大腦皮層計(jì)算也是分多層進(jìn)行[5],例如圖像在人腦中是分多個(gè)階段處理,首先是進(jìn)入大腦皮層V1區(qū)提取邊緣特征,然后進(jìn)入大腦皮層V2區(qū)抽象成圖像的形狀或者部分,再到更高層,以此類推。高層的特征是由底層組合而成。使用含多隱含層感知器架構(gòu)網(wǎng)絡(luò)主要優(yōu)勢(shì)在于它能以更簡(jiǎn)潔的方式表達(dá)比淺層網(wǎng)絡(luò)大得多的函數(shù)關(guān)系(如圖2)。通過這種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),Deep Learning可以實(shí)現(xiàn)復(fù)雜函數(shù)的逼近,表征輸入數(shù)據(jù)的分布式表示,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。
圖2 多層次實(shí)現(xiàn)復(fù)雜函數(shù)圖
1.2 Deep Learning訓(xùn)練過程
(1)首先逐層構(gòu)建單層神經(jīng)元,使得每次都是訓(xùn)練一個(gè)單層網(wǎng)絡(luò)。
(2)當(dāng)所有層訓(xùn)練完后,使用Wake-Sleep算法[6]進(jìn)行調(diào)優(yōu)。
將除最頂層的其它層間的權(quán)重是雙向的。向上的權(quán)重用于“認(rèn)知”,向下的權(quán)重用于“生成”。然后使用Wake-Sleep算法調(diào)整所有的權(quán)重。讓“認(rèn)知”和“生成”達(dá)成一致,也就是保證生成的最頂層表示能夠盡可能正確的復(fù)原底層的結(jié)點(diǎn)。
1.3 Deep Learning數(shù)據(jù)處理一般過程
Deep Learning算法通過傳感器等方式獲得數(shù)據(jù)之后,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。在數(shù)據(jù)預(yù)處理中,標(biāo)準(zhǔn)的第一步是數(shù)據(jù)歸一化處理,第二步是數(shù)據(jù)白化處理(如PCA白化和ZCA白化)。其次特征提取和特征選擇。然后將輸出作為下層的輸入,不斷進(jìn)行特征提取和特征選擇,直到學(xué)習(xí)到合符要求的最佳特征。在特征提取和特征選擇過程中,常用自動(dòng)編碼、稀疏編碼、聚類算法、限制波爾茲曼機(jī)、卷積神經(jīng)網(wǎng)絡(luò)等算法進(jìn)行特征提取和特征選擇。然后用反向傳播算法、隨機(jī)梯度下降算法、批量梯度下降算法等進(jìn)行調(diào)優(yōu)處理,再用池化等算法避免特征過度擬合,從而得到最終提取特征。最后將學(xué)習(xí)到的最終提取特征輸入到分類器(如softmax分類器,logistic回歸分類器)進(jìn)行識(shí)別、推理或預(yù)測(cè)。
2 基于Regularization of Neural Networks using DropConnect模型改進(jìn)
2.1 Regularization of Neural Networks using DropConnect模型[2]
該模型的四個(gè)基本組成成分是:
(1)特征提取:v=g(x;Wg)。x是輸入層的輸入數(shù)據(jù),Wg是特征提取函數(shù)的參數(shù),v是輸出的提取特征,特征提取函數(shù)g()。其中g(shù)()為多層卷積神經(jīng)網(wǎng)絡(luò)算法函數(shù),而Wg卷積神經(jīng)網(wǎng)絡(luò)的偏值。
(2)DropConnect層:r=a(u)=a((M*W)v)如圖3。v是輸出的提取特征,W是完全連接的權(quán)重矩陣,M是二進(jìn)制掩碼矩陣,該矩陣的每個(gè)元素隨機(jī)的以1-p概率設(shè)置為0或以p概率設(shè)置為1,a()是一個(gè)非線性激活函數(shù),r是輸出向量。M*W是矩陣對(duì)應(yīng)元素相乘。
(3)Softmax分類器層:o=s(r;Ws)。將r映射到一個(gè)k維的輸出矩陣(k是類的個(gè)數(shù)),Ws是softmax分類函數(shù)的參數(shù)。
(4)交叉熵?fù)p失:A(y,o)=-∑yi(oi),i∈1,2,3…k。y是標(biāo)簽,o是概率。
圖3 DropConnect示意圖
2.2 模型改進(jìn)描述和分析
對(duì)DropConnect模型的改進(jìn)主要集中在上面它的四個(gè)基本組成成分中的DropConnect層。由于該層以隨機(jī)方式讓掩碼矩陣M的每個(gè)元素Mij按1-p的概率設(shè)置為0,然后讓掩碼矩陣與層間的權(quán)重矩陣對(duì)應(yīng)相乘即M*W。相對(duì)DropOut模型r=a((M*(Wv))得到的特征,r=a((M*W)v)得到的特征是比較好的特征r,同時(shí)也提高算法的泛化性。因?yàn)镈ropconnect模型在權(quán)重W和v運(yùn)算之前,將權(quán)重以一定的概率稀疏了,從運(yùn)行結(jié)果看整體算法的錯(cuò)誤率降低了。但是,由于是隨機(jī)的讓Mij按1-p的概率為0,并且這種隨機(jī)是不可以預(yù)測(cè)的,故可能會(huì)導(dǎo)致某些重要特征對(duì)應(yīng)的權(quán)重被屏蔽掉,最終造成輸出ri的準(zhǔn)確性降低。故就此提出了新的設(shè)計(jì)思想。
改進(jìn)思想是用單層稀疏編碼層代替DropConnect層,通過稀疏編碼訓(xùn)練出一組最佳稀疏的特征。具體描述:讓經(jīng)過多層卷積神經(jīng)網(wǎng)絡(luò)提取到的特征v作為稀疏編碼的輸入,經(jīng)過稀疏編碼重復(fù)訓(xùn)練迭代,最終得到最佳的稀疏的特征r。因?yàn)橄∈杈幋a算法是一種無監(jiān)督學(xué)習(xí)方法,用它可以尋找出一組“超完備”基向量來更高效地表示輸入數(shù)據(jù)。
總之任何對(duì)Deep Learning算法的改進(jìn),都是為了提取出最佳特征,并使用優(yōu)秀的分類算法來分類、預(yù)測(cè)或推理,最終降低算法的錯(cuò)誤率。而對(duì)于怎樣改進(jìn)算法,以何種方式降低錯(cuò)誤率,則沒有具體的限制。并且各種提取特征和特征選擇的算法之間并不是互斥的,它們之間可以有各種形式的嵌套,最終的目標(biāo)都是提高算法的正確率和效率。
3 結(jié)束語
Deep Learning使得語音、圖像和文本等的智能識(shí)別和理解取得驚人進(jìn)展,如Google Brain項(xiàng)目和微軟推同聲傳譯系統(tǒng)。它極大地推動(dòng)了人工智能和人機(jī)交互快速發(fā)展。隨著從學(xué)術(shù)界到工業(yè)界的廣泛重視,Deep Learning算法的改進(jìn)依然在繼續(xù),Deep Learning算法的正確率和效率仍在不斷提高。Deep Learning的發(fā)展將加快“大數(shù)據(jù)+深度模型”時(shí)代來臨。
參考文獻(xiàn):
[1]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006(5786):504-507
[2]湯姆?米切爾.機(jī)器學(xué)習(xí)[M].北京:機(jī)械工業(yè)出版社,2003:1-280.
[3]吳昌友.神經(jīng)網(wǎng)絡(luò)的研究及應(yīng)用[D].哈爾濱:東北農(nóng)業(yè)大學(xué),2007.
[4]HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets[J].Neural Computation,2006(07):1527-1554.
[5]Hubel D H, Wiesel T N. Receptive fields,binocular interaction and functional architecture in the cat's visual cortex[J].The Journal of physiology,1962(01):106.
[6]Chuang Gao,Bin Chen,Wei Wei.Dynamic detection of wake-sleep transition with reaction time-magnitude[J].Neural Regenerattion Research,2009(07):552-560.
關(guān)鍵詞:人機(jī)大戰(zhàn);人工智能;發(fā)展前景
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
0.引言
2016年3月15日,備受矚目的“人機(jī)大戰(zhàn)”終于落下帷幕,最終Google公司開發(fā)的“AlphaGo”以4∶1戰(zhàn)勝了韓國九段棋手李世h。毫無疑問,這是人工智能歷史上一個(gè)具有里程碑式的大事件。大家一致認(rèn)為,人工智能已經(jīng)上升到了一個(gè)新的高度。
這次勝利與1997年IBM公司的“深藍(lán)”戰(zhàn)勝國際象棋世界冠軍卡斯帕羅不同。主要表現(xiàn)在兩個(gè)方面:
(1)AlphaGo的勝利并非僅僅依賴強(qiáng)悍的計(jì)算能力和龐大的棋譜數(shù)據(jù)庫取勝,而是AlphaGo已經(jīng)擁有了深度學(xué)習(xí)的能力,能夠?qū)W習(xí)已經(jīng)對(duì)弈過的棋盤,并在練習(xí)和實(shí)戰(zhàn)中不斷學(xué)習(xí)和積累經(jīng)驗(yàn)。
(2)圍棋比國際象棋更加復(fù)雜,圍棋棋盤有361個(gè)點(diǎn),其分支因子無窮無盡,19×19格圍棋的合法棋局?jǐn)?shù)的所有可能性是冪為171的指數(shù),這樣的計(jì)算量相當(dāng)巨大。英國圍棋聯(lián)盟裁判托比表示:“圍棋是世界上最為復(fù)雜的智力游戲,它簡(jiǎn)單的規(guī)則加深了棋局的復(fù)雜性”。因此,進(jìn)入圍棋領(lǐng)域一直被認(rèn)為是目前人工智能的最大挑戰(zhàn)。
簡(jiǎn)而言之,AlphaGo取得勝利的一個(gè)很重要的方面就是它擁有強(qiáng)大的“學(xué)習(xí)”能力。深度學(xué)習(xí)是源于人工神經(jīng)網(wǎng)絡(luò)的研究,得益于大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)。本文就從人工智能的發(fā)展歷程與現(xiàn)狀入手,在此基礎(chǔ)上分析了人工智能的未來發(fā)展前景。
1.人工智能的發(fā)展歷程
AlphaGo的勝利表明,人工智能發(fā)展到今天,已經(jīng)取得了很多卓越的成果。但是,其發(fā)展不是一帆風(fēng)順的,人工智能是一個(gè)不斷進(jìn)步,并且至今仍在取得不斷突破的學(xué)科。回顧人工智能的發(fā)展歷程,可大致分為孕育、形成、暗淡、知識(shí)應(yīng)用和集成發(fā)展五大時(shí)期。
孕育期:1956年以前,數(shù)學(xué)、邏輯、計(jì)算機(jī)等理論和技術(shù)方面的研究為人工智能的出現(xiàn)奠定了基礎(chǔ)。德國數(shù)學(xué)家和哲學(xué)家萊布尼茨把形式邏輯符號(hào)化,奠定了數(shù)理邏輯的基礎(chǔ)。英國數(shù)學(xué)家圖靈在1936年創(chuàng)立了自動(dòng)機(jī)理論(亦稱圖靈機(jī)),1950年在其著作《計(jì)算機(jī)與智能》中首次提出“機(jī)器也能思維”,被譽(yù)為“人工智能之父”。總之,這些人為人工智能的孕育和產(chǎn)生做出了巨大的貢獻(xiàn)。
形成期:1956年夏季,在美國達(dá)特茅斯大學(xué)舉辦了長達(dá)2個(gè)多月的研討會(huì),熱烈地討論用機(jī)器模擬人類智能的問題。該次會(huì)議首次使用了“人工智能”這一術(shù)語。這是人類歷史上第一次人工智能研討會(huì),標(biāo)志著人工智能學(xué)科的誕生。其后的十幾年是人工智能的黃金時(shí)期。在接下來的幾年中,在眾多科學(xué)家的努力下,人工智能取得了矚目的突破,也在當(dāng)時(shí)形成了廣泛的樂觀思潮。
暗淡期:20世紀(jì)70年代初,即使最杰出的AI程序也只能解決問題中最簡(jiǎn)單的部分,發(fā)展遇到瓶頸也就是說所有的AI程序都只是“玩具”,無法解決更為復(fù)雜的問題。隨著AI遭遇批評(píng),對(duì)AI提供資助的機(jī)構(gòu)也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。
知識(shí)應(yīng)用期:在80年代,“專家系統(tǒng)”(Expect System)成為了人工智能中一個(gè)非常主流的分支。“專家系統(tǒng)”是一種程序,為計(jì)算機(jī)提供特定領(lǐng)域的專門知識(shí)和經(jīng)驗(yàn),計(jì)算機(jī)就能夠依據(jù)一組從專門知識(shí)中推演出的邏輯規(guī)則在某一特定領(lǐng)域回答或解決問題。不同領(lǐng)域的專家系統(tǒng)基本都是由知識(shí)庫、數(shù)據(jù)庫、推理機(jī)、解釋機(jī)制、知識(shí)獲取等部分組成。
集成發(fā)展期:得益于互聯(lián)網(wǎng)的蓬勃發(fā)展、計(jì)算機(jī)性能的突飛猛進(jìn)、分布式系統(tǒng)的廣泛應(yīng)用以及人工智能多分支的協(xié)同發(fā)展,人工智能在這一階段飛速發(fā)展。尤其是隨著深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)研究的不斷深入,人工智能在近幾十年中取得了長足的進(jìn)步,取得了令人矚目的成就。
人工智能發(fā)展到今天,出現(xiàn)了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個(gè)里程碑。當(dāng)前人工智能的研究熱點(diǎn)主要集中在自然語言處理、機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
2.人工智能l展現(xiàn)狀與前景
人工智能當(dāng)前有很多重要的研究領(lǐng)域和分支。目前,越來越多的AI項(xiàng)目依賴于分布式系統(tǒng),而當(dāng)前研究的普遍熱點(diǎn)則集中于自然語言處理、機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
自然語言處理:自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP),是語言學(xué)與人工智能的交叉學(xué)科,其主要功能就是實(shí)現(xiàn)讓機(jī)器明白人類的語言,這需要將人類的自然語言轉(zhuǎn)化為計(jì)算機(jī)能夠處理的機(jī)器語言。
自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對(duì)自然語言中句子的結(jié)構(gòu)、語法進(jìn)行分析如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個(gè)段落的上下文分析,辨別一些字詞在不同的上下文定的語義和情感態(tài)度。
當(dāng)前自然語言的處理主要有兩大方向。一種是基于句法-語義規(guī)則的理性主義理論,該理論認(rèn)為需要為計(jì)算機(jī)制定一系列的規(guī)則,計(jì)算機(jī)在規(guī)則下進(jìn)行推理與判斷。因此其技術(shù)路線是一系列的人為的語料建設(shè)與規(guī)則制定。第二種是基于統(tǒng)計(jì)學(xué)習(xí)的經(jīng)驗(yàn)主義理論,這種理論在最近受到普遍推崇。該理論讓計(jì)算機(jī)自己通過學(xué)習(xí)并進(jìn)行統(tǒng)計(jì)推斷的方式不停地從數(shù)據(jù)中“學(xué)習(xí)”語言,試圖刻畫真實(shí)世界的語言現(xiàn)象,從數(shù)據(jù)中統(tǒng)計(jì)語言的規(guī)律。
機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)(Machine Learning)是近20年來興起的人工智能一大重要領(lǐng)域。其主要是指通過讓計(jì)算機(jī)在數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,從而獲取“自我學(xué)習(xí)”的能力,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行判斷和預(yù)測(cè)的方法。
機(jī)器學(xué)致可以分為有監(jiān)督的學(xué)習(xí)和無監(jiān)督的學(xué)習(xí)。有監(jiān)督的學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中練出一個(gè)函數(shù)和目標(biāo),當(dāng)有新的數(shù)據(jù)到來時(shí),可以由訓(xùn)練得到函數(shù)預(yù)測(cè)目標(biāo)。有監(jiān)督的學(xué)習(xí)要求訓(xùn)練集同時(shí)有輸入和輸出,也就是所謂的特征和目標(biāo)。而依據(jù)預(yù)測(cè)的結(jié)果是離散的還是連續(xù)的,將有監(jiān)督的學(xué)習(xí)分為兩大問題,即統(tǒng)計(jì)分類問題和回歸分析問題。統(tǒng)計(jì)分類的預(yù)測(cè)結(jié)果是離散的,如腫瘤是良性還是惡性等;而回歸分析問題目標(biāo)是連續(xù)的,如天氣、股價(jià)等的預(yù)測(cè)。
無監(jiān)督學(xué)習(xí)的訓(xùn)練集則沒有人為標(biāo)注的結(jié)果,這就需要計(jì)算機(jī)去發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系并用來分類等。一種常見的無監(jiān)督學(xué)習(xí)是聚類分析(Cluster Analysis),它是將相似的對(duì)象通過靜態(tài)分類的方法分成不同的組別或者是特定的子集,讓同一個(gè)子集中的數(shù)據(jù)對(duì)象都有一些相似的屬性,比較常用的聚類方法是簡(jiǎn)潔并快速的“K-均值”聚類算法。它基于K個(gè)中心并對(duì)距離這些中心最近的數(shù)據(jù)對(duì)象進(jìn)行分類。
機(jī)器學(xué)習(xí)還包括如半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)等類別。總而言之,機(jī)器學(xué)習(xí)是研究如何使用機(jī)器來模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科,而其應(yīng)用隨著人工智能研究領(lǐng)域的深入也變得越來越廣泛,如模式識(shí)別、計(jì)算機(jī)視覺、語音識(shí)別、推薦算法等領(lǐng)域越來越廣泛地應(yīng)用到了機(jī)器學(xué)習(xí)中。
人工神經(jīng)網(wǎng)絡(luò):在腦神經(jīng)科學(xué)領(lǐng)域,人們認(rèn)為人類的意識(shí)及智能行為,都是通過巨大的神經(jīng)網(wǎng)絡(luò)傳遞的,每個(gè)神經(jīng)細(xì)胞通過突出與其他神經(jīng)細(xì)胞連接,當(dāng)通過突觸的信號(hào)強(qiáng)度超過某個(gè)閾值時(shí),神經(jīng)細(xì)胞便會(huì)進(jìn)入激活狀態(tài),向所連接的神經(jīng)細(xì)胞一層層傳遞信號(hào)。于1943年提出的基于生物神經(jīng)元的M-P模型的主要思想就是將神經(jīng)元抽象為一個(gè)多輸入單輸出的信息處理單元,并通過傳遞函數(shù)f對(duì)輸入x1,x2…,xn進(jìn)行處理并模擬神經(jīng)細(xì)胞的激活模式。主要的傳遞函數(shù)有階躍型、線性型和S型。
在此基礎(chǔ)上,對(duì)神經(jīng)網(wǎng)絡(luò)算法的研究又有諸多進(jìn)展。日本的福島教授于1983年基于視覺認(rèn)知模型提出了卷積神經(jīng)網(wǎng)絡(luò)計(jì)算模型。通過學(xué)習(xí)訓(xùn)練獲取到卷積運(yùn)算中所使用的卷積系數(shù),并通過不同層次與自由度的變化,可以得到較為優(yōu)化的計(jì)算結(jié)果。而AlphaGo也正是采用了這種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型,提高了AlphaGo的視覺分類能力,也就是所謂的“棋感”,增強(qiáng)了其對(duì)全盤決策和把握的能力。
3.人工智能的發(fā)展前景
總體來看,人工智能的應(yīng)用經(jīng)歷了博弈、感知、決策和反饋這幾個(gè)里程碑。在以上4個(gè)領(lǐng)域中,既是縱向發(fā)展的過程,也是橫向不斷改進(jìn)的過程。
人工智能在博弈階段,主要是實(shí)現(xiàn)邏輯推理等功能,隨著計(jì)算機(jī)處理能力的進(jìn)步以及深度學(xué)習(xí)等算法的改進(jìn),機(jī)器擁有了越來越強(qiáng)的邏輯與對(duì)弈能力。在感知領(lǐng)域,隨著自然語言處理的進(jìn)步,機(jī)器已經(jīng)基本能對(duì)人類的語音與語言進(jìn)行感知,并且能夠已經(jīng)對(duì)現(xiàn)實(shí)世界進(jìn)行視覺上的感知。基于大數(shù)據(jù)的處理和機(jī)器學(xué)習(xí)的發(fā)展,機(jī)器已經(jīng)能夠?qū)χ車沫h(huán)境進(jìn)行認(rèn)知,例如微軟的Kinect就能夠準(zhǔn)確的對(duì)人的肢體動(dòng)作進(jìn)行判斷。該領(lǐng)域的主要實(shí)現(xiàn)還包括蘋果的Siri,谷歌大腦以及無人駕駛汽車中的各種傳感器等。在以上兩個(gè)階段的基礎(chǔ)上,機(jī)器擁有了一定的決策和反饋的能力。無人駕駛汽車的蓬勃發(fā)展就是這兩個(gè)里程碑很好的例證。Google的無人駕駛汽車通過各種傳感器對(duì)周圍的環(huán)境進(jìn)行感知并處理人類的語言等指令,利用所收集的信息進(jìn)行最后的決策,比如操作方向盤、剎車等。
人工智能已經(jīng)滲透到生活中的各個(gè)領(lǐng)域。機(jī)器已經(jīng)能識(shí)別語音、人臉以及視頻內(nèi)容等,從而實(shí)現(xiàn)各種人際交互的場(chǎng)景。在醫(yī)學(xué)領(lǐng)域,人工智能可以實(shí)現(xiàn)自動(dòng)讀片和輔助診斷以及個(gè)性化t療和基因排序等功能。在教育領(lǐng)域,機(jī)器也承擔(dān)了越來越多的輔助教育,智能交互的功能。在交通領(lǐng)域,一方面無人車的發(fā)展表明無人駕駛是一個(gè)可以期待的未來,另一方面人工智能能夠帶來更加通暢和智能的交通。另外人工智能在安防、金融等領(lǐng)域也有非常廣闊的發(fā)展前景。總之,人工智能在一些具有重復(fù)性的和具備簡(jiǎn)單決策的領(lǐng)域已經(jīng)是一種非常重要的工具,用來幫助人們解決問題,創(chuàng)造價(jià)值。
參考文獻(xiàn)
[1]阮曉東.從AlphaGo的勝利看人工智能的未來[J].新經(jīng)濟(jì)導(dǎo)刊,2016 (6):69-74.