首頁 > 文章中心 > 卷積神經網絡綜述

      卷積神經網絡綜述

      前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經網絡綜述范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。

      卷積神經網絡綜述

      卷積神經網絡綜述范文第1篇

      關鍵詞:卷積神經網絡;深度學習;年齡分類

      0引言

      人臉作為人類個體鮮明顯著的生物特征之一,包含著豐富的個人信息。隨著計算機視覺和機器學習技術的發展,相關的人臉識別等技術已成為這些項目任務的熱點課題,并在法醫、電子化客戶關系管理、安防、生物識別和娛樂影音等諸多領域中得到廣泛應用。人臉除了可進行身份認證和識別外,還可以提取出性別、種族和年齡等信息,特別是可以將年齡及分布特征用于人機交互和商業智能等應用中,因此年齡估計研究具有重要的科學意義和實用價值。

      相對于人臉識別,人臉所能表征的年齡信息要受到很多因素的影響,例如不同個體的基因差異、生活習慣、環境、抗壓能力、健康情況和種族差別等有很大的關系。同時,相同個體因發型、化妝和表情的不同也會影響年齡的估計。因此,如果要基于傳統的分類算法(如支持向量機)并利用人臉圖像信息來進行年齡分類將很難得到理想的結果。針對這些問題,目前的研究還相對不足,如果能有效解決上述問題,對大部分潛在的應用領域也都將帶來深刻的影響。

      1相關工作

      年齡分類的主要流程是先根據人臉圖像獲取特征,再通過機器學習方法構建模型,通過把年齡分為多個年齡區段,即每個年齡段對應一個類別(比如未成年或成年人等)。因此可以把年齡分類看成是一個二分類或者多分類的分類問題來進行求解。1994年,Kwon和Lobo則從人臉圖像中獲取年齡分類,把人分為3種不同的類別,也就是兒童、青年人和老年人,強調重要特征點的選擇。2002年Lanitis等人提出了能自動對年齡實現估計的年齡量化方法。而且,王先梅等的綜述中也整體梳理了相關年齡估計技術的研究發展。王紹宇等人還基于SMV采用生物特征對人進行分類,分為小孩和成人。此外在2016年,董遠等人更將遷移學習和卷積神經網絡用于人的年齡和性別分類。

      卷積神經網絡綜述范文第2篇

      基金項目:甘肅省自然科學基金資助項目(1014RJZA009);甘肅省教育廳碩士生導師基金資助項目(0803-07)。

      作者簡介:王燕(1971-),女,甘肅蘭州人,副教授,碩士,主要研究方向:模式識別、圖像處理、智能信息處理; 公維軍(1987-),男,甘肅張掖人,碩士研究生,主要研究方向:模式識別。

      文章編號:1001-9081(2011)07-1822-03doi:10.3724/SP.J.1087.2011.01822

      (蘭州理工大學 計算機與通信學院, 蘭州 730050)

      ()

      摘 要:提出了一種基于雙閾值的兩級級聯分類器的人臉檢測加速方法。該方法首先應用Gabor濾波器提取經模板匹配保留的似人臉樣本特征,經主成分分析(PCA)降維后的特征作為第一級BP神經網絡輸入進行檢測,在輸出端應用雙閾值對人臉/非人臉進行粗檢測,然后把介于雙閾值之間的人臉/非人臉模塊作為第二級AdaBoost算法設計的輸入并再次進行精檢測,從而在提高檢測速度的同時達到提高檢測率和降低誤檢率的目的。實驗表明,應用雙閾值進行級聯分類加速檢測后,該方法的檢測精度要優于基于簡單閾值的分類器。

      關鍵詞:人臉檢測;雙閾值;分類器;級聯;加速

      中圖分類號:TP391.4文獻標志碼:A

      Accelerated algorithm of face detection based on

      dual-threshold cascade classifiers

      WANG Yan,GONG Wei-jun

      (School of Computer and Communication, Lanzhou University of Technology, Lanzhou Gansu 730050, China)

      Abstract: The paper proposed an accelerating way of face detection based on dual-threshold cascade classifiers. First, it applied Gabor filter to extract the face-like features that were retained by template matching, then put eigenvectors extracted by the way of Principal Component Analysis (PCA) into the BP neural network as first classifier, then used dual-threshold to decide face or non-face on output end, and put the face or non-face of midway between up and down threshold into the AdaBoost classifier as the second classifier to decide. In this way, it can improve the detection rate and reduce the false rate while speeding up the detection speed. The experimental results prove that the precision of cascade classifier of face detection based on dual-threshold is superior to the classifier of single threshold.

      Key words: face detection; dual-threshold; classifier; cascade; acceleration

      0 引言

      人臉作為人類視覺中常見而復雜的模式,它所表現的信息在人與人的交流及人機交互領域都有著重要的意義。對人臉進行檢測在安保視頻監控,目標身份檢測、門禁系統、智能人機接口和偵查犯罪等諸多領域都有著廣泛的應用背景。人臉檢測可描述為對一幅給定的圖像(靜態或者視頻),采用一定的方法和策略對其進行搜索以確定其中是否含有人臉以及人臉在圖像中出現的位置。

      人臉是一類非剛性的自然形體,雖然具有很強的共性,但由于個體表情、光照、遮掩以及成像角度等因素的影響,使得人臉具有比較復雜而細致的模式變化。如果能夠很好地提取關鍵特征及設計良好的分類器,將為解決后續跟蹤識別及相似的復雜模式檢測問題提供有益的指導,所以人臉檢測是當前模式識別領域的一個熱點研究課題。

      之前不少學者提出了各種綜合算法以及一些改進算法,Rowley等人[1]提出了使用神經網絡算法設計的人臉檢測模型,Viola等人[2]等人提出了用簡單特征訓練級聯人臉檢測器的AdaBoost方法,這之后又有學者在此基礎上提出了改進算法,如Lienhart等人提出的擴展特征的旋轉人臉檢測[3]、支持向量機[4]等。還有學者提出各種模型算法,如膚色模型的人臉檢測[5-6]等。上述基于單一分類器的人臉檢測在一定程度上提高了檢測精度,但是由于自身特點的局限性,并且分類閾值的單一性等造成了進一步提升精度和降低報警率的困難。本文通過級聯分類這種粗細檢測的原則,提出了一種基于雙閾值的級聯分類器的加速人臉檢測方法。與以往級聯的方法不同,本方法結合基于知識與統計的方法[7],先應用模板匹配將大量背景去除,只將其中很少的似人臉送入第一級BP神經網絡構成的分類器進行雙閾值初檢,將介于上下閾值的人臉/非人臉送入應用Haar特征的AdaBoost算法的第二級分類器進行精確判別。實驗證明該方法能夠有效提高檢測率,降低誤檢率并提高檢測速度。

      1 兩級分類器的構建

      1.1 基于Gabor小波的BP神經網絡分類器

      1.1.1 Gabor小波特征提取

      Gabor小波變換(加窗傅里葉變換)由于其小波核函數具有和人腦大腦皮層簡單細胞的二維反射區相類似的特性,使其在空間頻率、方向選擇及空間位置的局部信息上有著良好的采集和分辨能力,因此在以生物學和視覺特性為背景的圖像學和人臉檢測等多方面得到了廣泛的應用。

      二維Gabor濾波器函數形式為:

      Gj(w)exp(-)[exp(ikjw)-exp(-)](1)

      其中:kj,φuu?,w(x,y);δ為高斯窗口的尺度因子,控制濾波器的帶寬和尺度;φu與ωv控制濾波器的調制方向和頻率。只要選擇合適的δ、φu和ωv,就可以使Gabor小波濾波器構成Gabor濾波器組來一同作用于圖像,從而實現目標圖像的Gabor小波分解,得到我們所要的特征。在本文中通過檢測窗口與Gabor濾波器組卷積即可得到我們所要提取的特征。

      1.1.2 BP神經網絡

      BP神經網絡是一種基于誤差修正學習規則的網絡,它實現一種由輸入到輸出的非線性空間的一種映射,它的模型一般由輸入層、隱層、輸出層組成,隱層可以由一層或多層組成。該算法學習的目的是對網絡的連接權值進行調整,使得對任意輸入都能得到所謂期望的輸出[8],它采用了優化的梯度下降算法,直到調整的誤差滿足需求為止。

      1.2 基于AdaBoost算法的人臉檢測分類器

      1.2.1 Haar特征模板和積分圖像

      應用AdaBoost學習算法的特征級聯人臉檢測方法是由Viola和Jones提出來的,該方法采用一種“積分圖像”的表示方法,能快速從人臉中計算出所用到的人臉特征。

      Haar型特征是Viola等人提出的一種簡單的矩形矩陣。Haar型特征的值是指圖像上兩個或者多個形狀大小相同的矩形內部所有像素灰度值之和的差值。這些以圖像灰度值為自變量的矩形特征在邊緣檢測方面有著很好的表現能力,對人臉臉部的各種特征有很好的提取和編碼能力,檢測速度很快。

      Haar型特征的計算是通過引入積分圖像實現的,見圖1。對于一個灰度圖像I,它的積分圖像i的定義為圖像中(x,y)點左上部分所有像素點的累加:

      I(x,y)∑x′≤x,y′≤yi(x′,y′)(2)

      圖1 積分圖像

      這時,1、2、3、4的積分圖的值分別為A、A+B、A+C、A+B+C+D,D點的矩形特征可以通過4+1-(2+3)計算得出,這樣,只要對圖像遍歷一次,就可以得到積分圖,就可以在恒定的時間內得到任意尺度下的圖像的特征。

      1.2.2 AdaBoost學習算法

      AdaBoost學習算法選擇少量而又非常重要的矩形特征來構造一系列弱分類器,然后將這些弱分類器級聯起來構成一個強分類器。算法通過選擇最能區分正負樣本的矩形特征。對于每一個特征,弱分類器給定一個最優的分類函數的閾值,使得最少的樣本被錯誤分類。一個弱分類器hj(x)包含矩形特征fj,閾值θj和用于控制不等式方向的pj:

      hj(x)1, pjfj(x)≤pjθj

      0, 其他 (3)

      具體學習算法如下:

      設(X1,Y1)、(X2,Y2)、…、(Xn,Yn)為具體輸入的圖像,用Yj0,1來標記正負樣本,T為循環次數。

      1)初始化權值w1,對正樣本(Yj1)和負樣本(Yj0)有I1/(2m),1/(2n)。

      2)當t1,2,…,T時:

      ①標準化權值,wt,i

      ②對每一個特征j,訓練相應的分類器hj使該分類器對該特征進行分類,誤差為εj∑Tt1wt|hj(x)-yi|。

      ③選擇最小誤差分類的分類器。

      ④更新權值wt+1,twt,jβ1-eit,若Xi被正確地分類,則ei0;反之,ei1,βt(1-ei)/t。

      ⑤最終的強分類器為:

      h(x)1, ∑Tt1αtht(x)≥∑Tt1αt

      0, 其他 (4)

      其中αtlb (1/βt)。

      2 基于雙閾值的級聯分類器的加速算法

      2.1 系統構造框架

      為了解決基于傳統的檢測方法中無論是單分類器還是級聯分類器均由單一閾值造成漏檢與誤檢之間的矛盾,本文在兼顧速度的同時通過利用雙閾值設置檢測緩沖區,達到提高檢測率與降低誤檢率和漏檢率的目的。具體流程如圖2所示。

      圖2 人臉檢測系統框架

      2.2 樣本選取和圖像預處理

      該系統所用的人臉訓練樣本來自MIT、ORL訓練圖庫。為了便于訓練,統一將其裁剪為21×18的樣本圖像進行相應的分類器訓練,在訓練當中可以根據后期檢測結果適時添加一些非人臉樣本,減少一定的盲目性。

      無論在訓練還是在檢測前,為了減少圖像由于光照、背景以及采集設備等造成的影響,都將進行一定的預處理。在本系統中,我們采用了連續性能更好的Gamma光照補償,這樣當原始圖像分布不均勻,并且主要集中在較低范圍灰度級時,經過均衡處理后,圖像的灰度動態范圍變大,對比度增強,人臉特征更加突出。這樣可以進一步減少光照等因素帶來的影響,從而更有利于提取人臉特征。

      2.3 系統加速算法設計

      傳統基于滑動窗的檢測方法在待測圖像中依次滑動,通過將每一個窗口送入訓練好的神經網絡分類器進行判別,而經實驗測試一張21×18的圖片在本文所訓練的神經網絡分類器中運行時間為0.07s左右,若進行全部窗口測試,計算量相當大,這也是時間復雜度相對較高的原因之一?;诖耍疚膶跉W氏距離的模板匹配算法[9]進行模板改進,去除眼睛模板,在應用多尺度壓縮的圖像金字塔方法的測試圖片上進行整體模板匹配[10],通過保留與人臉相似度大的窗口位置進行神經網絡分類器測試進而將大量背景去除,通過這種加速處理方法來提高前期算法的效率。

      2.4 雙閾值級聯分類器

      第一級分類器我們采用神經網絡的方法[11-12]。它是通過主成分分析(Principal Component Analysis,PCA)降維[13]后進行BP神經網絡訓練得到的分類器,由于傳統BP神經網絡在應用時存在一些問題,如容易形成局部最小問題、收斂速度問題而不能保證全局最小結果[14],因此本文在訓練BP神經網絡時采用具有自適應能力的動量項對BP神經網絡進行優化設計。對隱層的神經元來說:

      Δwji(n)αΔwji(n-1)+ηδj(n)yj(n)(5)

      對于輸出層來說:

      Δwji(n)αΔwji(n-1)+ηδk(n)yj(n)(6)

      在式(5)和式(6)中,α為動量因子,調節范圍在(0,1),其中式中第二項相當于ηδ(n)y(n)-η,可以根據這一項來判斷誤差曲面的趨勢以進行自適應調整,從而不至于過大造成過沖或過小造成收斂速度慢,從而起到一定的穩定作用。根據具體實驗效果,得出了以下自適應因子數據參照表,見表1。

      表1 自適應因子參照表

      通過自適應因子來調節學習速度進而控制反饋回路。通過應用優化設計的BP網絡,其收斂速度和魯棒性得到了很大的提高。

      將達到一定程度的匹配模塊經過Gabor特征提取輸入第一級分類器,在應用神經網絡進行粗檢測時,如果高于雙閾值中的上閾值則直接判別為人臉,不再送入細檢測分類器;而低于下閾值的直接判別為非人臉,直接剔除;而由于訓練集范圍的有限性及光照,遮掩等各種原因,在介于高閾值和低閾值之間的范疇中,有存在人臉的可能性。因此,把介于這兩個閾值之間的人臉與部分非人臉圖像塊再輸入基于Haar特征的AdaBoost分類算法的第二級分類器進行再次判別,由于只檢測第一級分類器輸出介于雙閾值之間的人臉或非人臉的小尺寸圖像,所以在此進一步進行加速檢測。

      由于第二級分類器采用灰度級上的積分特征提取,所以能夠快速地對介于雙閾值中的人臉/非人臉從灰度級上進行確認。最后通過這兩級級聯分類器的最終確認并合并人臉中心位置以確定最終位置,從而得到檢測后最終的人臉圖像。

      2.5 算法描述

      根據粗細檢測的原則,對檢測圖片進行分類器級聯檢測,由第一級神經網絡分類器進行粗檢測,在與第二級分類器級聯時,通過設置雙閾值接口算法來進行細檢測從而達到既降低計算復雜度又提高精度的目的。具體算法描述如下:

      1)初始化分類器,預處理測試集圖片

      2)FOR i1:n//n為測試集圖片數

      Input classifier_gabor&bp( )//進入第一級分類器

      FOR j1:m //m為第一級分類器初檢圖像塊數

      IF wj>Threshold_up

      yj+1 accept//加入到人臉集

      ELSE IF

      (wjThreshold_down)

      Input classifier_adaboost( )//進入第二級分類器

      IF (wj>Threshold_adaboost)

      yj+1 accept//再次確認加入到人臉集

      ELSE discard

      ELSE discard

      END

      END

      Threshold_up與Threshold_down為系統第一級分類器的上下閾值。

      3 系統測試結果與分析

      為了驗證該算法的加速性能與檢測率,采用2組實驗進行檢測,第一組采用一張320×240的標準視頻的一幀靜態多人臉圖像進行速度檢測,驗證本文算法的加速性能;第二組進行識別率檢測,首先對CMU實驗室的CMU_PIE中的gallery圖庫中的68張簡單背景正面人臉進行檢測,由于背景單一且為單人臉,檢測率最高達到了100%,同時為了進一步驗證算法設計的有效性,我們對部分MIT+CMU的測試圖片以及室外收集的部分圖片進行了測試(包含120張圖片,235個人臉,其中包括部分不超過±20°的側面人臉),并對單一使用AdaBoost算法檢測人臉與BP神經網絡、Gabor+BP神經網絡人臉檢測方法做了對比實驗,實驗1和實驗2的結果如下所示,圖4為應用雙閾值級聯分類器的對比效果。

      表2 不同算法檢測速度和檢測率

      圖3 部分測試圖片檢測效果

      圖4 雙閾值級聯分類效果對比

      通過以上實驗結果表明,本文提出的算法在精確度和魯棒性上有了明顯的提高,從表2的檢測速度上來看,雖然本文提出的算法相比AdaBoost算法較慢,但比傳統算法有很大幅度的提高,有進一步提升的潛力;同時從圖4中可以清晰地看出,應用雙閾值粗細檢測方法能進一步降低誤檢率,精度有相對較大的提升。

      4 結語

      本文提出了一種基于雙閾值的兩級級聯分類器的人臉加速檢測方法,通過模板匹配方法來降低在分類器中的計算時間,同時在兩級級聯分類器之間設置雙閾值接口進行級聯檢測,并在第一級分類器的收斂性上做了一定的改進,在加速的同時更加提高了精度。通過應用雙閾值級聯分類器的加速算法判斷人臉/非人臉,解決了基于傳統閾值分類器在檢測當中的矛盾問題,速度也有相應的提高,誤檢率進一步降低,系統整體性能得到了提升。

      參考文獻:

      [1] ROWLEY H A, BALUJA S, KANADA T. Neural network-based face detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(1):23-38.

      [2] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2001:511-518.

      [3] LIENHART R, MAYDT J. An extended set of haar-like features for rapid object detection[C]// Proceedings of the International Conference in Image Processing. New York:IEEE, 2002:900-903.

      [4] HEISELE B, SERRE T, POGGIO T. A component-based framework for face detection and identification[J]. International Journal of Computer Vision, 2007, 74(2):167-181.

      [5] HSU R L, ABDEL-MOTTALEB M, JAIN A K. Face detection in color images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5):696-706.

      [6] 月書仁,梁昔明,葉吉祥,等.基于臉部信息和支持向量機的人臉檢測[J].計算機應用,2006,26(5):1032-1034.

      [7] 梁路宏,艾海舟,徐光佑,等.人臉檢測研究綜述[J].計算機學報,2002,25(5) :449-458.

      [8] 王志良,孟秀艷.人臉工程學[M].北京:機械工業出版社,2008.

      [9] 梁路宏,艾海舟,徐光佑,等.基于模板匹配與人工神經網確認的人臉檢測[J].電子學報,2001,29(6):744-747.

      [10] 林宇生,楊靜宇. 基于Gabor濾波特征和支持向量機的人臉檢測[J]. 計算機工程與應用, 2007, 43(1):33-34.

      [11] 聶祥飛,郭軍.基于Gabor小波的人臉檢測[J].計算機工程,2006,32(21):44-46.

      [12] 頊改燕,徐華,翟忠武,等.基于Gabor濾波器和BP神經網絡的人臉皮膚皺紋區域自動識別[J].計算機應用,2010,30(2):430-432.

      卷積神經網絡綜述范文第3篇

      關鍵詞:辛烷值;快速檢測方法;氣相色譜法;紅外光譜法;拉曼光譜法

      中圖分類號:TB 文獻標識碼:A doi:10.19311/ki.1672-3198.2016.07.092

      辛烷值是表征車用汽油抗爆性的重要指標,1926年美國科學家埃得將辛烷值引入汽油性能指標。汽油在燃燒過程中,抵抗爆震的能力叫作抗爆性,辛烷值就是表示汽油抗爆性的指標。辛烷值越高,其抗爆性能越好,汽油在汽缸中燃燒越充分,燃燒效率越高,尾氣排放中的一氧化碳、碳氫化合物含量越低,對環境的危害相應越小。

      馬達法辛烷值和研究法辛烷值是汽油的辛烷值的傳統測量方法,方法用樣品量大,時間長、費用高,不適于生產控制的在線測試。本文對近幾年出現的幾種辛烷值測量的快速分析方法進行總結和綜述,介紹相關方法的應用進展。

      1 拉曼光譜法

      拉曼分析方法作為一種光譜檢測技術,不僅樣品預處理簡單、分析速度快、效率高、重現性好,另外還具有受水分干擾小、樣品無損、可進行微量樣品探測、檢測頻帶寬、可快速跟蹤反應過程等特點;即便是非極性基團如c=c,c=c等紅外吸收較弱的官能團,在拉曼光譜中也可以得到很強的吸收譜帶。因此,特別適合用于對含碳、氫基團較高的汽油樣品的辛烷值檢測。

      康健爽等2010年提出了一種使用拉曼分析測定汽油辛烷值的方法,并設計了辛烷值拉曼光譜在線檢測系統。這種辛烷值在線監控系統能夠實時監控乙醇汽油中的組分變化,并給出對應的拉曼分析曲線;根據光柵型和傅立葉變換型光譜儀各自特點,選用光柵型拉曼光譜儀應用于辛烷值在線檢測。以Lambert-Beer定律為基礎,采用化學計量學方法,將檢測數據和采用標準方法測得的屬性數據之間關聯,建立分析模型,在具體算法實現過程中,分別采用PCA和PLS兩種方法建立關聯分析模型,并用于乙醇汽油辛烷值的快速預測,指導實際調和過程。實踐證明,相對傳統的檢測手段,該系統具有測試速度快、分析時間短、檢測費用低、經濟效益高等特點。

      2 氣相色譜法

      李長秀等2003年建立了一種新方法,該方法將氣相色譜結果關聯建模用以計算汽油樣品的辛烷值。對汽油的組成采用高分辨毛細管柱進行測定,根據汽油單體烴組分的含量和純組分辛烷值乘積的大小,將單體烴組分分為兩組,每一組為一個變量,建立實測辛烷值與兩個變量間的回歸模型。實際分析時,根據樣品的類型帶入相應的模型進行關聯計算即可得到樣品的辛烷值。該方法與采用標準方法測定催化裂化汽油辛烷值的結果相比,測定結果的偏差約0.5個單位。該方法因為操作相對簡單,樣品量耗費少,且建模過程快速、簡便,適于穩定工藝過程中的汽油辛烷值的在線監測。

      于愛東等采用毛細管氣相色譜法對汽油單體烴類進行分離,用PONA汽油組成軟件對汽油單體烴進行定性、定量、Pona組成計算.將汽油單體烴分為37組,建立實測辛烷值與37個變量之間的回歸模型,計算汽油辛烷值。該模型計算辛烷值與實測辛烷值的極差為0.26個單位,適用辛烷值在88~92之間的油品。辛烷值的計算公式能夠較好地反映汽油單體烴與辛烷值之間的關系。方法操作簡單,樣品用量少,結果準確,適合于煉廠蒸餾、催化過程中汽油辛烷值的實時監測。

      3 近紅外光譜法

      近紅外光譜分析方法是一種間接分析方法,它先利用一組汽油標準樣品,在汽油的近紅外光譜數據間和汽油辛烷值建立數據關聯分析模型,再用該模型預測未知汽油樣品的辛烷值。測量精度除受儀器精度影響外,還受所建分析模型精度影響。

      韓言正等介紹了一種自主開發研制的汽油辛烷值近紅外光譜在線分析儀。該分析儀包括近紅外光譜在線測量、光譜預處理和實時建模等部分。對于原始的近紅外光譜數據,采用多項式卷積算法進行光譜平滑、基線校正和標準歸一化;通過模式分類與偏最小二乘進行實時建模。該分析儀已成功應用于某煉油廠生產過程的辛烷值在線監測。

      汽油辛烷值預測體系具有非線性的特點,史月華等據此提出主成分回歸殘差神經網絡校正算法(PCRRANN)用于近紅外測定汽油辛烷值的預測模型校正。該方法結合了主成分回歸算法(PC),與PLS(PartialLeastSquare),PCR,PLS(NPLS,Non lin-earPLS)等經典校正算法相比,預測能力有明顯的提高。

      卷積神經網絡綜述范文第4篇

      1圖像特征表示方法概述

      設計圖像的特征表示是計算機視覺中一項非常基本的研究內容,圖像的分類、檢索、標注等工作都是以提取圖像特征為初始步驟,好的特征表示可以在相關圖像分析中取得更佳的效果.因此,圖像特征的設計與構造,直接影響算法的性能.而如何定義一個好的圖像特征卻是非常困難的:一方面,設計的圖像特征對于同一類別下圖像之間的變化(比如尺度、光照變化、對象位置變化等)要有足夠的魯棒性;另一方面,設計的圖像特征要具備足夠的判別性來處理不同類別間圖像的變化.近年來,研究者提出了大量的底層特征用于各種圖像分析任務,其中最具有代表性的是基于梯度朝向直方圖的SIFT(scale-invariantfeaturetransform)[1]和HOG(histogramoforientedgradient)[2].盡管這類特征取得了一定意義的成功,但研究者發現,這類單一的底層特征并不足以在某些應用上達到更好的效果,因此提出了一類中間層的圖像特征表示方法.其中,BoW(bagofwords)[3]是這類圖像特征表示方法的典型代表,該方法在場景分類中獲得了較好的性能.BoW算法生成圖像特征表示分為3個過程:圖像底層特征的獲取、學習過完備字典和計算圖像的碼字直方圖表示.然而,BoW方式并沒有考慮特征向量在圖像空間上的位置關系,使得其特征描述能力并沒有達到最大化.為了彌補這一缺陷,空間金字塔匹配(spatialpyramidmatching,簡稱SPM)[4]方法通過在一幅圖像的不同層次上計算碼字直方圖,形成了一個BoW多層特征,將BoW模型與圖像空間進行合理融合.然而,由于SPM方法利用直方圖交核函數來度量兩幅圖像間的相似度,導致無法產生低維度的圖像特征表示,而且需要完整計算訓練集圖像間相似度的Gram矩陣,因此,其算法復雜度為O(n2)(其中,n為訓練集中圖像的個數).為了解決這一問題,有效匹配核算法(efficientmatchkernel,簡稱EMK)[5]在碼字間相似性的基礎上構造了一個低維特征映射空間,整個圖像的特征可以表示為碼字映射在這個低維特征空間后的平均,且可以采用線性SVM方法訓練分類器,在圖像分類應用中獲得了非常不錯的效果.然而,有效匹配核算法仍然依賴于人為定義的圖像局部特征(如SIFT或HOG),只不過是通過計算有限維空間的局部線性特征表示來推出整體圖像的線性特征.

      Bo等人擴展了有效匹配核算法并提出了核描述子(kerneldescriptor,簡稱KD)[6]方法.這種方法只需定義任意兩個局部圖像塊之間的相似性,且該相似性函數滿足核函數定義.由于每個核函數都隱性定義了一個映射,它將圖像塊映射為再生核希爾伯特空間(reproducingkernelHilbertspace,簡稱RKHS)中一個非常高維的向量,這樣,核函數可以表示為RKHS中兩個高維向量的內積,通過核主成分分析(kernelprincipalcomponentanalysis,簡稱KPCA)[7]算法,可以由核函數推出圖像塊特征的有限維線性表示.這種低維空間中的表示就稱為核描述子,并且采用EMK算法將其推廣到整個圖像的特征表示.盡管核描述子方法的設計思想較為新穎,但仍然存在計算復雜度過高這一缺陷,限制了其在大規模圖像數據庫上的應用.事實上,在KPCA方法的離線階段,所有聯合基向量對之間的相似性都需要計算,這是非常耗時的.更重要的是:在線階段計算一個新圖像塊的特征映射時,該圖像塊與所有聯合基向量之間的相似性也是需要計算的,而這實際上是不需要的.Xie等人[8]通過使用不完整Cholesky分解替代KPCA算法,成功地解決了這個問題,并且通過迭代,應用不完整Cholesky分解算法表示整個圖像特征[9].但文獻[8,9]中,通過不完整Cholesky分解得到的標志聯合基向量并沒有對應實際的圖像塊,因此,其產生的特征判別能力并沒有最大化地得到利用.

      Wang等人提出了有監督的核描述子方法[10],該方法利用訓練集中的圖像類標來輔助設計底層圖像塊特征.盡管他們利用該特征取得了不錯的分類效果,但這個算法運行過程中需要大量有類標的圖像,并且對象優化函數求解過程復雜,時間復雜度過高.除了上述生成圖像底層特征表示的方法以外,另外一類構成圖像特征的方法基于深度學習理論.2006年,Hinton等人[11,12]提出了用于深度信任網絡(deepbeliefnetwork,簡稱DBN)的無監督學習算法,DBN的多層結構,使得它能夠學習得到層次化的特征表示,實現自動特征抽象,文獻[12]將DBN模型成功用于手寫數字識別應用上.Bengio等人在文獻[13]中提出了基于自編碼器(auto-encoder)[14]的深度學習網絡,在手寫數字識別圖像數據庫上得到了類似的實驗結果.另外,文獻[1517]提出了一系列基于稀疏編碼的深層學習網絡,在圖像應用中取得了一定的成功.LeCun等人用誤差梯度設計并訓練卷積神經網絡(convolutionalneuralnetwork,簡稱CNN),其在圖像分類,特別是手寫體字符識別應用中得到優越的性能.在此基礎上,Krizhevsky等人[21]將CNN模型應用到分類大規模ImageNet圖像數據庫,更加充分地顯示了深度學習模型的表達能力.盡管在深度學習模型下獲得的圖像特征有很強的判別表示能力,但其要求計算機硬件條件較高,單機環境下很難實現.除此之外,更加詳細地介紹圖像特征描述子領域的綜述可以參考文獻[23].本文在大數據時代背景下,為了能夠快速得到圖像塊的線性特征表示,提出了有效圖像塊描述子(efficientpatch-leveldescriptor,簡稱EPLd)方法.該方法在不完整Cholesky分解基礎上,可以自動地進行圖像塊篩選,對于求解新圖像塊的線性特征表示,只需計算它和一小部分基圖像塊的相似性就足夠了.有了圖像塊的特征表示之后,一幅圖像就對應著一個圖像塊特征的集合,該集合可以看作是特征空間中基于某個分布的樣本集,這樣,兩幅圖像之間的差異可以看作兩個分布的距離.本文采用基于高維概率分布的MMD距離[24]進行估算,進而計算兩幅圖像間的相似性.本文首先介紹核描述子方法,然后給出有效圖像塊描述子算法的具體實現過程以及如何利用MMD距離計算兩幅圖像的相似性,并在幾個著名的圖像分類數據庫上進行實驗,最后給出工作的結論和展望.

      2核描述子方法簡介

      核描述子方法是對圖像像素點屬性(梯度/形狀/顏色+位置)基礎上生成的聯合基向量應用KPCA方法,從而計算新圖像塊的有限維特征表示.為了方便敘述,本文采用像素點的梯度屬性來介紹核描述子方法.通過公式(2)可以看到,核描述子方法的主要缺陷有以下3點:(1)算法計算復雜度高,因為需要對dodp維的聯合基向量形成的Gram矩陣計算特征值分解,如果聯合基向量的維度過高或者個數過多,KPCA算法甚至無法實施;(2)對聯合基向量進行KPCA獲得的tij并不是稀疏的,這也就意味著在計算新圖像塊的特征表示時,需要和所有的聯合基向量進行在線計算,所以算法需要存儲全部的聯合基向量;(3)算法無法進行特征選擇,即,并不知道聯合基向量中哪些樣本最具代表性.

      3有效圖像塊描述子算法

      針對核描述子方法的3點不足之處,文獻[8]解決了其主要缺陷的第一、第二兩點,但是文獻[8]在本質上仍然使用聯合基向量,所以沒有明確地進行特征選擇,即,找出哪些圖像塊是最具代表性的,使得其特征表示能力并沒有達到最大化.為了更加完善地解決核描述子方法的缺陷,本文提出了一種新的圖像塊特征表示方法,稱為有效圖像塊描述子.該方法基于對圖像塊相似度矩陣執行不完整Cholesky分解??傮w上來說,有效圖像塊描述子算法由兩部分構成:1)首先從訓練圖像集中均勻抽取足夠的圖像塊,然后在這些圖像塊形成的Gram矩陣上執行不完整Cholesky分解算法.如果設定N代表圖像塊的個數,M代表分解后矩陣的秩,通常情況下,M<<N.這樣做的好處有兩點:首先,在分解過程中只需要按需計算O(MN)個Gram矩陣元素的值;其次,對Gram矩陣執行Cholesky分解的時間復雜度為O(M2N),遠遠低于KPCA算法的O(N3).2)經過第1步分解步驟之后,選擇出了M個最具代表性的基圖像塊,新圖像塊的特征表示僅僅通過O(M)次計算就可以得到.算法的具體步驟將在以下部分詳細介紹.

      3.1Gram矩陣的低秩近似半正定的Gram矩陣K可以分解為GGT,所以不完整Cholesky分解的目標就是找到一個矩陣G,其大小為NM,使得TGG在M足夠小的情況下近似K.在執行不完整Cholesky分解算法的過程中,選擇出M個最具代表性的基圖像塊,利用所有圖像塊和這M個基圖像塊之間的相似性,可以近似恢復Gram矩陣K.這里,M的值是可以通過算法在線確定的,由算法中提前給定的近似精度參數來控制.關于不完整Cholesky分解的詳細執行過程可以參考文獻[26],其中,作為輸入參數的Gram矩陣K實際上是按需計算的,即,算法執行過程中需要用到哪兩個訓練圖像塊間的相似度,就按照公式(1)計算得到.算法執行后,就得到了一些具有代表性的基圖像塊,用向量P保存基圖像塊的索引序號,同時得到了矩陣G,使得.TGGK

      3.2構造圖像塊特征映射算法一旦獲得了NM的矩陣G,新圖像塊的特征(有效圖像塊描述子)就可以由G構造.其中,新圖像塊特征維度大小由M確定,每一維度i的值可由新圖像塊與P(i)所指示的基圖像塊間相似性K(newpatch,P(i))恢復得到。通過算法1可以看到:選擇出的M個最具代表性的基圖像塊可以看成是一系列局部圖像塊的非線性濾波器,將每個新圖像塊和這些基圖像塊進行相似性度量的過程,也可看成是對這個新圖像塊進行特征提取的過程.另外,針對圖像塊相似度矩陣執行不完整Cholesky分解往往可以保證獲得精度非常高的低秩近似,且分解過程中只與某些訓練樣本(圖像塊)有關.也就是說,利用這些訓練樣本就可以很好地近似恢復相似度矩陣,所以訓練集中的圖像塊具有不同程度的重要性.因此,我們稱重要性最高的前M個圖像塊為“最具代表性”的基圖像塊.為了更加形象地展示這些重要的基圖像塊,我們在Scene-15圖像庫上提取了最重要的前16個基圖像塊,如圖1所示(每個圖像塊由其像素點的梯度幅值來表示).可以看到,每個圖像塊都包含了豐富的邊緣和紋理信息.本文提出的有效圖像塊描述子算法不只繼承了文獻[8]的有效性,而且很好地解決了核描述子算法中的第3點缺陷,最大限度地發揮了圖像塊特征的判別能力.

      4利用MMD距離計算圖像間的相似性

      基于算法1,每一個圖像塊都可以用有效圖像塊描述子來表示.一幅圖像通過稠密采樣確定很多關鍵點,每一個關鍵點都對應著一個局部的圖像塊,因此,一幅圖像就對應著一個局部特征的集合.假定圖像I1包含m個圖像塊,則其特征集合可以表示為Fp(patchp1,patchp2,…,patchpm),圖像I2包含n個圖像塊,其特征集合表示為Fq(patchq1,patchq2,…,patchqn).Fp可以看作特征空間中來自分布p的一個樣本集,同樣,Fq也可以看作是來自分布q的樣本集.這樣,圖像I1與I2之間的差異性就可以由p和q兩個分布的距離表示.當然,這兩個概率分布之間的距離只能通過這兩個樣本集進行估算.為此,本文采用基于高維概率分布的MaximumMeanDiscrepancy(MMD)距離[24]進行估算.MMD距離可以看作是將兩個概率分布,通過非線性核函數映射到再生核希爾伯特空間(RKHS)后均值的距離.對于上述分布p和q的MMD距離估計可由公式(3)計算。單純地利用公式(3),并沒有考慮局部特征在整幅圖像上的空間分布信息.為了解決這個問題,本文首先采用空間金字塔方法將整幅圖像進行逐層劃分;然后,在兩幅圖像每個層次對應的小圖像上計算它們之間的MMD距離;最終,將所有層次的MMD距離按照其對應層次的權重進行匯總求和,然后度量兩幅圖像I1與I2之間的差異性.

      5實驗

      本文使用像素點的梯度、形狀和顏色屬性分別構造基于梯度的有效圖像塊描述子(EPLd-G)、基于形狀的有效圖像塊描述子(EPLd-S)和基于顏色的有效圖像塊描述子(EPLd-C).為了測試有效圖像塊描述子算法的性能,分別在3個著名的圖像分類數據庫(Scene-15,Caltech-101[28]和UIUC-8[29])上做了實驗.在接下來的實驗中,計算3個不同類型的有效圖像塊描述子都是首先將圖像按照固定比率縮放到不超過300300像素點;特別地,在計算EPLd-G和EPLd-S時,將縮放后的圖像中的像素點的灰度值標準化為[0,1]范圍.圖像塊通過每隔8個像素點的稠密采樣方式從訓練集圖像中進行抽取,大小為1616像素點.EPLd-All是將EPLd-G,EPLd-S和EPLd-C這3個描述子串接起來形成的.訓練線性SVM分類器使用LIBLINEAR[30],其中,圖像間的相似性利用MMD距離來定義.在計算MMD時,將圖像按照11,22和33分為3個層次來匯總求和,尺度參數在不同的數據庫上利用交叉驗證方法確定.所有的實驗均重復10次,每次的訓練集和測試集都隨機抽取確定,將10次分類準確率的平均值和方差記錄下來.實驗中的其他參數從公平比較的角度考慮,與文獻[6,8]設置相同.

      5.1Scene-15Scene-15場景數據庫包含4485張圖片,這些圖片分屬15個類別,有室內場景和室外場景,每一個類別包含200張~400張圖片不等.按照慣例,從每個類別中隨機抽取100張圖片作為訓練,剩余圖片作為測試.在算法中設置Pivots的個數為200,即,利用不完整Cholesky分解選出200個最具代表性的基圖像塊來構造維度為200的有效圖像塊描述子.實驗結果列在表1中(其中,KD代表核描述子方法[6],EKD代表有效核描述子方法[8],EPLd代表本文提出的有效圖像塊描述子方法),EPLd方法獲得在這個數據庫上的最佳分類準確率(87.0%).另外,EPLd方法在所有4種不同情況(梯度、形狀、顏色和上述3種屬性的匯總)下的性能均超過了文獻[6,8].在實驗中,除了測試分類準確率來體現EPLd的判別能力,還通過不同維度下測試分類準確率來體現EPLd的有效性.我們發現,在特征維度只有50維的情況下也獲得了接近最優分類準確率的性能,這充分體現出EPLd算法的有效性和健壯性.事實上,通過表2可以看到:特征維度從50維增加到300維,分類準確率并沒有得到明顯的提升.造成這一現象的原因是,不完整Cholesky分解容易獲得高質量的低秩近似.表2中的數據表明:即使是50維的低秩近似也足以體現Gram矩陣中的關鍵信息,而這些關鍵信息直接決定了分類的性能.在后面的實驗中,從算法效率的角度考慮都使用了100維的特征表示.

      5.2Caltech-101Caltech-101圖像數據庫包含9144張圖片.這9144張圖片隸屬于101個對象類別外加一個背景類別,每個類別中的圖片在31張~800張不等.表3中,將EPLd與其他有代表性的描述子算法進行了對比.同樣根據慣例,每個類別隨機挑出30張圖片進行訓練,從剩余圖片中挑選不超過50張進行測試.可以看到:EPLd算法達到了最佳的分類準確率(77.1%),甚至在僅僅使用梯度屬性的情況下(EPLd-G)也達到了非常不錯的分類效果(73.7%).

      5.3UIUC-8UIUC-8圖像數據庫包含1579張圖片,這1579張圖片隸屬于8個運動類別,每個類別下包含圖片137張~250張不等.按照慣例,隨機從每個類別中抽取70張圖片進行訓練,從剩余圖片中挑選60張進行測試.分類準確率結果列于表4中.通過表4可以看到,EPLd-All非常接近最佳分類準確率(87.2%vs.87.23%).在實驗部分的最后,本文對比了構造3種不同描述子(EPLdvs.KDvs.EKD)的計算效率.其中,最耗時的是形狀特征,一幅標準圖像(最大300300分辨率,圖像塊大小為1616像素點,圖像塊間隔8個像素點)上的EPLd-S與EKD-S描述子在Matlab環境下計算需要耗時2s,而KD-S需要耗時2.5s.對于梯度特征,EPLd-G與EKD-G描述子耗時0.9s,KD-G耗時1s.以上對比結果列在表5中.表5中的對比結果是在生成100維特征情況下得到的,如果提高特征的維度,EPLd與EKD的計算效率提升相對于KD會表現得更加明顯.另外一點需要指出的是:EPLd與EKD的計算耗時雖然基本相同,但EPLd描述子的特征判別能力相對于EKD描述子要強很多,這一點通過在3個圖像數據庫上的實驗對比結果可以得到印證.所以,綜合考慮,EPLd描述子無論在計算效率還是在判別能力上都要優于EKD和KD描述子.

      6結束語

      亚洲成人在线免费观看| 亚洲人成自拍网站在线观看| 亚洲jizzjizz少妇| 亚洲AV综合色区无码二区偷拍| 亚洲视频一区调教| 亚洲成人在线网站| 亚洲国产成人久久综合一| 久久精品国产96精品亚洲| 亚洲国产日韩在线视频| 亚洲精品无码永久在线观看你懂的 | 亚洲综合精品一二三区在线 | 亚洲制服丝袜第一页| 亚洲免费人成视频观看| 亚洲男人天堂影院| 久久久久亚洲av无码专区| 亚洲国产精品一区二区久久| 亚洲视频2020| 亚洲黄色在线网站| 亚洲欧洲日本精品| 亚洲国产一区二区a毛片| 亚洲成在人线av| 亚洲国产一区二区a毛片| 亚洲电影在线播放| 亚洲综合校园春色| 亚洲欧美日韩自偷自拍| 国产精品亚洲专区无码唯爱网| 无码欧精品亚洲日韩一区夜夜嗨| 亚洲精品视频免费| 亚洲永久无码3D动漫一区| 无码乱人伦一区二区亚洲一| 久久精品亚洲精品国产色婷| 亚洲伦理一二三四| 亚洲熟女www一区二区三区| 国产成人精品亚洲一区| 亚洲一级特黄大片在线观看 | 亚洲avav天堂av在线网爱情| 亚洲日韩中文字幕无码一区| 狼人大香伊蕉国产WWW亚洲| 亚洲一级片内射网站在线观看| 国产成A人亚洲精V品无码性色| 久久亚洲私人国产精品|