前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經網絡概念范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
關鍵詞:深度學習;行為識別;神經網絡
1 概述
動作行為識別是計算機視覺領域中的一個研究熱點,已經廣泛應用于智能監控、人機交互、視頻檢索等領域中[1]。動作行為識別技術是通過對視頻或者圖像中人體動作行為做出有意義的判斷。有效表達圖像(視頻)中的實際目標和場景內容是最基本,最核心的問題。因此,對于特征的構建和選擇得到廣泛關注,例如STIP、SIFT、MSER等。但是,能通過無監督方式讓機器自動從樣本中學習到表征樣本的特征,會讓人們更好地利用計算機來實現人的視覺功能。而深度學習作為神經網絡的延伸和發展,是通過逐層構建一個多層網絡來使得機器自動學習到隱含在數據內部的關系,從而讓學習到的特征更加準確性。
文章旨在探討深度學習與機器學習(神經網絡)之間的關系,并且介紹深度學習的由來、概念和原理;同時介紹目前深度學習在計算機視覺中的應用。最后提出深度學習目前發展所面臨的問題,以及對未來的展望。
2 深度學習
2.1 深度學習概述
深度學習源于人工神經網絡的研究,是機器學習的拓展。深度學習是經過組合低層特征來形成更加抽象的屬性類別和特征,從中發現原始數據的特征表征[2]。現在用于動作行為識別的技術是通過“動作表征”+“動作分類器”的框架來進行行為識別的。其中“動作表征”是人們手動設計特征獲取到的,也就是在目前識別框架內存在一個對動作圖像(視頻)的預處理過程。
深度學習和淺層學習相對。目前許多學習算法是淺層網絡學習方法,具有一定的局限性,例如在樣本有限的狀況下,表示復雜函數的能力有限制,且對復雜分類問題的泛化能力也會受到一定約束[3]。而深度學習通過學習深層非線性網絡結構,達到復雜函數逼近,又能在樣本少的情況下學習原始數據的特征。BP算法作為傳統神經網絡的典型算法,雖然訓練多層網絡,但僅含幾層網絡,訓練方法很不理想[3]。因為其輸入和輸出間非線性映射讓網絡誤差函數形成含多個極小點的非線性空間,因而經常收斂到局部最小,且隨著網絡層數的增加,容易過擬合。而深度學習可以獲得分布式表示,通過逐層學習算法來得到原始輸入數據的主要變量。通過深度學習的非監督訓練完成,同時利用生成性訓練避免因函數表達能力過強而出現過擬合情況。
2.2 深度學習原理
傳統機器學習僅含單層非線性變換的淺層網絡結構,而且淺層模型單一。這對于深度網絡來說易造成陷入最優或產生梯度分散等問題。因此,Hinton等人在基于深度置信網(DBNs)的情況下提出非監督貪婪逐層訓練算法,隨后提出了多層次自動編碼器深層結構,這給解決深層網絡結構相關的優化難題帶來了希望。此外Lecun等人提出的卷積神經網絡是第一個多層次結構的學習算法。同時深度學習還出現了許多結構:多層感知機、去噪自動編碼器、稀疏編碼等。
卷積神經網絡是第一個真正采用多層次網絡結構,具有魯棒性的深度學習算法,通過探究數據在空間上的相關性,減少訓練參數的數量。而且卷積神經網絡(CNN)適應性強,善于發現數據的局部特征。它的權重共享結構降低了網絡模型的復雜度,減少了權值的數量,使得卷積神經網絡在模式識別中取得了很好的結果。
自動編碼器的核心關鍵是將原始圖像(視頻)輸入信號進行編碼,使用編碼后的信號來重建原始信號,使得兩者之間的重建誤差最小。通過將原始信號編碼成另一形式,能夠有效地提取信號中的主要信息,能夠簡潔地表達原始圖像(視頻)的特征。
3 深度學習的應用
3.1 語音識別
從2009年開始,微軟研究院語音識別專家通過與Hinton合作,首先將RBM和DBN引入到語音識別聲學模型訓練中,使得語音識別的錯誤率相對減低30%,這徹底改變了語音識別原有的技術框架。在國際上,IBM、google等公司都快速進行了DNN語音識別的研究,并且速度飛快。國內方面,阿里巴巴,科大訊飛、百度、中科院自動化所等公司或研究單位,也在進行深度學習在語音識別上的研究。
3.2 視頻中的動作行為識別
準確迅速識別視頻中人的動作行為對于視頻搜索和視頻監控具有劃時代的意義。最近幾年,深度學習技術被應用于視頻動作行為識別中。如Ji等人[4]提出多層網絡的3D卷積神經網絡來學習視頻中的時空特征,并通過卷積來實現對整個視頻特征的學習,從而代替之前的時空興趣點檢測和特征描述提取。在TRECVID數據庫上進行的實驗取得了不錯效果。
4 結束語
文章對深度學習的主要概念進行了全面闡述,包括其由來、原理、研究進展和相應的應用等。在很多領域中,深度學習都表現了潛在的巨大價值,但深度學習作為淺層學習的延伸,仍處于發展階段,還有很多問題值得我們深入探討:
(1)我們需要了解深度學習的樣本復雜度,需要多少訓練樣本才能學習到足夠的深度模型。
(2)在推進深度學習的學習理論和計算理論的同時,我們是否可以建立一個通用的深度學習網絡模型,作為統一的框架來處理語音、圖像和語言。
(3)神經網絡具有前饋性連接和反饋性連接,可是我們研究的深度網絡中還沒有加入反饋連接,這些都給深度學習的研究帶來了嚴峻的挑戰。
參考文獻
[1]王亮,胡衛明,譚鐵牛.人運動的視覺分析綜述[J].計算機學報,2002,25(3):225-237.
[2]余凱,賈磊,陳雨強.深度學習的昨天、今天和明天[J].計算機研究與發展,2013,50(9):1799-1804.
>> 用于腦運作分析的前向網絡樣本重組樹生成算法研究 基于三角構成規則的加權有向網絡拓撲生成算法 適用于網絡漸進傳輸的多分辨率曲線生成算法 全排列生成算法比較分析 KenKen問題的生成算法研究 曲線生成算法的文獻綜述 基于列生成算法的集裝箱班輪運輸網絡優化 基于全卷積神經網絡的圖像縮略圖生成算法 傳感器網絡中一種基于編碼的MAC生成算法 數據庫關鍵詞檢索中候選元組集連接樹生成算法的研究 基于分類隨機算法的試卷生成算法研究 分析基于列生成算法的動車組檢修計劃優化 AOS自相似業務流等時幀生成算法的Matlab仿真分析 關于傳統空間緩沖區生成算法的分析 基于Bresenham的直線快速生成算法 題庫系統中試卷生成算法的改進 一種可用于腦神經網絡分析的有向網絡分解算法 形式概念演化生成算法 MPI通信代碼自動生成算法 一種啟發式雙代號網絡圖自動生成算法 常見問題解答 當前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)
[30]謝勤.WAP算法連續化及其應用[C].畢業論文,2004.
[31]謝勤.一種可用于腦神經網絡分析的有向網絡分解算法[J].數字化用戶,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)
[32]謝勤.一種可用于腦神經網絡分析的有向網絡分解算法[C].第八屆海內外華人神經科學家研討會論文集.北京:科學出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)
[33]謝勤.用于腦運作分析的前向網絡樣本重組樹生成算法研究[C].電子技術與軟件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)
(通訊作者:謝勤)
作者簡介
謝勤(1982-),男,A南理工大學碩士,中國神經科學學會會員,工程師,近年在亞組委信息技術部完成核心信息系統――計時記分和成績處理系統項目實施管理方面的工作,其中計時記分系統投資一億。主要研究方向為計算機科學與工程、人工智能、神經生物學。
作者單位
1.廣州市科技和信息化局 廣東省廣州市 510000
2.第16屆亞運會組委會信息技術部 廣東省廣州市 510000
3.廣州生產力促進中心 廣東省廣州市 510000
4.廣州市科學技術信息研究所 廣東省廣州市 510000
5.廣州市科技創新委員會 廣東省廣州市 510000
2. 應用領域安防
實時從視頻中檢測出行人和車輛。
自動找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時發出帶有具體地點方位信息的警報。
自動判斷人群的密度和人流的方向,提前發現過密人群帶來的潛在危險,幫助工作人員引導和管理人流。
醫療
對醫學影像進行自動分析的技術。這些技術可以自動找到醫學影像中的重點部位,并進行對比比分析。
通過多張醫療影像重建出人體內器官的三維模型,幫助醫生設計手術,確保手術
為我們每個人提供康建議和疾病風險預警,從而讓我們生活得更加健康。
智能客服
智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題,對問題的意義進行分析(比如客戶是詢問價格呢還是咨詢產品的功能呢),進行準確得體并且個性化的回應。
自動駕駛
現在的自動駕駛汽車通過多種傳感器,包括視頻攝像頭、激光雷達、衛星定位系統(北斗衛星導航系統BDS、全球定位系統GPS等)等,來對行駛環境進行實時感知。智能駕駛系統可以對多種感知信號進行綜合分析,通過結合地圖和指示標志(比如交通燈和路牌),實時規劃駕駛路線,并發出指令,控制車子的運行。
工業制造
幫助工廠自動檢測出形態各異的缺陷
3. 概念什么是人工智能?
人工智能是通過機器來模擬人類認知能力的技術。
人工智能的三種訓練方式分別是監督學習、非監督學習、強化學習。下文會一一介紹。
二、這是不是鸞尾花(分類器)1. 特征提取人類感官特征
花瓣數量、顏色
人工設計特征
先確定哪些特征,再通過測量轉化為具體數值
深度學習特征
這里先不提及,文章后面會說
2. 感知器
老師給了一道題:
要區分兩種鸞尾花,得畫出一條直線區分兩類花,你可以畫出無數條直線,但是哪條才是最好的呢?
怎么辦呢?我可是學渣啊,靠蒙!
隨便找三個數a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,
每朵花的兩個特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預測] = 1,此時 y[實際] = 1 (樣本設定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實際] – y[預測] = 0.
重復以上兩步,得出所有的『實際值和預測值的差距的綜合,記為 Loss1
可怎么知道是不是最優的直線呢?繼續猜啊!繼續懵!像猜世界杯一樣猜就好了。
通過沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導數,高中有學的!)下降的方向繼續猜數字,具體過程大概是這樣子的:
上述所屬的實際值和預測值的差距 實際上是一種損失函數,還有其他的損失函數,比如兩點間直線距離公式,余弦相似度公式等等可以計算預測結果和實際結果之間的差距。
劃重點:損失函數就是現實和理想的差距(很殘酷)
3. 支持向量機
*判斷依據的區別也導致了損失函數的不同(但依舊是猜)
直觀的說,縫隙(上圖的分類間隔)越大越好
4. 多分類
如果有多種花怎么辦?
一趟植物課上,老師請來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤花給各個專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。
老師綜合了各位專家的意見后,告訴同學們,這是一盤梅花。
小明:這老師是不是傻,一朵花是啥都不知道,還要請三個專家
老師:你給我滾出去
實際計算過程就是通過用 2.2 和 2.3 等方法訓練的二分類器,分別輸出對應的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉化成概率呢?這就要用到歸一化指數化函數 Softmax(如果是二分類就用 Sigmoid函數),這里就不拿公式來說,可以直觀的看看書中這個表格就懂了:
5. 非監督學習第 2.2 能從預測值和實際值的差別判斷”是否猜對了”,是因為生物老師告訴了學渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實際的類別也不告訴學渣(非監督式學習),學渣不知道樣本分別是什么花。
那該怎么辦呢?
機器學習的入門課程總是在講鸞尾花,也是夠煩的。
這里我們換個場景:
假如你是某直播老板,要找一堆小主播,這時候你有一堆應聘者,然而你只有她們的胸圍和臀圍數據。一堆8份簡歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒空全部面試,那應該怎么挑選呢?
這時候你把她們的胸圍和臀圍都標準在一張二維坐標圖上:
這是你隨手一劃,把她們分成兩組,可以說“聚成兩類了”。
用某種計算方式(比如平均值)找到這個聚類的中心。點離聚類中心越近,代表越相似。
求出每個聚類中的點到藍色聚類中心點和黃色聚類中心的距離
如果一個點離黃色聚類中心更近卻被你隨手劃到了藍色分組(上圖用紅色邊框標出的小方塊),那么就把它劃入黃色分組。
這時因為分組范圍和分組內包含哪些小姐姐都發生了變化。這時候你需要以 步驟3 的方法重新計算聚類的中心
重復步驟 4 (算點中心距離)-> 重復步驟 5 (調整黃色小姐姐們和藍色小姐姐們)-> 重復步驟 3 (算中心),一直循環這個過程直到藍色和黃色聚類下所包含的小姐姐不再發生變化。那么就停止這一循環。
至此,小姐姐們已經被分為兩大類。你可以得出兩類小姐姐:
計算機在沒有監督的情況下,成功把小姐姐們分成兩類,接下來就可以在把兩種主播各投放2個到平臺看看誰更能干。效果更好的,以后就以那個聚類的樣本特征擴充更多能干的主播。
小明:有什么了不起的,我一眼就能看出黃色小姐姐更能干
老師:你給我滾出去
上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓練過程可以看下圖,有個直觀的了解:
三、這是什么物品(圖像識別)1. 特征提取人類感官特征
花瓣顏色、花瓣長度、有沒有翅膀(區分貓和小鳥)、有沒有嘴巴和眼睛(飛機和小鳥)
感官的特征通過量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網格)數值特征
人工設計特征
深度學習特征
通過卷積提取圖像特征
劃重點:卷積的作用就是提取圖像有用信息,好比微信把你發出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內容。
1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10
2維卷積 1*2+3*0+2*4+4*2=28…
通過卷積就可以得到圖像的特征信息,比如邊緣
垂直邊緣檢測
水平邊緣檢測
方向梯度直方圖
2. 深度學習和傳統模式分類的區別既然有傳統模式分類,為什么還要神經網絡呢?
區別就在于傳統的模式分類需要人為設置特征,比如花瓣長度、顏色等等。而深度學習省略掉人工設計特征的步驟,交由卷積操作去自動提取,分類器的訓練也同時融入到神經網絡當中,實現了端對端的學習
劃重點:端對端學習(End to End)就是從輸入直接得出輸出,沒有中間商,自己賺差價。
3. 深(多)層神經網絡存在的問題一般來說,神經網絡層數增多,會提高準確率。但是,網絡層數加深導致:
過擬合學渣把高考預測試題的答案都背一遍而不理解,考試的時候,如果試題是考生背過的,那么考生就能答對;如果沒背過那么考生就不會回答了。我們就可以說,學渣『過擬合了預測試題。
與之對應的是:欠擬合渣得不能再渣的人,連預測試題都背不下來,即使考試試題和預測試題一模一樣,他也只能答對30%。那么就可以說這種人~~欠揍~~欠擬合。
有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網上很火很勵志的一個公式,權重在多層網絡中相乘,比如每一層的權重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學習過程中,學習將變得非常慢。(好比從一個碗頂部放下一個小球,在底部徘徊的速度會越來越慢)
非凸優化學習過程可能在局部最小值(極小值)就停止了,因為梯度(斜率)為零。在局部最低停止而不是全局最低停止,學習到的模型就不夠準確了。
看圖感受一下
你說的底不是底,你說的頂是什么頂
解決的辦法
均勻初始化權重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠鏈接(Shortcut)涉及到比較多數學邏輯,這里就不展開說明了。
4. 應用人臉識別
自動駕駛把汽車頂部拍攝到的圖片切分層一個個小方塊,每個小方塊檢測物體是車還是行人還是狗,是紅燈還是綠燈,識別各種交通標識等等。再配合雷達等判斷物體距離。
四、這是什么歌(語音識別)1. 特征提取人類感官特征音量、音調、音色
通過采樣、量化、編碼。實現聲波數字化(聲波轉電信號)
人工設計特征梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽覺感受是相似的,即在一定頻率范圍內人對低頻聲音比較敏感而對高頻聲音不敏感)。
關系為:
在每一個頻率區間對頻譜求均值,它代表了每個頻率范圍內聲音能量的大小。一共有26個頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(Mel-FrequencyCepstralCoefficients,MFCCs)
深度學習特征通過 3.1 所介紹的 1維卷積進行特征提取
2. 應用音樂風格分類
輸入:音頻文件特征:聲音特征輸出:音樂種類
語音轉文字
輸入:音頻文件特征:聲音特征輸出:聲學模型(比如26個英文字母)
再把聲學模型送入另外的學習器
輸入:聲學模型特征:語義和詞匯輸出:通順的語句(可以查看第6點,如何讓計算機輸出通順的語句)
聽歌識曲通過窗口掃描(把音樂分割成一小段一小段的),然后通過4.1說的方法提取這一段的特征,就得到一個特征向量。對數據庫的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計算相似度(兩個向量的距離可以用余弦公式算夾角大小或者兩點間距離公式來算)
五、視頻里的人在做什么(視頻理解,動作識別)1. 介紹視頻,本質是由一幀幀圖片連續組成的,因為人視覺的暫留效應(Persistence of vision,人眼在觀察景物時,光信號傳入大腦神經,并不立即消失,讓人產生畫面連續的印象),看上去是連續的,也就是視頻。識別視頻里面有什么物體,可以用上文說過的圖像識別和分類方法去實時分析單幀圖像,比如:
但是視頻相對于圖像有一個更重要的屬性:動作(行為)。
怎么從一個連續的視頻分析動作呢?
舉個例子,像上圖那只二哈,腿部的像素點相對于黃色的方框(框和狗相對靜止)在左右”移動”,這里的”移動”我們引入一個概念——光流(一個像素點從一個位置移動到另一個位置),通過像素點移動形成的光流作為神經網絡的訓練特征(X),『奔跑作為訓練目標值(Y),經過多次的迭代訓練,機器就可以擬合得出一個 Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。
2. 光流假設,1)相鄰兩幀中物體運動很小2)相鄰兩幀中物體顏色基本不變
至于神經網絡是怎么跟蹤某個像素點的,這里不展開說明。
第 t 時刻的點指向第 t+1 時刻該點的位置,就是該點的光流,是一個二維的向量。
整個畫面的光流就是這樣:
整個視頻的光流(軌跡)是這樣的
不同的虛線代表圖像上某個點移動的軌跡
假設視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來表示,把向量喂到神經網絡即可進行分類訓練。
進一步優化,可以把光流簡化為8個方向上的,把視頻某一幀的所有光流累加到這八個方向上得出某一幀的光流直方圖,進一步得出 8 維的特征向量。
六、一段文字在表達什么(自然語言處理)1. 特征提取
這里有4個句子,首先進行分詞:
去掉停用詞(副詞、介詞、標點符合等等,一般在文本處理上都有一個停用詞表)
編碼詞表
句子向量化
這樣就得到一個句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網絡或者 LSTM 循環神經網絡作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓練標簽值 Y,迭代訓練得到的模型可以用于情感分析或文本分類等任務。
2. 進階詞向量化厲害-牛逼、計算機-電腦是同義詞。光從上面的步驟,我們可能認為厲害和牛逼是兩個完全不一樣的詞語,但其實他們是近似的意思,怎么才能 AI 學習知道這點呢?需要從多個維度去進一步給詞語更豐富的內涵,比如:
舉例來說,男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個維度擴展之后,就得到“男人”這個詞的特征向量(1,0, 0.5,0,1)
逆向文檔頻率一個詞在一類文章出現的多,而在另外分類的文章出現的少,越能說明這個次能代表這篇文章的分類。比如游泳在體育類的文章中出現的多(2次),而在工具類的文章出現的少(0次),相比其他詞語(1次)更能代表體育類的文章。
假設句子中有 N 個詞, 某個詞出現次數為 T,一共有 X 個句子,該詞語在 W 個句子出現,則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)
3. 應用
七、讓計算機畫畫(生成對抗網絡)從前有個人,以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫:
第一次他畫成這樣子了:
鑒賞家一眼就看出來是假的,他不得不回去畫第二幅畫、第三幅畫…
經過了10萬次”畫畫-鑒別”的過程,這個臨摹者畫出來的畫,鑒賞家居然認為這是真的原作,以高價買入了這副畫。
這種生成(畫畫)- 鑒別(鑒偽)的模式正是生成對抗網絡(GAN)的核心。
通過生成器,把隨機像素點有序排列形成具有意義的畫面,再通過鑒別器得出生成的畫面的分類、和真實畫面之間的差距,并告訴生成器要往什么方向去優化。多輪的訓練之后,生成器就學會了畫『真畫了。
計算機是怎么把隨機像素點變成有意義的畫面的呢?我們通過一個簡化的例子來看看。
直線上一些均勻分布的點,經過 y=2x+1變換后變成了非均勻分布。一張隨機排布的像素點畫面,經過某個f(x) 變換后就會變成具有某種意義的畫面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。
下圖為計算機生成手寫數字的過程
劃重點:函數可以變換數據分布(庫克說:可以把直的變成彎的)
八AlphaGo是怎么下棋的?(強化學習)1. 粗略認知監督/無監督訓練:盡可能讓每一次任務正確強化學習:多次任務是否達成最終目標
每一次任務都準確,不就是能達成最終目標嗎?我們來看一個例子:
一家批發商店的老板愛麗絲要求她的經理比爾增加銷售額,比爾指導他的銷售員多賣一些收音機,其中一個銷售員查爾斯弄到了一個可以獲利的大單,但是之后公司因為供應緊缺無法交付這些收音機。
應該責怪誰呢?
從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了(最終任務沒完成)。
但是從比爾的角度,查爾斯成功地完成了他的銷售任務,而比爾也增加了銷量(子任務達成)。——《心智社會》第7.7章
2. AlphaGo下圍棋,最古老的辦法是決策樹,從左上角的位置開始到右下角的位置遍歷,每一個空的位置就是一個分支,然后預測每種棋局贏的概率,找出最大概率的走法玩。這就是落子預測器。
但是由于圍棋19X19的超大棋盤,空間復雜度高達10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。
要降低復雜度,關鍵是要降低搜索的廣度和深度。
我們栽培一顆小盆栽的時候,如果不對枝葉進行修剪,那么養分就會浪費在沒長好的枝條上。需要及時對枯萎或者異常的枝條進行修剪以保證養分往正常(或者說我們希望它生長的方向)枝條上輸送。
同樣的道理,有限的計算機算力如果浪費在窮盡所有圍棋走法上,將導致棋局推演非常慢,而且耗費大量的時間也難以找到最優的方案。
是否可以通過 “修剪” 落子選擇器這顆龐大的決策樹,加快較優落子方案的選擇呢?怎么判斷哪些是好的”枝條”,哪些是壞的”枝條”呢?這就需要棋局價值評估器(哪個棋盤的贏的概率更大),把沒有價值的棋局先去掉不再往下遍歷,這就同時減少了搜索的廣度和深度。
其中,落子預測器有個名稱,叫做政策網絡(policy network)價值評估器有個名稱,叫做價值網絡(value network)政策網絡(policy network)利用蒙特卡洛搜索樹從當前棋局推演(隨機下棋)到最終的棋局,最終勝則回報為正,反之回報為負。之后該算法會反向沿著該對弈過程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分數提高,與此對應將敗者的落子方案分數降低,所以之后遇到相同局面時選擇勝者方案的概率就會增加。因此可以加速落子選擇,稱為快速走子網絡。
通過 政策網絡 + 價值網絡 + 蒙特卡洛搜索樹 實現最優落子方案的選擇,同時兩個機器人互相對弈,這樣就不停地訓練網絡,學習落子方案。
3. 定義接下來說一下枯燥的定義
什么是強化學習?
當我們關注的不是某個判斷是否準確,而是行動過程能否帶來最大的收益時使用強化學習(reinforeement learning)。比如在下棋、股票交易或商業決策等場景中。
強化學習的目標是要獲得一個策略(poliey)去指導行動。比如在圍棋博弈中,這個策略可以根據盤面形勢指導每一步應該在哪里落子;在股票交易中,這個策略會告訴我們在什么時候買入、什么時候賣出。
一個強化學習模型一般包含如下幾個部分:
一組可以動態變化的狀態(sute)
對于圍棋棋盤上黑白子的分布位置對于股票交易來說,就是股票的價格
一組可以選取的動作(metion)
對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個時間點,買入或者賣出的股票以及數量。
一個可以和決策主體(agent)進行交互的環境(environment)這個環境會決定每個動作后狀態如何變化。
棋手(主體)的落子會影響棋局(環境),環境給主體獎勵(贏)或懲罰(輸)操盤手(主體)的買入或賣出會影響股票價格(環境,供求關系決定價格),環境給主體獎勵(賺錢)或懲罰(虧錢)
關鍵詞:AlphaGo;人工智能;圍棋;未來展望
中圖分類號:TP18 文獻標識碼:A 文章編號:1671-2064(2017)07-0193-02
1 圍棋與人工智能
圍棋作為中國傳統四大藝術之一,擁有著幾千年的悠久歷史。圍棋棋盤由19條橫線和19條豎線組成,共有19*19=361個交叉點,圍棋子分為黑白兩種顏色,對弈雙方各執一色,輪流將一枚棋子下在縱橫交叉點上,終局時,棋子圍上交叉點數目最多的一方獲勝。圍棋棋盤上每一個縱橫交叉點都有三種可能性:落黑子、落白子、留空,所以圍棋擁有高達3^361種局面;圍棋的每個回合有250種可能,一盤棋可長達150回合,所以圍棋的計算復雜度為250^150,約為10^170,然而全宇宙可觀測的原子數量只有10^80,這足以體現圍棋博弈的復雜性和多變性。
人工智能(Artificial Intelligence,AI)主要研究人類思維、行動中那些尚未算法化的功能行為,使機器像人的大腦一樣思考、行動。長期以來,圍棋作為一種智力博弈游戲,以其變化莫測的博弈局面,高度體現了人類的智慧,為人工智能研究提供了一個很好的測試平臺,圍棋人工智能也是人工智能領域的一個重要挑戰。
傳統的計算機下棋程序的基本原理,是通過有限步數的搜索樹,即采用數學和邏輯推理方法,把每一種可能的路徑都走一遍,從中選舉出最優路徑,使得棋局勝算最大。這種下棋思路是充分發揮計算機運算速度快、運算量大等優勢的“暴力搜索法”,是人類在對弈規定的時間限制內無法做到的。但是由于圍棋局面數量太大,這樣的運算量對于計算機來講也是相當之大,目前的計算機硬件無法在對弈規定的時間內,使用計算機占絕對優勢的“暴力搜索法”完成圍棋所有局面的擇優,所以這樣的下棋思路不適用于圍棋對弈。
搜索量巨大的問題一直困擾著圍棋人工智能,使其發展停滯不前,直到2006年, 蒙特卡羅樹搜索的應用出現,才使得圍棋人工智能進入了嶄新的階段,現代圍棋人工智能的主要算法是基于蒙特卡洛樹的優化搜索。
2 圍棋人工智能基本原理
目前圍棋人工智能最杰出的代表,是由谷歌旗下人工智能公司DeepMind創造的AlphaGo圍棋人工智能系統。它在與人類頂級圍棋棋手的對弈中充分發揮了其搜索和計算的優勢,幾乎在圍棋界立于不敗之地。
AlphaGo系統的基本原理是將深度強化學習方法與蒙特卡洛樹搜索結合,使用有監督學習策略網絡和價值網絡,極大減少了搜索空間,即在搜索過程中的計算量,提高了對棋局估計的準確度。
2.1 深度強化學習方法
深度學習源于人工神經網絡的研究,人類大量的視覺聽覺信號的感知處理都是下意識的,是基于大腦皮層神經網絡的學習方法,通過模擬大腦皮層推斷分析數據的復雜層狀網絡結構,使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象,其過程類似于人們識別物體標注圖片。現如今,應用最廣泛的深度學習模型包括:卷積神經網絡、深度置信網絡、堆棧自編碼網絡和遞歸神經網絡等。
強化學習源于動物學習、參數擾動自適應控制等理論,通過模擬生物對環境以試錯的方式進行交互達到對環境的最優適應的方式,通過不斷地反復試驗,將變化無常的動態情況與對應動作相匹配。強化學習系統設置狀態、動作、狀態轉移概率和獎賞四個部分,在當前狀態下根據策略選擇動作,執行該過程并以當前轉移概率轉移到下一狀態,同時接收環境反饋回來的獎賞,最終通過調整策略來最大化累積獎賞。
深度學習具有較強的感知能力,但缺乏一定的決策能力;強化學習具有決策能力,同樣對感知問題無能為力。深度強化學習方法是將具有感知能力的深度學習和具有決策能力的強化學習結合起來,優勢互補,用深度學習進行感知,從環境中獲取目標觀測信息,提供當前環境下的狀態信息;然后用強化學習進行決策,將當前狀態映射到相應動作,基于初期匯報評判動作價值。
深度強化學習為復雜系統的感知決策問題提供了一種全新的解決思路。
2.2 蒙特卡洛樹搜索
蒙特卡洛樹搜索是將蒙特卡洛方法與樹搜索相結合形成的一種搜索方法。所謂蒙特卡洛方法是一種以概率統計理論為指導的強化學習方法,它通常解決某些隨機事件出現的概率問題,或者是某隨機變量的期望值等數字特征問題。通過與環境的交互,從所采集的樣本中學習,獲得關于決策過程的狀態、動作和獎賞的大量數據,最后計算出累積獎賞的平均值。
蒙特卡洛樹搜索算法是一種用于解決完美信息博弈(perfect information games,沒有任何信息被隱藏的游戲)的方法,主要包含選擇(Selection)、擴展(Expansion)、模擬(Simulation)和反向傳播(Backpropagation)四個步驟。
2.3 策略網絡與價值網絡
AlphaGo系統擁有基于蒙特卡洛樹搜索方法的策略網絡(Policy Network)和價值網絡(Value Network)兩個不同的神經網絡大腦,充分借鑒人類棋手的下棋模式,用策略網絡來模擬人類的“棋感”,用價值網絡來模擬人類對棋盤盤面的綜合評估。
AlphaGo系統主要采用有監督學習策略網絡,通過觀察棋盤布局,進行棋路搜索,得到下一步合法落子行動的概率分布,從中找到最優的一步落子位置,做落子選擇。DeepMind團隊使用棋圣堂圍棋服務器上3000萬個專業棋手對弈棋譜的落子數據,來預測棋手的落子情況。期間,系統進行上百萬次的對弈嘗試,進行強化學習,將每一個棋局進行到底,不斷積累“經驗”,學會贏面最大的棋路走法,最終達到頂級圍棋棋手的落子分析能力。而AlphaGo的價值網絡使用百萬次對弈中產生的棋譜,根據最終的勝負結果來進行價值網絡訓練,預測每一次落子選擇后贏棋的可能性,通過整體局面的判斷來幫助策略網絡完成落子選擇。
3 圍棋人工智能意義
經過比賽測試證明,AlphaGo系統的圍棋對弈能力已經達到世界頂級棋手水平。一直以來,圍棋因為復雜的落子選擇和巨大的搜索空間使得圍棋人工智能在人工智能領域成為一個具有代表性的難度挑戰。目前的硬件水平面對如此巨大的搜索空間顯得束手無策,AlphaGo系統基于有監督學習的策略網絡和價值網絡大大減少搜索空間,在訓練中開創性地使用深度強化學習,然后結合蒙特卡洛樹搜索方法,使得系統自學習能力大大提高,并且AlphaGo系統在與人類頂級棋手對弈中取得的連勝卓越成績,櫧湓諶斯ぶ悄芰煊虻於了堅實的里程碑地位。
雖然圍棋人工智能取得了如此優秀的成績,但是也僅僅是它在既定規則內的計算處理能力遠遠超過了人類的現有水平,并且還有有待提高和完善的地方。在人類的其他能力中,例如情感、思維、溝通等等領域,目前的人工智能水平是遠遠達不到的。但是隨著科技的進步和人類在人工智能領域的研究深入,人工智能與人類的差距會逐漸減小,像圍棋人機大戰人工智能連勝人類這樣的例子也可能在其他領域發生,這就意味著人工智能的發展前景十分可觀。
4 結語
人類和人工智能共同探索圍棋世界的大幕即將拉開,讓人類棋手結合人工智能,邁進全新人機共同學習交流的領域,進行一次新的圍棋革命,探索圍棋真理更高的境界。
參考文獻
關鍵詞:發展趨勢;研究應用;人工智能
DOI:10.16640/ki.37-1222/t.2017.07.119
0 簡介
人工智能((Artificial Intelligence)),它是一門新的技術科學,主要用于模擬、延伸以及擴展人類的智能的方法、理論、技術以及應用系統。人工智能主要就是對人類的思維、意識的信息過程的合理化的模擬。人工智能它并不是人的智能,但是,它卻能像人那樣的思考,而且也可能會超過人類的智能。總的說來,人工智能研究的一個主要目標是使機器能夠勝任一些復雜工作。
1 人工智能的運用現狀
目前,在很多方面人工智能有著運用,其中一個主要表現就是全球人工智能公司數量在急劇的增加,專家系統在目前來看是在人工智能各領域中最為活躍,且最為有成效的一個領域。它是一類基于知識的系統,并可以解決那些一般僅有專家才能夠解決的復雜問題。我們這樣定義專家系統:專家系統是一種具有特定領域內大量知識與經驗的程序系統,它是基于程序系統依靠人工智能技術,來模擬人類專家求解復雜問題的過程,大多情況下,專家系統的水平甚至可以超過人類專家。專家系統的基本結構圖如下圖所示:
2 人工智能的影響
人工智能對經濟的影響:人工智能的的確確會影響到社會、生活、文化的方方面面,特別是對于實體經濟將來會有巨大的影響。以后,每個行業幾乎都會產生顛覆性的變化。在人工智能的研究上,中國并不落后,將來的中國一定可以從中獲得非常大的收益。一成功的專家系統可以為它的用戶帶來很明顯的經濟效益。用比較經濟的辦法執行任務而不需要具有經驗的專家,從而極大地減少開支。專家系統深入各行各業,帶來巨大的宏觀效益,促進了IT網絡工業的發展。
人工智能對文化的影響:在人工智能原理的基礎上,人們通常情況下會應用人工智能的概念來描述他們的日常狀態和求解問題的過程。人工智能可以擴大人們知識交流的概念集合,描述我們所見所聞的方法以及描述我們信念的新方法;人工智能技術為人類的文化生活提供了巨大的便利。如圖像處理技術必將會對圖形藝術和社會教育部門等產生深遠影響。比如現有的智力游戲機將會發展成具有更高智能的一種文化娛樂手段。隨著技術的進步,這種影響會越來越明顯地表現出來。當然,還有一些影響可能是我們目前難以預測的。但可以肯定,人工智能將對人類的物質文明以及精神文明產生更大的影響。
人工智能對社會的的影響:一方面,AI為人類文化生活提供了一種新的模式。現有的游戲將逐步發展為更高智能的交互式文化娛樂手段,今天,游戲中的人工智能應用已經深入到各大游戲制造商的開發中。另一方面,人工智能能夠代替人類進行各種腦力勞動,所以,從某種意義上來講,這將會使一部分人失去發展的機遇,甚至可能失業。由于人工智能在科技以及工程中的應用,一部分人可能會失去介入信息處理活動的機會,甚至不得已而改變自己的工作方式;人工智能還可能會威脅到人類的精神。一般人們覺得人類與機器的區別就是人類具有感知精神,但如果有一天,這些相信只有人才具有感知精神的人也開始相信機器能夠思維和創作,那他們就會感到失望,甚至于感到威脅。他們會擔心:有朝一日,智能機器的人工智能可能會超過人類的自然智能,從而使人類淪為智能機器的奴隸。
3 人工智能的發展趨勢
有機構預測,2017年人工智能投資將同比增長300%以上,在技術上將會更迅猛發展,工控自動化商城的智能語音、智能圖像、自然語言以及深度學習等技術越來越成熟,就像空氣和水一樣將會逐步地滲透到我們的日常生活。行業專家關于2017年人工智能的發展方向主要有以下幾點:(1)機器學習目前正在被應用在更復雜的任務以及更多領域中,且被更多的人作為挖掘數據的方式。無監督的學習會取得更多進展,但也存在很大的挑戰,故在這一方面離人類的能力還是差得很遠的。計算機在理解和生成自然語言方面,預計最先會在聊天機器人和其他對話系統上落地。 (2)深度學習、其他的機器學習、人工智能技術的混用,是成熟技術的典型標志。將深度學習應用到醫療領域中(醫療圖像、臨床數據、基因組數據等),各種類型數據上的研究以及成果將會大大的增加。 (3)聊天機器人和自動駕駛汽車可能會取得較大的進展,預計更多人類基準將會被打破,特別是那些基于視覺以及適合卷積神經網絡的挑戰。而非視覺特征創建和時間感知方法將會變得更加頻繁、更加富有成果。
4 結論
人工智能是人類長久以來的夢想,同時也是一門富有挑戰性的學科。盡管人工智能帶來很多問題,但當人類堅持把人工智能只用于造福人類,人工智能推動人類社會文明進步將毋庸置疑。就像所有的學科一樣,人工智能也會經歷各種挫折,但只要我們有信心、 有毅力,人工智能終將成為現實,融入到我們生活的方方面面,為我們的生活帶來更大的改變。
參考文獻:
[1]朱祝武.人工智能發展綜述[J].中國西部科技,2011,10(17):8-10.
[2]肖斌.對人工智能發展新方向的思考[J].信息技術,2009,37(12):166-169.