作者所在班級(jí)1402012
作 者 姓 名符子龍
作 者 學(xué) 號(hào)14020120006
《基于深度學(xué)習(xí)的視網(wǎng)膜OCT圖像分類(lèi)》的文獻(xiàn)綜述
內(nèi)容摘要
通過(guò)翻閱這些參考資料和文獻(xiàn),了解了深度學(xué)習(xí)技術(shù)在圖像處理和計(jì)算機(jī)視覺(jué)上的應(yīng)用與發(fā)展,以及各種常用的模型算法。本題主要關(guān)注與視網(wǎng)膜OCT的圖像處理,通過(guò)查閱其他相關(guān)論文,了解今年來(lái)適用于醫(yī)學(xué)影像的圖像處理方法,特別是關(guān)于視網(wǎng)膜的圖像分割,圖像分類(lèi),圖像識(shí)別等經(jīng)典算法。另外,通過(guò)閱讀醫(yī)學(xué)文獻(xiàn)了具體了解了視網(wǎng)膜的解剖學(xué)結(jié)構(gòu),以及圖像特點(diǎn)。
關(guān)鍵詞:深度學(xué)習(xí)視網(wǎng)膜結(jié)構(gòu)圖像處理圖像分類(lèi)
第1章 ?前言
外后視鏡外形輪廓不但影響到車(chē)身的外觀,也影響到車(chē)身尺寸,行業(yè)標(biāo)準(zhǔn)有轎車(chē)外后視鏡的安裝位置不得超出汽車(chē)最外側(cè)250毫米的規(guī)定。
1.1課題背景及意義
1.1.1.圖像分類(lèi)
隨著互聯(lián)網(wǎng)、數(shù)碼相機(jī)及攝像機(jī)和數(shù)字存儲(chǔ)技術(shù)的發(fā)展,數(shù)字多媒體資源日益增多。
而從傳統(tǒng)互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng),在社交網(wǎng)絡(luò)中人們也不僅僅是用文字表達(dá)自己,而是傾向采用更直觀的圖像和視頻來(lái)進(jìn)行交流。大量的信息隱藏在海量的圖像數(shù)據(jù)中。面對(duì)越來(lái)越大的數(shù)據(jù)處理量,僅憑人工顯然無(wú)法實(shí)現(xiàn),迫切需要計(jì)算機(jī)能夠讀懂并且處理。而圖像分類(lèi)和識(shí)別任務(wù)主要是對(duì)數(shù)字圖像的內(nèi)容進(jìn)行分析,獲取圖像中的關(guān)鍵信息,讓圖像“會(huì)說(shuō)話”。許多應(yīng)用領(lǐng)域?qū)D像的處理特別是圖像的分類(lèi)識(shí)別提出了需求:
(1)基于內(nèi)容的圖像檢索CBIR(Content-based image ?retrieval),這一概念于1992年由T.Kato[1]提出,一般根據(jù)圖像的視覺(jué)特征來(lái)查找與輸入的圖片具有相同或相似內(nèi)容的其它圖片。SMEULDERSAW等‘21回顧了200篇相關(guān)文獻(xiàn),認(rèn)為在未來(lái)基于內(nèi)容圖像的檢索有更廣闊的應(yīng)用前景,而更準(zhǔn)確的檢索結(jié)果不僅依賴于準(zhǔn)確的理解圖像而更多的是良好的圖像分類(lèi)。近年來(lái),基于內(nèi)容的圖像檢索成為研究的一個(gè)熱點(diǎn)領(lǐng)域,提出了許多新方法,例如Krizhevsky利用深度自動(dòng)編碼器將小型彩色圖像映射成為短的二進(jìn)制編碼用于檢索,Kauf利用GPU的并行執(zhí)行能力實(shí)現(xiàn)了基于內(nèi)容的圖像檢索,提高了效率。Liui51提出了一種基于內(nèi)容檢索的新方法顏色差分直方圖:CDH(color differencehistograms)。
(2)對(duì)圖像/視頻自動(dòng)標(biāo)注,就是通過(guò)計(jì)算機(jī)自動(dòng)給無(wú)標(biāo)注的圖像和視頻加上能夠反映其內(nèi)容的語(yǔ)義關(guān)鍵詞。自動(dòng)標(biāo)注主要用于多媒體信息的管理和檢索,在商業(yè)方面也有很好的應(yīng)用前景,例如個(gè)人照片管理、廣告圖片投放等。對(duì)圖像和視頻進(jìn)行標(biāo)注的核心仍然是圖像語(yǔ)義理解。Carl ?Doerschl利用判別式聚類(lèi)方法對(duì)地理信息進(jìn)行標(biāo)注,ArpitJai利用一種基于時(shí)空塊的新中間層表示方法用于對(duì)視頻進(jìn)行標(biāo)注。
[if !supportLists](3)[endif]醫(yī)學(xué)影像處理,醫(yī)學(xué)影像對(duì)于醫(yī)生診斷疾病提供了非常有價(jià)值的參考信息。
基于圖像分類(lèi)和識(shí)別的方法可以通過(guò)影像數(shù)據(jù)積累發(fā)現(xiàn)一些疾病在影像里的特征和相
互聯(lián)系,提高影像對(duì)于疾病診斷的作用。Akgul[8]對(duì)基于內(nèi)容檢索的方法在放射學(xué)上應(yīng)用現(xiàn)狀和未來(lái)發(fā)展方向進(jìn)行了綜述。Varghese[9]貝,U研究了在腦部磁共振圖像中的應(yīng)用。
其它的應(yīng)用領(lǐng)域還有如:視頻監(jiān)控、自動(dòng)機(jī)器人,交互式游戲等。有效
的圖像分類(lèi)識(shí)別是上述應(yīng)用領(lǐng)域重要的研究基石。圖像分類(lèi)識(shí)別問(wèn)題應(yīng)用領(lǐng)域廣泛,是機(jī)器視覺(jué)中的重要問(wèn)題之一,也是一個(gè)典型的模式識(shí)別與機(jī)器學(xué)習(xí)的問(wèn)題。圖像分類(lèi)技術(shù)的研究一直很火熱,分類(lèi)準(zhǔn)確率也在不斷提升,涌現(xiàn)了許多有效的智能分類(lèi)方法。但有仍有不少問(wèn)題有待進(jìn)一步解決。如圖像的視覺(jué)信息轉(zhuǎn)換為人類(lèi)理解的語(yǔ)義表達(dá)難題;對(duì)不同來(lái)源圖像用統(tǒng)一的視覺(jué)特征方法進(jìn)行描述;解決因圖像質(zhì)量、光照、拍攝視角差別等造成的分類(lèi)識(shí)別困難;處理海量數(shù)據(jù)的高效、準(zhǔn)確算法問(wèn)題等。因此盡管發(fā)展迅速、方法眾多,圖像分類(lèi)問(wèn)題仍然是計(jì)算機(jī)視覺(jué)領(lǐng)域中非常值得研究的問(wèn)題,也有很強(qiáng)的實(shí)際應(yīng)用需求。在國(guó)際會(huì)議和刊物上每年都有
大量的相關(guān)文章發(fā)表,例如:CVPR、ICCV、ECCV、ICML、NIPS,InternationalJournal
ofCompeerVision(IJCV),IEEE,TransactionsonPatternAnalysisandMachine
Intelligence(PAMI)等。
1.1.2.深度學(xué)習(xí)應(yīng)用于圖像分類(lèi)
深度學(xué)習(xí)模型雖然在圖像分類(lèi)領(lǐng)域取得令人矚目的分類(lèi)效果,但一直無(wú)法用數(shù)學(xué)理論來(lái)證明其問(wèn)題求解過(guò)程,這使得研究局限于通過(guò)實(shí)驗(yàn)來(lái)調(diào)整模型結(jié)構(gòu)和參數(shù),從而設(shè)計(jì)出更為有效的模型。除了對(duì)模型本身的研究,深度學(xué)習(xí)與其它的機(jī)器學(xué)習(xí)方法的融合,引入其他方法的優(yōu)點(diǎn)解決相應(yīng)的問(wèn)題也是研究的一個(gè)熱點(diǎn)。本文介紹了卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用與研究熱點(diǎn),引入遷移學(xué)習(xí)、支持向量機(jī)、多尺度空間模型、模糊分類(lèi)等方法與卷積神經(jīng)網(wǎng)絡(luò)模型融合。
1.2.視網(wǎng)膜OCT圖像
1.2.1 什么是OCT
光學(xué)相干層析掃描儀(OCT):OCTJ,韭行視網(wǎng)膜斷層掃描的原理類(lèi)似B超,不同的是OCT采用的是850rim波長(zhǎng)的光掃描,而B(niǎo)超采用的是聲頻掃描。主要用于黃斑水腫、裂孔的測(cè)量及青光眼RNFL厚度的測(cè)量。
1.2.1 OCT的優(yōu)點(diǎn)
各種成像技術(shù),如x射線計(jì)算層析成像ⅨcT)、核磁共振成像、超聲波
成像等,在醫(yī)學(xué)上已經(jīng)獲得廣泛應(yīng)用,成為現(xiàn)代醫(yī)學(xué)診斷技術(shù)的一個(gè)顯著標(biāo)志。每種技術(shù)由于其不同的工作原理,決定了其不同的分辨率和探測(cè)深度、不同的適用范圍、不同的檢測(cè)部位和功能特點(diǎn)。X射線計(jì)算層析成像探測(cè)深度深,分辨率也較高,但入射的高能量會(huì)使生物組織離化,頻繁使用會(huì)損害身體。超聲波成像分辨率較低。核磁共振雖有亞毫米級(jí)的分辨率,但所需的超導(dǎo)磁體價(jià)格昂貴。Huang等人首次把OCT技術(shù)用于人眼視網(wǎng)膜細(xì)微結(jié)構(gòu)和冠狀動(dòng)脈壁結(jié)構(gòu)的成像,獲得了成功。Schmit等人將其用于生物組織光學(xué)特性參數(shù)的'鋇4量,也取得了很好的效果。鑒于它廣泛的應(yīng)用前景,國(guó)際上在開(kāi)展研究工作的同時(shí),已經(jīng)向產(chǎn)品化方向發(fā)展。國(guó)內(nèi)也有一些科研小組開(kāi)始進(jìn)行有關(guān)的研究工作。當(dāng)今醫(yī)學(xué)影像技術(shù)在現(xiàn)代醫(yī)院中的作用愈來(lái)愈重要,除了眾所周知的x光、超聲波診斷、核磁共振成像及各種內(nèi)窺鏡檢查外,其他技術(shù)也層出不窮,可以解決許多以前影像檢查方法所不能解決的問(wèn)題。但他們各自仍存在局限性:X光檢查不能準(zhǔn)確探測(cè)出初期的腫塊,高能量照射時(shí)人體組織容易產(chǎn)生傷害:超聲檢查不具有探測(cè)尺寸小于幾毫米物體的分辨本領(lǐng),和x光一樣不能提供任何組織化學(xué)成分信息;核磁共振成像雖有較好的空間分辨率,能探測(cè)特殊組織的化學(xué)物質(zhì),但費(fèi)用極其昂貴,不利于常規(guī)應(yīng)用;內(nèi)窺鏡檢查可清晰地看到組織結(jié)構(gòu)并能夾取活檢,但同樣不能實(shí)時(shí)地確定組織的成分。
OCT最初的應(yīng)用是眼科學(xué)成像“61。目前,醫(yī)學(xué)仍然是OCT的主要應(yīng)用領(lǐng)域。與其他的光學(xué)技術(shù)相比,OCT具有很多卓越的優(yōu)點(diǎn):
[if !supportLists](1)[endif]縱向分辨率和樣本入射光的數(shù)值孔徑相互獨(dú)立;
[if !supportLists](2)[endif]高縱向分辨率和橫向分辨率;
[if !supportLists](3)[endif]非接觸、非侵入式的操作;
[if !supportLists](4)[endif]可以增加與圖像對(duì)比度有關(guān)的功能。相關(guān)的對(duì)比技術(shù)是基于多普勒頻移,偏振和波長(zhǎng)相關(guān)的后向散射。
現(xiàn)在,OCT作為一種非侵襲性的診斷工作,在臨床醫(yī)學(xué)中開(kāi)始發(fā)揮其巨大作用,因?yàn)镺CT圖像的軸向分辨率可達(dá)到10/2m,比現(xiàn)在任何一種臨床診斷設(shè)備的分辨率高達(dá)lO倍以上,且這種光纖式結(jié)構(gòu)不僅便宜而且很容易進(jìn)入導(dǎo)管,與內(nèi)窺鏡進(jìn)行相結(jié)合作業(yè),在人體內(nèi)部的組織器官檢查中得到很高的分辨率,特別是眼科學(xué)、心臟學(xué)、皮膚病等學(xué)科診斷中具有明顯的優(yōu)勢(shì)。對(duì)于青光眼的診斷和處理目前在臨床是十分棘手的問(wèn)題,眼內(nèi)壓測(cè)量經(jīng)常不能準(zhǔn)確預(yù)測(cè)出青光眼的病情進(jìn)展,只有在視網(wǎng)膜神經(jīng)纖維缺少50%以上時(shí),視野缺損和視神經(jīng)乳頭凹陷這樣的后期臨床診狀才能檢測(cè)到。OCT對(duì)視網(wǎng)膜結(jié)構(gòu)的高分辨率成像,對(duì)眼科臨床上診斷青光眼、斑變質(zhì)和斑水腫十分
可靠。視網(wǎng)膜視神經(jīng)纖維層是在青光眼中受影響的解剖結(jié)構(gòu),由于OCT的高分辨率可敏感地測(cè)量視網(wǎng)膜神經(jīng)纖維層的厚度且觀測(cè)到視盤(pán)的外形變化,可以在OCT中明確的判別。相對(duì)于玻璃體和視網(wǎng)膜結(jié)構(gòu),視網(wǎng)膜神經(jīng)纖維層是一個(gè)相對(duì)高散射的介質(zhì)層,由于視神經(jīng)纖維的圓柱形狀,視網(wǎng)膜神經(jīng)纖維層的后散射信號(hào)強(qiáng)度依賴于入射光的角度,這種角度依賴型導(dǎo)致了神經(jīng)纖維變成視神經(jīng)的視盤(pán)邊緣的視網(wǎng)膜神經(jīng)纖維層信號(hào)衰減。現(xiàn)在通過(guò)察看患者的視網(wǎng)膜神經(jīng)纖維層厚度就可以估測(cè)出青光眼病情的進(jìn)展,這在以前對(duì)青光眼的診斷上是沒(méi)有一個(gè)客觀標(biāo)準(zhǔn)的。對(duì)青光眼的診療上是一個(gè)突破而且OCT檢查幾乎不會(huì)給病人造成任何不適。
1.2.3 視網(wǎng)膜OCT研究
視網(wǎng)膜OCT圖像自動(dòng)識(shí)別系統(tǒng)是涉及現(xiàn)代數(shù)學(xué),模式識(shí)別、圖像處理、計(jì)算機(jī)視覺(jué)等多個(gè)領(lǐng)域,對(duì)完善OCT系統(tǒng),增強(qiáng)其實(shí)用性有著重要的意義。近20多年來(lái),醫(yī)學(xué)影像已成為醫(yī)學(xué)技術(shù)中發(fā)展最快的領(lǐng)域之一,其結(jié)果使臨床醫(yī)生對(duì)人體內(nèi)部病變部位的觀察更直按、更清晰,確診率也更高。70年代初,X-CT的發(fā)明曾引發(fā)了醫(yī)學(xué)影像領(lǐng)域的一場(chǎng)革命,與此同時(shí),核共振成像,超聲成像、數(shù)字射線照相術(shù)、發(fā)射型計(jì)算機(jī)成像和核素成像等也逐步發(fā)展。計(jì)算機(jī)和醫(yī)學(xué)圖像處理技術(shù)作為這些成像技術(shù)的發(fā)展基礎(chǔ),帶動(dòng)著現(xiàn)代醫(yī)學(xué)診斷正產(chǎn)生著深刻的變革。各種新的醫(yī)學(xué)成像方法的臨床應(yīng)用,使醫(yī)學(xué)診斷和治療技術(shù)取得了很大的進(jìn)展,同時(shí)將各種成像技術(shù)得到的信息進(jìn)行互補(bǔ),也為臨床診斷及生物醫(yī)學(xué)研究提供了有力的科學(xué)依據(jù)。因此,醫(yī)學(xué)圖像處理技術(shù)一直受到國(guó)內(nèi)外有關(guān)專(zhuān)家的高度重視。
借助于現(xiàn)代計(jì)算機(jī)技術(shù)結(jié)合病理專(zhuān)家實(shí)踐經(jīng)驗(yàn),采用圖像處理技術(shù)對(duì)醫(yī)學(xué)圖像進(jìn)行處理,從而對(duì)視網(wǎng)膜OCT圖像進(jìn)行識(shí)別,對(duì)于醫(yī)學(xué)科研與教學(xué),以及臨床診斷方面有著現(xiàn)實(shí)的意義和非常廣闊的前景。
目前,數(shù)字圖像處理、模式識(shí)別和人工智能技術(shù)已經(jīng)被廣泛的應(yīng)用在生物醫(yī)學(xué)領(lǐng)域,并取得了一些成果[Is-191,但用模式識(shí)別對(duì)OCT視網(wǎng)膜層析圖進(jìn)行病理診斷的系統(tǒng)報(bào)道并不多。本論文利用圖像處理技術(shù)結(jié)合醫(yī)學(xué)病理專(zhuān)家的知識(shí)經(jīng)驗(yàn)對(duì)視網(wǎng)膜OCT圖像進(jìn)行分類(lèi)識(shí)別的研究,應(yīng)用模式識(shí)別對(duì)細(xì)胞圖像進(jìn)行診斷分類(lèi),達(dá)到利用視網(wǎng)膜OCT圖像識(shí)別進(jìn)行眼底病輔助診斷的目的。目前主流的工作首先是通過(guò)借用了大量的圖像處理技術(shù)和算法,如圖像濾波、圖像增強(qiáng)、邊緣檢測(cè)等對(duì)圖像進(jìn)行了預(yù)處理。爾后利用K-L變換進(jìn)行特征提取,最后采用最近鄰法、BP神經(jīng)網(wǎng)絡(luò)等方法對(duì)OCT產(chǎn)生的視網(wǎng)膜層析圖進(jìn)行分類(lèi)并診斷,對(duì)OCT系統(tǒng)的推廣與完善具有重要意義。
[if !supportLists]第1章[endif]目前主要的圖像分類(lèi)方法
(說(shuō)明:主題是綜述主要內(nèi)容的敘述部分。一般要敘述所選研究題目的國(guó)內(nèi)外研究現(xiàn)狀;本研究至目前的主要他人研究成果;比較各種學(xué)術(shù)觀點(diǎn),闡明本研究的發(fā)展趨勢(shì);目前存在的問(wèn)題。對(duì)當(dāng)前工作的現(xiàn)狀,今后的發(fā)展趨勢(shì)應(yīng)作重點(diǎn)、詳盡而具體地?cái)⑹觥?
2.1 圖像分類(lèi)步驟
不同圖像分類(lèi)算法有各自的模型特點(diǎn),但歸納起來(lái)圖像分類(lèi)問(wèn)題的一般過(guò)程為。首先對(duì)原始圖像做預(yù)處理,提高圖像的質(zhì)量或者是需要改變圖像的大小獲得合適的輸入。然后利用特征學(xué)習(xí)算法對(duì)圖像進(jìn)行特征提取,獲得圖像的特征表示。再采用分類(lèi)算法構(gòu)建相應(yīng)的模型,就可以利用模型對(duì)圖像進(jìn)行分類(lèi)預(yù)測(cè)。這其中特征提取算法和分類(lèi)算法是影響最終分類(lèi)效果的關(guān)鍵,也是研究人員關(guān)注的焦點(diǎn)。本節(jié)將重點(diǎn)對(duì)這兩個(gè)關(guān)鍵環(huán)節(jié)的研究現(xiàn)狀和發(fā)展做一個(gè)闡述,為后續(xù)的研究奠定良好的理論急促。
2.1.1圖像特征提取和表示
圖像特征的提取和表示是圖像分類(lèi)研究工作的基礎(chǔ),圖像特征的選擇和表示很大程度上決定了圖像分類(lèi)的效果。本文將圖像特征的提取和表示分為以下三個(gè)階段:基本的視覺(jué)特征表達(dá)階段、人工加工特征表達(dá)階段和特征的自我學(xué)習(xí)階段。基本的視覺(jué)特征表達(dá)階段,這類(lèi)特征有直觀的基于底層的特征表示的方法,如顏色、紋理、形狀、空間關(guān)系等和局部特征算子。直觀特征最早使用的一類(lèi)圖像特征,它簡(jiǎn)單有效,但近年來(lái)隨著圖像處理的要求日益提高,目前研究較多的是多種直觀特征融合以及直觀特征與人工統(tǒng)計(jì)特征融合的方法。
局部特征是相對(duì)全局特征而言,顯然顏色直方圖等直觀性特征是從圖像全局考慮。
當(dāng)圖像出現(xiàn)一些遮擋,尺度變化等問(wèn)題,特別是需要考慮圖像的前景和背景進(jìn)行內(nèi)容識(shí)別的時(shí)候,全局特征有較大的局限性。局部特征和全局特征不同,致力于尋找圖像中穩(wěn)定且具有良好區(qū)分性點(diǎn),這些點(diǎn)人工是無(wú)法直觀捕捉到,但計(jì)算機(jī)只需要這些像素點(diǎn)就能夠描述圖像主要內(nèi)容。因此也被稱為顯著點(diǎn)。SIFT(Scale.Invariant Feature Transform)算子,刪因其良好的魯棒性M得到了廣泛的應(yīng)用,‘'Video Google’’就是利用SIFT算法的影像檢索框架。SIFT算法作為最經(jīng)典的局部特征算子,算法的核心就是提取SIFT關(guān)鍵點(diǎn)(keypoint)。針對(duì)經(jīng)典SIFT算子存在高維數(shù)的問(wèn)題PCA.SIFT[49】采用主成分分析(Principal ComponentAnalysis,PCA)降維的概念,成功的將SIFT從128維降至36維,也成為SIFT算子改進(jìn)中應(yīng)用較廣的算子。由于SIFT算子只利用了圖像的灰度信息,研究人員結(jié)合顏色和形狀等提出了很多針對(duì)SIFT算子的改進(jìn)算法,
特征算子還有HOG(HistogramofOrientedGradient)梯度方向直方圖、SURF(Speeded Robust Features)、GLOH(Gradient location.orientation 對(duì)比了當(dāng)時(shí)主流的三種局部特征描述符的表現(xiàn),分析每個(gè)算子生成及匹配速度。并給出了相應(yīng)的結(jié)論,可以看出整體表現(xiàn)上PCA.SIFT略勝一籌。局部特征算子具備如前所述遮擋、尺度不變等的優(yōu)點(diǎn),但是仍然還是有它的不足之處,主要體現(xiàn)在:(1)原始圖像的分辨率影響算子性能,因?yàn)榉直媛蕦?shí)際上反映了原始圖像中信息量的多少。原始分辨率高意味著在特征提取的采樣過(guò)程中可以保存較多的原始信息,從而提取得到的更多關(guān)鍵點(diǎn)。反之,關(guān)鍵點(diǎn)就少,性能下降;(2)在提取特征向量過(guò)程中必須進(jìn)行尺度空間的極值檢測(cè),因此如果圖像時(shí)大片平滑區(qū)域時(shí),由于不存在極值點(diǎn)而難以提取關(guān)鍵點(diǎn);(3)對(duì)一些具有方向性和重復(fù)性的特征,例如紋理特征,提取到的關(guān)鍵點(diǎn)偏少,容易誤檢。
人工加工的特征表達(dá)階段,是指在基本特征提取的基礎(chǔ)上研究人員應(yīng)用統(tǒng)計(jì)、代數(shù)
方法或者變換系數(shù)等方法描述特征。這類(lèi)二次加工的特征表示中最經(jīng)典的是詞袋模型
(BagofWords,Bow)。它首先通過(guò)SIFT等局部特征算子抽取圖像的基本特征,然后對(duì)這些特征采用K—means等聚類(lèi)方法映射成關(guān)鍵詞集合,形成詞典(字典),然后
分別對(duì)每個(gè)原始特征描述按字典進(jìn)行統(tǒng)計(jì)以形成最后的特征描述。詞袋模型最初主
要應(yīng)用在文本領(lǐng)域,之后延伸到圖像處理領(lǐng)域,詞袋模型由于可以高速實(shí)現(xiàn)分類(lèi),效果良好,迅速成為最流行的分類(lèi)方法。目前仍有許多基于詞袋模型的擴(kuò)展算法研究,特別是在圖像內(nèi)容檢索領(lǐng)域。含空間信息的詞袋模型,加快單個(gè)視覺(jué)詞匯的描述子分配,加強(qiáng)視覺(jué)詞匯的分布能力等都是基于詞袋模型的研究。
除了詞袋模型以外,代數(shù)特征方法也是常用的人工加工特征之一。代數(shù)特征方法主
要是通過(guò)代數(shù)理論如矩陣分解奇異值分解等計(jì)算或統(tǒng)計(jì)抽取特征,常用的方法可以主要有:主分量分析(PCA)、線性鑒別分析(LDA)和Fisher線性鑒別分析刪。這些方法在人臉識(shí)別中經(jīng)常使用,其局限主要體現(xiàn)在兩個(gè)方面:一方面需要大的樣本集進(jìn)行學(xué)習(xí);另一個(gè)方面對(duì)視角、光照與物體非線性形變敏感。上述方法都屬于線性投影的方法,而非線性特征方法目標(biāo)是將非線性問(wèn)題轉(zhuǎn)為線性問(wèn)題,例如使用“核技巧”。主要方法有:KPCA[65石71和SVM的一些擴(kuò)展方法[68-701。該類(lèi)方法的局限性也表現(xiàn)在兩個(gè)
方面:一方面在非線性轉(zhuǎn)換過(guò)程里的映射幾何意義不明確;另一方面使用“核技巧”缺乏選取標(biāo)準(zhǔn)的引導(dǎo),多通過(guò)實(shí)驗(yàn)調(diào)整和經(jīng)驗(yàn)選取。還有一類(lèi)人工加工特征是對(duì)在其他特征提取方法對(duì)圖像進(jìn)行各種濾波變換如K—L變換、傅里葉變換、小波變換、小波
包變換等。將濾波變換的系數(shù)作為圖像特征,這種方法是二次提取的特征稱為變換
系數(shù)特征。其優(yōu)點(diǎn)是表示能力強(qiáng)、特征維數(shù)低。缺點(diǎn)是依賴于對(duì)分類(lèi)識(shí)別圖像的某種變換、特征的語(yǔ)義不直觀。特征的自我學(xué)習(xí)階段,前兩個(gè)階段的特征抽取和表達(dá)無(wú)論是哪種,都離不開(kāi)人工選擇,即使是多種特征結(jié)合的方式也需要事先根據(jù)問(wèn)題領(lǐng)域人工確定。在問(wèn)題沒(méi)有解決之前確定選取的特征更多要依靠經(jīng)驗(yàn)和運(yùn)氣。能否讓圖像特征實(shí)現(xiàn)學(xué)習(xí)而不需要人工選擇?
人類(lèi)的視覺(jué)系統(tǒng)給出了這樣的啟示:人的視覺(jué)系統(tǒng)信息處理是分級(jí)的,從低層特征到高層的特征,逐步抽象,越抽象越接近表現(xiàn)語(yǔ)義。在此基礎(chǔ)上,Hinton提出了深度學(xué)習(xí)的概念。深度學(xué)習(xí)繼承了神經(jīng)網(wǎng)絡(luò)對(duì)復(fù)雜函數(shù)逼近的特點(diǎn),提出的多層學(xué)習(xí)模型模擬了人腦的認(rèn)知機(jī)制。Hinton提出了深度信念網(wǎng)(DeepBeliefNetworks,DBNs)[741,實(shí)現(xiàn)了深度學(xué)習(xí)的概念。DBNs用非監(jiān)督貪婪算法進(jìn)行逐層訓(xùn)練解決原有深層結(jié)構(gòu)帶來(lái)的易陷入局部最小和梯度擴(kuò)散的難題。深度學(xué)習(xí)思想的核心有三點(diǎn):第一,逐層訓(xùn)練;第二,用無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練每一層;第三,用無(wú)監(jiān)督訓(xùn)練來(lái)對(duì)所有層進(jìn)行調(diào)整。深度學(xué)習(xí)不需要人工指定特征,可以將圖像這樣的研究對(duì)象直接作為輸入,因此非常適合處理圖像問(wèn)題。深度學(xué)習(xí)的主要算法除了DBNS外,F(xiàn)ukushima提出的卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeural Networks,CNN)[761是第一個(gè)真正多層網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法,也是近年在圖像處理領(lǐng)域研究最多的深度學(xué)習(xí)算法。除此之外深度學(xué)習(xí)還出現(xiàn)了許多其它結(jié)構(gòu),例如自動(dòng)編碼器AutoEncoder,稀疏自動(dòng)編碼器Sparse ?AutoEncoder,降噪自動(dòng)編碼器DenoisingAutoEncoders,遞歸神經(jīng)網(wǎng)絡(luò)RNN[801。Bengio研究了基于線性和非線性的自動(dòng)編碼器。近年來(lái)深度結(jié)構(gòu)在目標(biāo)識(shí)別阮、語(yǔ)音識(shí)別、人臉識(shí)別網(wǎng)、運(yùn)動(dòng)姿勢(shì)估計(jì)方面也有很多應(yīng)用。總而言之,隨著計(jì)算機(jī)硬件以及GPU技術(shù)的發(fā)展,深
度學(xué)習(xí)的結(jié)構(gòu)可以更好的適應(yīng)大型圖像數(shù)據(jù)庫(kù)的應(yīng)用,不需要人工特征提取方法實(shí)現(xiàn)圖像分類(lèi)識(shí)別任務(wù),做到機(jī)器智能學(xué)習(xí),并且有非常廣闊的應(yīng)用領(lǐng)域。
2.1.2.分類(lèi)學(xué)習(xí)算法
在特征提取之后,需要依靠分類(lèi)學(xué)習(xí)算法得到最終的圖像分類(lèi)結(jié)果,分類(lèi)學(xué)習(xí)算法或者稱分類(lèi)器也是研究人員研究的熱點(diǎn)。
(1)SVM(支持向量機(jī)):支持向量機(jī)是當(dāng)前研究最熱門(mén)的分類(lèi)算法之一,
支持向量機(jī)以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),將線性不可分問(wèn)題通過(guò)高維映射成為線性可分問(wèn)題,采用線性分類(lèi)進(jìn)行劃分。以線性二分類(lèi)為基礎(chǔ),通過(guò)采用一對(duì)一、一對(duì)多等策略可以轉(zhuǎn)換為多分類(lèi)問(wèn)題的求解。在圖像分類(lèi)任務(wù)中,SVM具有良好的泛化能力,不易陷入局部最優(yōu)。但SVM構(gòu)建過(guò)程中的核參數(shù)選擇還缺少標(biāo)準(zhǔn),誤差懲罰參數(shù)選取也是SVM的一個(gè)難點(diǎn)。這2個(gè)重要的參數(shù)對(duì)SVM的分類(lèi)效果有明顯的影響。很多研究圍繞著這2個(gè)關(guān)鍵點(diǎn),例如:多核學(xué)習(xí)的概念的提出以及其在圖像和目標(biāo)識(shí)別的應(yīng)用。
在核選擇上問(wèn)題上也有不少研究,Kotrooulos在醫(yī)學(xué)圖像分割領(lǐng)域證明采用RBF核的效果最佳,RBF核是目前大多數(shù)SVM的首選。Hillt941對(duì)幾種SVM方法進(jìn)行了比較,并分析了各算法訓(xùn)練速度優(yōu)劣的原因。
(2)隨機(jī)森林:隨機(jī)森林是由多個(gè)決策樹(shù)通過(guò)隨機(jī)形式方式組成的分類(lèi)器。隨機(jī)
森林適合于多分類(lèi)任務(wù),其表達(dá)直觀、訓(xùn)練和預(yù)測(cè)速度快。Leo Breiman和Adele Cutler
發(fā)展出隨機(jī)森林的算法。隨機(jī)森林也是圖像分類(lèi)常用的分類(lèi)器之一,Kontschiedert在隨機(jī)森林的框架下融入了標(biāo)注拓?fù)湫畔⒂糜趫D像語(yǔ)義標(biāo)注。Schroff將圖像局部和全局多種特征融合在隨機(jī)森林的框架下提高了分類(lèi)器的表現(xiàn)。隨機(jī)森林的缺點(diǎn)主要有兩點(diǎn):第一,對(duì)噪音較大的問(wèn)題容易出現(xiàn)過(guò)擬合;第二,由于分類(lèi)結(jié)果取個(gè)別樹(shù)的眾數(shù),對(duì)于分類(lèi)問(wèn)題中有不同級(jí)別屬性的,權(quán)值計(jì)算存在較大偏差,分類(lèi)結(jié)果不可靠。
(3)貝葉斯方法:貝葉斯分類(lèi)以計(jì)算類(lèi)概率的方式得出樣本屬于某一類(lèi)的概率,
將最大概率的類(lèi)標(biāo)簽賦予樣本。樸素的貝葉斯分類(lèi)器(Naive Bayesian ?Classifier)因具有較高的準(zhǔn)確性,在圖像分類(lèi)問(wèn)題,文本分類(lèi)等應(yīng)用較多,ZhangI蚓用它來(lái)解決多標(biāo)注的特征學(xué)習(xí)問(wèn)題。貝葉斯分類(lèi)器的缺陷是:需要估計(jì)概率密度分布函數(shù),這個(gè)在很多應(yīng)用中都難以估計(jì)。另外,它的前提假設(shè)是各特征滿足獨(dú)立不相關(guān),否則分類(lèi)的準(zhǔn)確度就會(huì)大大降低。
(4)神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)算法是由生物的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)得到啟示,通過(guò)數(shù)學(xué)模型
模擬神經(jīng)元以及神經(jīng)元之間的相互連接而構(gòu)成網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)對(duì)不同的神經(jīng)元設(shè)置不同的權(quán)值參數(shù),通過(guò)激活函數(shù)調(diào)整神經(jīng)元節(jié)點(diǎn)之間的連接關(guān)系,實(shí)現(xiàn)對(duì)樣本的學(xué)習(xí)。
R ?Hecht-Nielson刪證明任何連續(xù)函數(shù)都可以n4--層的BP網(wǎng)絡(luò)實(shí)現(xiàn)任意精度近似。BP神經(jīng)網(wǎng)絡(luò)在早期的圖像分類(lèi)問(wèn)題中也常使用,但因BP神經(jīng)網(wǎng)絡(luò)容易陷入局部最小,訓(xùn)練時(shí)間較長(zhǎng)而相對(duì)其它分類(lèi)方法并沒(méi)有明顯的優(yōu)勢(shì),近年來(lái)BP神經(jīng)網(wǎng)絡(luò)的研究相對(duì)較少。深度學(xué)習(xí)實(shí)際上神經(jīng)網(wǎng)絡(luò)的一種特殊擴(kuò)展形式,它將特征提取和分類(lèi)融合在一個(gè)結(jié)構(gòu)中實(shí)現(xiàn)。
(5)集成學(xué)習(xí):集成學(xué)習(xí)實(shí)際上并不是一種全新的分類(lèi)方法,它的理論基礎(chǔ)是概
率近似準(zhǔn)確(PAC,Probably Approximately Correct)。集成學(xué)習(xí)不同于上述分類(lèi)方
法去努力提升單個(gè)分類(lèi)器的分類(lèi)精度,而是研究是否可以通過(guò)集成的方式,實(shí)現(xiàn)弱學(xué)習(xí)方法轉(zhuǎn)強(qiáng)。在1990年Schapirell021首先提出了集成學(xué)習(xí)的概念和Boosting算法,之后集成學(xué)習(xí)逐漸成為機(jī)器學(xué)習(xí)領(lǐng)域中的熱點(diǎn)。集成學(xué)習(xí)領(lǐng)域最著名的2個(gè)算法是:
AdaBoost算法,Bagging算法。AdaBoost通過(guò)提高錯(cuò)誤樣本的權(quán)值改變樣本數(shù)據(jù)分布,將弱分類(lèi)器組合提升為強(qiáng)分類(lèi)器。Bagging通過(guò)訓(xùn)練集的劃分,采用不同的子集訓(xùn)練分類(lèi)器,獲得不同分類(lèi)器后再進(jìn)行集成,提升分類(lèi)性能。Bagging的訓(xùn)練集是隨機(jī)的,各訓(xùn)練集是獨(dú)立的,而B(niǎo)oosting訓(xùn)練集的選擇不是獨(dú)立的,每一次選擇的訓(xùn)練集都依賴于上一次學(xué)習(xí)的結(jié)果。Boosting算法的變種有很多:LPBoostll0、TotalBoost,
SoflBoost,ERLPBoostl等。這些Boosting算法主要是從最大化boosting算法的
間隔(Margin)或者軟間隔(SoftMargin)考慮來(lái)改進(jìn)的。2001年周志華等人提出了“選擇性集成,,概念并設(shè)計(jì)了一種選擇性集成算法GASENll,用對(duì)弱分類(lèi)器先選擇再集成
的方式提升了性能。集成學(xué)習(xí)算法存在兩個(gè)問(wèn)題:第一,當(dāng)要集成的弱分類(lèi)器有較大相關(guān)性和冗余時(shí),集成效果不好,這時(shí)增加分類(lèi)器也得不到多大的提升。第二,Boosting
系列集成算法對(duì)弱分類(lèi)器更新樣本權(quán)重,是基于全局的,這樣弱化了強(qiáng)分類(lèi)器的作用。
我按照基于聚類(lèi)、排序、選擇、優(yōu)化個(gè)不同角度對(duì)選擇性集成算法進(jìn)行綜述。
綜上所述,深度學(xué)習(xí)的方法與傳統(tǒng)的圖像分類(lèi)方法相比較有以下幾點(diǎn)優(yōu)勢(shì):第一,
深度學(xué)習(xí)方法在同一結(jié)構(gòu)中實(shí)現(xiàn)特征選擇和分類(lèi),無(wú)需人工選擇特征:第二,從現(xiàn)有的研究成果看,深度學(xué)習(xí)方法比傳統(tǒng)的圖像分類(lèi)方法在一般圖像分類(lèi)準(zhǔn)確率上有顯著的提升:第三,深度學(xué)習(xí)方法的結(jié)構(gòu)由于其網(wǎng)絡(luò)的深度和對(duì)并行計(jì)算的支持更適合于處理大批量的數(shù)據(jù)。
2.2 視網(wǎng)膜的生理結(jié)構(gòu)
視網(wǎng)膜就像一架照相機(jī)里的感光底片,專(zhuān)門(mén)負(fù)責(zé)感光成像。當(dāng)我們看東西時(shí),物體的影像通過(guò)屈光系統(tǒng),落在視網(wǎng)膜上。視網(wǎng)膜是一層透明薄膜,因脈絡(luò)膜和色素上皮細(xì)胞的關(guān)系,使眼底呈均勻的橘紅色。后界位于視乳頭周?chē)敖缥挥阡忼X緣,其外面緊鄰脈絡(luò)膜,內(nèi)面緊貼玻璃體。
視信息在視網(wǎng)膜上形成視覺(jué)神經(jīng)沖動(dòng),沿視路將視信息傳遞到視中樞形成視覺(jué),這樣在我們的頭腦中建立起圖像。
生物結(jié)構(gòu)
組織學(xué)上視網(wǎng)膜分為10層,由外向內(nèi)分別為:色素上皮層,視錐、視桿細(xì)胞層,外界膜,外顆粒層,外叢狀層,內(nèi)顆粒層,內(nèi)叢狀層,神經(jīng)節(jié)細(xì)胞層,神經(jīng)纖維層,內(nèi)界膜。
視網(wǎng)膜內(nèi)層為襯于血管膜內(nèi)面的一層薄膜,有感光作用。后部鼻側(cè)有一視神經(jīng)乳頭。
視網(wǎng)膜上的感覺(jué)層是由三個(gè)神經(jīng)元組成。第一神經(jīng)元是視細(xì)胞層,專(zhuān)司感光,它包括錐細(xì)胞和桿細(xì)人的視網(wǎng)膜上共約有1.1~1.3 億個(gè)桿細(xì)胞,有600~700萬(wàn)個(gè)錐細(xì)胞。視桿細(xì)胞主要在離中心凹較遠(yuǎn)的視網(wǎng)膜上,而視錐細(xì)胞則在中心凹處最多。第二層叫雙節(jié)細(xì)胞,約有10到數(shù)百個(gè)視細(xì)胞通過(guò)雙節(jié)細(xì)胞與一個(gè)神經(jīng)節(jié)細(xì)胞相聯(lián)系,負(fù)責(zé)聯(lián)絡(luò)作用。第三層叫節(jié)細(xì)胞層,專(zhuān)管傳導(dǎo)。
視網(wǎng)膜是一層菲薄的但又非常復(fù)雜的結(jié)構(gòu),它貼于眼球的后壁部,傳遞來(lái)自視網(wǎng)膜感受器沖動(dòng)的神經(jīng)纖維跨越視網(wǎng)膜表面,經(jīng)由視神經(jīng)到達(dá)出口。視網(wǎng)膜的分辨力是不均勻的,在黃斑區(qū),其分辨能力最強(qiáng)。視網(wǎng)膜的厚度相當(dāng)于一張薄紙。從光學(xué)觀點(diǎn)出發(fā),視網(wǎng)膜是眼光學(xué)系統(tǒng)的成像屏幕,它是一凹形的球面。組織結(jié)構(gòu)層次為色素上皮細(xì)胞→光感受器細(xì)胞→雙極細(xì)胞→神經(jīng)節(jié)細(xì)胞。
視網(wǎng)膜的凹形彎曲有兩個(gè)優(yōu)點(diǎn):
(1)眼光學(xué)系統(tǒng)形成的像有凹形彎曲,所以彎曲的視網(wǎng)膜作為像屏具有適應(yīng)的效果;
(2)彎曲的視網(wǎng)膜具有更廣寬的視野。
視網(wǎng)膜后極部有一直徑約2mm的淺漏斗狀小凹陷區(qū),稱為黃斑,這是由于該區(qū)含有豐富的葉黃素而得名。其中央有一小凹為黃斑中心凹,黃斑區(qū)無(wú)血管,但因色素上皮細(xì)胞中含有較多色素,因此在檢眼鏡下顏色較暗,中心凹處可見(jiàn)反光點(diǎn),稱為中心凹反射,因此處只有大量的視錐細(xì)胞,故它是視網(wǎng)膜上視覺(jué)最敏銳的部位。
2.3 視網(wǎng)膜OCT圖像特點(diǎn)
OCT視網(wǎng)膜各層對(duì)應(yīng)關(guān)系
1.神經(jīng)纖維層:神經(jīng)纖維,反光強(qiáng)——紅黃色帶。
2.神經(jīng)節(jié)細(xì)胞層:節(jié)細(xì)胞體,反光弱——綠藍(lán)色帶。
3.內(nèi)叢狀層:節(jié)細(xì)胞和雙極細(xì)胞樹(shù)突——神經(jīng)纖維,反光強(qiáng)——黃色帶。
4.雙極細(xì)胞體層:細(xì)胞體,反光弱——藍(lán)色帶。
5.外叢狀層:視細(xì)胞和雙極細(xì)胞樹(shù)突——神經(jīng)纖維,反光強(qiáng)——黃色帶。此層有中介膜存在,是真正的視網(wǎng)膜中分界所在。
6.視細(xì)胞體層:視細(xì)胞體,反光弱——藍(lán)色帶,而且較寬。
7.外界膜:反光略增強(qiáng),很窄的綠黃色帶。為視細(xì)胞體與椎體、桿體(感受器)之間的分界處,外界膜的內(nèi)側(cè)為視細(xì)胞體,其外側(cè)即為椎體和桿體。
8.視細(xì)胞光感受器內(nèi)節(jié)帶:較外界膜反光略弱——很窄的綠色帶。
9.視細(xì)胞光感受器內(nèi)外節(jié)連接處:反光明顯增強(qiáng),很窄的黃色帶。在黃斑中心凹處,因該處的椎體外節(jié)長(zhǎng)而稍遠(yuǎn)離其下的色素上皮帶。
10.視細(xì)胞光感受器外節(jié)帶:反光略弱——非常窄的綠色帶。仔細(xì)觀察下是一條區(qū)分內(nèi)外節(jié)連接處與其下色素上皮層的非常非常窄的綠色光帶,在黃斑中心凹處,因該處椎體外節(jié)長(zhǎng)而增寬
11.色素上皮層:反光明顯增強(qiáng)、增寬的紅黃色帶。在黃斑中心凹處,因該處色素上皮增多,而略有增寬。
12.玻璃膜和脈絡(luò)膜毛細(xì)血管層:因色素上皮層的遮蔽作用,結(jié)構(gòu)顯示不太清楚。
2.4 視網(wǎng)膜OCT圖像處理
OCT作為一種新型的成像技術(shù)具有很多技術(shù)上的優(yōu)勢(shì),利用OCT診斷眼底病已經(jīng)得到了廣泛的應(yīng)用。已閱的文獻(xiàn)主要從視網(wǎng)膜OCT圖像的預(yù)處理、特征提取和分類(lèi)器設(shè)計(jì)幾個(gè)方面對(duì)視網(wǎng)膜OCT圖像識(shí)別這一課題進(jìn)行了一定的研究和討論。
OCT圖像的預(yù)處理主要采用了兩種方法:二值化和圖像輪廓提取。主要討論了后一種方法。視網(wǎng)膜OCT圖像信息量較大,圖像背景復(fù)雜。單純的圖像處理方法不能得到連通的特征區(qū)域。在對(duì)圖像進(jìn)行預(yù)處理時(shí),有些學(xué)者采用了彩色分割、數(shù)學(xué)形態(tài)學(xué)運(yùn)算以及邊緣檢測(cè)等方法相結(jié)合的辦法。在處理圖像過(guò)程中,膨脹以及閉運(yùn)算操作會(huì)使預(yù)處理后的邊緣與實(shí)際的圖像邊緣產(chǎn)生偏離,所以,把握好預(yù)處理過(guò)程中的結(jié)構(gòu)元素的大小十分關(guān)鍵,既要使圖像連通有要使基本形態(tài)特征保持不變。經(jīng)過(guò)預(yù)處理后,視網(wǎng)膜OCT圖像輪廓清晰,特征區(qū)域明顯,為后續(xù)的圖像識(shí)別奠定了基礎(chǔ)。
通過(guò)對(duì)視網(wǎng)膜OCT圖像的分析,有部分學(xué)者采用二值化、輪廓提取技術(shù)對(duì)圖像進(jìn)行了預(yù)處理,利用K.L變換提取了圖像的特征向量,最后分別用最近鄰法和BP神經(jīng)網(wǎng)絡(luò)法進(jìn)行了圖像識(shí)別。從實(shí)驗(yàn)中可以看出,不同的方法保留的圖像信息是不同的,所以最后的結(jié)果就會(huì)有差異。通過(guò)比較,采用圖像二值化后直接用最近鄰法進(jìn)行圖像識(shí)別的方案,識(shí)別率達(dá)到了100%。
2.5 圖像處理中主要的深度學(xué)習(xí)方法
AutoEncoder自動(dòng)編碼器
最簡(jiǎn)單的一種方法是利用人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn),人工神經(jīng)網(wǎng)絡(luò)(ANN)本身就是具有層次結(jié)構(gòu)的系統(tǒng),如果給定一個(gè)神經(jīng)網(wǎng)絡(luò),我們假設(shè)其輸出與輸入是相同的,然后訓(xùn)練調(diào)整其參數(shù),得到每一層中的權(quán)重,自然地,我們就得到了輸入I的兒種不同表示(每一層是輸入的一種表示),這些表示就是特征,在研究中可以發(fā)現(xiàn),如果在原有的特征中加入這些自動(dòng)學(xué)習(xí)得到的特t正可以大大提高精確度,甚至在分類(lèi)問(wèn)題中比}」前址好的分類(lèi)算法效果還要好,這種方法稱為自動(dòng)編碼(AutoEncoder )。
Sparse Coding稀疏編碼
如果我們把輸出必須和輸入相等的限制放松,同時(shí)利用線性代數(shù)中基的概念,即O=Wx B, +硯x B, +...+W,x B,, , B是基,W;是系數(shù),我們可以得到這樣一個(gè)優(yōu)化問(wèn)題:Min 11一Olo
通過(guò)求解這個(gè)最優(yōu)化式子,我們可以求得系數(shù)W和基B;,這些系數(shù)和基礎(chǔ)就是輸入的另外一種近似表達(dá),因此,它們可以被當(dāng)成特征來(lái)表達(dá)輸入I,這個(gè)過(guò)程也是自動(dòng)學(xué)習(xí)得到的。如果我們?cè)谏鲜鍪阶由霞由螸1的Regularity限制,得到: ?????????????????Min}I一O}+u*(IW卜}硯I+…+}W,})。(2. 1)
種方法被稱為Sparse Coding,它是一種對(duì)對(duì)象的簡(jiǎn)潔表征的方法,這種方法可以自動(dòng)地學(xué)習(xí)到隱藏在對(duì)象數(shù)據(jù)潛在的基函數(shù)。
Restricted Boltzmann Machine(RBM)限制波爾茲曼機(jī)
假設(shè)有一個(gè)二部圖,每一個(gè)相同層的節(jié)點(diǎn)之間沒(méi)有鏈接,一層是可視層,即輸入數(shù)據(jù)層(v),一層是隱層(h),如果假設(shè)所有的節(jié)點(diǎn)都是二值變量節(jié)點(diǎn)(只能取0或者1值),同時(shí)假設(shè)聯(lián)合概率分布p(v, h)滿足Boltzmann分布,我們稱這個(gè)模型是受限玻爾茲曼機(jī)(RBM)。下面我們來(lái)看看為什么它是Deep Learning方法。首先,這個(gè)模型因?yàn)槭嵌繄D,所以在己知v的情況下,所有的隱藏節(jié)點(diǎn)之間是條件獨(dú)立的,即p(hIv卜p(h, I 1,) ... p(h? I v)。同理,在己知隱藏層h的情況下,所有的可視節(jié)點(diǎn)都是條件獨(dú)立的,同時(shí)又由于所有的v和h滿足Boltzmann分布,因此,當(dāng)輸入v的時(shí)候,通過(guò)p(hlv)可以得到隱藏層h,而得到隱藏層h之后,通過(guò)p(vlh)又能重構(gòu)可視層,通過(guò)調(diào)整參數(shù),我們就是要使得從隱藏層得到的可視層VI與原來(lái)的可視層v如果一樣,那么得到的隱藏層就是可視層的另外一種表達(dá),因此隱藏層可以作為可視層輸入數(shù)據(jù)的特征,所以它就是一種Dcep Learning方法。文獻(xiàn)X32]從理論一上證明,當(dāng)隱層節(jié)點(diǎn)足夠多時(shí),深度網(wǎng)絡(luò)就可以表示任意離散分布;文獻(xiàn)[33]指出受限玻爾茲曼機(jī)中的隱層節(jié)點(diǎn)與可視節(jié)點(diǎn)可以為任意的指數(shù)族單元(即給定隱單元(可見(jiàn)單元),可見(jiàn)單元(隱單元)的分布的形式一可以為任意的指數(shù)族分布),如高斯單元、softmax單元、泊松單元等等。
Deep BeliefNetworks深信度網(wǎng)絡(luò)
DBNs是一個(gè)概率生成模型,與傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡(luò)相對(duì),生成模型是建立一個(gè)觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布,對(duì)P(Observation|Label)和 P(Label|Observation)都做了評(píng)估,而判別模型僅僅而已評(píng)估了后者,也就是P(Label|Observation)。對(duì)于在深度神經(jīng)網(wǎng)絡(luò)應(yīng)用傳統(tǒng)的BP算法的時(shí)候,DBNs遇到了以下問(wèn)題:
(1)需要為訓(xùn)練提供一個(gè)有標(biāo)簽的樣本集;
(2)學(xué)習(xí)過(guò)程較慢;
[if !supportLists](3)[endif]不適當(dāng)?shù)膮?shù)選擇會(huì)導(dǎo)致學(xué)習(xí)收斂于局部最優(yōu)解。
目前,和DBNs有關(guān)的研究包括堆疊自動(dòng)編碼器,它是通過(guò)用堆疊自動(dòng)編碼器來(lái)替換傳統(tǒng)DBNs里面的RBMs。這就使得可以通過(guò)同樣的規(guī)則來(lái)訓(xùn)練產(chǎn)生深度多層神經(jīng)網(wǎng)絡(luò)架構(gòu),但它缺少層的參數(shù)化的嚴(yán)格要求。與DBNs不同,自動(dòng)編碼器使用判別模型,這樣這個(gè)結(jié)構(gòu)就很難采樣輸入采樣空間,這就使得網(wǎng)絡(luò)更難捕捉它的內(nèi)部表達(dá)。但是,降噪自動(dòng)編碼器卻能很好的避免這個(gè)問(wèn)題,并且比傳統(tǒng)的DBNs更優(yōu)。它通過(guò)在訓(xùn)練過(guò)程添加隨機(jī)的污染并堆疊產(chǎn)生場(chǎng)泛化性能。訓(xùn)練單一的降噪自動(dòng)編碼器的過(guò)程和RBMs訓(xùn)練生成模型的過(guò)程一樣。
Networks卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,已成為當(dāng)前語(yǔ)音分析和圖像識(shí)別領(lǐng)域的研究熱點(diǎn)。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類(lèi)似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。該優(yōu)點(diǎn)在網(wǎng)絡(luò)的輸入是多維圖像時(shí)表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程。卷積網(wǎng)絡(luò)是為識(shí)別二維形狀而特殊設(shè)計(jì)的一個(gè)多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。
CNNs是受早期的延時(shí)神經(jīng)網(wǎng)絡(luò)(TDNN)的影響。延時(shí)神經(jīng)網(wǎng)絡(luò)通過(guò)在時(shí)間維度上共享權(quán)值降低學(xué)習(xí)復(fù)雜度,適用于語(yǔ)音和時(shí)間序列信號(hào)的處理。
CNNs是第一個(gè)真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。它利用空間關(guān)系減少需要學(xué)習(xí)的參數(shù)數(shù)目以提高一般前向BP算法的訓(xùn)練性能。CNNs作為一個(gè)深度學(xué)習(xí)架構(gòu)提出是為了最小化數(shù)據(jù)的預(yù)處理要求。在CNN中,圖像的一小部分(局部感受區(qū)域)作為層級(jí)結(jié)構(gòu)的最低層的輸入,信息再依次傳輸?shù)讲煌膶樱繉油ㄟ^(guò)一個(gè)數(shù)字濾波器去獲得觀測(cè)數(shù)據(jù)的最顯著的特征。這個(gè)方法能夠獲取對(duì)平移、縮放和旋轉(zhuǎn)不變的觀測(cè)數(shù)據(jù)的顯著特征,因?yàn)閳D像的局部感受區(qū)域允許神經(jīng)元或者處理單元可以訪問(wèn)到最基礎(chǔ)的特征,例如定向邊緣或者角點(diǎn)。
[if !supportLists]第2章[endif]總結(jié)
深度學(xué)習(xí)是關(guān)于自動(dòng)學(xué)習(xí)要建模的數(shù)據(jù)的潛在(隱含)分布的多層(復(fù)雜)表達(dá)的算法。換句話來(lái)說(shuō),深度學(xué)習(xí)算法自動(dòng)的提取分類(lèi)需要的低層次或者高層次特征。高層次特征,一是指該特征可以分級(jí)(層次)地依賴其他特征,例如:對(duì)于機(jī)器視覺(jué),深度學(xué)習(xí)算法從原始圖像去學(xué)習(xí)得到它的一個(gè)低層次表達(dá),例如邊緣檢測(cè)器,小波濾波器等,然后在這些低層次表達(dá)的基礎(chǔ)上再建立表達(dá),例如這些低層次表達(dá)的線性或者非線性組合,然后重復(fù)這個(gè)過(guò)程,最后得到一個(gè)高層次的表達(dá)。
Deep learning能夠得到更好地表示數(shù)據(jù)的feature,同時(shí)由于模型的層次、參數(shù)很多,capacity足夠,因此,模型有能力表示大規(guī)模數(shù)據(jù),所以對(duì)于圖像、語(yǔ)音這種特征不明顯(需要手工設(shè)計(jì)且很多沒(méi)有直觀物理含義)的問(wèn)題,能夠在大規(guī)模訓(xùn)練數(shù)據(jù)上取得更好的效果。此外,從模式識(shí)別特征和分類(lèi)器的角度,deep learning框架將feature和分類(lèi)器結(jié)合到一個(gè)框架中,用數(shù)據(jù)去學(xué)習(xí)feature,在使用中減少了手工設(shè)計(jì)feature的巨大工作量(這是目前工業(yè)界工程師付出努力最多的方面),因此,不僅僅效果可以更好,而且,使用起來(lái)也有很多方便之處,因此,是十分值得關(guān)注的一套框架,每個(gè)做ML的人都應(yīng)該關(guān)注了解一下。
當(dāng)然,deep learning本身也不是完美的,也不是解決世間任何ML問(wèn)題的利器,不應(yīng)該被放大到一個(gè)無(wú)所不能的程度。
2)Deep learning未來(lái)
深度學(xué)習(xí)目前仍有大量工作需要研究。目前的關(guān)注點(diǎn)還是從機(jī)器學(xué)習(xí)的領(lǐng)域借鑒一些可以在深度學(xué)習(xí)使用的方法,特別是降維領(lǐng)域。例如:目前一個(gè)工作就是稀疏編碼,通過(guò)壓縮感知理論對(duì)高維數(shù)據(jù)進(jìn)行降維,使得非常少的元素的向量就可以精確的代表原來(lái)的高維信號(hào)。另一個(gè)例子就是半監(jiān)督流行學(xué)習(xí),通過(guò)測(cè)量訓(xùn)練樣本的相似性,將高維數(shù)據(jù)的這種相似性投影到低維空間。另外一個(gè)比較鼓舞人心的方向就是evolutionary programming approaches(遺傳編程方法),它可以通過(guò)最小化工程能量去進(jìn)行概念性自適應(yīng)學(xué)習(xí)和改變核心架構(gòu)。
Deep learning還有很多核心的問(wèn)題需要解決:
(1)對(duì)于一個(gè)特定的框架,對(duì)于多少維的輸入它可以表現(xiàn)得較優(yōu)(如果是圖像,可能是上百萬(wàn)維)?
(2)對(duì)捕捉短時(shí)或者長(zhǎng)時(shí)間的時(shí)間依賴,哪種架構(gòu)才是有效的?
(3)如何對(duì)于一個(gè)給定的深度學(xué)習(xí)架構(gòu),融合多種感知的信息?
(4)有什么正確的機(jī)理可以去增強(qiáng)一個(gè)給定的深度學(xué)習(xí)架構(gòu),以改進(jìn)其魯棒性和對(duì)扭曲和數(shù)據(jù)丟失的不變性?
(5)模型方面是否有其他更為有效且有理論依據(jù)的深度模型學(xué)習(xí)算法?
探索新的特征提取模型是值得深入研究的內(nèi)容。此外有效的可并行訓(xùn)練算法也是值得研究的一個(gè)方向。當(dāng)前基于最小批處理的隨機(jī)梯度優(yōu)化算法很難在多計(jì)算機(jī)中進(jìn)行并行訓(xùn)練。通常辦法是利用圖形處理單元加速學(xué)習(xí)過(guò)程。然而單個(gè)機(jī)器GPU對(duì)大規(guī)模數(shù)據(jù)識(shí)別或相似任務(wù)數(shù)據(jù)集并不適用。在深度學(xué)習(xí)應(yīng)用拓展方面,如何合理充分利用深度學(xué)習(xí)在增強(qiáng)傳統(tǒng)學(xué)習(xí)算法的性能仍是目前各領(lǐng)域的研究重點(diǎn)。
本文還介紹了用于圖像分類(lèi)的不同方法,目前主流的分類(lèi)方法還是用卷積神經(jīng)網(wǎng)絡(luò)。還了解了視網(wǎng)膜及其OCT圖像的具體結(jié)構(gòu)和特征。