概述
有些計算問題是確定性的,例如加減乘除,只要按照公式推導(dǎo),按部就班一步步來,就可以得到結(jié)果。
但是,有些問題是無法按部就班直接地計算出來。比如,找大質(zhì)數(shù)的問題。有沒有一個公式能推出下一個質(zhì)數(shù)是多少呢?這種問題的答案,是無法直接計算得到的,只能通過間接的“猜算”來得到結(jié)果。這也就是非確定性問題。而這些問題的通常有個算法,它不能直接告訴你答案是什么,但可以告訴你,某個可能的結(jié)果是正確的答案還是錯誤的。這個可以告訴你“猜算”的答案正確與否的算法,假如可以在多項(xiàng)式(polynomial)時間內(nèi)算出來,就叫做多項(xiàng)式非確定性問題。
NP類問題:所有的非確定性多項(xiàng)式時間可解的判定問題構(gòu)成NP類問題。
非確定性算法:非確定性算法將問題分解成猜測和驗(yàn)證兩個階段。算法的猜測階段是非確定性的,算法的驗(yàn)證階段是確定性的,它驗(yàn)證猜測階段給出解的正確性。
NP就是Non-deterministic Polynomial的問題,也即是多項(xiàng)式復(fù)雜程度的非確定性問題。
而如果任何一個NP問題都能通過一個多項(xiàng)式時間算法轉(zhuǎn)換為某個NP問題,那么這個NP問題就稱為NP完全問題(Non-deterministic Polynomial complete problem)。NP完全問題也叫做NPC問題。
生成問題的一個解通常比驗(yàn)證一個給定的解時間花費(fèi)要多得多。這是這種一般現(xiàn)象的一個例子。與此類似的是,如果某人告訴你,數(shù)13,717,421可以寫成兩個較小的數(shù)的乘積,你可能不知道是否應(yīng)該相信他,但是如果他告訴你他可以因式分解為3607乘上3803,那么你就可以用一個袖珍計算器容易驗(yàn)證這是對的。
完全多項(xiàng)式非確定性問題可以用窮舉法得到答案,一個個檢驗(yàn)下去,最終便能得到結(jié)果。但是這樣算法的復(fù)雜程度,是指數(shù)關(guān)系,因此計算的時間隨問題的復(fù)雜程度成指數(shù)的增長,很快便變得不可計算了。
人們發(fā)現(xiàn),所有的完全多項(xiàng)式非確定性問題,都可以轉(zhuǎn)換為一類叫做滿足性問題的邏輯運(yùn)算問題。既然這類問題的所有可能答案,都可以在多項(xiàng)式時間內(nèi)計算,人們于是就猜想,
這類問題是否存在一個確定性算法,可以在多項(xiàng)式時間內(nèi),直接算出或是搜尋出正確的答案呢?
這就是著名的NP=P?的猜想。
在計算機(jī)領(lǐng)域,一般可以將問題分為可解問題和不可解問題。不可解問題也可以分為兩類:一類如停機(jī)問題,的確無解;另一類雖然有解,但時間復(fù)雜度很高??山鈫栴}也分為多項(xiàng)式問題(Polynomial Problem,P問題)和非確定性多項(xiàng)式問題(NondeterministicPolynomial Problem,NP問題)。
P問題
P問題是一個判定問題類,這些問題可以用一個確定性算法在多項(xiàng)式時間內(nèi)判定或解出。如果一個判定性問題的復(fù)雜度是該問題的一個實(shí)例的規(guī)模n的多項(xiàng)式函數(shù),則我們說這種可以在多項(xiàng)式時間內(nèi)解決的判定性問題屬于P類問題。P類問題就是所有復(fù)雜度為多項(xiàng)式時間的問題的集合。
確定一個問題是否是多項(xiàng)式問題,在計算機(jī)科學(xué)中非常重要。已經(jīng)證明,多項(xiàng)式問題是可解問題,因?yàn)槌薖問題之外的問題,其時間復(fù)雜度都很高,即求解需要大量時間。
理論上有解但其時間復(fù)雜度巨大的問題,科學(xué)家將其稱為難解型問題。對計算機(jī)來說,這類問題是不可解的。因此,P問題成了區(qū)別問題是否可以被計算機(jī)求解的一個重要標(biāo)志。
NP問題
NP問題是指可以在多項(xiàng)式時間內(nèi)被非確定機(jī)解決的問題。通常它們的時間復(fù)雜度都是指數(shù)變量,如
等。
這里有一個著名的問題一千禧難題之首。是說P問題是否等于NP問題,也即是否所有在非確定機(jī)上多項(xiàng)式可解的問題都能在確定機(jī)上用多項(xiàng)式時間求解。這表明用NP問題尋找多項(xiàng)式時間表示的算法很困難,或許最后的結(jié)論是NP問題根本就不是P問題。
P=NP?問題
目前已經(jīng)證明所有P問題都是NP問題,那么反之P—NP嗎?這就是所謂的“NP問題”。目前P與NP是否等價是一個既沒有證實(shí)也沒有證偽的問題。但是大部分科學(xué)家猜想:找一個問題的解很困難,但驗(yàn)證一個解很容易(證比解易),用公式表示就是P≠NP。問題較難求解(P)但容易驗(yàn)證(NP),這與我們的日常生活經(jīng)驗(yàn)是相符的。
NPC: NP完全性問題
NPC(NP Complete,NP完全)問題
計算機(jī)科學(xué)家將NP問題中最困難的稱為NPC問題。
NPC問題有一個令人驚訝的性質(zhì),即
如果一個NPC問題存在多項(xiàng)式時間算法,那么所有NP問題都可以在多項(xiàng)式時間內(nèi)求解,即P=NP成立。
這是因?yàn)槊恳粋€NPC問題都可以在多項(xiàng)式時間內(nèi)轉(zhuǎn)化成任何一個NP問題。只要任意一個NPC問題找到了一個多項(xiàng)式算法,那么所有NP問題都能用這個算法解決,也就解決了NP=P問題。但是給NPC找一個多項(xiàng)式算法太不可想象了,而且也從未成功,因此科學(xué)家認(rèn)為,正是NPC問題的存在,使得人們相信P=NP。
NPC問題目前沒有多項(xiàng)式算法,只能用窮舉法逐個檢驗(yàn),最終得到答案。但是窮舉法的計算時間隨問題的復(fù)雜程度呈指數(shù)增長,很快問題就會變得不可計算了。
圍棋或象棋的博弈問題、國際象棋的n皇后問題、密碼學(xué)中的大素數(shù)分解問題等,都屬于NPC類問題。
決策樹與NP問題
決策樹(decision tree)是一種基本的分類與回歸方法。決策樹模型呈樹形結(jié)構(gòu),在分類問題中,表示基于特征對實(shí)例進(jìn)行分類的過程。它可以認(rèn)為是if-then規(guī)則的集合,也可以認(rèn)為是定義在特征空間與類空間上的條件概率分布。
其主要優(yōu)點(diǎn)是模型具有可讀性,分類速度快。學(xué)習(xí)時,利用訓(xùn)練數(shù)據(jù),根據(jù)損失函數(shù)最小化的原則建立決策樹模型。預(yù)測時,對新的數(shù)據(jù),利用決策樹模型進(jìn)行分類。
決策樹學(xué)習(xí)通常包括3個步驟:特征選擇、決策樹的生成和決策樹的修剪。
在決策樹算法中,尋找最優(yōu)決策樹是一個NP完全問題。決策樹的這一特點(diǎn),說明我們無法利用計算機(jī)在多項(xiàng)式時間內(nèi),找出全局最優(yōu)的解。
也正因?yàn)槿绱耍蠖鄶?shù)決策樹算法都采用啟發(fā)式的算法,如貪心算法,來指導(dǎo)對假設(shè)空間的搜索??梢哉f,決策樹最后的結(jié)果,是在每一步、每一個節(jié)點(diǎn)上做的局部最優(yōu)選擇。決策樹得到的結(jié)果,是沒法保證為全局最優(yōu)的。
關(guān)于千僖難題
背景
美國麻州的克雷(Clay)數(shù)學(xué)研究所于2000年5月24日在巴黎法蘭西學(xué)院宣布了一件被媒體炒得火熱的大事:對七個“千僖年數(shù)學(xué)難題”的每一個懸賞一百萬美元。
內(nèi)容
“千僖難題”之一:P (確定性多項(xiàng)式算法)對NP (非確定性多項(xiàng)式算法)
“千僖難題”之二:霍奇(Hodge)猜想
“千僖難題”之三:龐加萊(Poincare)猜想
“千僖難題”之四:黎曼(Riemann)假設(shè)
“千僖難題”之五:楊-米爾斯(Yang-Mills)存在性和質(zhì)量缺口
“千僖難題”之六:納維葉-斯托克斯(Navier-Stokes)方程的存在性與光滑性
“千僖難題”之七:貝赫(Birch)和斯維訥通-戴爾(Swinnerton-Dyer)猜想
小結(jié)
在設(shè)計程序時,我們經(jīng)常需要評估這個程序的時間復(fù)雜度,即衡量當(dāng)問題規(guī)模變大后,程序執(zhí)行所需的時間增長會有多快。如O(1)表示常數(shù)級別,即不管問題的規(guī)模變大多少倍,所耗的時間不會改變;O(N2)表示平方級別,即當(dāng)問題規(guī)模增大至2倍時,所花費(fèi)的時間則放大至4倍;O(2N)表示指數(shù)級別,即當(dāng)問題規(guī)模倍數(shù)擴(kuò)大時,所用時間會呈指數(shù)放大。
多項(xiàng)式時間則是指O(1)、O(logN)、O(N2)等這類可用多項(xiàng)式表示的時間復(fù)雜度,通常我們認(rèn)為計算機(jī)可解決的問題只限于多項(xiàng)式時間內(nèi)。而O(2N)、O(N!)這類非多項(xiàng)式級別的問題,其復(fù)雜度往往已經(jīng)到了計算機(jī)都接受不了的程度。
所有非確定性多項(xiàng)式時間內(nèi)可解的判定問題構(gòu)成NP類問題
NP類問題將問題分為求解和驗(yàn)證兩個階段,問題的求解是非確定性的,無法在多項(xiàng)式時間內(nèi)得到答案,而問題的驗(yàn)證卻是確定的,能夠在多項(xiàng)式時間里確定結(jié)果。
比如:是否存在一個公式可以計算下一個質(zhì)數(shù)是多少?這個問題的答案目前是無法直接計算出來的,但是如果某人給出了一個公式,我們卻可以在多項(xiàng)式時間里對這個公式進(jìn)行驗(yàn)證。
NP中的一類比較特殊的問題,這類問題中每個問題的復(fù)雜度與整個類的復(fù)雜度有關(guān)聯(lián)性,假如其中任意一個問題在多項(xiàng)式時間內(nèi)可解的,則這一類問題都是多項(xiàng)式時間可解。這些問題被稱為NP完全問題。
可以說NP完全問題是NP類問題的一種特殊情況,總結(jié)這幾類問題的特點(diǎn),可參考如下這個表格: