大型網站應用之海量數據和高并發解決方案總結

一、網站應用背景

開發一個網站的應用程序,當用戶規模比較小的時候,使用簡單的:一臺應用服務器+一臺數據庫服務器+一臺文件服務器,這樣的話完全可以解決一部分問題,也可以通過堆硬件的方式來提高網站應用的訪問性能,當然,也要考慮成本的問題。

當問題的規模在經濟條件下通過堆硬件的方式解決不了的時候,我們應該通過其他的思路去解決問題,互聯網發展至今,已經提供了很多成熟的解決方案,但并不是都具有適用性,你把淘寶的技術全部都搬過來也不一定達到現在淘寶的水平,道理很簡單。

當然,很多文章都在強調,一個網站的發展水平,是逐漸的演變過來的,并不是一朝一夕的事情。雖然目前的情況互聯網的泡沫越來越大,但是整個互聯網技術的發展確實為我們提供了方便快捷的上網體驗。下邊是一張早期的淘寶官網的界面:

目前,博主正在跟隨導師做一個創業項目,使用的技術是SSM+MySQL+Linux這些,但是由于資金的限制和考慮到用戶群體的特殊性,系統的架構無奈的選擇的就是最簡單的方式:一臺應用服務器、一臺數據庫服務器、一臺文件系統服務器,沒有用到高級的技術,也沒有用到分布式部署的方案。下邊整理的是一些針對海量數據和高并發情況下的解決方案,技術水平有限,歡迎留言指導。

二、針對海量數據和高并發的主要解決方案

海量數據的解決方案:

使用緩存;

頁面靜態化技術;

數據庫優化;

分離數據庫中活躍的數據;

批量讀取和延遲修改;

讀寫分離;

使用NoSQL和Hadoop等技術;

分布式部署數據庫;

應用服務和數據服務分離;

使用搜索引擎搜索數據庫中的數據;

進行業務的拆分;

高并發情況下的解決方案:

應用程序和靜態資源文件進行分離;

頁面緩存;

集群與分布式;

反向代理;

CDN;

三、海量數據的解決方案

(1)使用緩存

網站訪問數據的特點大多數呈現為“二八定律”:80%的業務訪問集中在20%的數據上。

例如:在某一段時間內百度的搜索熱詞可能集中在少部分的熱門詞匯上;新浪微博某一時期也可能大家廣泛關注的主題也是少部分事件。

總的來說就是用戶只用到了總數據條目的一小部分,當網站發展到一定規模,數據庫IO操作成為性能瓶頸的時候,使用緩存將這一小部分的熱門數據緩存在內存中是一個很不錯的選擇,不但可以減輕數據庫的壓力,還可以提高整體網站的數據訪問速度。

使用緩存的方式可以通過程序代碼將數據直接保存到內存中,例如通過使用Map或者ConcurrentHashMap;另一種,就是使用緩存框架:Redis、Ehcache、Memcache等。

使用緩存框架的時候,我們需要關心的就是什么時候創建緩存和緩存失效策略。

緩存的創建可以通過很多的方式進行創建,具體也需要根據自己的業務進行選擇。例如,新聞首頁的新聞應該在第一次讀取數據的時候就進行緩存;對于點擊率比較高的文章,可以將其文章內容進行緩存等。

內存資源有限,選擇如何創建緩存是一個值得思考的問題。另外,對于緩存的失效機制也是需要好好研究的,可以通過設置失效時間的方式進行設置;也可以通過對熱門數據設置優先級,根據不同的優先級設置不同的失效時間等;

需要注意的是,當我們刪除一條數據的時候,我們要考慮到刪除該條緩存,還要考慮在刪除該條緩存之前該條數據是否已經到達緩存失效時間等各種情況!

使用緩存的時候還要考慮到緩存服務器發生故障時候如何進行容錯處理,是使用N多臺服務器緩存相同的數據,通過分布式部署的方式對緩存數據進行控制,當一臺發生故障的時候自動切換到其他的機器上去;還是通過Hash一致性的方式,等待緩存服務器恢復正常使用的時候重新指定到該緩存服務器。Hash一致性的另一個作用就是在分布式緩存服務器下對數據進行定位,將數據分布在不用緩存服務器上。關于數據緩存的Hash一致性也是一個比較打的問題,這里只能大致描述一下,關于Hash一致性的了解,推薦一篇文章:http://blog.csdn.net/liu765023051/article/details/49408099

(2)頁面靜態化技術

使用傳統的JSP界面,前端界面的顯示是通過后臺服務器進行渲染后返回給前端游覽器進行解析執行,如下圖:


當然,現在提倡前后端分離,前端界面基本都是HTML網頁代碼,通過Angular JS或者NodeJS提供的路由向后端服務器發出請求獲取數據,然后在游覽器對數據進行渲染,這樣在很大程度上降低了后端服務器的壓力。

還可以將這些靜態的HTML、CSS、JS、圖片資源等放置在緩存服務器上或者CDN服務器上,一般使用最多的應該是CDN服務器或者Nginx服務器提供的靜態資源功能。

另外,在《高性能網站建設進階指南-Web開發者性能優化最佳實踐(口碑網前端團隊 翻譯)》這本書中,對網站性能的前端界面提供了一些很寶貴的經驗,如下:


因此,在這些靜態資源的處理上,選擇正確的處理方式還是對整體網站性能還是有很大幫助的!

(3)數據庫優化

數據庫優化是整個網站性能優化的最基礎的一個環節,因為,大多數網站性能的瓶頸都是開在數據庫IO操作上,雖然提供了緩存技術,但是對數據庫的優化還是一個需要認真的對待。一般公司都有自己的DBA團隊,負責數據庫的創建,數據模型的確立等問題,不像我們現在幾個不懂數據庫優化的人只能在網上找一篇篇數據庫優化的文章,自己去摸索,并沒有形成一個系統的數據庫優化思路。

對于數據庫的優化來說,是一種用技術換金錢的方式。數據庫優化的方式很多,常見的可以分為:數據庫表結構優化、SQL語句優化、分區、分表、索引優化、使用存儲過程代替直接操作等 。

1、表結構優化

對于數據庫的 開發規范與使用技巧以及設計和優化,前邊的時候總結了一些文章,這里偷個懶直接放地址,有需要的可以移步看一下:

a) MySQL開發規范與使用技巧總結:http://blog.csdn.net/xlgen157387/article/details/48086607

b) 在一個千萬級的數據庫查尋中,如何提高查詢效率?:http://blog.csdn.net/xlgen157387/article/details/44156679

另外,再設計數據庫表的時候需不需要創建外鍵,使用外鍵的好處之一可以方便的進行級聯刪除操作,但是現在在進行數據業務操作的時候,我們都通過事物的方式來保證數據讀取操作的一致性,我感覺相比于使用外鍵關聯MySQL自動幫我們完成級聯刪除的操作來說,還是自己使用事物進行刪除操作來的更放心一些。當然可能也是有適用的場景,大家如有很好的建議,歡迎留言!

2、SQL優化

對于SQL的優化,主要是針對SQL語句處理邏輯的優化,而且還要根據索引進行配合使用。另外,對于SQL語句的優化我們可以針對具體的業務方法進行優化,我們可以將執行業務邏輯操作的數據庫執行時間記錄下來,來進行有針對性的優化,這樣的話效果還是很不錯的!例如下圖,展示了一條數據庫操作執行調用的時間:


關于SQL優化的一些建議,以前整理了一些,還請移步查看:

a) 19個MySQL性能優化要點解析:http://blog.csdn.net/xlgen157387/article/details/50735269

b) MySQL批量SQL插入各種性能優化:http://blog.csdn.net/xlgen157387/article/details/50949930

分表

分表是將一個大表按照一定的規則分解成多張具有獨立存儲空間的實體表,我們可以稱為子表,每個表都對應三個文件,MYD數據文件,.MYI索引文件,.frm表結構文件。這些子表可以分布在同一塊磁盤上,也可以在不同的機器上。數據庫讀寫操作的時候根據事先定義好的規則得到對應的子表名,然后去操作它。

例如:用戶表

用戶的角色有很多種,可以通過枚舉類型的方式將用戶分為不同類別category:學生、教師、企業等 ,這樣的話,我們就可以根據類別category來對數據庫進行分表,這樣的話每次查詢的時候現根據用戶的類型鎖定一個較小的范圍。

不過分表之后,如果需要查詢完整的順序就需要使用多表操作了。

分區

數據庫分區是一種物理數據庫設計技術,DBA和數據庫建模人員對其相當熟悉。雖然分區技術可以實現很多效果,但其主要目的是為了在特定的SQL操作中減少數據讀寫的總量以縮減響應時間。

分區和分表相似,都是按照規則分解表。不同在于分表將大表分解為若干個獨立的實體表,而分區是將數據分段劃分在多個位置存放,可以是同一塊磁盤也可以在不同的機器。分區后,表面上還是一張表,但數據散列到多個位置了。數據庫讀寫操作的時候操作的還是大表名字,DMS自動去組織分區的數據。

當一張表中的數據變得很大的時候,讀取數據,查詢數據的效率非常低下,很容易的就是講數據分到不同的數據表中進行保存,但是這樣分表之后會使得操作起來比較麻煩,因為,將同類的數據分別放在不同的表中的話,在搜索數據的時候需要便利查詢這些表中的數據。想進行CRUD操作還需要先找到對應的所有表,如果涉及到不同的表的話還要進行跨表操作,這樣操作起來還是很麻煩的。

使用分區的方式可以解決這個問題,分區是將一張表中的數據按照一定的規則分到不同的區中進行保存,這樣進行數據查詢的時候如果數據的范圍在同一個區域內那么就可以支隊一個區中的數據進行操作,這樣的話操作起來數據量更少,操作速度更快,而且該方法是對程序透明的,程序不需要進行任何的修改。

索引優化

索引的大致原理是在數據發生變化的時候就預先按指定字段的順序排列后保存到一個類似表的結構中,這樣在查找索引字段為條件記錄時就可以很快地從索引中找到對應記錄的指針并從表中獲取到相應的數據,這樣速度是很快地。

不過,雖然查詢的效率大大提高了,但是在進行增刪改的時候,因為數據的變化都需要更新相應的索引,也是一種資源的浪費。

關于使用索引的問題,對待不同的問題,還是需要進行不同的討論,根據具體的業務需求選擇合適的索引對性能的提高效果是很明顯的一個舉措!

推薦文章閱讀:

a) 數據庫索引的作用和優點缺點以及索引的11中用法:http://blog.csdn.net/xlgen157387/article/details/45030829

b) 數據庫索引原理:http://blog.csdn.net/kennyrose/article/details/7532032

使用存儲過程代替直接操作

存儲過程(Stored Procedure)是在大型數據庫系統中,一組為了完成特定功能的SQL 語句集,存儲在數據庫中,經過第一次編譯后再次調用不需要再次編譯,用戶通過指定存儲過程的名字并給出參數(如果該存儲過程帶有參數)來執行它。存儲過程是數據庫中的一個重要對象,任何一個設計良好的數據庫應用程序都應該用到存儲過程。

在操作過程比較復雜并且調用頻率比較高的業務中,可以將編寫好的sql語句用存儲過程的方式來代替,使用存儲過程只需要進行一次變異,而且可以在一個存儲過程里做一些復雜的操作。

(4)分離數據庫中活躍的數據

正如前邊提到的“二八定律”一樣,網站的數據雖然很多,但是經常被訪問的數據還是有限的,因此可以講這些相對活躍的數據進行分離出來單獨進行保存來提高處理效率。

其實前邊使用緩存的思想就是一個很明顯的分離數據庫中活躍的數據的使用案例,將熱門數據緩存在內存中。

還有一種場景就是,例如一個網站的所用注冊用戶量很大千萬級別,但是經常登錄的用戶只有百萬級別,剩下的基本都是很長時間都沒有進行登錄操作,如果不把這些“僵尸用戶”單獨分離出去,那么我們每次查詢其他登錄用戶的時候,就白白浪費了這些僵尸用戶的查詢操作。

(5)批量讀取和延遲修改

批量讀取和延遲修改的原理是通過減少操作數據庫的操作來提高效率。

批量讀取是將多次查詢合并到一次中進行讀取,因為每一個數據庫的請求操作都需要鏈接的建立和鏈接的釋放,還是占用一部分資源的,批量讀取可以通過異步的方式進行讀取。

延遲修改是對于一些高并發的并且修改頻繁修改的數據,在每次修改的時候首先將數據保存到緩存中,然后定時將緩存中的數據保存到數據庫中,程序可以在讀取數據時可以同時讀取數據庫中和緩存中的數據。

例如:我現在在編寫這份博客,我一開始寫了一寫內容然后點擊發布了,在次回到Markdown進行修改操作,我有一個習慣,沒寫一些東西總是按一下上邊的 “保存”按鈕,然后我在另一個頁面打開這篇博客查看,我的修改已經被更新,但是我還在 編輯!


不知道CSDN的技術是不是在我沒有點擊發布之前,這些數據都是先放到緩存里邊的。

(6) 讀寫分離

讀寫分離的實質是將應用程序對數據庫的讀寫操作分配到多個數據庫服務器上,從而降低單臺數據庫的訪問壓力。

讀寫分離一般通過配置主從數據庫的方式,數據的讀取來自從庫,對數據庫增加修改刪除操作主庫。


相關文章請移步觀看:

a) MySQL5.6 數據庫主從(Master/Slave)同步安裝與配置詳解:http://blog.csdn.net/xlgen157387/article/details/51331244

b) MySQL主從復制的常見拓撲、原理分析以及如何提高主從復制的效率總結:http://blog.csdn.net/xlgen157387/article/details/52451613

(7)使用NoSQL和Hadoop等技術

NoSQL是一種非結構化的非關系型數據庫,由于其靈活性,突破了關系型數據庫的條條框框,可以靈活的進行操作,另外,因為NoSQL通過多個塊存儲數據的特點,其操作大數據的速度也是相當快的。

(8)分布式部署數據庫

任何強大的單一服務器都滿足不了大型網站持續增長的業務需求。數據庫通過讀寫分離之后將一臺數據庫服務器拆分為兩臺或者多臺數據庫服務器,但是仍然滿足不了持續增長的業務需求。分布式部署數據庫是將網站數據庫拆分的最后手段,只有在單表數據規模非常龐大的時候才使用。

分布式部署數據庫是一種很理想的情況,分布式數據庫是將表存放在不同的數據庫中然后再放到不同的數據庫中,這樣在處理請求的時候,如果需要調用多個表,則可以讓多臺服務器同時處理,從而提高處理效率。

分布式數據庫簡單的架構圖如下:


(9)應用服務和數據服務分離

應用服務器和數據庫服務器進行分離的目的是為了根據應用服務器的特點和數據庫服務器的特點進行底層的優化,這樣的話能夠更好的發揮每一臺服務器的特性,數據庫服務器當然是有一定的磁盤空間,而應用服務器相對不需要太大的磁盤空間,這樣的話進行分離是有好處的,也能防止一臺服務器出現問題連帶的其他服務也不可以使用。


(10)使用搜索引擎搜索數據庫中的數據

使用搜索引擎這種非數據庫查詢技術對網站應用的可伸縮分布式特性具有更好的支持。

常見的搜索引擎如Solr通過一種反向索引的方式,維護關鍵字到文檔的映射關系,類似于我們使用《新華字典》進行搜索一個關鍵字,首先應該是看字典的目錄進行查找然后定位到具體的位置。

搜索引擎通過維護一定的關鍵字到文檔的映射關系,能夠快速的定位到需要查找的數據,相比于傳統的數據庫搜索的方式,效率還是很高的。

目前一種比較火的ELK stack技術,還是值得學習的。

一篇關于Solr與MySQL查詢性能對比文章:

Solr與MySQL查詢性能對比:http://www.cnblogs.com/luxiaoxun/p/4696477.html?utm_source=tuicool&utm_medium=referral

(11) 進行業務的拆分

為什么進行業務的拆分,歸根結底上還是使用的還是講不通的業務數據表部署到不用的服務器上,分別查找對應的數據以滿足網站的需求。各個應用之間用過指定的URL連接獲取不同的服務,

例如一個大型的購物網站就會將首頁、商鋪、訂單、買家、賣家等拆分為不通的子業務,一方面將業務模塊分歸為不同的團隊進行開發,另外一方面不同的業務使用的數據庫表部署到不通的服務器上,體現到拆分的思想,當一個業務模塊使用的數據庫服務器發生故障也不會影響其他業務模塊的數據庫正常使用。另外,當其中一個模塊的訪問量激增的時候還可以動態的擴展這個模塊使用到的數據庫的數量從而滿足業務的需求。

高并發情況下的解決方案

(1)應用程序和靜態資源文件進行分離

所謂的靜態資源就是我們網站中用到的Html、Css、Js、Image、Video、Gif等靜態資源。應用程序和靜態資源文件進行分離也是常見的前后端分離的解決方案,應用服務只提供相應的數據服務,靜態資源部署在指定的服務器上(Nginx服務器或者是CDN服務器上),前端界面通過Angular JS或者Node JS提供的路由技術訪問應用服務器的具體服務獲取相應的數據在前端游覽器上進行渲染。這樣可以在很大程度上減輕后端服務器的壓力。

例如,百度主頁使用的圖片就是單獨的一個域名服務器上進行部署的


(2)頁面緩存

頁面緩存是將應用生成的很少發生數據變化的頁面緩存起來,這樣就不需要每次都重新生成頁面了,從而節省大量CPU資源,如果將緩存的頁面放到內存中速度就更快。

可以使用Nginx提供的緩存功能,或者可以使用專門的頁面緩存服務器Squid。

(3)集群與分布式

(4)反向代理

參考文章請移步至:

http://blog.csdn.net/xlgen157387/article/details/49781487

(5)CDN

CDN服務器其實是一種集群頁面緩存服務器,其目的就是盡早的返回用戶所需要的數據,一方面加速用戶訪問速度,另一方面也減輕后端服務器的負載壓力。

CDN的全稱是Content Delivery Network,即內容分發網絡。其基本思路是盡可能避開互聯網上有可能影響數據傳輸速度和穩定性的瓶頸和環節,使內容傳輸的更快、更穩定。

CDN通過在網絡各處放置節點服務器所構成的在現有的互聯網基礎之上的一層智能虛擬網絡,CDN系統能夠實時地根據網絡流量和各節點的連接、負載狀況以及到用戶的距離和響應時間等綜合信息將用戶的請求重新導向離用戶最近的服務節點上。其目的是使用戶可就近取得所需內容,解決 Internet網絡擁擠的狀況,提高用戶訪問網站的響應速度。

也就是說CDN服務器是部署在網絡運行商的機房,提供的離用戶最近的一層數據訪問服務,用戶在請求網站服務的時候,可以從距離用戶最近的網絡提供商機房獲取數據。電信的用戶會分配電信的節點,聯通的會分配聯通的節點。

CDN分配請求的方式是特殊的,不是普通的負載均衡服務器來分配的那種,而是用專門的CDN域名解析服務器在解析與名的時候就分配好的。

CDN結構圖如下所示:


總結

文章提到的幾點并沒有詳細的介紹,如需要對其中的一種方式進行研究,可以自行去找資源學習研究,這里只起到拋磚引玉的作用。當然對于大型網站應用之海量數據和高并發解決方案不局限于這些技巧或技術,還有很多成熟的解決方案,有需要的可以自行了解。

特此說明:本文的配圖來自《網站架構及其演變過程–韓路彪》,多謝原作者提供的精美配圖,并且文章的結構大致也參考了作者的思路,只不過內容是自己的一些經驗和學習到的東西進行整理的。

參考書籍或文章:

1、《網站架構及其演變過程–韓路彪》

2、《大型網站技術架構之核心原理與參考案例–李智慧》

3、部分專業名詞簡介來自百度百科

4、http://cio.chinabyte.com/428/13106928.shtml

5、http://blog.codinglabs.org/articles/consistent-hashing.html

還有一些在整理的時候,忘記記錄連接,還請大家見諒!


原文:https://blog.csdn.net/xlgen157387/article/details/53230138

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,119評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,382評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,038評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,853評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,616評論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,112評論 1 323
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,192評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,355評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,869評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,727評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,928評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,467評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,165評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,570評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,813評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,585評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,892評論 2 372