當前位置:首頁 > 百科知識 > 通信 > 正文

數(shù)據(jù)中心 又名:DataCenter

       在今后的發(fā)展中,數(shù)據(jù)中心也將會成為企業(yè)競爭的資產,商業(yè)模式也會因此發(fā)生改變。隨著數(shù)據(jù)中心應用的廣泛化,人工智能、網絡安全等也相繼出現(xiàn),更多的用戶都被帶到了網絡和手機的應用中。隨著計算機和數(shù)據(jù)量的增多,人們也可以通過不斷學習積累提升自身的能力,是邁向信息化時代的重要標志。

       或稱為服務器場(server farm),指用于安置計算機系統(tǒng)及相關部件的設施,例如電信和儲存系統(tǒng)。一般它包含冗余和備用電源,冗余數(shù)據(jù)通信連接,環(huán)境控制和安全設備。

歷史

  數(shù)據(jù)中心在早期巨大房間內的計算產業(yè)中是有根源的。早期的計算機系統(tǒng)操作和維護都復雜,需要一個特殊的環(huán)境來操作。連接所有的組件需要很多電纜,進而產生了供應和組織的方法,例如標準支架來安放設備,提高的地板,以及電纜盤子(被安裝在頭頂上或升高的地板下)。同樣,舊的計算機需要大量的電源,不得不被冷卻以防止過熱。安全非常重要-計算機非常的貴,并且常常被用于軍事目的??刂朴嬎銠C房間訪問權限的基本設計方針因此被設計。

  在繁榮的微型計算機行業(yè),尤其是在20世紀80年代,計算機開始四處發(fā)展,在很多案例中很少有或沒有操作需求。然而,隨著信息技術(IT)的發(fā)展,操作開始變得復雜,公司漸漸地認識到需要控制IT資源。隨著客戶端-服務器計算的出現(xiàn),在20世紀90年代微型機(被稱為servers)開始在舊計算機房間中尋找他們的位置。便宜的網絡設備的可用性,外加網絡電纜的新標準,使得在公司內的一個房間中,使用分層設計來放置服務器這種可能,在這個時刻被公認,并不斷流行開來。

  數(shù)據(jù)中心的繁榮在dot-com泡沫中來臨了。公司需要快速的Internet連接,以及不斷的部署系統(tǒng)并出現(xiàn)在Internet上。安裝這種設備對于許多小公司是不可行的。許多公司開始建立非常大的設備,被稱為Internet數(shù)據(jù)中心(IDCs),它提供了商業(yè)上的系統(tǒng)部署和操作的解決方案。新技術和實踐被設計用來處理測量和如此巨大測量操作的操作需求。

  從2007年起,數(shù)據(jù)中心設計、構建和運作是一個眾所周知的學科。標準文檔來自于可信任的專家組,如電訊產業(yè)聯(lián)合會,詳細說明數(shù)據(jù)中心設計的需求。眾所周知數(shù)據(jù)中心可用性的操作韻律學能夠用來評估商業(yè)中斷的影響。有許多開發(fā)在操作實踐中被完成,并且設計了友好環(huán)境的數(shù)據(jù)中心。

現(xiàn)代數(shù)據(jù)中心的需求

  IT業(yè)務是大部份組織的業(yè)務中最關鍵的一個方面。主要的一個關注點是商業(yè)連續(xù)性;公司依靠他們的信息系統(tǒng)來運作他們的業(yè)務。如果一個系統(tǒng)變的不可用,公司運作可能被削弱或被完全停止。針對IT業(yè)務保證一個可靠的基礎構造組織,將破壞的可能減到最小,是很必要的。信息安全也是一個關注點,為了這個原因,一個數(shù)據(jù)中心不得不提供安全的環(huán)境以保證最小化一個安全突破口的可能性。一個數(shù)據(jù)中心為了它的主機環(huán)境的完整性和功能性,必須因此保持高標準。這個通過雙份冗余的光纖光學電纜和包含應急備份發(fā)電電源被完成。

數(shù)據(jù)中心分類

  TIA-942:Data Center Standards Overview描述了數(shù)據(jù)中心基礎架構的需求。最簡易的是Tier1數(shù)據(jù)中心,他基本上是個計算機房間,有基本的計算機系統(tǒng)安裝指引。大部份迫切需求的是Tier4數(shù)據(jù)中心,被設計為主機的任務評價在于計算機系統(tǒng),這種系統(tǒng)要完全的冗余并且要被劃分安全區(qū)域,這個安全區(qū)域要由生物學測量來控制訪問。另一個考慮是數(shù)據(jù)中心地下內容的布置,為了數(shù)據(jù)安全也為了環(huán)境考慮,例如冷卻需求。

物理布局

  一個數(shù)據(jù)中心占用一幢大樓的一個房間,一層或多層,甚至整棟大樓。大部份的設備常常放在具有19英寸的隔層的機架中。這些機架成排放置,形成一個走廊。這允許人們從前面或后面訪問隔層。服務器從1U的服務器到獨立筒倉的存儲設備在尺寸上有很大的不同,存儲設備要占掉很多塊地磚。一些設備,像大型計算機和存儲設備常常像他們的機架那么大,并被放在他們的旁邊。非常大的數(shù)據(jù)中心可以使用集裝箱來放置,每個集裝箱可以放置1000或者更多的服務器;當有維修或升級需要的時候,整個集裝箱會被替換而不是維修單個的服務器。 本地編譯的代碼可以控制最小的上升限度。

  數(shù)據(jù)中心的物理環(huán)境是嚴格受控的:

  空調控制數(shù)據(jù)中心的溫度和濕度。ASHRAE"s “數(shù)據(jù)處理環(huán)境的熱量指導” 建議溫度在20-25 °C(68-75 °F) 并且濕度在40-55%,以數(shù)據(jù)中心最佳條件17 °C作為最大露點。電源會加熱數(shù)據(jù)中心里的空氣。除非熱量被移走,否則溫度會持續(xù)上升,導致電源設備故障。通過控制空氣溫度,服務器組件在擱板層保持著制造商說明的溫度/濕度范圍??照{系統(tǒng)通過冷卻來回的在露點以下的空間空氣,幫助控制濕度。太濕的話,水開始在內部組件上濃縮。假使空氣干燥,輔助潮濕系統(tǒng)會增加水蒸氣,如果濕度太低,將導致靜電放電問題,那將損壞組件。地下的數(shù)據(jù)中心比起常規(guī)的設計,能夠花費更少而保持計算機設備冷卻。

  現(xiàn)代數(shù)據(jù)中心試圖使用節(jié)約裝置冷卻,在那里他們使用外界空氣來保證數(shù)據(jù)中心冷卻。華盛頓州現(xiàn)在有幾個的數(shù)據(jù)中心,一年11個月使用外部空氣冷卻所有的服務器。他們沒有使用冷卻機或空調,他們創(chuàng)造了勢能節(jié)省了數(shù)百萬。

  備份電源由一個或多個不間斷電供應和、或者柴油機組成。

  為了防止單點故障,所有的電系統(tǒng)元素,包括備份系統(tǒng),都典型的完全復制,并且關鍵服務器連接兩個電源(“A-Side" and "B-Side")區(qū)域。這種安排常常用于完成系統(tǒng)的N+1冗余。靜態(tài)電閘有時被用于在電源故障事件中保證瞬時轉換一個到另一個。

  數(shù)據(jù)中心典型地使用升高60cm(2 ft)的地面,可移動的方塊磚?,F(xiàn)在的趨勢是80-100cm(31.5-39.4in),空閑區(qū)域的增加是為了更好的保證空氣流通。這種供應是為了空氣在地下充分流通,作為條件系統(tǒng)的一部分,也是為電力電纜提供空間。在現(xiàn)代數(shù)據(jù)中心中數(shù)據(jù)電纜典型是使用架空電纜。但是,有些出于安全原因還是將他們置與地板下,并且有必要增加在架子上的冷卻系統(tǒng)。更小/更少花費的數(shù)據(jù)中心沒有升高地面而是使用相反的靜態(tài)地磚在地面上。機算計電纜常常放置在走廊中,以保證最大化的氣流效率。

  數(shù)據(jù)中心的一個特征是防火系統(tǒng),包含被動的和主動的設計元素,以及在業(yè)務中防火程序的執(zhí)行。煙檢測器都會被安裝,它可以在有火焰之前檢測到燜燒產生的煙的源點,而發(fā)出警報。這允許調查,中斷電源,并使得能夠在火災變大之前,讓人使用滅火器滅火。一個自動噴水滅火系統(tǒng)常常被用來控制火勢發(fā)展為大范圍的火災。自動噴水滅火系統(tǒng)要求在噴水滅火器下的清除的18”。和噴水滅火系統(tǒng)相比,清除事件滅火氣體系統(tǒng)有時被安裝用于早期火災。被動的消防保護元素包括在數(shù)據(jù)中心周圍的防火墻,所以大火能夠在大火保護系統(tǒng)失敗或沒有安裝的情況下較容易地控制在一定的范圍內。

  物理安全在數(shù)據(jù)中心里也表演了一個大角色。物理的訪問地點常常限制于被選擇的人員,包含安全控制系統(tǒng)。視頻監(jiān)視和永久安全警報常常用于大數(shù)據(jù)中心或者包含機密信息的數(shù)據(jù)中心。

流動數(shù)據(jù)中心

  現(xiàn)時網上商貿、搜尋、云端運算公司需要快速部署數(shù)據(jù)中心,又或災難恢復運用,因此廠商開發(fā)了流動數(shù)據(jù)中心(Portable Data Center)解決方案,能夠快速搬運數(shù)據(jù)中心并在短時間內安裝操作。

  生產流動數(shù)據(jù)中心的廠商和產品包括:Google的 Google Modular Data Center 、升陽計算機的 Sun Modular Datacenter 、 IBM的 Portable Modular Data Center 、思科系統(tǒng)的 Containerized Data Center、HP的 Performance Optimized Datacenter和北京天地云箱科技的云箱。

應用

  一個數(shù)據(jù)中心的主要目的是運行應用來處理商業(yè)和運作的組織的數(shù)據(jù)。這樣的系統(tǒng)屬于并由組織內部開發(fā),或者從企業(yè)軟件供應商那里買。像通用應用有ERP和CRM系統(tǒng)。

  一個數(shù)據(jù)中心也許只關注于操作體系結構,或者也提供其他的服務。常常這些應用由多個主機構成,每個主機運行一個單一的構件。通常這種構件是數(shù)據(jù)庫,文件服務器,應用服務器,中間件以及其他的各種各樣的東西。

  數(shù)據(jù)中心也常常用于非工作站點的備份。公司也許預定被數(shù)據(jù)中心提供的服務。這常常聯(lián)合備份磁帶使用。備份能夠將服務器本地的東西放在磁帶上,然而,磁帶存放場所也易受火災和洪水的安全威脅。較大的公司也許發(fā)送他們的備份到非工作場所。這個通過回投而能夠被數(shù)據(jù)中心完成。加密的備份能夠通過Internet發(fā)送到另一個數(shù)據(jù)中心,安全保存起來。

常見故障

  數(shù)據(jù)中心網絡常見的通訊故障主要集中在:硬件故障、系統(tǒng)故障兩個類別:

 ?。?)硬件故障:

  數(shù)據(jù)中心是通過無數(shù)計算機硬件組成的,硬件出現(xiàn)問題,就會導致部分功能無法正常發(fā)揮或運作。無論是設備、線路、端口,哪一點出現(xiàn)故障,都會導致網絡通訊故障的出現(xiàn)。硬件方面的故障相對比較容易查找,例如線路故障,一般的成因就是線路明顯的老化或者破損,而影響到了整體網絡的運營;再比如,端口故障,計算機端口作為數(shù)據(jù)中心網絡的重要環(huán)節(jié),若出現(xiàn)接觸不良、損壞等傳輸問題,就會影響到整體網絡的運行。硬件故障只要進行逐一排查,就可以及時進行更換處理,相對比較好解決。

 ?。?)系統(tǒng)故障:

  數(shù)據(jù)中心是計算機領域比較熱門的研究之一,因此研究技術十分成熟。計算機網絡構成主要包括TREE、FAT-TREE、BCUBE、FICONN等,主要采用模塊化、層次化、扁平化的設計思路與虛擬化的分割管理技術,將成千上萬臺設備,以單元為單位進行劃分,逐一進行管理。通過分層、遞歸的結構進行聯(lián)結,盡可能的避免了所謂“關鍵節(jié)點”的存在。這樣組合也形成了良好的冗余與容錯性,如果其中出現(xiàn)故障的某一個或某幾個單元,沒有被檢測出來,也不至于影響數(shù)據(jù)中心的整體運行。但是如果超出一定比例,就會在影響數(shù)據(jù)中心網絡的高速運行,拉慢網絡通訊的速度,所以仍舊需要針對性的查找故障進行處理。 

故障處理

 ?。?)分析故障現(xiàn)象:

  一般來說由于構成組件比較復雜,故障也呈現(xiàn)出不同的表現(xiàn)方式。因此想要對于故障進行分析,就要先了解故障的現(xiàn)象。例如,應用方面出現(xiàn)了支付系統(tǒng)支付不了,網頁難以打開等問題,那么就要逐一檢查相關的故障點,有哪幾個故障是上述表現(xiàn),如,線路故障,端口故障等,就要更換線路、端口等設備。因此,需要針對數(shù)據(jù)中心網絡的幾種常見的故障進行收集與整理,根據(jù)現(xiàn)象,進行檢索、查找。

 ?。?)測試并確認故障范圍,進行故障點定位。

  所有的應用業(yè)務是在這些物理硬件正常運行的基礎上開展的,其中某些硬件出現(xiàn)問題就會導致故障。根據(jù)故障的表現(xiàn),需要針對各個部分進行篩選檢查,例如,對于服務器進行測試,檢查網絡設備等。針對問題表現(xiàn),進行逐一排除,最終敲定故障點所在位置。

  (3)如果以上硬件故障都已經排除,那么就是計算機系統(tǒng)的故障,這一故障需要建立故障模型進行診斷,根據(jù)PMC模型進行定義。通過分層測試的方法,查找問題單元,即正常單元測試正常單元、正常單元測試故障單元、故障單元測試故障單元、故障單元測試正常單元等四種。其中后三種的檢測結果都是故障,因此就可以通過分層測量的方式,建立有限個單元,通過矩陣以及螢火蟲算法重點FAFD算法對于其他單元進行診斷,最終確定故障的系統(tǒng)是哪個或者哪幾個單元的。當然也可以通過鏡像、流量統(tǒng)計、抓包等其他手段確定故障所在的設備范圍,進而縮小范圍,集中處理某一個或者幾個設備。

 ?。?)收集重要的數(shù)據(jù)信息。

  在進行故障處理時,通過收集設備的日志、診斷、操作記錄等信息資料,將這些數(shù)據(jù)資料進行匯總,條件允許的情況下,建立故障數(shù)據(jù)庫,對于常見問題可以做到“出現(xiàn)即處理”,對于沒有出現(xiàn)過的故障,可以繼續(xù)收集進數(shù)據(jù)庫??傊匾男畔⑹占?,有利于日后更好的查找故障原因,確保數(shù)據(jù)中心網絡健康、平穩(wěn)運行。


內容來自百科網