① 數據中心網路之百家講壇
最近因為寫論文的關系,泡知網、泡萬方,發現了很多學術界對數據中心網路一些構想,發現裡面不乏天才的想法,但日常我們沉迷在各個設備廠商調制好的羹湯中無法自拔,管中窺豹不見全局,還一直呼喊著「真香」,對於網工來說沉溺於自己的一方小小天地不如跳出來看看外界有哪些新的技術和思想,莫聽穿林打葉聲,何妨吟嘯且徐行
當前新的數據中心網路拓撲主要分為兩類
1、以交換機為核心,網路連接和路由功能由交換機完成,各個設備廠商的「羹湯」全屬於這個領域
2、以伺服器為核心,主要互聯和路由功能放在伺服器上,交換機只提供簡單縱橫制交換功能
第一類方案中包含了能引發我回憶陰影的Fat-Tree,和VL2、Helios、c-Through、OSA等等,這些方案要麼採用更多數量交換機,要麼融合光交換機進行網路互聯,對交換機軟體和硬體要求比較高,第二類主要有DCell、Bcube、FiConn、CamCube、MDCube等等,主要推動者是微軟,這類方案中伺服器一版會通過多網卡接入網路,為了支持各種流量模型,會對伺服器進行硬體和軟體的升級。
除了這些網路拓撲的變化外,其實對數據中心網路傳輸協議TCP/IP、網路虛擬化、網路節能機制、DCI網路互聯都有很多創新的技術和概念涌現出來。
FatTree 胖樹,2008年由UCSD大學發表的論文,同時也是5年前工作中接觸的第一種交換機為中心的網路拓撲,當時沒有太理解,跟客戶為這事掐的火星四濺,再來一次可能結論會有所改變,同時也是這篇論文引發了學術界對數據中心內部網路拓撲設計的廣泛而深刻的討論,他提出了一套組網設計原則來達成幾個目的
1、全網採用低端商用交換機來組網、其實就是採用1U的接入交換機,取消框式設備
2、全網無阻塞
3、成本節省,紙面測算的話FatTree 可以降為常規模式組網成本的1/4或1/5
物理拓撲(按照4個pod設計)
FatTree 的設計原則如下
整個網路包含K個POD,每個POD有K/2個Edge和K/2個Agg 交換機,他們各有K的介面,Edge使用K/2個埠下聯伺服器,Agg適用K/2個埠上聯CORE交換機
Edge使用K/2個埠連接伺服器,每個伺服器佔用一個交換埠
CORE層由K/2*K/2共計KK/4個K個埠交換機組成,分為K/2組,每組由K/2ge,第一組K/2台CORE交換機連接各個POD中Agg交換層一號交換機,第二組K/2的CORE交換機連接各POD中Agg的二號交換機,依次類推
K個POD,每個POD有K/2個Edge交換機,每個Edge有K/2埠,伺服器總數為K*K/2*K/2=KKK/4
K取值4的話,伺服器總數為16台
常規K取值48的話,伺服器為27648台
FatTree的路由設計更加有意思,論文中叫兩階段路由演算法,首先要說明的是如果使用論文中的演算法是需要對交換機硬軟體進行修改的,這種兩階段路由演算法和交換設備及伺服器的IP地址強相關,首先就是IP地址的編制,這里依然按照K=4來設計,規則如下
1、POD中交換機IP為10.pod.switch.1,pod對應POD編號,switch為交換機所在POD編號(Edge從0開始由左至右到k/2-1,Agg從k/2至k-1)
2、CORE交換機IP為10.k.j.i ,k為POD數量,j為交換機在Core層所屬組編號,i為交換機在該組中序號
3、伺服器IP為10.pod.switch.ID,ID為伺服器所在Edge交換機序號,交換機已經佔用.1,所以從2開始由左至右到k/2+1
設計完成後交換機和伺服器的IP地址會如下分配
對於Edge交換機(以10.2.0.1為例)第一階段匹配10.2.0.2和10.2.0.3的32位地址,匹配則轉發,沒有匹配(既匹配0.0.0.0/0)則根據目的地址後8位,也就是ID號,選擇對應到Agg的鏈路,如目標地址為x.x.x.2則選擇到10.2.2.1的鏈路,目標地址為x.x.x.3則選擇到10.2.3.1的鏈路
對於Agg交換機(以10.2.2.1為例)第一階段匹配本POD中網段10.2.0.0/24和10.2.1.0/24,匹配成功直接轉發對應Edge,沒有匹配(既匹配0.0.0.0/0)則根據目的地址後8位,也就是ID號確定對應到Core的鏈路,如目標地址為x.x.x.2則選擇到10.4.1.1的鏈路,目標地址為x.x.x.3則選擇到10.4.1.2的鏈路
對於Core交換機,只有一個階段匹配,只要根據可能的POD網段進行即可,這里是10.0.0.0/16~10.3.0.0/16對應0、1、2、3四個口進行轉發
容錯方面論文提到了BFD來防止鏈路和節點故障,同時還有流量分類和調度的策略,這里就不展開了,因為這種兩階段路由演算法要對交換機硬體進行修改,適應對IP後8位ID進行匹配,現實中沒有看到實際案例,但是我們可以設想一下這種簡單的轉發規則再加上固定埠的低端交換機,對於轉發效率以及成本的壓縮將是極為可觀的。尤其這種IP地址規則的設計配合路由轉發,思路簡直清奇。但是仔細想想,這種按照特定規則的IP編制,把每個二層限制在同一個Edge交換機下,註定了虛擬機是沒有辦法跨Edge來遷移的,只從這點上來看註定它只能存在於論文之中,但是順著這個思路開個腦洞,還有什麼能夠編制呢?就是MAC地址,如果再配上集中式控制那就更好了,於是就有了一種新的一種路由方式PortLand,後續我們單獨說。
如此看來FatTree 是典型的Scale-out模式,但是由於一般交換機埠通常為48口,如果繼續增加埠數量,會導致成本的非線性增加,底層Edge交換機故障時,難以保障服務質量,還有這種拓撲在大數據的maprece模型中無法支持one-to-all和all-to-all模式。
把腦洞開的稍微小一些,我們能否用通用商業交換機+通用路由來做出來一種FatTree變種拓撲,來達到成本節省的目的呢,答案一定是確切的,目前能看到阿里已經使用固定48口交換機搭建自己的變種FatTree拓撲了。
以交換機為中心的網路拓撲如VL2、Helios不再多說,目前看到最好的就是我們熟知的spine-leaf結構,它沒有設計成1:1收斂比,而且如果使用super層的clos架構,也可以支撐幾萬台或者百萬台的伺服器規模,但是FaTtree依靠網路拓撲取消掉了框式核心交換機,在一定規模的數據中心對於壓低成本是非常有效的
聊完交換機為核心的拓撲設計後,再來看看伺服器為核心的拓撲,同樣這些DCell、Bcube、FiConn、CamCube、MDCube等,不會全講,會拿DCell來舉例子,因為它也是2008年由微軟亞洲研究院主導,幾乎和FatTree同時提出,開創了一個全新的思路,隨後的年份里直到今天一直有各種改進版本的拓撲出現
這種伺服器為核心的拓撲,主導思想是在伺服器上增加網卡,伺服器上要有路由轉發邏輯來中轉流量數據包,並且採用遞推方式進行組網。
DCell的基本單元是DCell0,DCell0中伺服器互聯由一台T個埠的mini交換機完成,跨DCell的流量要通過伺服器網卡互聯進行繞轉。通過一定數量的Dcell0組成一個DCell1,按照一定約束條件進行遞推,組成DCell2以及DCellk
上圖例中是一個DCell1的拓撲,包含5個Dcell0,每台伺服器2個埠,除連接自己區域的mini交換機外,另一個埠會依次連接其他DCell0中的伺服器,來組成全互聯的結構,最終有20台伺服器組成DCell1,所有伺服器按照(m,n)坐標進行唯一標識,m相同的時候直接通過moni交換機交互,當m不同時經由mini交換機中繼到互聯伺服器,例子中紅色線為4.0伺服器訪問1.3伺服器的訪問路徑。
DCell組網規則及遞歸約束條件如下:
DCellk中包含DCellk-1的數量為GK
DCellk中包含伺服器為Tk個,每台伺服器k+1塊網卡,則有
GK=Tk-1+1
TK=Gk-1 ✕ Tk-1
設DCell0中有4台伺服器
DCell1 中有5個DCell0 (G1=5)
Tk1=20台伺服器(T1=20)
DCell2 中有21個DCell1 (G2=21)
Tk2=420台伺服器(T2=420)
DCell3 中有421個DCell2 (G3=421)
Tk3=176820台伺服器(T3=176820)
…
Tk6=3260000台伺服器
經過測算DCell3中每台伺服器的網卡數量為4,就能組建出包含17萬台伺服器的數據中心,同樣DCell的缺點和優點一樣耀眼,這種遞歸後指數增長的網卡需求量,在每台伺服器上可能並不多,但是全量計算的話就太過於驚人了,雖然對比FatTree又再一次降低交換機的采購成本,但是天量的網卡可以想像對於運維的壓力,還有關鍵的問題時高層次DCell間通信佔用低層次DCell網卡帶寬必然導致低層次DCell經常擁塞。最後還有一個實施的問題,天量的不同位置網卡布線對於施工的准確度以及未知的長度都是一個巨大的挑戰。
DCell提出後,隨後針對網卡數量、帶寬搶占等一系列問題演化出來一批新的網路拓撲,思路無外乎兩個方向,一個是增加交換機數量減少單服務網卡數量,趨同於spine-leaf體系,但是它一直保持了伺服器多網卡的思路。另一種是極端一些,乾脆消滅所有交換機,但是固定單伺服器網卡數量,按照矩陣形式組建純伺服器互聯結構,感興趣的同學可以繼續探索。
數據中心的路由框架涵蓋范圍和領域非常多,很多論文都選擇其中的一個點進行討論,比如源地址路由、流量調度、收斂、組播等等,不計劃每個展開,也沒有太大意義。但是針對之前FatTree的兩階段路由有一個更新的路由框架設計PortLand,它解決了兩段路由中虛擬機無法遷移的問題,它的關鍵技術有以下幾點
1、對於FatTree這種高度規范化的拓撲,PortLand設計為採用層次化MAC編址來支持大二層,這種路由框架中,除了虛擬機/物理機實際的MAC外(AMAC),還都擁有一個PortLand規范的偽MAC(PMAC),網路中的轉發機制和PMAC強相關,PMAC的編址規則為
pod.position.port.vmid
pod (2位元組) 代表虛擬機/伺服器所在POD號,position(1位元組)虛擬機/伺服器所在Edge交換機在POD中編號,port(1位元組)虛擬機/伺服器連接Edge交換機埠的本地編號,vmid(2位元組)伺服器在Edge下掛乙太網交換機編號,如果只有一台物理機vmid只能為1
2、虛擬機/伺服器的編址搞定後,Edge、Aggregate、Core的編址呢,於是PortLand設計了一套拓撲發現機制LDP(location discovery protocol),要求交換機在各個埠上發送LDP報文LDM(location
discovery message)識別自己所處位置,LDM消息包含switch_id(交換機自身mac,與PMAC無關)pod(交換機所屬pod號)pos(交換機在pod中的編號)level(Edge為0、Agg為1、Core為2)dir(上聯為1,下聯為-1),最開始的時候Edge角色會發現連接伺服器的埠是沒有LDM的,它就知道自己是Edge,Agg和Core角色依次收到LDM後會計算並確定出自己的leve和dir等信息。
3、設計一個fabric manager的集中PortLand控制器,它負責回答Edge交換機pod號和ARP解析,當Edge交換機學習到一個AMAC時,會計算一個PMAC,並把IP/AMAC/PMAC對應關系發送給fabric manager,後續有虛擬機/伺服器請求此IP的ARP時,會回復PMAC地址給它,並使用這個PMAC進行通信。
4、由於PMAC的編址和pod、pos、level等信息關聯,而所有交換機在LDM的交互過程中知曉了全網的交換機pod、pos、level、dir等信息,當數據包在網路中傳播的時候,途徑交換機根據PMAC進行解析可得到pod、pos這些信息,根據這些信息即可進行數據包的轉發,數據包到達Edge後,Edge交換機會把PMAC改寫為AMAC,因為它是知道其對應關系的。當虛擬機遷移後,由fabric manager來進行AMAC和PMAC對應更新和通知Edge交換機即可,論文中依靠虛擬機的免費ARP來觸發,這點在實際情況中執行的效率要打一個問號。
不可否認,PortLand的一些設計思路非常巧妙,這種MAC地址重寫非常有特色。規則設計中把更多的含義賦給PMAC,並且通過LDP機制設計為全網根據PMAC即可進行轉發,再加上集中的控制平面fabric manager,已經及其類似我們熟悉的SDN。但是它對於轉發晶元的要求可以看出要求比較低,但是所有的轉發規則會改變,這需要業內對於晶元和軟體的全部修改,是否能夠成功也看市場驅動力吧,畢竟市場不全是技術驅動的。
除了我們熟悉的拓撲和路由框架方面,數據中心還有很多比較有意思的趨勢在發生,挑幾個有意思的
目前數據中心都是乙太網有線網路,大量的高突發和高負載各個路由設架構都會涉及,但是如果使用無線是不是也能解決呢,於是極高頻技術在數據中心也有了一定的研究(這里特指60GHZ無線),其吞吐可達4Gbps,通過特殊物理環境、波束成形、有向天線等技術使60GHZ部署在數據中心中,目前研究法相集中在無線調度和覆蓋中,技術方案為Flyways,它通過合理的機櫃擺放及無線節點空間排布來形成有效的整體系統,使用定向天線和波束成形技術提高連接速率等等新的技術,甚至還有一些論文提出了全無線數據中心,這樣對數據中心的建設費用降低是非常有助力的。
數據中心目前應用的還是TCP,而TCP在特定場景下一定會遇到性能急劇下降的TCP incast現象,TCP的擁塞避免和慢啟動會造成當一條鏈路擁塞時其承載的多個TCP流可能會同時觸發TCP慢啟動,但隨著所有的TCP流流量增加後又會迅速達到擁塞而再次觸發,造成網路中有時間流量很大,有時間流量又很小。如何來解決
數據中心還有很多應用有典型的組通信模式,比如分布式存儲、軟體升級等等,這種情況下組播是不是可以應用進來,但是組播在數據中心會不會水土不服,如何解決
還有就是數據中心的多路徑,可否從TCP層面進行解決,讓一條TCP流負載在不同的鏈路上,而不是在設備上依靠哈希五元組來對每一條流進行特定鏈路分配
對於TCPincast,一般通過減少RTO值使之匹配RTT,用隨機的超時時間來重啟動TCP傳輸。還有一種時設計新的控制演算法來避免,甚至有方案拋棄TCP使用UDP來進行數據傳輸。
對於組播,數據中心的組播主要有將應用映射為網路層組播和單播的MCMD和Bloom Filter這種解決組播可擴展性的方案
對於多路徑,提出多徑TCP(MPTCP),在源端將數據拆分成諾幹部分,並在同一對源和目的之間建立多個TCP連接進行傳輸,MPTCP對比傳統TCP區別主要有
1、MPTCP建立階段,要求伺服器端向客戶端返回伺服器所有的地址信息
2、不同自流的源/目的可以相同,也可以不同,各個子流維護各自的序列號和滑動窗口,多個子流到達目的後,由接收端進行組裝
3、MPTCP採用AIMD機制維護擁塞窗口,但各個子流的擁塞窗口增加與所有子流擁塞窗口的總和相關
還有部分針對TCP的優化,如D3協議,D3是針對數據中心的實時應用,通過分析數據流的大小和完成時間來分配傳輸速率,並且在網路資源緊張的時候可以主動斷開某些預計無法完成傳輸的數據流,從而保證更多的數據流能按時完成。
這的數據中心節能不會談風火水電以及液冷等等技術,從網路拓撲的角度談起,我們所有數據中心拓撲搭建的過程中,主要針對傳統樹形拓撲提出了很多「富連接」的拓撲,來保證峰值的時候網路流量的保持性,但是同時也帶來了不在峰值條件下能耗的增加,同時我們也知道數據中心流量多數情況下遠低於其峰值設計,學術界針對這塊設計了不少有腦洞的技術,主要分為兩類,一類時降低硬體設備能耗,第二類時設計新型路由機制來降低能耗。
硬體能耗的降低主要從設備休眠和速率調整兩個方面來實現,其難點主要時定時機制及喚醒速度的問題,當遇到突發流量交換機能否快速喚醒,人們通過緩存和定時器組合的方式進行。
節能路由機制,也是一個非常有特點的技術,核心思想是通過合理的選擇路由,只使用一部分網路設備來承載流量,沒有承載流量的設備進行休眠或者關閉。Elastic Tree提出了一種全網范圍的能耗優化機制,它通過不斷的檢測數據中心流量狀況,在保障可用性的前提下實時調整鏈路和網路設備狀態,Elastic Tree探討了bin-packer的貪心演算法、最優化演算法和拓撲感知的啟發演算法來實現節能的效果。
通過以上可以看到數據中心發展非常多樣化,驅動這些技術發展的根本性力量就是成本,人們希望用最低的成本達成最優的數據中心效能,同時內部拓撲方案的研究已經慢慢成熟,目前設備廠商的羹湯可以說就是市場化選擇的產物,但是數據中心網路傳輸協議、虛擬化、節能機制、SDN、服務鏈等方向的研究方興未艾,尤其是應用定製的傳輸協議、虛擬網路帶寬保障機制等等,這些學術方面的研究並不僅僅是紙上談兵,對於我知道的一些信息來說,國內的阿里在它的數據中心網路拓撲中早已經應用了FatTree的變種拓撲,思科也把數據中心內部TCP重傳的技術應用在自己的晶元中,稱其為CONGA。
坦白來說,網路從來都不是數據中心和雲計算的核心,可能未來也不會是,計算資源的形態之爭才是主戰場,但是網路恰恰是數據中心的一個難點,傳統廠商、學術界、大廠都集中在此領域展開競爭,創新也層出不窮,希望能拓展我們的技術視野,能對我們有一些啟發,莫聽穿林打葉聲、何妨吟嘯且徐行~
② 高校校園網無線項目建設如何進行如何實現全覆蓋、可管理
高校無線項目的建設分兩步。第一步是:為各個大學提供典型的無線區域網信號覆蓋,它包括主教學樓、大講堂和操場等。採用星峰航校園統一認證計費平台,實行全校統一計費、管理和運營。提供數據接入業務,讓學校師生體會到無線區域網給教師的教學和學生的學習帶來的好處。第二步是:在無線網路上提供VoIP,WiFi-GSMphone,視頻教學等增值服務,建立全國高校的無線聯網。