ZKRush獨家|全方位資源監控系統助力 Aleo 挖礦

ZKRush作為目前業內領先的零知識賽道技術方案及礦池服務提供商,在架構上採用了Kubernetes,負載均衡,虛擬化,虛擬網絡等技術。我們運維團隊針對不同緯度,對Aleo礦池進行了全方面的監控配置。並按照不同類型,在不同的監控大屏上進行了展示。
Kubernetes集群資源監控
此部分主要展示的是Kubernetes集群Master、Node節點的資源使用情況,所有Node節點資源在集群中被視為一個整體,我們並不關心業務程序具體部署在哪一個節點上,而是由集群Master統一自動進行調度。在資源上我們唯一需要關心的是我們集群整體的資源是不是能滿足我們的業務需要,這一點上,在監控大屏中能很好的進行展示。可以看到圖例中,目前集群資源狀況還是非常良好的。另外我們還能從這個監控大盤中看到各個Node節點的基本資源信息。從CPU、內存、網絡、IO各個維度分別進行了展示,實際生產中,任何一個指標的異常都可能影響整個集群和業務,因此有必要對不同指標進行細分。及時對業務配置,程序,集群等進行適當的調整。
Kubernetes集群業務層監控
除了資源層面監控,Kubernetes業務層面的監控也必不可少。 ZKRush的各類組件的運行情況都清楚的展示在監控大盤上,從Namespace,Node,Deployment,Pod等多個維度及控制器維度進行了排序展示,優先展示資源使用較高的應用。如果有異常的應用,能第一時間在進行排查。除了業務組件外,在圖例中我們也能看到,集群中還包含很多網絡組件,日誌組件,調度組件以及監控組件。這些組件的正常運行也對aleo礦池的正常運行起到非常關鍵的作用,所以必須保證各類組件都能正常運行,我們通過監控大盤就能實時關注到他們的健康狀態。
負載均衡及網絡監控
Aleo測試網第二階段及Aleo主網上線後,為了應對大量的用戶接入,網絡層面監控是最為關鍵的。礦池在其中扮演了節點同步,工作量下發和接收的功能,對於網絡的要求很高。因此我們必須實時關注這一層面的監控指標。 ZKRush團隊對於算力,用戶量,接入數量等方面的指標都非常敏感。另外我們已經對下發工作量的數據包進行了大量優化。盡可能用最小的網絡開銷,以接入更多的用戶。我們還有針對大體量客戶開發的Proxy程序,使得用戶的所有設備能夠統一接入礦池,減少網絡不穩定帶來的收益損失。網絡層面,我們著重在流入/流出流量以及負載均衡組件,負載均衡後端的承載能力上進行監控展示,以便在需要之時,第一時間對礦池的網絡承載能力進行升級,擴容等操作。
主機指標監控
除Kubernetes集群內的業務外,ZKRush也有部分業務組件部署在獨立主機上,其中也有部分的關鍵業務組件,如Aleo節點相關組件,鏈數據的觀察者節點,Aleo礦池組件,當然也包含了Kubernetes的Node節點主機。因此我們對主機層面也進行了監控,包含CPU,內存,連接數等指標的監控。目前圖例為Aleo礦池的私鏈測試階段資源。
一套成熟的綜合資源監控體係是保障礦池穩定運行的大前提,也能使我們更好的服務於各類礦工群體。正如我們所承諾的那樣,最大化客戶收益,縮小信息差是我們不變的宗旨。近期我們也會有對於官方代碼的變動做出最新的分析,敬請期待。