<aside> 💡 如果系統發生問題,可以藉由以下方式初步查找可能的原因

</aside>

一、系統日常監控

Screen Shot 2021-11-10 at 11.53.21.png

針對上圖各標號說明如下:

  1. 叢集健康狀態問題 點選紅框處後,可調閱整體叢集服務或腳色層級的警告事件。點選最相關問題,則能顯示具體資訊如下圖所示:

    Screen Shot 2021-11-10 at 11.53.58.png

  2. 叢集設定提示 點選後可以逐條確認訊息內容,多為設定上的資源或資安建議,如下圖所示:

    Screen Shot 2021-11-10 at 11.54.37.png

  3. 叢集服務狀態燈號 共有紅、黃、綠三種燈號。綠色代表服務經特定檢測後判斷狀態正常;黃色代表服務經特定檢測後判斷部分狀態異常,程度僅達【需注意】,但尚未達【狀態不良】的異常警戒閥值;紅色代表服務經特定檢測後判斷狀態異常,達【狀態不良】的程度。

  4. 圖表區 此處圖表記載叢集各資源效能曲線。各服務亦有獨立的圖表區能顯示當前效能狀況。舉例來說,HDFS 服務中的圖表區如下所示:

    Screen Shot 2021-11-10 at 11.55.03.png

  5. 圖表顯示區間 此區數值能直接被點選,點選後將影響圖表顯示的區間。下圖為點選 2h 後,圖表呈現2小時前至今的效能曲線。

    Screen Shot 2021-11-10 at 11.55.21.png

二、各元件狀態確認和操作步驟

  1. 各元件狀態確認步驟

CDP 各元件會列於下圖紅框處,燈號代表了其健康狀態。

Screen Shot 2021-11-10 at 11.57.18.png

點擊各元件後將會進到各別元件的狀態監控頁面。

Screen Shot 2021-11-10 at 11.57.22.png

  1. 元件狀態內檢查 依序介紹以下紅框處資訊:

  2. 由左至右分別為:狀態、主機部屬概要、設定、指令、圖表集、Log紀錄、Web UI 介面、快速連結。

  3. 元件健康測試:顯示健康狀態百分比,可設定警戒閥值,即不良率達多少百分比時視為 Concerning 和 Warning.