阿里云監(jiān)控使用手冊
云監(jiān)控使用手冊 ,云監(jiān)控/使用手冊使用手冊產品介紹云監(jiān)控簡介云監(jiān)控作為云服務的監(jiān)控管理入口,能讓您快速了解各產品實例的狀態(tài)和性能。云監(jiān)控從站點監(jiān)控、云服務監(jiān)控、自定義監(jiān)控三
云監(jiān)控
使用手冊
,云監(jiān)控/使用手冊
使用手冊
產品介紹
云監(jiān)控簡介
云監(jiān)控作為云服務的監(jiān)控管理入口,能讓您快速了解各產品實例的狀態(tài)和性能。云監(jiān)控從站點監(jiān)控、云服務監(jiān)控、自定義監(jiān)控三個方面來為您提供服務。通過云監(jiān)控管理控制臺,您可以看到當前服務的監(jiān)控項數(shù)據(jù)圖表,清晰了解服務運行情況。并通過設置報警規(guī)則,管理監(jiān)控項狀態(tài),及時獲取異常信息。
如果您已經開通了阿里云相關產品(ECS云服務器、RDS關系型數(shù)據(jù)庫等),那么您可以直接登錄云監(jiān)控控制臺,查看相關實例的監(jiān)控狀態(tài)(ECS需要一鍵安裝云盾插件)。目前我們?yōu)槟峁?種云服務監(jiān)控,其他云服務監(jiān)控近期也將接入云監(jiān)控,敬請期待。
如果您需要了解自己的站點可用性和響應時間,可以開啟云監(jiān)控站點服務來獲取站點的可用性和響應時間。站點監(jiān)測既可以監(jiān)測ECS服務器上的站點,也可以監(jiān)測非阿里云服務器上的站點。在站點監(jiān)測欄中添加監(jiān)測站點,并選擇需要的監(jiān)控項,便可成功開啟站點監(jiān)測功能。
如果云服務監(jiān)測和站點監(jiān)測依然滿足不了您的監(jiān)控需求,您還可以安裝云監(jiān)控SDK,自定義監(jiān)控項。自定義監(jiān)控項信息同樣可以以圖表的形式展示在云監(jiān)控控制臺。我們?yōu)槟峁┝嗽敿毜淖远x使用文檔
獲取監(jiān)控信息分為兩種方式,登錄云監(jiān)控管理控制臺直接查看信息和調用OpenAPI獲取監(jiān)控數(shù)據(jù)信息。
云監(jiān)控控制臺模塊包括一下
名詞解釋
1
,云監(jiān)控/使用手冊
名詞解釋
這些名詞是云監(jiān)控的關鍵概念。
【監(jiān)控項】: 用戶設置或者系統(tǒng)默認的監(jiān)控數(shù)據(jù)類型,例如站點監(jiān)控的Http監(jiān)控默認有兩個監(jiān)控項
【監(jiān)控點】: 監(jiān)控項的一個實例。如針對www.aliyun.com這個站點的http監(jiān)控,實際包含兩個監(jiān)控點http.response & http.status。對于ECS云主機有11個監(jiān)控項,所以一臺云主機默認有11個監(jiān)控點。
【維度】: 定位監(jiān)控項數(shù)據(jù)位置的維度,例如磁盤IO這個監(jiān)控項,通過實例和磁盤名稱兩個維度可以定位到唯一的監(jiān)控點位置。 在自定義監(jiān)控中,目前維度用“字段信息表示”。
【規(guī)則】: 規(guī)則是一個條件; 例如“CPU使用率>=50”是一個規(guī)則; 10臺ECS服務器中有7臺可用也是一個規(guī)則,“可用服務器比例>=70”。
【事件】: (本版本中“事件”是隱性的,沒有展現(xiàn)給使用者) 當一個監(jiān)控點上,規(guī)則條件滿足時,產生一個事件。例如CPU使用率達到60,滿足“CPU使用率>=50”這一規(guī)則的條件,則產生一個事件。 多個事件滿足一個規(guī)則的條件,可以產生一個新的事件。例如站點監(jiān)控由兩個探測點,只有一個探測點探測到目標站點不可用,不滿足“不可用探測=2”規(guī)則,不產生“雙探測不可用”事件,不會觸發(fā)報警。只有兩個探測點同時探測某一站點不可用,產生一個“雙探測不可用”事件,進而觸發(fā)報警。
【事件級別】:(本版本中“事件級別”沒有展現(xiàn)給使用者) 事件的影響分級。 可以通過嚴重程度來劃分,不同的級別報警通道不同。 可以通過已知處理方法和未知處理方法來劃分,已知處理方法的時間可以自動處理,未知處理方法的通知聯(lián)系人人工處理。
【報警】: 由事件驅動的一個通知動作,通過特定形式通知報警聯(lián)系人或服務。
【報警聯(lián)系人】: 報警消息的接收人,包含手機、旺旺(淘寶)、郵件。
【報警組】: 一組報警聯(lián)系人,可以包含一個或多個“報警聯(lián)系人”。在報警設置中,均通過“報警組”發(fā)送報警通知。對應每一個監(jiān)控點,根據(jù)預先設定的報警方式在到達報警閾值時向報警組成員發(fā)送報警消息。
【報警方式】: 異常通知用戶的手段。包括短信、旺旺、郵件等。
快速上手
快速開始
快速開始
當您進入云監(jiān)控控制臺后,您會看到在頁面的頂端看到 概覽,站點監(jiān)控,云服務監(jiān)控,自定義監(jiān)控,報警聯(lián)系人,5個頁面信息
初次使用,您可以先瀏覽一下名詞解釋,對云監(jiān)控產品的一些關鍵概念的術語有所了解。
初次使用,請您先進入報警聯(lián)系人 輸入您的報警聯(lián)系人和報警組信息,后面定義報警規(guī)則的時候會用到。
然后,您可以進入站點監(jiān)控,為您需要監(jiān)控的站點新建監(jiān)控項。 進入云服務監(jiān)控
,查看您已開通的云服務的使2
,云監(jiān)控/使用手冊
用情況和運行狀態(tài)。 您還可以通過自定義監(jiān)控,自行上報數(shù)據(jù),設置監(jiān)控項。
目前云監(jiān)控支持查看三十天內的歷史監(jiān)控數(shù)據(jù),不支持數(shù)據(jù)導出功能。如果您需要查看更長時間的歷史數(shù)據(jù)或導出數(shù)據(jù),可使用OpenAPI 功能,獲取監(jiān)控數(shù)據(jù)并存儲。
概覽
概覽
目前云監(jiān)控提供站點監(jiān)控、云服務監(jiān)控和自定義監(jiān)控三種服務。
云監(jiān)控概覽頁如下圖所示,目前云服務監(jiān)控提供8種服務監(jiān)控,隨后將會有更多云服務監(jiān)控。您購買一個云服務實例后,云監(jiān)控便默認開啟了監(jiān)控服務,您可以到云監(jiān)控對應的服務頁面查看實例的監(jiān)控信息,并對其設置相應的報警規(guī)則。
概覽頁名詞解釋
q 監(jiān)控項:自定義監(jiān)控的監(jiān)控項數(shù)量,自定義監(jiān)控是沒有顯性監(jiān)控點概念,自定義監(jiān)控的靠維度(字段信息)來定位監(jiān)控點
監(jiān)控點:站點監(jiān)控的監(jiān)控點和云服務監(jiān)控ECS監(jiān)控點數(shù)量
實例數(shù)量 云產品受監(jiān)控的實例個數(shù)
報警規(guī)則:通過設置報警規(guī)則,當監(jiān)控項超出報警閾值和重試次數(shù)后,會觸發(fā)告警通知
報警:目前處于報警狀態(tài)的監(jiān)控項
數(shù)據(jù)不足:該監(jiān)控點沒有足夠數(shù)據(jù)上報,無法判斷被監(jiān)控的站點或者服務的狀態(tài)
暫停:用戶保留該監(jiān)控,但是暫停該監(jiān)控項或者監(jiān)控點數(shù)據(jù)上報,暫停狀態(tài)屬于正常狀態(tài)。不再觸發(fā)報警規(guī)則
q q q q q q
注意 :您只有設置了報警規(guī)則以后,才會在監(jiān)控項觸發(fā)報警規(guī)則時收到報警信息。否則無論監(jiān)控項數(shù)據(jù)發(fā)生何種變化,您都只能自行查看,無法收到報警信息。
站點監(jiān)控
站點監(jiān)控
站點監(jiān)控可以對目標站點服務的可用性以及響應時間進行監(jiān)控。系統(tǒng)已經默認預置了8種監(jiān)控類型,包括http監(jiān)3
,云監(jiān)控/使用手冊
控、ping監(jiān)控、tcp監(jiān)控、udp監(jiān)控、DNS監(jiān)控、pop監(jiān)控、smtp監(jiān)控、ftp監(jiān)控。其中每種監(jiān)控類型里面包含了兩個監(jiān)控項:status和responsetime。
每個用戶最多可以設置200個站點監(jiān)控。
從2015年7月9日起,使用站點監(jiān)測功能需進行云監(jiān)控產品服務認證,未認證用戶無法新建監(jiān)測站點
點擊進行認證 點擊認證幫助
1 監(jiān)控類型
2 創(chuàng)建站點監(jiān)控和報警
點擊站點管理,進入站點監(jiān)控頁面
點擊創(chuàng)建站點,添加新的監(jiān)測點
4
,云監(jiān)控/使用手冊
創(chuàng)建監(jiān)控點 表單描述
1) 監(jiān)控點名稱: 為您的監(jiān)控點輸入個性化的名稱
2) 監(jiān)控地址: 您要監(jiān)控的地址,對http來說,就是一個網(wǎng)站的地地址,對域名解析來說,就是某一個域名等等。
3) 監(jiān)測頻率: 站點監(jiān)控探測引擎多長時間執(zhí)行一次探測任務,并上報數(shù)據(jù)的頻率。默認為5分鐘,請謹慎選擇1分鐘,過于頻繁的探測可能會導致對方服務屏蔽您的賬號。
4) 分布式探測點 目前部署了兩個監(jiān)測點,可以分別從杭州和青島對您設置的目標服務進行監(jiān)測,您也可以只選擇從其中一個監(jiān)測點進行探測。(后續(xù)會支持更多監(jiān)測點,包括海外的監(jiān)測點)
5) 高級設置
不同的監(jiān)控類型會有一些高級選項
a. http監(jiān)控:
i. 請求方法,http標準的請求方法,getposthead,其中post支持提交內容。
ii. 提交內容,只對post請求方法有效,輸入您的目標服務能夠識別的內容。
iii.匹配響應內容,您期望探測目標網(wǎng)站返回什么樣的內容。
iv. 匹配方式:選擇匹配,則如果網(wǎng)站返回內容匹配您期望的內容報警;選擇不匹配,則如果網(wǎng)站返回內容不匹
配您期望的內容報警。5
,云監(jiān)控/使用手冊
v. Cookie:您期望探測目標網(wǎng)站需要的cookie,key:value形式,多個cookie以半角分號分隔。
vi. http請求頭信息:您期望探測目標網(wǎng)站需要的http header信息,key:value形式,多個header以半角分號分隔。
b. ping監(jiān)控: 您可以使用ping監(jiān)控服務來檢測目標服務的網(wǎng)絡延遲。
c. Tcp監(jiān)控: 監(jiān)控地址的端口是不是連通的。另外,您也可以配置請求內容和期望的響應內容。如果配置了這兩項內容,則不匹配時會報警。內容支持16進制字節(jié)碼和文本兩種形式
i. 16進制字節(jié)碼。如:0xcf,0x0f,0x85,0x85
ii. 文本。系統(tǒng)內容會對文本內容進行轉換,請注意空格等容易出錯的字符。
d. Udp監(jiān)控: 監(jiān)控某地址的udp服務,因為udp協(xié)議的特性,必須要為udp配置請求和響應內容,否則udp探測將永遠成功。
i. 16進制字節(jié)碼。如:0xcf,0x0f,0x85,0x85
ii. 文本。系統(tǒng)內容會對文本內容進行轉換,請注意空格、換行符等容易出錯的字符。
e. DNS監(jiān)控: 監(jiān)控域名的可用性和響應時間,并獲得各種域名記錄列表,支持域名輪詢(RR)。通常只需要默認選擇查詢類型A.
f. POP監(jiān)控: 監(jiān)控POP3協(xié)議的接收郵件服務器,填寫正確的地址、端口,如果配置用戶名密碼,則會驗證用戶名密碼。請注意頻率,如果頻率太快,有可能會導致對方服務屏蔽您的賬號。請依據(jù)對方服務選擇是否使用完全連接。
g. Smtp監(jiān)控: 監(jiān)控SMTP協(xié)議的發(fā)送郵件服務器,填寫正確的地址、端口,如果配置用戶名密碼,則會驗證用戶名密碼。請注意頻率,如果頻率太快,有可能會導致對方服務屏蔽您的賬號。請依據(jù)對方服務選擇是否使用完全連接。
h. ftp監(jiān)控:驗證Ftp服務是否正常以及延遲情況。
約定
a. 每個創(chuàng)建成功的監(jiān)控點會形式兩個監(jiān)控指標,一個是狀態(tài)status,一個是響應時間responsetime。對所有的狀態(tài)來說,我們約定,http小于400的狀態(tài)碼為正常(對需要匹配內容的服務,如果服務狀態(tài)正常,但內容不匹配,我們也認為是不正常。),大于等于400的狀態(tài)為異常(有可能是服務響應內容不匹配您預置的期望值)。
b. 響應時間單位是毫秒millisecond。
c.對于可用性圖表,每小時計算一次。可用性的計算是根據(jù)您的設置的HTTP探測頻率來定的,若您設置的頻率是1分鐘,那么在一個小時內就會探測60次,然后會計算其中探測成功的次數(shù)。
d. 對于ping監(jiān)控,目前沒有可用性統(tǒng)計,我們展示的是某統(tǒng)計周期內的丟包率和響應時間的平均值統(tǒng)計。
e. 監(jiān)控點創(chuàng)建成功后,站點監(jiān)控后臺會啟動相應的探測任務, 按您指定的頻率探測并上報數(shù)據(jù)給云監(jiān)控后臺,進行分析和報警服務。
添加報警規(guī)則6
,云監(jiān)控/使用手冊
設置站點監(jiān)控的監(jiān)控點后,會彈出窗口提示站點監(jiān)測添加成功,選擇設置報警規(guī)則按鈕,可進入報警規(guī)則設置。如果不進行設置,可后續(xù)在站點管理頁添加報警規(guī)則。
創(chuàng)建報警規(guī)則表單詳細描述:
對狀態(tài)碼和響應時間設置范圍(ping協(xié)議設置丟包率),當不在范圍內時,即為超出閾值。
設置通知對象:
1) 重試幾次報警:您可以選擇連續(xù)幾次超過閥值報警,默認是三次,通常偶然因素會導致狀態(tài)不對或者服務響應超時,連續(xù)三次以上更能代表服務工作不正常,減少誤報的情況。
2)報警方式 多檢測點獨立報警:任一檢測點異常時都會發(fā)生一次報警 多檢測點組合報警:xxx.status狀態(tài)類報警采用所有檢測點都異常才報警,ping.loss丟包率及xxx.responsetime響應時間類報警采用多檢測點取平均值進行報警
4) 聯(lián)系人通知組:云賬號報警聯(lián)系人。
3 查看監(jiān)測數(shù)據(jù)
可以查看可用性和響應時間
4 站點監(jiān)控所有監(jiān)控項
7
,云監(jiān)控/使用手冊
請查看監(jiān)控項參考手冊
5 站點監(jiān)控返回狀態(tài)碼說明
以下是對查看HTTP監(jiān)測報警歷史中,云監(jiān)控自定義報警值(狀態(tài)碼)的說明
以下是HTTP常見狀態(tài)碼說明,按ctrl F快速查找狀態(tài)碼
8
,云監(jiān)控/使用手冊
9