mysql redis 實時同步 如何進行MySQL數(shù)據(jù)庫與HDFS的實時數(shù)據(jù)同步?
如何進行MySQL數(shù)據(jù)庫與HDFS的實時數(shù)據(jù)同步?如何在MySQL數(shù)據(jù)庫和HDFS之間同步實時數(shù)據(jù),并通過map/reduce批處理將其傳遞給Apache Hadoop仍然是中心環(huán)節(jié)。然而,隨著從“超
如何進行MySQL數(shù)據(jù)庫與HDFS的實時數(shù)據(jù)同步?
如何在MySQL數(shù)據(jù)庫和HDFS之間同步實時數(shù)據(jù),并通過map/reduce批處理將其傳遞給Apache Hadoop仍然是中心環(huán)節(jié)。
然而,隨著從“超級思維速度”分析中獲得競爭優(yōu)勢的壓力越來越大,Hadoop(分布式文件系統(tǒng))經(jīng)歷了重大的發(fā)展??茖W技術的發(fā)展使得實時查詢成為可能,比如apachedrill、cloudera impala和stinger倡議正在興起,新一代的資源管理apacheyard支持這些。
如何將數(shù)據(jù)從SQLServer實時或定時同步到MySQL數(shù)據(jù)庫?
MySQL使用慢的原因是查詢操作太復雜,計算量太大。所以,找到一種方法讓MySQL存儲您想要顯示的數(shù)據(jù),并且您不需要任何復雜的統(tǒng)計數(shù)據(jù),它可以很快。一般來說,在MySQL中保存要顯示的數(shù)據(jù)的方法是將原始數(shù)據(jù)保存在一個地方(例如,HDFS或MSYQL在另一個表中),然后定期啟動一些任務,從原始數(shù)據(jù)中計算出要顯示的數(shù)據(jù)并保存在MySQL中。你想不想用Hadoop?我認為你沒有足夠的數(shù)據(jù)來使用它。在早期階段,可以定期啟動獨立程序或直接使用MySQL事件。另外,你在標題中說應該進行實時分析。事實上,我認為實時分析可能沒有必要。定期(如每小時)啟動任務,處理最后一小時的數(shù)據(jù)。如果有實時需求,可能需要將每個數(shù)據(jù)發(fā)送到一個程序進行處理(當數(shù)據(jù)量過大時,可以使用Flink或storm等分布式流計算系統(tǒng)),并將處理結果寫入結果mysql。然而,這將大大增加系統(tǒng)的復雜性(一般來說,流式處理的實現(xiàn)要比批處理復雜得多)。如果批量加工能滿足要求,則應盡量選擇批量加工。