離散化處理是什么意思 離散化處理是什么意思?
離散處理是一種訓(xùn)練集預(yù)處理方法,用于將連續(xù)的數(shù)值屬性轉(zhuǎn)化為離散的數(shù)值屬性。離散數(shù)值屬性在數(shù)據(jù)挖掘過程中起著重要的作用。離散化處理是什么意思?在Microsoft SQL Server 2005 ana
離散處理是一種訓(xùn)練集預(yù)處理方法,用于將連續(xù)的數(shù)值屬性轉(zhuǎn)化為離散的數(shù)值屬性。離散數(shù)值屬性在數(shù)據(jù)挖掘過程中起著重要的作用。
離散化處理是什么意思?
在Microsoft SQL Server 2005 analysis services(SSAS)中創(chuàng)建數(shù)據(jù)挖掘模型時(shí)使用的某些算法需要特定的內(nèi)容類型才能正確運(yùn)行。例如,某些算法(如Microsoft naive Bayes算法)不能使用連續(xù)列作為輸入,也就是說,它們不能預(yù)測連續(xù)值。此外,有些列可能包含太多的值,這使得算法很難在數(shù)據(jù)中識別相關(guān)模式來創(chuàng)建模型。
在這種情況下,可以對列中的數(shù)據(jù)進(jìn)行離散化,以便使用算法生成挖掘模型。離散化是將一組連續(xù)數(shù)據(jù)的值放入桶中,以得到離散的可能狀態(tài)數(shù)的過程。bucket本身被視為一個(gè)有序的離散值。數(shù)值列和字符串列都可以離散化。
離散化數(shù)據(jù)的方法有很多種。每個(gè)方法都可以使用以下示例代碼中的公式來自動(dòng)計(jì)算要生成的桶數(shù):
桶數(shù)=sqrt(n)
在上述示例代碼中,n是列中數(shù)據(jù)非重復(fù)值的數(shù)目。如果不希望analysis services計(jì)算存儲(chǔ)桶數(shù),可以使用DiscretizationBucket屬性手動(dòng)指定存儲(chǔ)桶數(shù)。
什么叫做離散化?
不同的模型需要不同的數(shù)據(jù),所以我們需要相應(yīng)地處理數(shù)據(jù)。
對于一般線性回歸模型,自變量的數(shù)據(jù)類型要求是連續(xù)的,因此離散數(shù)據(jù)需要是連續(xù)的。一般來說,0,1,2,3的編碼。。。對有序離散變量采用虛擬變量,對無序離散變量生成多個(gè)虛擬變量。對于決策樹模型,需要對連續(xù)數(shù)據(jù)進(jìn)行離散化;為了顯示連續(xù)數(shù)據(jù)的分布特征,在繪制直方圖時(shí)也需要對連續(xù)數(shù)據(jù)進(jìn)行離散化
1。根據(jù)PID控制器的離散形式,直接替換參數(shù)。2微分項(xiàng)是近似的(乘以具有小時(shí)間常數(shù)的慣性環(huán)節(jié))。