dpark電腦包 如何用spark實(shí)現(xiàn)好友推薦?
如何用spark實(shí)現(xiàn)好友推薦?1. Spark-mllib是用推薦程序?qū)崿F(xiàn)的,它封裝了als(alternativeleastsquares)來(lái)求解用戶(hù)項(xiàng)目評(píng)分矩陣的空值,只要應(yīng)用了數(shù)據(jù)就可以使用。缺
如何用spark實(shí)現(xiàn)好友推薦?
1. Spark-mllib是用推薦程序?qū)崿F(xiàn)的,它封裝了als(alternativeleastsquares)來(lái)求解用戶(hù)項(xiàng)目評(píng)分矩陣的空值,只要應(yīng)用了數(shù)據(jù)就可以使用。缺點(diǎn)是不能增量計(jì)算,占用大量?jī)?nèi)存。
2. 協(xié)同過(guò)濾、基于項(xiàng)目或用戶(hù)的聚類(lèi)、SVM/Bayes的封裝,具體思路應(yīng)該不用多說(shuō)。實(shí)施強(qiáng)化學(xué)習(xí),實(shí)時(shí)反饋更新模型,推送給用戶(hù)。這是最近最難和最時(shí)尚的一個(gè)
謝謝!筆者剛剛簽了一份大數(shù)據(jù)挖掘工程師的合同,到了研究生階段才轉(zhuǎn)向大數(shù)據(jù)方向。目前大數(shù)據(jù)火爆,很多學(xué)生都想上交,但自學(xué)的學(xué)習(xí)路線(xiàn)因人而異。
以我自己為例,作者出生于Python數(shù)據(jù)分析領(lǐng)域,具有通用編程能力。因此,在此基礎(chǔ)上,他首先學(xué)習(xí)了Linux的基本操作命令,安裝了Ubuntu的雙系統(tǒng),并進(jìn)一步安裝了Hadoop和spark組件。在此基礎(chǔ)上,他利用pypark操作spark大數(shù)據(jù)框架進(jìn)行學(xué)習(xí)。開(kāi)始讀這本書(shū)很容易。
想自學(xué)大數(shù)據(jù),不知道從哪里學(xué)起,有什么書(shū)籍和學(xué)習(xí)路線(xiàn)推薦么?
學(xué)習(xí)spark API很簡(jiǎn)單。這就是學(xué)習(xí)火花的方法。首先,您必須了解spark是什么,它的用途是什么,它適用于哪些場(chǎng)景,以及spark與其他大數(shù)據(jù)架構(gòu)的區(qū)別和優(yōu)勢(shì)是什么。您必須通過(guò)示例學(xué)習(xí)sparkapi,然后一直調(diào)試代碼和跟蹤源代碼。這樣,你會(huì)對(duì)spark的理解越來(lái)越深刻和透徹。更重要的是,看了源代碼之后,它有助于提高代碼的質(zhì)量。你學(xué)習(xí)做一些開(kāi)源項(xiàng)目來(lái)加深你的理解。現(xiàn)在你更多地使用火花喇叭。你可以在這方面做得更多。
Spark是一個(gè)大數(shù)據(jù)分布式處理框架。它是一個(gè)通用的大規(guī)模數(shù)據(jù)處理引擎。它在性能和方案一致性方面具有優(yōu)勢(shì)。Spark由sparksql、sparkstreaming、mllib和graph組成,可以解決很多問(wèn)題。
Spark速度快,在內(nèi)存中比MapReduce快100倍。Spark有一個(gè)有向無(wú)環(huán)圖執(zhí)行引擎,這使得Spark更易于使用,并且Spark支持多語(yǔ)言操作。