java爬蟲的步驟 Java爬蟲方向怎么樣?
Java爬蟲方向怎么樣?我曾經(jīng)在某會增大項目接受過Java的爬蟲數(shù)據(jù)采集,在Java方面有一定會經(jīng)驗。Java爬取應(yīng)該Python爬取這個問題較低的它取決于有權(quán)限下決定的那個人和團隊是更熟悉Java我
Java爬蟲方向怎么樣?
我曾經(jīng)在某會增大項目接受過Java的爬蟲數(shù)據(jù)采集,在Java方面有一定會經(jīng)驗。
Java爬取應(yīng)該Python爬取這個問題較低的它取決于有權(quán)限下決定的那個人和團隊是更熟悉Java我還是Python。Python在爬蟲方面有簡單易用和結(jié)構(gòu)以簡潔的優(yōu)勢,比較適合最常見爬蟲項目的開發(fā);如果是一個純Java架構(gòu)的項目和團隊,再去拿來找個人去想研究Python就各位了,而且會不能形成Java與Python的混合架構(gòu),有維護的成本,這時候Java就會占優(yōu)。
爬取與反爬取如果不是好象性的網(wǎng)站爬取應(yīng)該也很很難的,用原生HttpClient表就行。若碰到較知名的網(wǎng)站,而不會本身很多反爬取機制(js、驗證碼、圖形驗證碼...等等),和頻繁的網(wǎng)頁改版以后,倒致爬取失效。的確,爬取工作大量的是在與網(wǎng)站的反爬取機制通過攻防對抗。當然了對抗技術(shù)也有很多,就不在這里發(fā)動了。
來到問題:Java爬蟲方向咋樣?。窟@個問題在打聽一下了上面的信息后,更多的是看個人興趣和研究意愿的,每個人的答案都有所不同,大家也可以不在下面的評論中給出自己的意見。
做垂直爬蟲用GO JAVA PYTHON哪個比較好?各有什么優(yōu)勢?
個人建議您你熟悉哪門語言就用哪個,基本是現(xiàn)在百度一下都有吧你自己做代碼可以不用,一點改呀都能滿足業(yè)務(wù)需求,我是用php的,效率絕逼有保障,也并沒說會有多實在不方便,抓取信息淘寶阿里商品也是可以啦的,線程呀或者什么管理之類的,反正即便python什么的有太麻煩的,可是沒準兒你得花時間去學(xué)習(xí)這門語言,你不學(xué),不熟得不能再熟一樣的懵逼,也得百度,所以才說,用自己熟悉的語言做是最好是的,我一直在是用php的curl做爬蟲,應(yīng)該用得很抓起,個人總結(jié)吧,爬蟲和語言沒太大關(guān)系,所謂的的效率好象項目也無什么大礙,優(yōu)化得好,這都不是問題,但是路漫漫長吧,有時間能學(xué)python我還是python好,我只不過是我沒時間去學(xué)。
俗話有句話,爬蟲用得好,牢飯吃得飽,希望走正道吧。
結(jié)果選擇類型Python的原因:
跨平臺,對Linux和windows都有確實不錯的支持。
科學(xué)計算,數(shù)值曲線擬合:Numpy,Scipy
可視化:2d:Matplotlib(做圖很漂亮啊),3d:Mayavi2
奇怪網(wǎng)絡(luò):Networkx
統(tǒng)計:與R語言接口:Rpy
可視化終端
通??茨隳莻€比較熟悉什么語言,熟悉什么語言用什么,這是最最好的選擇。如果沒有都是需要新學(xué)的話我推薦python,爬蟲框架晚熟,語言容易上手,是最常用的爬蟲語言!
Scrapy,ms4