火車頭采集論壇 火車頭采集器怎么采集一個(gè)內(nèi)容頁的兩個(gè)內(nèi)容?
火車頭采集器怎么采集一個(gè)內(nèi)容頁的兩個(gè)內(nèi)容?這需要你的經(jīng)驗(yàn)。找出內(nèi)容2和內(nèi)容7與其他內(nèi)容之間的差異,然后根據(jù)差異收集規(guī)則。例如,內(nèi)容2和內(nèi)容7在開頭和結(jié)尾有一個(gè)符號(hào)X和y,而其他內(nèi)容沒有。然后可以編輯內(nèi)
火車頭采集器怎么采集一個(gè)內(nèi)容頁的兩個(gè)內(nèi)容?
這需要你的經(jīng)驗(yàn)。找出內(nèi)容2和內(nèi)容7與其他內(nèi)容之間的差異,然后根據(jù)差異收集規(guī)則。例如,內(nèi)容2和內(nèi)容7在開頭和結(jié)尾有一個(gè)符號(hào)X和y,而其他內(nèi)容沒有。然后可以編輯內(nèi)容標(biāo)簽規(guī)則并從X開始到Y(jié)結(jié)束收集內(nèi)容,這樣就可以收集內(nèi)容2和內(nèi)容7。還有就是使用正則表達(dá)式來收集,這就要求您對(duì)正則表達(dá)式和需求有一定的了解。
火車頭采集器該如何使用?
很難用幾句話來描述機(jī)車收集器的用法。我建議去看看政府提供的兩個(gè)視頻教程:一個(gè)是“玩火車收藏家,9節(jié)課讓你從頭掌握”;另一個(gè)是“火車收藏家——網(wǎng)站收藏規(guī)則”。我相信在學(xué)習(xí)了這些視頻教程之后,你會(huì)用到它們的。
讓我再談?wù)剻C(jī)車集電器的工作原理。它主要實(shí)現(xiàn)您在軟件中配置的捕獲規(guī)則,并在解析后存儲(chǔ)在您自己的數(shù)據(jù)庫或文件中。因此,主要需要分析兩個(gè)方面:一是觀察網(wǎng)頁的翻頁URL的變化,匯總提交給機(jī)車,讓機(jī)車知道如何自動(dòng)翻頁;二是分析列表頁和明細(xì)頁的HTML,告訴機(jī)車抓取哪個(gè)標(biāo)簽,掌握文章內(nèi)容的網(wǎng)址,到達(dá)詳細(xì)頁面時(shí)提取什么信息,如來源、作者等,都有利于機(jī)車查找、分析和總結(jié),使其能夠自動(dòng)投入工作。