pandas詳細(xì)教程 沒有統(tǒng)計(jì)學(xué)背景,做數(shù)據(jù)分析會無從下手嗎?
沒有統(tǒng)計(jì)學(xué)背景,做數(shù)據(jù)分析會無從下手嗎?數(shù)據(jù)分析的范圍很廣,從基本的Excpython怎么運(yùn)行py文件?在如何使用Python腳本轉(zhuǎn)換數(shù)據(jù)和命令行中,我們將深入討論如何使用Python腳本和命令行轉(zhuǎn)換
沒有統(tǒng)計(jì)學(xué)背景,做數(shù)據(jù)分析會無從下手嗎?
數(shù)據(jù)分析的范圍很廣,從基本的Exc
python怎么運(yùn)行py文件?
在如何使用Python腳本轉(zhuǎn)換數(shù)據(jù)和命令行中,我們將深入討論如何使用Python腳本和命令行轉(zhuǎn)換數(shù)據(jù)。
但是首先,有必要問一個你可能正在思考的問題Python如何適應(yīng)命令行?當(dāng)我知道我可以用我的IPython筆記本完成所有的數(shù)據(jù)科學(xué)工作時,我為什么要使用命令行來與Python交互呢? "還是朱庇特實(shí)驗(yàn)室? "
筆記本非常適合快速進(jìn)行數(shù)據(jù)可視化和探索,但Python腳本是一種將我們所學(xué)投入生產(chǎn)的。假設(shè)你想建立一個網(wǎng)站,幫助人們發(fā)布黑客新聞帖子,有理想的標(biāo)題和提交時間。為此,您需要一個腳本。
本教程假設(shè)您對函數(shù)有基本的了解,并且有一點(diǎn)命令行經(jīng)驗(yàn)不會有什么壞處。如果您以前從未使用過Python,請隨時查看我們涵蓋Python函數(shù)基礎(chǔ)的任務(wù),或者更深入地學(xué)習(xí)我們的一些數(shù)據(jù)科學(xué)課程。最近,我們發(fā)布了兩個新的交互式命令行課程: "命令行元素和和 "命令行和程序中的文本處理,所以如果你想更深入的學(xué)習(xí)命令行,我們也推薦你。
換句話說,唐 不要太擔(dān)心先決條件!我們會解釋我們正在做的一切,所以讓我們 讓我們開始吧!
熟悉數(shù)據(jù)
黑客新聞是一個網(wǎng)站,用戶可以通過互聯(lián)網(wǎng)提交文章(通常是關(guān)于技術(shù)和創(chuàng)業(yè)),其他人可以 "贊美與贊美這些文章來表明他們喜歡它們。提交的投票越多,他們在社區(qū)中就越受歡迎。熱門文章進(jìn)入 "主頁和黑客新聞,他們更有可能被其他人在其他網(wǎng)站上看到。
我們將使用的數(shù)據(jù)集是由Arnaud Drizard使用黑客新聞API編譯,可以在這里找到。我們從數(shù)據(jù)中隨機(jī)抽取了10000行,刪除了所有多余的列。我們的數(shù)據(jù)集只有四列:
submission _ time——故事提交的時間。
up votes-提交的投票數(shù)。
URL—提交的基本域。
標(biāo)題--提交的標(biāo)題。用戶可以在不匹配原文章標(biāo)題的情況下進(jìn)行編輯。
我們將編寫腳本來回答三個關(guān)鍵問題:
什么新聞最常出現(xiàn)在頭條?
哪些域名最常提交給黑客新聞?
大部分文章什么時候提交?
記住:編程的時候,處理任務(wù)的方法有很多種。在本教程中,我們將逐步解決這些問題,但肯定有其他方法同樣有效,所以請隨時嘗試并提出自己的方法!
使用命令行和Python腳本讀取數(shù)據(jù)
要添加星星,讓 s transform _ data _ with _ python在桌面上創(chuàng)建文件夾。要使用命令行創(chuàng)建文件夾,可以使用mkdir命令,后跟文件夾名稱。例如,如果要創(chuàng)建一個名為test的文件夾,可以導(dǎo)航到桌面目錄并鍵入mkdir test。
我們稍后將討論為什么創(chuàng)建這個文件夾,但是現(xiàn)在,讓 使用cd命令導(dǎo)航到創(chuàng)建的文件夾。這個cd命令允許我們使用命令行來更改目錄。
雖然使用命令行創(chuàng)建文件有很多方法,但是我們可以使用一種稱為管道傳輸和重定向輸出的技術(shù)來同時做兩件事:將stdout的輸出(命令行生成的標(biāo)準(zhǔn)輸出)重定向到一個文件,并創(chuàng)建一個新文件!換句話說,我們可以讓它創(chuàng)建一個新文件,并將其輸出作為文件的內(nèi)容,而不是讓命令行只打印其輸出。
為此,我們可以使用gt和gtgt,這取決于我們想對文件做什么。如果文件不存在,兩者都會創(chuàng)建一個文件。但是,gt會用重定向的輸出覆蓋文件中的現(xiàn)有文本,并且gtgt會將任何重定向的輸出附加到文件中。
我們希望將數(shù)據(jù)讀入這個文件,并創(chuàng)建一個描述性的文件名和函數(shù)名,因此我們將創(chuàng)建一個名為load_data()的函數(shù),并將其保存在一個名為。讓 讓我們使用讀取數(shù)據(jù)的命令行創(chuàng)建一個函數(shù)。為此,我們將使用printf函數(shù)。我們將使用printf,因?yàn)樗试S我們打印換行符和制表符,我們將使用它們來使腳本對我們自己和他人更具可讀性。
為此,我們可以在命令行上輸入以下內(nèi)容。
打印函數(shù)