內(nèi)存遍歷工具使用教程 Python有什么辦法可以讓程序去遍歷比電腦內(nèi)存大的數(shù)據(jù)?
Python有什么辦法可以讓程序去遍歷比電腦內(nèi)存大的數(shù)據(jù)?你好,我很高興在這里交流。這取決于您需要什么樣的數(shù)據(jù)。如果是大量的Excel數(shù)據(jù),python有一個自然的數(shù)據(jù)處理庫panda。具有Excel
Python有什么辦法可以讓程序去遍歷比電腦內(nèi)存大的數(shù)據(jù)?
你好,我很高興在這里交流。
這取決于您需要什么樣的數(shù)據(jù)。如果是大量的Excel數(shù)據(jù),python有一個自然的數(shù)據(jù)處理庫panda。
具有Excel表格的所有功能,從多表拼接、合并、搜索、替換到數(shù)據(jù)透視表,特別適合處理大量千萬級數(shù)據(jù)記錄。
一切都很順利。來吧。
挑戰(zhàn)程序員同學(xué),如何只用2GB內(nèi)存從20/40/80億個整數(shù)中找到出現(xiàn)次數(shù)最多的數(shù)?
1、4字節(jié)表示的整數(shù)數(shù)為2^32≈40億,2字節(jié)表示的無符號整數(shù)數(shù)為2^16≈60000。
2、2G=2^31b≈20億字節(jié)。
3、為了找出出現(xiàn)次數(shù)最多的數(shù)字,應(yīng)記錄每個數(shù)字的出現(xiàn)次數(shù)。最快的方法是記錄每個數(shù)字在內(nèi)存中出現(xiàn)的次數(shù)。記錄方法是記錄相應(yīng)的存儲器地址數(shù)和相應(yīng)地址的存儲器單元數(shù)。但是,2G內(nèi)存只能記錄20億字節(jié)的數(shù)字,如果每個數(shù)字的出現(xiàn)次數(shù)大于255則會發(fā)生溢出,沒有風(fēng)險。因此,這種方案是不可取的。
4、這樣,磁盤上只能記錄每次出現(xiàn)的次數(shù)。這樣,就在磁盤上創(chuàng)建了一個16g文件。每4個字節(jié)對應(yīng)一個整數(shù),可以對應(yīng)40億個整數(shù)。用于記錄相應(yīng)整數(shù)的個數(shù)。
1. 初始化文件。
2. 依次讀取數(shù)據(jù)并用無符號整數(shù)記錄在磁盤文件中。如果發(fā)生溢出,則該數(shù)字是次數(shù)最多的數(shù)字。
3. 從文件中讀取每個數(shù)字的次數(shù),用變量a記錄最高次數(shù),用變量B記錄最高次數(shù)的數(shù)據(jù),用文件依次記錄最高次數(shù)的數(shù)據(jù)。當(dāng)最大次數(shù)增加時,a1和B被設(shè)置為1,并且該數(shù)字被寫入文件中。當(dāng)出現(xiàn)相同次數(shù)的數(shù)字b1時,該數(shù)字被寫入文件的相應(yīng)位置,直到全部被讀取為止。
所以您根本不需要2G內(nèi)存。
給你一個含有1億個QQ號碼的文件,如何快速的查找某個QQ號碼?
請記住,您可以制作一個程序,例如查找定點(diǎn)單詞。我只是不記得了。人們真的很蠢。