Bitmap算法簡介
標簽: Bitmap EWAHCompressedBitmap
Bitmap算法中文又叫做位圖算法。那么什么是Bitmap算法呢?
位圖算法中的位圖是內存中連續的二進制位(bit),用于對大量整形數據做去重和查詢。
舉個例子,給定一塊長度是10bit的內存空間,想要依次插入整形數據4,2,1,3。我們需要怎么做呢?
1. 給定長度是10的bitmap,每一個bit位分別對應著從0到9的10個整型數。此時bitmap的所有位都是0。
2. 把整型數4存入bitmap,對應存儲的位置就是下標為4的位置,將此bit置為1。
3. 把整型數2存入bitmap,對應存儲的位置就是下標為2的位置,將此bit置為1。
4. 把整型數1存入bitmap,對應存儲的位置就是下標為1的位置,將此bit置為1。
5. 把整型數3存入bitmap,對應存儲的位置就是下標為3的位置,將此bit置為1。
要問此時bitmap里存儲了哪些元素?顯然是4、3、2、1,一目了然。
Bitmap不僅方便查詢,還可以去除掉重復的整型數。
雖然HashSet和HashMap也同樣能實現用戶的去重和統計,但是如果使用HashSet和HashMap存儲的話,每一個數據比如用戶ID都要存成int,占4字節即32bit。而一個用戶ID在Bitmap中只占一個bit,內存節省了32倍。
不僅如此,Bitmap在做交集和并集運算的時候也有極大的便利。我們來看看下面的例子:
1. 如何查找使用蘋果手機的程序員用戶?
2. 如何查找所有男性或者00后的用戶?
這就是Bitmap算法的另一個優勢:位運算的高性能。
那么Bitmap這種解決方案這么方便,它有什么缺點沒?
缺點也是存在的,Bitmap不支持[非運算]。比如想要查找不使用蘋果手機的用戶,Bitmap就無能為力了。
現在也有一些開源的Bitmap的實現:
Bitmap和BitSet的關系:JDK中的BitSet集合是對Bitmap相對簡單的實現。
而谷歌開發的EWAHCompressedBitmap則是一種更為優化的實現。
EWAH的意思是Enhanced Word-Aligned Hybrid,在WAH基礎上優化而來。
Bitmap的一個缺點無法進行[非運算],為什么不能進行非運算呢?
在統計用戶標簽這樣的特定場景下,Bitmap無法[直接]做非運算。為什么呢?看看下面的例子:
我們以下面的用戶數據為例,用戶基本信息如下。按照年齡標簽,可以劃分成90后、00后兩個Bitmap:
用更加形象的表示,90后用戶的Bitmap如下:
這時候可以直接求得非90后的用戶嗎?直接進行非運算?
顯然,非90后用戶實際上只有1個,而不是圖中得到的8個結果,所以不能直接進行非運算。
那如果我們一定要求出不屬于某個標簽的用戶數量,該怎么做呢?
這個時候就需要借助一個全量的Bitmap。
同樣是剛才的例子,我們給定90后用戶的Bitmap,再給定一個全量用戶的Bitmap。最終要求出的是存在于全量用戶,但又不存在于90后用戶的部分。
如何求出呢?我們可以使用異或操作,即相同位為0,不同位為1。
Bitmap雖然使用方便,但是如果在一個很長的Bitmap里只存有一兩個用戶,就會很浪費空間。
針對這個問題,在谷歌所實現的EWAHCompressedBitmap中,對Bitmap存儲空間做了一定的優化。
EWAH把Bitmap存儲于long數組當中。long數組的每一個元素都可以當做是64位的二進制數,也是整個Bitmap的子集。谷歌把這些子集叫做[Word]。
當創建一個空的Bitmap時,初始只有4個Word,也即long數組的長度是4。隨著數據的不斷插入,Word數量會隨之擴充。
初始情況由于還未插入任何數據,此時所有的Word值都是0。
EWAH有些Word存儲實際數據,有些Word存儲數據和數據之間的間隔個數,當節點之間跨度很大時,Bitmap不會傻傻把長度擴充到Bitmap的最高位那么多,他會由一個節點專門存儲兩個節點之間的跨度信息,以此達到節省空間的目的。在插入新的數據的時候,如果數據不存放在已有的Word當中,EWAH還會進行動態擴充或對存儲跨度的節點進行分裂。
關于EWAH實現原理的更多信息,可以參考EWAH的算法論文:《Sorting improves word-aligned bitmap indexes》。
EWAHCompressedBitmap對應的maven依賴如下:
<dependency>
<groupId>com.googlecode.javaewah</groupId>
<artifactId>JavaEWAH</artifactId>
<version>1.1.0</version>
</dependency>
關于Bitmap的基礎知識就簡單介紹到這里啦。
智能推薦
BitMap算法的說明以及驗證
核心 1、什么是BitMap算法 2、BitMap的優缺點 3、BitMap的實現 4、BitMap 的比對 1、什么是BitMap算法 在大數據時代,我們如果將一個上億的整數文件來做排序或者查詢使用,這個就將面臨一個問題,內存不夠用,例如1億個整數的文件放入內存將會占用380MB(100000000*4/1024/1024)空間.如果是10億或者更多呢,這個將對內存是一個巨大的挑戰。為了解決這個...
Bitmap加載大圖優化之位圖重采樣與Bitmap緩存Lru算法分析
為什么要優化Bitmap 安卓加載圖片一般會用到ImageView控件,然后用setImageBitmap()、setImageResource()等方法指定要顯示的圖片,這些方法最終都會調用到BitmapFactory.decode()方法來生成一個Bitmap進行顯示,這樣加載一些小圖片沒什么問題,但連續加載大圖片的時候就會發生典型的OOM(Out Of ...
freemarker + ItextRender 根據模板生成PDF文件
1. 制作模板 2. 獲取模板,并將所獲取的數據加載生成html文件 2. 生成PDF文件 其中由兩個地方需要注意,都是關于獲取文件路徑的問題,由于項目部署的時候是打包成jar包形式,所以在開發過程中時直接安照傳統的獲取方法沒有一點文件,但是當打包后部署,總是出錯。于是參考網上文章,先將文件讀出來到項目的臨時目錄下,然后再按正常方式加載該臨時文件; 還有一個問題至今沒有解決,就是關于生成PDF文件...
電腦空間不夠了?教你一個小秒招快速清理 Docker 占用的磁盤空間!
Docker 很占用空間,每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時,我們的磁盤空間會被大量占用。 如果你也被這個問題所困擾,咱們就一起看一下 Docker 是如何使用磁盤空間的,以及如何回收。 docker 占用的空間可以通過下面的命令查看: TYPE 列出了docker 使用磁盤的 4 種類型: Images:所有鏡像占用的空間,包括拉取下來的鏡像,和本地構建的。 Con...
猜你喜歡
requests實現全自動PPT模板
http://www.1ppt.com/moban/ 可以免費的下載PPT模板,當然如果要人工一個個下,還是挺麻煩的,我們可以利用requests輕松下載 訪問這個主頁,我們可以看到下面的樣式 點每一個PPT模板的圖片,我們可以進入到詳細的信息頁面,翻到下面,我們可以看到對應的下載地址 點擊這個下載的按鈕,我們便可以下載對應的PPT壓縮包 那我們就開始做吧 首先,查看網頁的源代碼,我們可以看到每一...
Linux C系統編程-線程互斥鎖(四)
互斥鎖 互斥鎖也是屬于線程之間處理同步互斥方式,有上鎖/解鎖兩種狀態。 互斥鎖函數接口 1)初始化互斥鎖 pthread_mutex_init() man 3 pthread_mutex_init (找不到的情況下首先 sudo apt-get install glibc-doc sudo apt-get install manpages-posix-dev) 動態初始化 int pthread_...
統計學習方法 - 樸素貝葉斯
引入問題:一機器在良好狀態生產合格產品幾率是 90%,在故障狀態生產合格產品幾率是 30%,機器良好的概率是 75%。若一日第一件產品是合格品,那么此日機器良好的概率是多少。 貝葉斯模型 生成模型與判別模型 判別模型,即要判斷這個東西到底是哪一類,也就是要求y,那就用給定的x去預測。 生成模型,是要生成一個模型,那就是誰根據什么生成了模型,誰就是類別y,根據的內容就是x 以上述例子,判斷一個生產出...
styled-components —— React 中的 CSS 最佳實踐
https://zhuanlan.zhihu.com/p/29344146 Styled-components 是目前 React 樣式方案中最受關注的一種,它既具備了 css-in-js 的模塊化與參數化優點,又完全使用CSS的書寫習慣,不會引起額外的學習成本。本文是 styled-components 作者之一 Max Stoiber 所寫,首先總結了前端組件化樣式中的最佳實踐原則,然后在此基...