Bitmap算法簡介

標簽： Bitmap EWAHCompressedBitmap

Bitmap算法中文又叫做位圖算法。那么什么是Bitmap算法呢？

位圖算法中的位圖是內存中連續的二進制位(bit)，用于對大量整形數據做去重和查詢。

舉個例子，給定一塊長度是10bit的內存空間，想要依次插入整形數據4，2，1，3。我們需要怎么做呢？

1. 給定長度是10的bitmap，每一個bit位分別對應著從0到9的10個整型數。此時bitmap的所有位都是0。

2. 把整型數4存入bitmap，對應存儲的位置就是下標為4的位置，將此bit置為1。

3. 把整型數2存入bitmap，對應存儲的位置就是下標為2的位置，將此bit置為1。

4. 把整型數1存入bitmap，對應存儲的位置就是下標為1的位置，將此bit置為1。

5. 把整型數3存入bitmap，對應存儲的位置就是下標為3的位置，將此bit置為1。

要問此時bitmap里存儲了哪些元素？顯然是4、3、2、1，一目了然。

Bitmap不僅方便查詢，還可以去除掉重復的整型數。

雖然HashSet和HashMap也同樣能實現用戶的去重和統計，但是如果使用HashSet和HashMap存儲的話，每一個數據比如用戶ID都要存成int，占4字節即32bit。而一個用戶ID在Bitmap中只占一個bit，內存節省了32倍。

不僅如此，Bitmap在做交集和并集運算的時候也有極大的便利。我們來看看下面的例子：

1. 如何查找使用蘋果手機的程序員用戶？

2. 如何查找所有男性或者00后的用戶？

這就是Bitmap算法的另一個優勢：位運算的高性能。

那么Bitmap這種解決方案這么方便，它有什么缺點沒？

缺點也是存在的，Bitmap不支持[非運算]。比如想要查找不使用蘋果手機的用戶，Bitmap就無能為力了。

現在也有一些開源的Bitmap的實現：

Bitmap和BitSet的關系：JDK中的BitSet集合是對Bitmap相對簡單的實現。

而谷歌開發的EWAHCompressedBitmap則是一種更為優化的實現。

EWAH的意思是Enhanced Word-Aligned Hybrid，在WAH基礎上優化而來。

Bitmap的一個缺點無法進行[非運算]，為什么不能進行非運算呢？

在統計用戶標簽這樣的特定場景下，Bitmap無法[直接]做非運算。為什么呢？看看下面的例子：

我們以下面的用戶數據為例，用戶基本信息如下。按照年齡標簽，可以劃分成90后、00后兩個Bitmap：

用更加形象的表示，90后用戶的Bitmap如下：

這時候可以直接求得非90后的用戶嗎？直接進行非運算？

顯然，非90后用戶實際上只有1個，而不是圖中得到的8個結果，所以不能直接進行非運算。

那如果我們一定要求出不屬于某個標簽的用戶數量，該怎么做呢？

這個時候就需要借助一個全量的Bitmap。

同樣是剛才的例子，我們給定90后用戶的Bitmap，再給定一個全量用戶的Bitmap。最終要求出的是存在于全量用戶，但又不存在于90后用戶的部分。

如何求出呢？我們可以使用異或操作，即相同位為0，不同位為1。

Bitmap雖然使用方便，但是如果在一個很長的Bitmap里只存有一兩個用戶，就會很浪費空間。

針對這個問題，在谷歌所實現的EWAHCompressedBitmap中，對Bitmap存儲空間做了一定的優化。

EWAH把Bitmap存儲于long數組當中。long數組的每一個元素都可以當做是64位的二進制數，也是整個Bitmap的子集。谷歌把這些子集叫做[Word]。

當創建一個空的Bitmap時，初始只有4個Word，也即long數組的長度是4。隨著數據的不斷插入，Word數量會隨之擴充。

初始情況由于還未插入任何數據，此時所有的Word值都是0。

EWAH有些Word存儲實際數據，有些Word存儲數據和數據之間的間隔個數，當節點之間跨度很大時，Bitmap不會傻傻把長度擴充到Bitmap的最高位那么多，他會由一個節點專門存儲兩個節點之間的跨度信息，以此達到節省空間的目的。在插入新的數據的時候，如果數據不存放在已有的Word當中，EWAH還會進行動態擴充或對存儲跨度的節點進行分裂。

關于EWAH實現原理的更多信息，可以參考EWAH的算法論文：《Sorting improves word-aligned bitmap indexes》。

EWAHCompressedBitmap對應的maven依賴如下：

<dependency>
  <groupId>com.googlecode.javaewah</groupId>
  <artifactId>JavaEWAH</artifactId>
  <version>1.1.0</version>
</dependency>

關于Bitmap的基礎知識就簡單介紹到這里啦。

參考：程序員小灰—《Bitmap算法整合版》

本文鏈接：https://blog.csdn.net/kongmin_123/article/details/82222023

智能推薦

BitMap算法的說明以及驗證

核心 1、什么是BitMap算法 2、BitMap的優缺點 3、BitMap的實現 4、BitMap 的比對 1、什么是BitMap算法在大數據時代，我們如果將一個上億的整數文件來做排序或者查詢使用，這個就將面臨一個問題，內存不夠用，例如1億個整數的文件放入內存將會占用380MB(100000000*4/1024/1024)空間.如果是10億或者更多呢，這個將對內存是一個巨大的挑戰。為了解決這個...

Bitmap加載大圖優化之位圖重采樣與Bitmap緩存Lru算法分析

為什么要優化Bitmap 安卓加載圖片一般會用到ImageView控件，然后用setImageBitmap()、setImageResource()等方法指定要顯示的圖片，這些方法最終都會調用到BitmapFactory.decode()方法來生成一個Bitmap進行顯示，這樣加載一些小圖片沒什么問題，但連續加載大圖片的時候就會發生典型的OOM(Out Of ...

HTML中常用操作關于：頁面跳轉，空格

1.頁面跳轉 2.空格的代替符...

freemarker + ItextRender 根據模板生成PDF文件

1. 制作模板 2. 獲取模板，并將所獲取的數據加載生成html文件 2. 生成PDF文件其中由兩個地方需要注意，都是關于獲取文件路徑的問題，由于項目部署的時候是打包成jar包形式，所以在開發過程中時直接安照傳統的獲取方法沒有一點文件，但是當打包后部署，總是出錯。于是參考網上文章，先將文件讀出來到項目的臨時目錄下，然后再按正常方式加載該臨時文件；還有一個問題至今沒有解決，就是關于生成PDF文件...

電腦空間不夠了？教你一個小秒招快速清理 Docker 占用的磁盤空間！

Docker 很占用空間，每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時，我們的磁盤空間會被大量占用。如果你也被這個問題所困擾，咱們就一起看一下 Docker 是如何使用磁盤空間的，以及如何回收。 docker 占用的空間可以通過下面的命令查看： TYPE 列出了docker 使用磁盤的 4 種類型： Images：所有鏡像占用的空間，包括拉取下來的鏡像，和本地構建的。 Con...

Bitmap算法簡介

智能推薦

猜你喜歡