• <noscript id="e0iig"><kbd id="e0iig"></kbd></noscript>
  • <td id="e0iig"></td>
  • <option id="e0iig"></option>
  • <noscript id="e0iig"><source id="e0iig"></source></noscript>
  • hadoop集群下spark環境配置并且完成wordcount案例

    標簽: hadoop集群  spark  wordcount

    注:完成此案例需要hadoop環境(單機、偽分布式、集群)都可以,hadoop環境搭建可以參考筆者博客。

    一、操作步驟

    ①spark安裝配置環境變量
    ②新建一個txt文件寫入數據
    ③完成wordcount統計案例


    二、詳細步驟

    1、下載spark(spark-2.3.0-bin-hadoop2.7.tgz):http://spark.apache.org/downloads.html



    2、解壓spark并重命名
    tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz 
    mv spark-2.3.0-bin-hadoop2.7 spark




    3、配置環境變量
    vim ~/.bashrc
    #Spark
    export SPARK_HOME=/usr/local/spark
    export PATH=$PATH:$SPARK_HOME/bin
    source ~/.bashrc



    4、新建一個txt文件寫入數據用于統計

    vim worldcount.txt




    5、啟動spark



    統計文件路徑(圖1)
    val lines = sc.textFile("file:///home/hadoop/text.txt")
    統計規則和結果(圖2)
    lines.map(_.split(" ")).flatMap(x => for(i <- x) yield (i,1)).reduceByKey(_+_).collect()

    圖1


    圖2


    版權聲明:本文為zjh_746140129原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
    本文鏈接:https://blog.csdn.net/zjh_746140129/article/details/80385281

    智能推薦

    hadoop 官方WordCount案例

    創建在hadoop-2.7.2文件下面創建一個wcinput文件夾 在wcinput文件下創建一個wc.input文件 cd wcinput touch wc.input 編輯wc.input文件 vi wc.input 4. 回到Hadoop目錄/opt/module/hadoop-2.7.2 5. 執行程序 6. 查看結果...

    Hadoop的WordCount案例

    第一步:先建立一個mapper類 注:WordCountMapper繼承了Mapper類,重寫了map()方法,定義了輸入的文件的內容的類型:LongWritable, Text和輸出的類型:Text, IntWritable。 第二步:定義一個reducer類 注:wordcountreducer繼承了reducer類。并重寫了reudcer()方法,輸入的數據類型就是map的輸出的類型:Tex...

    Hadoop案例(十)WordCount

    WordCount案例 需求1:統計一堆文件中單詞出現的個數(WordCount案例) 0)需求:在一堆給定的文本文件中統計輸出每一個單詞出現的總次數 1)數據準備:Hello.txt 2)分析 按照mapreduce編程規范,分別編寫Mapper,Reducer,Driver。     3)編寫程序 (1)定義一個mapper類 (2)定義一個reducer類  (...

    hive 導出數據之一列多行,轉為一行多列

    需求:提取數據 說明:原數據是一列多行,需要轉化為一行多列 待查詢表為:temp_05 待查詢數據為: 待查詢數據如圖: 需要提取的數據表頭如下: 預定日期 昨日價格 前天價格 2018-02-01 2018-02-02 2018-02-03 2018-02-04 可用提數 SQL 數據如圖: 以下為嘗試過程 數據如圖: 數據如圖: 數據如圖: 數據如圖:...

    asp.net做一個簡易的聊天室

    要求: 結果: 關鍵代碼: Default.aspx Default.aspx.cs Default2.aspx Default2.aspx.cs Default3.aspx Default3.aspx.cs Default4.aspx...

    猜你喜歡

    動態SQL和多表關聯-筆記

    《動態SQL與多表關聯》筆記 學習目標 能夠使用動態SQL完成SQL拼接 能夠使用resultMap完成多表查詢 能夠使用一對一查詢 能夠使用一對多查詢 (注:多對多其實就是兩個一個多) 映射文件:為什么要resultMap 目標 定義結果映射 使用結果映射 回顧 在mybatis中有2種配置文件: 核心配置文件,如:sqlMapConfig.xml 實體類映射文件,如:UserMapper.xm...

    【OpenGL C++ UE4】獲取模型頂點及面索引數據,并優化存儲結構供UE4繪制

    目錄 一、功能需求 二、成果 三、環境配置 四、詳細步驟 4.1 Max制作三棱錐并處理 4.2 核心代碼 4.2.1 傳入結構體數據 4.2.2 頂點去重、更新索引 4.2.3 輸出本地CSV文件 4.3 UE4繪制 一、功能需求 想必你肯定會問我一個問題,UE4直接導入模型不好么? 哈哈,前提是在做畢設時,導師提供的只有頂點與面索引數據,沒有模型。 下文詳細介紹了畢設開發中的難點,涉...

    解決Pyinstaller打包numpy和pandas庫文件過大問題

    解決Pyinstaller壓縮numpy和pandas庫文件過大問題 文件包類型和網上的方法 Windows下docker的安裝 在docker下實現打包     今天是2021年的第一天,先祝各位小伙伴現年快樂哈。最近因為做了一個項目,需要打包文件,文件中包含了numpy和pandas庫,結果打包出來幾百行的代碼居然要900m,人都傻了,翻遍了全網找解決方...

    【混沌工程】基于ChaosBlade實現網絡故障模擬

    一、前言 很久之前曾基于linux內核自帶的TC和netem模擬一些公網中遇到的極端情況(延遲、丟包、重復、損壞和亂序等),驗證了我們傳輸程序的健壯性! 具體細節可見這篇老博客: https://blog.csdn.net/u013128262/article/details/84784663 最近在復現kafka生產端一個timeout異常場景時,發現之前方案時因為內核和OS版本問題有些差異而無...

    精品国产乱码久久久久久蜜桃不卡