近年來各大企業如Google、Apple、Facebook等,皆已將機器學習應用在日常生活中,舉凡:自動駕駛、人臉辨識、語音辨識、各種預測、投資分析、醫學、工業等應用,機器學習儼然成為現在及未來市場的顯學。機器學習需要仰賴大量資料來完成,然而要處理大資料量就面臨到「Big Data的儲存」和「Big Data的運算」兩大難題。

在2014年的資料排序基準競賽(Sort Benchmark Competition) 中,Databricks公司使用Spark,在207台的叢集中,以23分鐘完成 100 TB 的資料排序,刷新了2013年由Yahoo創下的記錄(在2,100台的叢集中使用MapReduce,花費了72分鐘完成),這項成就也讓Spark一戰成名。

Spark是一個讓數據分析更加快速的叢集運算引擎,它使用了「記憶體內運算技術」(In-Memory Computing),能在資料尚未寫入硬碟時即在記憶體內分析運算。Spark並非用來取代Hadoop,而是改進了Hadoop內MapReduce運算引擎,它支援了Hadoop所支援的儲存系統,包括HDFS、S3等。但Spark本身沒有提供儲存的功能,因此在使用上常見利用Spark叢集的運算加上Hadoop HDFS分散的儲存來處理Big Data進行分析,就可算是完美的結合。

有鑑於此,資策會特規劃了「Big Data資料處理-Spark實作」課程,本課程從Spark的手動安裝開始,讓學員建構出Spark的叢集環境,並體驗程式在叢集上運作的過程,及透過圖形介面監看多台叢集的運行。課程中將輔以Hadoop虛擬主機,讓學員實際體驗Spark整合Hadoop HDFS讀、寫的功能,幫助學員往後在使用或學習資料分析相關語言時,能與Spark順利接軌。

課程詳細介紹

1.本課程理論與實務並重,除了讓學員了解Spark技術外,並能自行建構及使用Spark叢集。
2.獨家採用已建構好的多台Linux + Hadoop虛擬主機環境,讓學員實作多台主機的Spark叢集架構,在Spark叢集上執行程式並透過圖形介面監看多台叢集的運行。
3.本課程將會學習整合Spark與Hadoop HDFS讀、寫的功能,安裝Ipython Notebook執行在Spark叢集上,在Ipython Notebook互動模式中操作RDD、DataFrame、Spark SQL、Spark MLlib ALS推薦等範例。
4.課程採體驗式教學方式的實作,只要具些許Linux操作基礎,即可經由指令、設定的剪貼從中驗證課程所學。

課程大綱

1.Big Data概述
■ Big Data簡介
■ Big Data平台的介紹與比較 - Hadoop與Spark

2.Hadoop HDFS與Spark安裝
■ 在3台linux上安裝Hadoop HDFS分散式儲存系統
■ HDFS指令操作
■ 在HDFS架構上手動安裝Spark Cluster(1台Master + 3台Worker)

3.Spark不同執行模式的操作與使用
■ Spark Local模式的操作
■ Spark Standalone Cluster模式的操作
■ 透過spark-shell、pyspark、spark-submit在Spark Cluster上執行scala、python或jar檔
■ IPython Notebook安裝與執行Python
■ Spark(pyspark)程式

4.RDD的操作
■ RDD的轉換(transformation)與動作(action)
■ RDD key-value的基本操作
■ 在Spark Cluster上撰寫WordCount並執行

5.Spark MLlib ALS推薦演算法
■ 透過ALS訓練來建立模型
■ 使用模型來推薦

6.Spark SQL、MLlib ALS推薦演算法
■ RDD、DataFrame與Spark SQL的轉換與操作
■ Pandas DataFrame繪圖範例
■ 透過ALS訓練來建立模型並進行推薦範例

7.SparkR安裝
■ R、RStudio的安裝
■ SparkR範例練習(讓R執行在Spark Cluster上)

課程難度

初階

課程適合對象

1.對Big Data處理、分析、應用有興趣者
2.IT經理、專案經理、系統架構師或系統網路管理人員
3.略具Linux與Hadoop使用基礎者為佳

課程時數

12 小時

上課注意事項

已完成報名與繳費之學員,課程主辦單位將於開課三天前以E-mail方式寄發上課通知函;若課程因故取消或延期,亦將以E-mail方式通知,如未收到任何通知,敬請來電確認。

立即報名

早鳥優惠 7200 元 2017/01/05 00:00 ~ 2018/02/02 00:00 立即報名
一般優惠 9000 元 2017/01/05 00:00 ~ 2018/02/02 00:00 立即報名

本課程由 資策會 數位教育研究所 南區訓練中心 發佈

課程問答

我要提問

對課程有任何問題,都歡迎在這裡向開課單位提問

開課單位

資策會 數位教育研究所 南區訓練中心

資策會數位教育研究所在「教育訓練」方面,秉持與時俱進的理念,因應產業需求,融 入創新、創意與創業的精神,培育各領域優質的科技化服務人才,加強其就業、增能、及創 業的職能,以便面對全球競爭的趨勢。

本中心持續引進與開辦最新科技化服務及資通訊技術課程包含:Big Data、行動加值應 用、專案管理、商業分析、資訊服務管理、研發管理、行銷管理、程式網管、智慧聯 網…等各式前瞻技術,即時培育並提供企業所需優質人才,以協助產業掌握關鍵前瞻科技, 引領企業再造蓬勃商機。

各教室皆有最新穎的軟、硬體設備,並附有舒適明亮的學員休息區及服務設施,讓您享有 最優的活動場地及學習效果。教學設備含投影機、廣播教學系統、無線麥克風、螢幕、白板 等,備有茶水、無線網路,另提供免費市內電話。

資策會 數位教育研究所 南區訓練中心其他精彩課程

0 人收藏

資策會  數位教育研究所  南區訓練中心 資策會 數位教育研究所 南區訓練中心

0 人收藏

資策會  數位教育研究所  南區訓練中心 資策會 數位教育研究所 南區訓練中心

相關課程

0 人收藏

iThome iThome