近年來各大企業如Google、Apple、Facebook等,皆已將機器學習應用在日常生活中,舉凡:自動駕駛、人臉辨識、語音辨識、各種預測、投資分析、醫學、工業等應用,機器學習儼然成為現在及未來市場的顯學。機器學習需要仰賴大量資料來完成,然而要處理大資料量就面臨到「Big Data的儲存」和「Big Data的運算」兩大難題。

在2014年的資料排序基準競賽(Sort Benchmark Competition) 中,Databricks公司使用Spark,在207台的叢集中,以23分鐘完成 100 TB 的資料排序,刷新了2013年由Yahoo創下的記錄(在2,100台的叢集中使用MapReduce,花費了72分鐘完成),這項成就也讓Spark一戰成名。

Spark是一個讓數據分析更加快速的叢集運算引擎,它使用了「記憶體內運算技術」(In-Memory Computing),能在資料尚未寫入硬碟時即在記憶體內分析運算。Spark並非用來取代Hadoop,而是改進了Hadoop內MapReduce運算引擎,它支援了Hadoop所支援的儲存系統,包括HDFS、S3等。但Spark本身沒有提供儲存的功能,因此在使用上常見利用Spark叢集的運算加上Hadoop HDFS分散的儲存來處理Big Data進行分析,就可算是完美的結合。

有鑑於此,資策會特規劃了「Big Data資料處理-Spark實作」課程,本課程從Spark的手動安裝開始,讓學員建構出Spark的叢集環境,並體驗程式在叢集上運作的過程,及透過圖形介面監看多台叢集的運行。課程中將輔以Hadoop虛擬主機,讓學員實際體驗Spark整合Hadoop HDFS讀、寫的功能,幫助學員往後在使用或學習資料分析相關語言時,能與Spark順利接軌。

課程詳細介紹

1.本課程理論與實務並重,除了讓學員了解Spark技術外,並能自行建構及使用Spark叢集。
2.獨家採用已建構好的多台Linux + Hadoop虛擬主機環境,讓學員實作多台主機的Spark叢集架構,在Spark叢集上執行程式並透過圖形介面監看多台叢集的運行。
3.本課程將會學習整合Spark與Hadoop HDFS讀、寫的功能,安裝Ipython Notebook執行在Spark叢集上,在Ipython Notebook互動模式中操作RDD、DataFrame、Spark SQL、Spark MLlib ALS推薦等範例。
4.課程採體驗式教學方式的實作,只要具些許Linux操作基礎,即可經由指令、設定的剪貼從中驗證課程所學。

課程大綱

Big Data概述
Big Data簡介
Big Data平台的介紹與比較 - Hadoop與Spark

Hadoop HDFS與Spark安裝
在3台linux上安裝Hadoop HDFS分散式儲存系統
HDFS指令操作
在HDFS架構上手動安裝Spark Cluster(1台Master + 3台Worker)

Spark不同執行模式的操作與使用
Spark Local模式的操作
Spark Standalone Cluster模式的操作
透過spark-shell、pyspark、spark-submit在Spark Cluster上執行scala、python或jar檔
IPython Notebook安裝與執行Python
Spark(pyspark)程式

RDD的操作
RDD的轉換(transformation)與動作(action)
RDD key-value的基本操作
在Spark Cluster上撰寫WordCount並執行

Spark MLlib ALS推薦演算法
透過ALS訓練來建立模型
使用模型來推薦

Spark SQL、MLlib ALS推薦演算法
RDD、DataFrame與Spark SQL的轉換與操作
Pandas DataFrame繪圖範例
透過ALS訓練來建立模型並進行推薦範例

SparkR安裝
R、RStudio的安裝
SparkR範例練習(讓R執行在Spark Cluster上)

課程難度

初階

課程適合對象

1.對Big Data處理、分析、應用有興趣者
2.IT經理、專案經理、系統架構師或系統網路管理人員
3.略具Linux與Hadoop使用基礎者為佳

課程時數

12 小時

上課注意事項

已完成報名與繳費之學員,課程主辦單位將於開課三天前以E-mail方式寄發上課通知函;若課程因故取消或延期,亦將以E-mail方式通知,如未收到任何通知,敬請來電確認。

立即報名

一般優惠 9000 元 2017/01/05 00:00 ~ 2017/10/27 00:00 立即報名
早鳥優惠 7200 元 2017/01/05 00:00 ~ 2017/10/27 00:00 立即報名
符合工業局補助40%資格者 5400 元 2017/07/01 00:00 ~ 2017/10/27 00:00 立即報名

本課程由 資策會 數位教育研究所 南區訓練中心 發佈

課程問答

我要提問

對課程有任何問題,都歡迎在這裡向開課單位提問

開課單位

資策會 數位教育研究所 南區訓練中心

資策會數位教育研究所在「教育訓練」方面,秉持與時俱進的理念,因應產業需求,融 入創新、創意與創業的精神,培育各領域優質的科技化服務人才,加強其就業、增能、及創 業的職能,以便面對全球競爭的趨勢。

本中心持續引進與開辦最新科技化服務及資通訊技術課程包含:Big Data、行動加值應 用、專案管理、商業分析、資訊服務管理、研發管理、行銷管理、程式網管、智慧聯 網…等各式前瞻技術,即時培育並提供企業所需優質人才,以協助產業掌握關鍵前瞻科技, 引領企業再造蓬勃商機。

各教室皆有最新穎的軟、硬體設備,並附有舒適明亮的學員休息區及服務設施,讓您享有 最優的活動場地及學習效果。教學設備含投影機、廣播教學系統、無線麥克風、螢幕、白板 等,備有茶水、無線網路,另提供免費市內電話。

資策會 數位教育研究所 南區訓練中心其他精彩課程

0 人收藏

資策會  數位教育研究所  南區訓練中心 資策會 數位教育研究所 南區訓練中心

0 人收藏

資策會  數位教育研究所  南區訓練中心 資策會 數位教育研究所 南區訓練中心

相關課程

已結束
0 人收藏

[台北]資策會教研所-科技化服務(ITeS)訓練中心 [台北]資策會教研所-科技化服務(ITeS)訓練中心