大數據分析新利器:資料科學家與數據分析師非用不可 Spark一戰成名是在2014年的資料排序基準競賽(Sort Benchmark Competition) 中,Databricks公司使用Spark,在207台的叢集中,以23分鐘完成 100 TB 的資料排序,刷新了2013年由Yahoo創下的記錄(在2,100台的叢集中使用MapReduce,花費了72分鐘完成)。為什麼Spark可以做到這個快速的處理,因為Apache Spark 是一個開源叢集運算框架,是一個讓數據分析更加快速的叢集運算引擎,它使用了「記憶體內運算技術」(In-Memory Computing),能在資料尚未寫入硬碟時即在記憶體內分析運算。Spark並非用來取代Hadoop,而是改進了Hadoop內MapReduce運算引擎,它支援了Hadoop所支援的儲存系統,包括HDFS、S3等。Spark 在記憶體內執行程式的運算速度能做到比 Hadoop MapReduce 的運算速度快上 100 倍,即便是執行程式於硬碟時,Spark 也能快上 10 倍速度。Spark允許用戶將資料加載至叢集記憶體,並多次對其進行查詢,非常適合用於機器學習演算法。

此課程於台北商業大學開班假日進修課程,將可建立函數式程式語言與培養分散式資料處理框架的概念,並能了解分散式框架於多種不同需求場景的應用實務方式。相較市面上廣泛概念介紹Spark概念的課程,本課程從Scala程式語言開始,採取逐步講解Spark各項核心理論,各個知識點皆皆由程式碼實際演練驗證,並讓學員由無到有建立Spark應用程式

立即報名

特價 12000 元 2018/08/20 18:00 ~ 2018/09/27 20:00 報名截止

本課程由 tibame 發佈

課程問答

我要提問

對課程有任何問題,都歡迎在這裡向開課單位提問