同樣被稱為網路爬蟲(Web Crawler)的網頁資料擷取是一種從網頁上取得頁面內容的技術,與常見搜尋引擎使用之爬蟲技術不同的是其更側重於轉換網路上非結構化資料為便於儲存和分析的結構化資料。

     網路爬蟲也涉及到網路自動化,透過電腦軟體模擬了人的瀏覽,可以減少許多耗費人力的網路工作。因此,網路爬蟲的用途非常廣泛,包含社群網路的輿情分析、價格比較、氣象資料監測及自動填寫表單等。

課程網址:http://www.iiiedu.org.tw/ites/PWC.htm

課程主題館:http://www.iiiedu.org.tw/ites/portal/MA.htm

課程詳細介紹

本課程將帶領學員從網路爬蟲所需的Python基礎入門,由淺入深的透過主題式實戰演練的方式讓學習效率大幅提升,即使無任何程式基礎也能在此門課後能獨立進行網路爬蟲任務。

課程大綱

1.爬蟲必備Python基礎

  • List與Dict資料結構
  • 流程控制與迴圈
  • 資料匯出

2.基礎爬蟲技巧

  • GET/POST傳送請求
  • 開發人員工具之監聽應用
  • Python擷取網頁原始碼
  • UrlEncode與UrlDecode

3.爬蟲資料處理

  • HTML與JSON資料結構
  • 字串處理與正則表達式
  • CSS Selector
  • 中文編碼轉換

4.實戰演練(一)

  • 氣象資料擷取
  • 批踢踢推文擷取
  • 中央社新聞擷取

5.進階爬蟲技巧

  • Headers及Cookie偽裝
  • Selenium 模擬瀏覽器行為
  • Javascript控制網頁元件

6.實戰演練(二)

  • Instagram照片下載
  • Google Play評論擷取

課程難度

初階

課程適合對象

  • 資料科學家、資料工程師
  • 公司各部門與各階層決策人員
  • 對於此議題有興趣,無程式相關經驗者也可上課

課程時數

14 小時

上課注意事項

107年10月27日~10月28日,週六日白天9:00~17:00,計14小時。

*主辦單位得視報名情況而保留實際開課日期的變更權利 。

立即報名

10/19前報名優惠 9800 元 2018/10/01 00:00 ~ 2018/10/26 12:00 報名截止

本課程由 [台北]資策會教研所-數位人才培育中心 發佈

課程問答

我要提問

對課程有任何問題,都歡迎在這裡向開課單位提問

開課單位

[台北]資策會教研所-數位人才培育中心

本中心成立於2006年7月,原為科技化服務訓練中心,為迎向未來數位轉型的新時代,2018年4月改名為數位轉型訓練中心,專責辦理與產業界相關之資訊應用、服務與管理等訓練業務,包含資訊架構規劃、系統開發加值、產業創新應用、科技創新管理等各類課程,主要學員對象係以資深人員與管理階層為主;此外,本中心亦扮演智庫角色,協助政府推動相關大型人才培訓計畫,結合其他優良訓練機構,共同為國家培育高科技人才。

[台北]資策會教研所-數位人才培育中心其他精彩課程

【資策會】軟體測試管理實務班

4400 元起

01/20 (日) 台北市

0 人收藏

[台北]資策會教研所-數位人才培育中心 [台北]資策會教研所-數位人才培育中心

0 人收藏

[台北]資策會教研所-數位人才培育中心 [台北]資策會教研所-數位人才培育中心

相關課程

零基礎Python與資料科學

11700 元起

12/18 (二) 台北市

0 人收藏

TibaMe學習網 TibaMe學習網

0 人收藏