中文斷詞在中文自然語言處理上是非常重要的前置處理工作,如果中文斷詞能夠正確地將最小有意義的詞辨識出來,才有辦法進行更高層次的自然語言分析,因此中文斷詞的正確性影響了許多自然語言處理應用的成敗,例如,問答系統、自動摘要、文件檢索、機器翻譯、語音辨識等。

本次講題將介紹中文斷詞的概念以及面臨的難題,然後說明現在最有名的開源中文斷詞程式結巴的核心演算法及隱馬可夫模型(HMM)如何處理中文斷詞。了解演算核心之後進一步介紹結巴斷詞系統的使用,並以實際展示方式幫助理解。最後實作一個歌詞推薦模型來幫助了解中文斷詞如何延伸應用在文字探勘上。

按我尋找更多iThome TechTalk系列課程

課程詳細介紹

19:00-19:25 報到
19:25-19:30 開場
19:30-20:50 Tech Talk
20:50-21:15 Conversation (QA)
21:15-21:30 自由交流

課程大綱

講座內容將涵蓋:

1.中文斷詞概念與難題
2.中文斷詞演算法說明(HMM 模型)
3.Jieba 中文斷詞如何使用
4.中文斷詞在歌詞分析的應用

講師資訊

林志傑 (Fukuball)

現任 KKBOX 幕僚工程師

前 iNDIEVOX 技術長、CodeTengu 碼天狗技術週刊作者群之一,使用 PHP 及 Python,最近對機器學習感到興趣,空閒時開發了著名的中文斷詞程式 Jieba 的 PHP 版本,近期也開源了一個易於使用的機器學習套件 fuku-ml,希望能幫助對機器學習有興趣的人能夠快速上手。

獎項:
2013 Yahoo! Open Hack Taiwan 第一名
2012 全國大專院校資訊應用服務創新競賽亞太區創意金獎
2012 全國大專院校資訊應用服務創新競賽Cloud+雲端x生活創新應用第一名

課程難度

入門

課程時數

2 小時

上課注意事項

  • 若報名完成之來賓因種種事務須委請代理人出席,請預先通知主辦單位,以利報到注意事項等通知事宜。
  • 本活動將最遲於活動前一日以電子郵件或手機簡訊方式寄發報到提醒,若有信件漏失情事,可逕洽執行單位查詢。
  • 為響應環保,本次活動將不印製紙本講義,主辦單位將於講師同意授權後提供下載連結。
  • 活動若適逢天災等不可抗拒之因素(依人事行政局停止上班之公告而定),將延期舉辦,時間另行通知。
  • 主辦單位得保留活動議程及講師之變更權利,議題與講師視實際邀約而有所變動,請以網頁最新資訊為準。

立即報名

一般票 299 元 2017/04/17 10:00 ~ 2017/05/24 12:00 報名截止

本課程由 iThome 發佈

課程問答

我要提問

對課程有任何問題,都歡迎在這裡向開課單位提問

開課單位

iThome

旗下網站包括iThome新聞網站、臺灣大型IT知識社群「iT邦幫忙」、iThome download軟體下載網站。全臺網站排名180名,會員數超過3萬人,每日發行的IT新聞電子報訂閱人數超過24萬人。另每年在臺舉辦大型技術研討會如Modern Web大會、臺灣資訊安全大會、Container高峰會、Big Data大會、DevOps大會、Cloud Expo、DataCenter Expo等。

iThome其他精彩課程

0 人收藏

iThome iThome

0 人收藏

iThome iThome