一、培訓簡述
課程中通過細致講解,使學員掌握該技術(shù)的本質(zhì)。具體收益包括:
1.掌握NLP基礎
2.關鍵詞提取與文本分類方法
3.文本向量化與句法分析方法
4.NLP與深度學習技術(shù)的相應算法
5.掌握圖像識別技術(shù)
二、培訓特色
本次培訓從實戰(zhàn)的角度對自然語言處理(NLP)進行了全面的剖析,并結(jié)合實際案例分析和探討NLP的應用場景,給NLP相關從業(yè)人員以指導和啟迪。
三、培訓時長
共計3天,每天6課時
四、培訓大綱
單元 |
培訓模塊 |
培訓內(nèi)容 |
第一單元 |
NLP入門與基礎介紹(一) |
- NLP的基本概念
- NLP的發(fā)展歷程
- NLP主要研究方向
- 句法語義分析
- 信息抽取
- 文本挖掘
- 機器翻譯
- 信息檢索
- 問答系統(tǒng)
- 對話系統(tǒng)
|
第二單元 |
NLP入門與基礎介紹(二) |
- NLP的基礎
- 分詞
- 正向最大匹配算法
- 逆向最大匹配算法
- 雙向最大匹配算法
- 基于N-gram語言模型的分詞
- 基于HMM的分詞方法
- 基于CRF的分詞法法
- 文本基本處理
- 詞性標注
- 基于最大熵的詞性標注
- 基于統(tǒng)計最大概率輸出詞性
- 基于HMM詞性標注
- 基于CRF的詞性標注
- 命名實體識別
- 案例
- 在線中文分詞系統(tǒng)實戰(zhàn)
- 命名實體識別接口開發(fā)
- 基于詞性標注的關鍵詞提取
|
第三單元 |
關鍵詞提取與文本分類(一) |
- 關鍵詞提取概述
- 關鍵詞提取算法
- TF-IDF
- LSA/LSI算法
- PLSA算法
- LDA算法
|
第四單元 |
關鍵詞提取與文本分類(二) |
- 文本分類算法
- 樸素貝葉斯
- 線性分類器
- 支持向量機
- Bagging模型
- Boosting模型
- 淺層神經(jīng)網(wǎng)絡
- 案例
- 新聞主題提取
- 新聞分類實戰(zhàn)
|
第五單元 |
文本向量化與句法分析(一) |
- 文本向量化概述
- 文本向量化常用算法
- 詞袋算法
- HashTF算法
- Word2Vec算法
- Glove算法
|
第六單元 |
文本向量化與句法分析(二) |
- 句法分析概述
- 句法分析常用算法
- PCFG算法
- 條件隨機場算法
- 案例
- 文本情感分析的開發(fā)示例
- 基于依存句法分詞的問句相似度計算
|
第七單元 |
圖像識別項目 |
- 介紹Google圖像識別模型Inception-v3
- 使用Inception-v3做圖像識別
|
第八單元 |
貓狗分類項目 |
1.圖像數(shù)據(jù)預處理
2.貓狗分類-簡單CNN
3.貓狗分類-VGG16-bottleneck
4.貓狗分類-VGG16-Finetune |
第九單元 |
驗證碼識別項目 |
1.多任務學習介紹
2.驗證碼識別項目 |
第十單元 |
目標檢測項目 |
1.目標檢測任務介紹
2.RCNN/Fast-RCNN/Faster-RCNN算法介紹
3.YOLO算法介紹
4.SSD算法介紹
5.目標檢測項目實戰(zhàn) |
第十一單元 |
目標分割項目 |
1.目標分割任務介紹
2.全卷積網(wǎng)絡
3.雙線性上采樣
4.特征金字塔
5.Mask RCNN算法介紹
6.目標分割項目實戰(zhàn) |
第十二單元 |
圖像風格遷移項目 |
1.圖像風格遷移介紹
2.圖像風格遷移項目實戰(zhàn) |
第十三單元 |
GAN項目 |
1.生成式對抗網(wǎng)絡GAN介紹
2.生成式對抗網(wǎng)絡GAN項目實戰(zhàn) |
總結(jié)與考核 |
(注:大綱還可根據(jù)需求進行調(diào)整)
第二部分 師資簡介
覃棅豐
創(chuàng)業(yè)公司技術(shù)負責人。機器學習,深度學習領域多年一線開發(fā)研究經(jīng)驗,精通算法原理與編程實踐。曾使用Tensorflow,Caffe,Keras等深度學習框架完成過多項圖像,語音,nlp,搜索相關的人工智能實際項目,研發(fā)經(jīng)驗豐富。擁有兩項國家專利,同時具有多年授課培訓經(jīng)驗,講課通熟易懂,代碼風格簡潔清晰。
人工智能相關工作經(jīng)歷:
上海希格斯網(wǎng)絡科技有限公司 數(shù)據(jù)挖掘工程師
1.負責深度學習NLP算法的研究和實現(xiàn)。
2.負責搜索引擎的實現(xiàn)和優(yōu)化。
上海索洛信息技術(shù)有限公司 高級算法工程師
1.負責深度學習圖像算法的研究和實現(xiàn)。
2.負責深度學習語音算法的研究和實現(xiàn)。
人工智能相關項目經(jīng)驗:
人崗匹配項目 負責算法實現(xiàn)
● 收集了10萬份JD。
● 基于Tensorflow平臺使用LSTM+Attention算法。
● 使用JD訓練職位推薦模型。訓練好的模型可用于分析簡歷描述,并根據(jù)簡歷描述推薦一個或多個適合的職位。
項目關鍵詞提取項目 負責算法實現(xiàn)
● 收集了10萬份項目描述,并標記好項目中的關鍵詞。
● 基于Tensorflow平臺使用seq2seq模型。
● 從簡歷的項目描述中提取出該項目中的重點詞匯。可用于優(yōu)化簡歷項目搜索結(jié)果。
人才搜索引擎項目 負責搜索引擎的實現(xiàn)和優(yōu)化
● 搭建簡歷搜索引擎服務。
● 完成學校名,專業(yè),公司,行業(yè)等模塊的搜索策略
● 完成搜索結(jié)果高亮服務。
● 修改搜索bug優(yōu)化搜索算法。
寵物臉識別項目 負責數(shù)據(jù)處理,算法實現(xiàn)
● 收集了5萬張狗/貓的照片,并標記好它們臉部的區(qū)域。
● 在Linux下基于Caffe平臺使用Faster-rcnn實現(xiàn)狗/貓臉檢測算法。
● 推出了一款在線小游戲,用戶上傳自己家狗/貓的照片,服務器接收到照片之后用訓練好的模型檢測照片中狗/貓的臉,并把狗/貓的臉框出來,給它們的長相打一上個分數(shù),再把處理后的照片反饋給用戶。
寵物品種識別項目 負責數(shù)據(jù)處理,算法實現(xiàn)
● 收集了19種貓和27種狗的照片,共3萬多張,并做好分類標簽。
● 基于Caffe平臺使用AlexNet,GoogleNet以及自己設計的網(wǎng)絡實現(xiàn)寵物品種分類算法。
● 推出了一款在線小游戲,用戶上傳自己家狗/貓的照片,服務器接收到照片之后用訓練好的模型檢測照片中狗/貓的品種,不同寵物的品種會對應不同明星的臉,再把與寵物品種相似的明星臉反饋給用戶。
寵物叫聲情感分類項目 負責數(shù)據(jù)處理,算法實現(xiàn)
● 收集了1萬6千條狗叫聲,分成8個類別。
● 基于Tensorflow平臺使用CNN,LSTM實現(xiàn)狗叫聲情感分類算法。
● 將訓練好的模型放到嵌入式設備中,實時判斷當前場景是否有狗叫聲,有狗叫聲的話是屬于什么分類。