資料內(nèi)容:
三、AI 技術(shù)
業(yè)內(nèi)通常將人工智能分類為機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、語(yǔ)音交互和自然語(yǔ)言處理四大領(lǐng)域,
機(jī)器學(xué)習(xí)可以理解為是其他三大領(lǐng)域的底層基礎(chǔ),大致可以分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、
強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)。
本文在此基本不涉及公式,盡量以平直易懂的語(yǔ)言講述這幾種機(jī)器學(xué)習(xí)方法及相關(guān)算法。
個(gè)人認(rèn)為在實(shí)戰(zhàn)過(guò)程中根據(jù)工作需要再深入學(xué)習(xí)這些算法,會(huì)更有針對(duì)性而且效率會(huì)更高,
事半功倍。
3.1 機(jī)器學(xué)習(xí)
概念:投喂給機(jī)器訓(xùn)練數(shù)據(jù),機(jī)器從這些數(shù)據(jù)中找出一個(gè)能夠良好擬合已有數(shù)據(jù)的函數(shù),
新數(shù)據(jù)來(lái)了后,就可以通過(guò)這個(gè)函數(shù)預(yù)測(cè)對(duì)應(yīng)結(jié)果。
適合解決的問(wèn)題:有規(guī)律可以學(xué)習(xí)、編程很難做到、有能夠?qū)W習(xí)到規(guī)律的數(shù)據(jù)。
工作方式:
根據(jù)任務(wù)目標(biāo)確定算法;
在預(yù)處理階段把數(shù)據(jù)分成三組:訓(xùn)練數(shù)據(jù)(用來(lái)訓(xùn)練模型)、驗(yàn)證數(shù)據(jù)(開(kāi)發(fā)過(guò)程中用于
調(diào)參)、 測(cè)試數(shù)據(jù)(測(cè)試用);
用訓(xùn)練數(shù)據(jù)來(lái)構(gòu)建使用相關(guān)特征的模型;
把驗(yàn)證數(shù)據(jù)接入模型調(diào)參;
用測(cè)試數(shù)據(jù)檢查被驗(yàn)證的模型的表現(xiàn);
用完全訓(xùn)練好的模型在新數(shù)據(jù)上做預(yù)測(cè);
用更多數(shù)據(jù)或選取不同特征以及利用調(diào)整過(guò)的參數(shù)來(lái)提升優(yōu)化算法的性能表現(xiàn)。
分類:按學(xué)習(xí)方式可以分為監(jiān)督學(xué)習(xí)(包括半監(jiān)督學(xué)習(xí))、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移
學(xué)習(xí)。
3.2 監(jiān)督學(xué)習(xí)
概念:機(jī)器學(xué)習(xí)的一種,通過(guò)學(xué)習(xí)許多有標(biāo)簽的樣本,得到特征值和標(biāo)記值之間的對(duì)應(yīng)規(guī)
律,然后對(duì)新的數(shù)據(jù)做出預(yù)測(cè)。
分類:根據(jù)輸入數(shù)據(jù) x 預(yù)測(cè)出輸出數(shù)據(jù) y,如果 y 是整數(shù)的類別編號(hào),則稱為分類問(wèn)題,
算法包括:決策樹(shù)、隨機(jī)森林、貝葉斯、KNN、SVM、邏輯回歸。如果 y 是實(shí)數(shù)值,則為回
歸問(wèn)題,算法包括決策樹(shù)、隨機(jī)森林、KNN、SVM、線性回歸。
主流算法:
1)決策樹(shù)算法
基本原理:決策樹(shù)是一個(gè)樹(shù)結(jié)構(gòu),每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性,每個(gè)分支代表這個(gè)特
征屬性在某值域上的輸出,每個(gè)葉節(jié)點(diǎn)存放一個(gè)類別。使用決策樹(shù)進(jìn)行決策的過(guò)程就是從
根節(jié)點(diǎn)開(kāi)始,測(cè)試待分類項(xiàng)中相應(yīng)的特征屬性,并按照其值選擇輸出分支,直到到達(dá)某個(gè)
葉節(jié)點(diǎn),該葉節(jié)點(diǎn)存放的類別即為決策結(jié)果。