資料內(nèi)容:
1.2為什么ReLU常用于神經(jīng)網(wǎng)絡的激活函數(shù)?
1.在前向傳播和反向傳播過程中,ReLU相比于Sigmoid等激活函數(shù)計算量小;
2.避免梯度消失問題。對于深層網(wǎng)絡,Sigmoid函數(shù)反向傳播時,很容易就會出現(xiàn)梯度消失問題(在Sigmoid接近飽和區(qū)時,變換太緩慢,導數(shù)趨于0,這種情況會造成信息丟失),從而無法完成深層網(wǎng)絡的訓練。
3.可以緩解過擬合問題的發(fā)生。Relu會使一部分神經(jīng)元的輸出為0,這樣就造成了網(wǎng)絡的稀疏性,并且減少了參數(shù)的相互依存關(guān)系,緩解了過擬合問題的發(fā)生。
4.相比Sigmoid型函數(shù),ReLU函數(shù)有助于隨機梯度下降方法收斂。
為什么需要激活功能?
激活函數(shù)是用來加入非線性因素的,因為線性模型的表達能力不夠。
1.3 梯度消失和梯度爆炸的解決方案?梯度爆炸引發(fā)的問題?
梯度消失:靠近輸出層的hidden layer 梯度大,參數(shù)更新快,所以很快就會收斂;
而靠近輸入層的hidden layer 梯度小,參數(shù)更新慢,幾乎就和初始狀態(tài)一樣,隨機分布。
另一種解釋:當反向傳播進行很多層的時候,由于每一層都對前一層梯度乘以了一個小數(shù),因此越往前傳遞,梯度就會越小,訓練越慢。
梯度爆炸:前面layer的梯度通過訓練變大,而后面layer的梯度指數(shù)級增大。
①在深度多層感知機(MLP)網(wǎng)絡中,梯度爆炸會引起網(wǎng)絡不穩(wěn)定,最好的結(jié)果是無法從訓練數(shù)據(jù)中學習,而最壞的結(jié)果是出現(xiàn)無法再更新的 NaN 權(quán)重值。
②在RNN中,梯度爆炸會導致網(wǎng)絡不穩(wěn)定,無法利用訓練數(shù)據(jù)學習,最好的結(jié)果是網(wǎng)絡無法學習長的輸入序列數(shù)據(jù)