De ce lstm rezolvă gradientul care dispare?

Cuprins:

De ce lstm rezolvă gradientul care dispare?
De ce lstm rezolvă gradientul care dispare?

Video: De ce lstm rezolvă gradientul care dispare?

Video: De ce lstm rezolvă gradientul care dispare?
Video: Recurrent Neural Networks (RNNs), Clearly Explained!!! 2024, Noiembrie
Anonim

LSTM rezolvă problema folosind o structură unică de gradient aditiv, care include acces direct la activările porții uitare, permițând rețelei să încurajeze comportamentul dorit din gradientul de eroare folosind actualizarea frecventă a porților la fiecare pas de timp al procesului de învățare.

Cum rezolvă LSTM gradientul exploziv?

Un răspuns foarte scurt: LSTM decuplează starea celulei (de obicei notată cu c) și stratul/ieșirea ascuns (de obicei notat cu h) și face doar actualizări aditive la c, ceea ce face amintirile din c mai stabile. Astfel, gradientul care curge prin c este păstrat și greu de dispărut (prin urmare, gradientul general este greu de dispărut).

Cum poate fi rezolvată problema gradientului care dispare?

Soluții: Cea mai simplă soluție este să folosiți alte funcții de activare, cum ar fi ReLU, care nu provoacă o mică derivată. Rețelele reziduale sunt o altă soluție, deoarece oferă conexiuni reziduale direct la straturile anterioare.

Ce problemă rezolvă LSTM?

LSTM-uri. LSTM (prescurtare pentru memoria pe termen lung pe termen scurt) rezolvă în primul rând problema gradientului care dispare în retropropagarea. LSTM-urile folosesc un mecanism de deschidere care controlează procesul de memorare. Informațiile din LSTM-uri pot fi stocate, scrise sau citite prin porți care se deschid și se închid.

De ce LSTM-urile vă împiedică degradele să dispară dintr-o vedere din trecătoarea din spate?

Motivul pentru aceasta este că, pentru a impune acest flux constant de eroare, calculul gradientului a fost trunchiat pentru a nu reveni la porțile de intrare sau candidate.

Recomandat: