LSTM rezolvă problema folosind o structură unică de gradient aditiv, care include acces direct la activările porții uitare, permițând rețelei să încurajeze comportamentul dorit din gradientul de eroare folosind actualizarea frecventă a porților la fiecare pas de timp al procesului de învățare.
Cum rezolvă LSTM gradientul exploziv?
Un răspuns foarte scurt: LSTM decuplează starea celulei (de obicei notată cu c) și stratul/ieșirea ascuns (de obicei notat cu h) și face doar actualizări aditive la c, ceea ce face amintirile din c mai stabile. Astfel, gradientul care curge prin c este păstrat și greu de dispărut (prin urmare, gradientul general este greu de dispărut).
Cum poate fi rezolvată problema gradientului care dispare?
Soluții: Cea mai simplă soluție este să folosiți alte funcții de activare, cum ar fi ReLU, care nu provoacă o mică derivată. Rețelele reziduale sunt o altă soluție, deoarece oferă conexiuni reziduale direct la straturile anterioare.
Ce problemă rezolvă LSTM?
LSTM-uri. LSTM (prescurtare pentru memoria pe termen lung pe termen scurt) rezolvă în primul rând problema gradientului care dispare în retropropagarea. LSTM-urile folosesc un mecanism de deschidere care controlează procesul de memorare. Informațiile din LSTM-uri pot fi stocate, scrise sau citite prin porți care se deschid și se închid.
De ce LSTM-urile vă împiedică degradele să dispară dintr-o vedere din trecătoarea din spate?
Motivul pentru aceasta este că, pentru a impune acest flux constant de eroare, calculul gradientului a fost trunchiat pentru a nu reveni la porțile de intrare sau candidate.