[Música] Olá a todos Essa é a segunda aula da nossa sétima semana do curso de redes neurais e nessa aula nós vamos estudar sobre as redes recorrentes com memória de longo prazo especificamente nós vamos primeiro entender o que que é a questão do desaparecimento e explosão do Gradiente na sequência nós vamos estudar dois modelos bastante clássicos nessa nessa área de memória de longo prazo que são as unidades de ru e unidades lspm e por fim nós vamos fechar com algumas possíveis extensões desses modelos para cenários mais amplos ou quando a gente pensa a imunidade tradicional uma rede RN como nós vimos na aula passada nós podemos abstrair ela com essa sequência com essa figura que está apresentada aqui do nosso lado esquerdo ou seja eu tenho uma entrada que depende do estado dessa própria rede no tempo anterior a entrada fornecida naquele instante do tempo e ela vai gerar para a gente uma saída naquele instante do tempo com a saída a com base na entrada no estado anterior e na entrada fornecida essa saída por sua vez pode alimentar as próximas camadas espaciais da rede e chegar até numa saída qualquer representando pra gente um valor escalar ou uma classe algum tipo de solução para um dado problema como que a gente calcula esse AC ele vai ser a função de ativação no nosso caso da gente parabólica que vai receber como argumento os pesos dessa rede que compõem tantos pesos Associados a realimentação quantos pesos Associados a entrada externa vezes esse vetor com catenado dois estado anterior com o valor externo fornecido pela rede no instante T o sinal de baias Então hoje tem um modelo bastante simples e esse modelo pode ser utilizado tentar reduzir correntes como nós já vimos na aula anterior Qual que é o problema da utilização desse modelo principalmente no caso o recorrente é nós temos que o problema do desaparecimento a explosão do Gradiente ele é bastante comum ele pode ser observado inclusive nas redes alimentadas adiante conforme acrescentando mais camadas nas redes esse problema passa a ser observado com uma certa frequência porém no caso das redes decorrentes ele é muito mais complicado ele vai ter uma propensão muito maior a encontrar esse problema do desaparecimento ou da Explosão o que que vai ser o desaparecimento do Gradiente basicamente a gente começa com Gradiente relativamente alto maior a gente precisa desse Gradiente para atualizar os pesos camada camada ou retropropagação ao longo do tempo vai fazendo com que esse Gradiente vai diminuindo até chega o momento que ele é ínfimo e ele acaba não conseguindo mais ser útil para a atualização dos pesos da rede Então nesse caso nós temos o chamado desaparecimento do Gradiente por outro lado na explosão é o processo oposto a gente começa com valor moderado lá na saída e esse valor vai sendo criado amplificado ao longo das das camadas ao longo da retropropagação tanto temporal quanto espacial Então pode gerar um Gradiente muito grande que vai acarretar uma saturação da sinapse a gente não consegue treinar as redes também é recordando né como que a gente calcula Gradiente um Gradiente neurônio idiota Então vai ser derivado ativação desse próprio neurônio vezes aquele somatório ponderado dos gradientes dos neurônios os quais esse neurônio J alimenta Lembrando que pode ser o próprio neuroni J no instante posterior multiplicado pelas suas respectivos pesos Então esse negócio do k ele pode ser um cara uma camada espacialmente numa hierarquia posterior ou a própria camada do neurônio J no instante posterior o pessoal seguinte se eu pensar que esse neurônio o gradiente desse neurônio J no tempo tem menos um como ele alimentou o próprio neurona J no tempo T ele vai depender do somatório desse J no tempo T desse Delta JJ no tempo t esse Delta J no tempot por sua vez vai depender do Delta J ter mais um que vai depender do T + 2 que vai depender do t+3 Então se essa sequência for longa eu vou ter uma longa sequência de multiplicação desse gradientes como ilustrado nessa equação aqui simplificada é claro eu tenho a derivada oficina ativação no tempo 1 derivada no tempo dois derivada no tempo 3 e assim por diante que que acontece se esse valor aqui eles forem menores do que um eu vou ter um valor menor que um multiplicado no valor menor que 1 ou um valor 0. 9 por exemplo elevado a t onde tem o número de passe esse valor tende a ser reduzido a zero por outro lado se esse valor da derivada for superior a 1 o que que pode acontecer se multiplicar 1. 1 vezes 1.

1 vezes 1. 1 ou seja 1. 1 elevado a t esse número pode extrapolar também se tornar um número muito grande e para complicar ainda mais não só a derivada Como o próprio peso da rede por ser tratado o mesmo peso ou seja o peso JJ ele é um peso que vai sendo replicado camada camada no tempo é o mesmo peso então se esse peso ele assume o valor menor do que um essa multiplicação também vai envolver a multiplicação de pesos inferiores a um elevado a n eu vou ter uma potência de 0.

9 por exemplo 0.

Redes Neurais - Redes recorrentes com memória de longo prazo