Enunciado
No treinamento de grandes modelos de linguagem (LLMs), como o GPT-4, uma técnica importante, utilizada para estabilizar o treinamento e favorecer a convergência - especialmente ao lidar com camadas profundas -, é a normalização por camada, conhecida como Layer Normalization, que consiste em:
Alternativas
- A
normalizar as ativações ao longo dos canais de entrada, reduzindo o desvio padrão espacial, ideal para modelos CNN.
- B
realizar a normalização entre exemplos de treinamento, reduzindo a variação das ativações dentro de um mesmo lote.
- C
normalizar as ativações individualmente para cada exemplo, considerando todos os neurônios da mesma camada.
- D
aplicar uma normalização nas ativações por meio de uma média móvel das ativações das camadas anteriores.
- E
realizar uma normalização baseada em gradientes acumulados, diretamente no passo de retropropagação (backpropagation).
Gabarito e comentário disponíveis apenas dentro do Mentorito.
Faça login para ver a explicação completa do mentor.