Fala galera, continuando a serie de episódios sobre PEFT, nesse episoódio eu falo sobre tecnicas de otimização de inferência em LLMs.
Eu falo de layer pruning, onde a gente corta algumas camadas consecutivas da rede sem perder quase nada de qualidade do modelo.
Eu falo também sobre...
Published 04/18/24