#80- Layer pruning e Mixture of Depths.
Listen now
Description
Fala galera, continuando a serie de episódios sobre PEFT, nesse episoódio eu falo sobre tecnicas de otimização de inferência em LLMs. Eu falo de layer pruning, onde a gente corta algumas camadas consecutivas da rede sem perder quase nada de qualidade do modelo. Eu falo também sobre Mixture of Depths, uma tecnica semelhante ao Mixture of Experts, onde a gente usa um routing pra escolher quais tokens vão ser processados em qual camada da rede. Paper MoD: https://arxiv.org/pdf/2404.02258.pdf Paper layer pruning: https://arxiv.org/pdf/2403.17887v1.pdf Instagram do podcast: https://www.instagram.com/podcast.lifewithai Linkedin do podcast: https://www.linkedin.com/company/life-with-ai
More Episodes
Fala galera, nesse episódio do podcast eu falo sobre as IAs on-device e o blog post da Hugging Face SmolLM. Primeiro eu falo a minha opinião sobre as diferenças de utilização e necessidade entre IAs on-device e IAs em clusters. Depois eu explico algumas partes do blog post do...
Published 11/07/24
Published 11/07/24
Fala galera, nesse episódio eu entrevistei o Felipe, CEO e Fundador da Clarice AI, o Grammarly brasileiro! No episódio a gente conversou sobre como eles estão desenvolvendo a tecnologia de correção e melhora no estilo da escrita, além do enorme dataset que eles tem pra treinar um LLM...
Published 10/31/24