#84- FineWeb, o melhor dataset pra pre-treinar LLMs.
Listen now
Description
Fala galera, nesse episódio do podcast eu falo sobre o dataset FineWeb, o melhor dataset open source de pre-treinamento existente até hoje. No episódio eu explico como eles fizeram a curadoria do dataset e um pouco dos resultados. Link pro grupo do whatsapp: https://chat.whatsapp.com/GNLhf8aCurbHQc9ayX5oCP Link do blog da huggingface: https://huggingface.co/spaces/HuggingFaceFW/blogpost-fineweb-v1 Instagram do podcast: https://www.instagram.com/podcast.lifewithai Linkedin do podcast: https://www.linkedin.com/company/life-with-ai
More Episodes
Fala galera, nesse episódio do podcast eu falo sobre as IAs on-device e o blog post da Hugging Face SmolLM. Primeiro eu falo a minha opinião sobre as diferenças de utilização e necessidade entre IAs on-device e IAs em clusters. Depois eu explico algumas partes do blog post do...
Published 11/07/24
Published 11/07/24
Fala galera, nesse episódio eu entrevistei o Felipe, CEO e Fundador da Clarice AI, o Grammarly brasileiro! No episódio a gente conversou sobre como eles estão desenvolvendo a tecnologia de correção e melhora no estilo da escrita, além do enorme dataset que eles tem pra treinar um LLM...
Published 10/31/24