62 episodes

Decideo est la communauté d’information et d’échange autour des outils et meilleures pratiques d’analyse de données (Machine Learning, Business Intelligence, Big Data, Science des Données, Entrepôts de données…). Véritable réseau social des professionnels de la donnée, Decideo est disponible en français www.decideo.fr et en espagnol www.decideo.com. Opinions d’experts, actualités, agenda, offres d’emploi, sont disponibles en ligne et sur les applications mobiles gratuites.

Decideo is the leading user community of Business Intelligence, Data Science, Big Data and Analytics professionals. Decideo is a real social network of data driven economy, available in French www.decideo.fr, and Spanish www.decideo.com. User stories, best practices, news, software reviews, agenda, job board… are available online, and through podcast and mobile applications.

Decideo - Data Science, Big Data, Intelligence Augmentée Philippe Nieuwbourg

- Technology

- APR 21, 2024
#4.10 Les prompts sont des données : il va falloir les cataloguer

#4.10 Les prompts sont des données : il va falloir les cataloguer

Les prompts sont des données : va-t-il falloir les cataloguer ?
Selon une enquête de l’Associated Press, déjà 70 % des rédacteurs utilisent l’IA générative pour produire du contenu. Les données sont omniprésentes dans la démarche : dans l’alimentation des modèles, dans les prompts et dans les contenus produits.
Si j’écris demain un article à l’aide d’un traitement de texte, c’est moi qui en serai l’auteur et non Word. Mais si j’écris les prompts qui me permettent de demander à ChatGPT de produire cet article, ou le code d’un logiciel, ce serait donc ChatGPT qui deviendrait l’auteur ? Non, et heureusement, il a déjà été établi par jurisprudence dans plusieurs pays, qu’une IA ne pouvait pas obtenir de droits de propriété sur ses propres créations. L’IA n’a pas de personnalité juridique. C’est l’Humain qui a piloté l’IA qui est reconnu comme auteur de ses créations.
Mais demain, le journaliste, le scénariste, mais également le programmeur, le rédacteur de documentation, ne manipuleront plus directement les mots, mais les prompts qui serviront à les produire. Pourrait-on aller jusqu’à déposer et protéger un prompt, tout comme on protège un livre, un logiciel ou un scénario ? Peut-être est-ce une idée à creuser. Juristes spécialistes de la propriété intellectuelle, je vous lance la perche !
En tous cas, ces prompts, ce sont également des données. Et il faut les collecter, les stocker, et donc peut-être les protéger, afin de faire le lien entre le prompt et le contenu qu’il a produit.
En entreprise, la réplicabilité et l’explicabilité sont des sujets importants. Si je lance deux fois la même requête sur une même base de données, je dois obtenir le même résultat. Sinon, j’ai un problème. Êtes-vous certain que le même prompt lancé dans le même outil d’IA générative, produira le même contenu ?
Je ne crois pas, et c’est un vrai problème.
Si j’utilise l’IA générative pour transformer une question en langage naturel en requête SQL, la même question donnera-t-elle toujours la même réponse ? Si non, ça sent le crépage de chignon en réunion du lundi matin. Ça peut faire sourire, mais imaginez que votre tableau Excel donne des résultats différents en fonction de l’heure de la journée, de la météo ou de l’âge du capitaine.
Je vous parle beaucoup en ce moment de gouvernance de l’intelligence artificielle. Une des facettes de cette gouvernance, sera la gestion des prompts. Leur historisation, la traçabilité de leur cycle de vie, le lien entre le prompt et son résultat, etc. Des tas de métadonnées qu’il va falloir organiser.
Je ne sais pas encore comment nous l’appellerons, mais c’est un outil qu’il va falloir inventer. On y retrouvera :
- L’historisation des prompts utilisés, et de leurs métadonnées ;
- La traçabilité, le lineage, qui a mené du prompt au résultat. Quel modèle a été utilisé, quelle version, quelles données d’entrainement, etc..
Cet outil permettra également de vérifier les droits d’accès, la conformité des données utilisées, et produites. Et il assurera la piste d’audit nécessaire pour qu’en cas de besoin, le service conformité ou audit interne, voir une autorité extérieure, puissent remonter l’historique.
Vous voyez que le sujet de la gouvernance de l’IA, et des données qui vont avec, n’est pas une mince affaire. On est loin de votre ado tout fier d’avoir utilisé ChatGPT pour rédiger 10 lignes sur la révolution russe !
Si vous envisagez une utilisation sérieuse, et en production, de l’intelligence artificielle, vous devrez passer par les étapes que je viens de décrire. Et si vous cherchez une idée de business à créer dans le domaine du logiciel, regardez du côté d’une plate-forme de traçabilité des usages de l’IA en entreprise… il y a tout un marché !
- 4 min
- APR 14, 2024
#4.9 Votre plan de métro des compétences, avec Jean-Guillaume Pelletier de Mindmatcher

#4.9 Votre plan de métro des compétences, avec Jean-Guillaume Pelletier de Mindmatcher

Cette semaine, Decideo a rencontré Jean-Guillaume Pelletier, associé de Mindmatcher, pour parler de la cartographie des métiers du numérique, à laquelle il a collaboré, pour le compte de GEN - Grande Ecole du Numérique.

- Vous avez aidé la Grande Ecole du Numérique, créée en 2015 par le gouvernement, à cartographier les métiers du numérique. Quel a été votre apport et votre rôle dans l'établissement de cette cartographie ?
- Quelles ont été les technologies utilisées ? Et les données sur lesquelles vous vous êtes appuyé ?
- Comment avez-vous évité les biais ?
- On parle de signaux faibles lorsqu'il s'agit d'anticiper des tendances... depuis au moins 20 ans. Qu'y a-t-il de nouveau dans ce domaine ?
- La limite de l'IA, comme elle s'appuie sur des données du passé, c'est qu'elle est incapable de prévoir l'imprévisible. Comment avez-vous procédé ?
- Est-ce que ce travail peut être reproduit dans les entreprises ?

Si vous voulez vous aussi participer à une émission du podcast Decideo, envoyez un email à philippe.nieuwbourg@decideo.com.
- 15 min
- APR 7, 2024
#4.8 SAP Datasphere et le data mesh

#4.8 SAP Datasphere et le data mesh

SAP et le data mesh Depuis que le concept de data mesh a émergé en 2019, la réponse des grands éditeurs de solutions centralisées était attendue. SAP n’étant clairement pas un ardent défenseur de la décentralisation, il était légitime pour ses clients de se demander comment l’editeur allait aborder le sujet.
Lancé en 2019, formalisé en 2022 dans le livre éponyme, le concept de data mesh a convaincu un certain nombre d’entreprises comme Suez, Le bon coin, Paypal, Eurotunnel, etc. Certains ne le nomment pas, et en choisissent les principes qu’ils souhaitent appliquer. Mais tous font un pas vers la décentralisation de la responsabilité des données vers les domaines métiers, et la migration de data warehouses centralisés vers des data products, décentralisés fonctionnellement et centralisés techniquement.
Centraliser les données ou les jeux de données ?
La réponse de SAP est apparue récemment, elle s’appelle SAP Datasphere. Soit pour ne pas avoir à payer de royalties, soit pour ne pas avouer qu’il n’est pas l’inventeur du concept, SAP n’utilise quasiment pas l’expression data mesh dans sa communication. Mais l’objectif est clairement de répondre à cette évolution. Voyons ensemble comment.
Il y a quelques années, SAP migrant vers le cloud, proposait comme solution centrale à un système décisionnel son offre SAP Data Warehouse Cloud. Evoluant sur les plans technologiques et marketing, SAP Data Warehouse Cloud est devenu SAP Datasphere. Et il y a tout juste un an, SAP a présenté SAP business data fabric, basée sur SAP Datasphere comme coeur de la conception des systèmes décisionnels pour ses clients. “i[Data Fabric est une architecture technique, qui permet de rassembler des données hétérogènes en provenance de plusieurs sources]i”, explique Wolfgang Epting, expert produit chez SAP. On est donc bien dans une architecture de centralisation des données. Mais en réalité, SAP défend que SAP Datasphere peut être utilisé pour centraliser, de manière technique uniquement, des données ou des jeux de données (data products) qui peuvent provenir de sources externes.
Ainsi, en définissant et construisant les data products dans les domaines métier, comme le préconise le data mesh, mais en les stockant dans la SAP business data fabric, cette dernière devient une plateforme selfservice de jeux de données. Les quatre principes du data mesh sont bien respectés : les domaines, les jeux de données, la plateforme en libre-service, et la gouvernance fédéralisée.
Il faudra cependant resister à la tentation de stocker les données unitaires dans SAP business data fabric et d’y fabriquer les jeux de données, auquel cas il n’y aurait plus de décentralisation et l’on retrouverait le trio data warehouse - data lake - data mart. Le data mesh est avant tout un changement de paradigme, une organisation différente, décentralisant la responsabilité des données dans les métiers, et modifiant la répartition des rôles entre l’informatique et les métiers. Les luttes de pouvoir pourraient se réveiller à l’occasion de cette mise en place…
Cataloguer, la première pierre de l’édifice
Qu’il s’agisse de gouvernance ou de data mesh, le catalogue des données est au centre du dispositif. SAP ou pas, sans catalogue de données, toute la gouvernance et la décentralisation des responsabilités vers les métiers, seront incomplètes et surtout bien compliquées à appliquer.
SAP s’est beaucoup appuyé sur ses partenaires pour la création du catalogue des données. Collibra semble le partenaire éditeur privilégié. D’ailleurs, en terme de couverture fonctionnelle, comme de coût et de délai de mise en place, il n’est pas rare d’entender Collibra qualifié de “SAP des catalogues de données”.
Jusqu’à ce que SAP annonce sa propre solution, SAP Datasphere Catalog. Il permet “ i[de découvrir, gérer et controler, toutes les donné
- 6 min
- APR 1, 2024
#4.7 DBOS, la nouvelle startup de Michael Stonebraker

#4.7 DBOS, la nouvelle startup de Michael Stonebraker

DBOS, la base de données au coeur d’un futur système d’exploitation Quand vous entendez le nom de Michael Stonebraker, et que vous avez quelques souvenirs de vos cours d’histoire du logiciel, vos neurones se réactivent.
Michael Stonebraker est en effet le concepteur de Ingres, au début des années 70, qui donnera naissance à Sybase, à Postgres. Spécialiste des bases de données, il donnera naissance à de nombreuses entreprises dont Vertica, VoltDB, etc. et sera pendant plusieurs années le directeur technique de Informix.
Et si vous avez perdu la mémoire de cette histoire des bases de données, où si vous ne vous y êtes jamais intéressé, je vous conseille la lecture du petit livre rouge du sujet : RedBook.io. Disponible gratuitement, la 5ème édition, qui date de 2015, vous permettra de comprendre comment et pourquoi ont été créés ces composants indispensables de notre système d’information, les bases de données.
Mais ce n’est pas le sujet du jour. En effet, à 80 ans, Michael Stonebraker n’a pas l’intention de partir à la pêche au coeur de l’Amérique profonde, mais plutôt de se lancer dans un nouveau projet : DBOS !
La réflexion de Michael Stonebraker part du rôle croissant de la donnée dans le système d’information. Notre économie “data driven”, nos entreprises “data driven”, notre architecture informatique bientôt “data driven”. Mais nos systèmes d’exploitation ne le sont pas encore; Linux par exemple.
Pour Michael Stonebraker, il est temps de séparer les données du code du système d’exploitation, et réduire celui-ci à un petit noyau logiciel, exécutant quelques fonctions basiques de bas niveau. Tout le reste s’exécute dans la base de données. Cela fait maintenant trois ans qu’il travaille au MIT et à Stanford sur le sujet. Depuis une quinzaine d’années les bases de données relationnelles OLTP ont été grandement optimisées; elles pourraient donc aujourd’hui supporter l’exécution des tâches d’un système d’exploitation, explique-t-il. L’idée est donc de faire tourner l’OS dans la base de données.
Une des fonctionnalités intéressantes est le “time travel debugger”. Il permet de remonter dans l’historique du système d’exploitation, par exemple en cas de cyber-attaque, et de revenir à la situation antérieure, instantanément.
DBOS, qui compte pour l’instant une équipe de dix personnes, a levé 8,5 millions de dollars pour lancer ses activités. Michael Stonebraker en est un des cofondateurs, et le directeur technique. Un autre des cofondateurs est l’ancien directeur technique de Databricks. DBOS serait déjà en test dans une grande banque et une société du secteur agro-alimentaire.
Pour en savoir plus, https://www.dbos.dev/
- 3 min
- MAR 28, 2024
#4.6 Les données ESG avec Olivier Brien de Finastra

#4.6 Les données ESG avec Olivier Brien de Finastra

Normes ESG, reporting CSRD dans le domaine de la finance. On en parle avec notre invité cette semaine.
- Le secteur financier est-il un émetteur d'externalités ? De quels types ?
- Est-ce que la transformation numérique du secteur financier est un atout pour améliorer l'impact ESG ou au contraire un générateur de nouvelles externalités ?
- Au coeur du sujet ESG, il y a la mesure, donc les données. Comment s'organise-t-on pour collecter et conserver ces nouvelles données ?
- Comment s'assurer de leur qualité et de leur impartialité ?
- Comment le système d'information doit-il s'adapter dans les prochaines années à ces nouvelles comptabilités ?
- 19 min
- MAR 21, 2024
#4.5 La gouvernance des données avec Rachid Tighremt - Layer Data

#4.5 La gouvernance des données avec Rachid Tighremt - Layer Data

Cette semaine, une conversation passionnante avec Rachid Tighremt, fondateur de la société Layer Data, qui se spécialise dans l'accompagnement des projets de gouvernance des données.
Nous parlons de conduite de projet, de choix d'un outil de catalogue de données, de la répartition des responsabilités entre l'informatique et les métiers. Nous abordons également un sujet novateur, celui du tableau de bord du projet de gouvernance : comment le construire, quels indicateurs doit-il contenir, etc.
- 14 min