Se rendre au contenu

Arrêtons de dire que ces IA sont Open Source !!

L’engouement pour l’IA générative a fait exploser les annonces de modèles « open source ». Des entreprises promettent des IA ouvertes à tous, et le terme open source est repris à tort et à travers. Pourtant, beaucoup de ces modèles ne respectent pas la définition officielle de l’open source. Cette confusion n’est pas anodine : elle trompe les utilisateurs et développeurs, et menace de galvauder un concept essentiel. Il est temps de clarifier les choses : arrêtez d’appeler open source des IA qui n’en sont pas vraiment !

Pourquoi est-ce crucial ? Parce que open source n’est pas un simple mot à la mode, c’est un label avec une signification précise et des critères stricts. En abusant de ce terme, certains acteurs brouillent les pistes. Cette dilution du sens est extrêmement dommageable, surtout à l’heure où des institutions comme la Commission européenne veulent soutenir des technologies réellement ouvertes hors du contrôle des géants du numérique.

Dans ce dossier, nous allons examiner ce qui fait qu’un projet est vraiment open source, et pourquoi des modèles récents comme Mistral 7B, LLaMA ou DeepSeek ne méritent pas ce qualificatif. Nous verrons aussi les dangers de ce « faux open source » pour l’écosystème, et enfin nous mettrons en avant des alternatives exemplaires qui, elles, jouent le jeu de l’ouverture jusqu’au bout.

Les critères de l’open source selon l’OSI

Que signifie réellement open source ? L’Open Source Initiative fixe une définition claire composée de dix critères incontournables. Parmi les plus importants :

  • Libre redistribution : personne ne doit pouvoir vous empêcher de partager le logiciel, ou vous imposer de royalties pour le faire.
  • Code source accessible : le code source doit être fourni (ou aisément disponible) afin que n’importe qui puisse lire, modifier et compiler le programme. Publier uniquement un binaire ou un modèle entraîné sans fournir les “sources” n’est pas acceptable. Un logiciel open source ne peut pas être une boîte noire.
  • Travaux dérivés autorisés : la licence doit permettre les modifications et œuvres dérivées, et leur distribution sous les mêmes conditions que l’original. Autrement dit, la communauté doit pouvoir s’approprier le projet, l’améliorer, le forker librement.
  • Aucune discrimination : il est interdit d’empêcher une catégorie de personnes ou un domaine d’activité d’utiliser le logiciel. Par exemple, interdire l’usage commercial ou militaire d’un programme le rend automatiquement non-open-source. L’ouverture implique que tous les usages, même concurrents ou commerciaux, sont permis.
  • Neutralité technologique : la licence ne doit pas dépendre d’une technologie particulière ou imposer une plateforme spécifique.

En résumé, un logiciel est open source si et seulement si sa licence respecte ces principes. Des licences largement utilisées comme Apache 2.0, MIT, BSD, GPL remplissent ces critères. En revanche, une licence qui restreint les usages ou qui ne fournit pas le code source complet n’est pas conforme à l’OSI.

Or, dans le domaine de l’IA, on voit émerger des modèles dont la licence ou les conditions de diffusion ne respectent pas ces règles. Pour un œil non averti, ils semblent « ouverts » car les poids du modèle sont téléchargeables. Mais si la licence limite les usages ou si le “code source” (données d’entraînement, scripts) manque, on ne peut pas parler d’open source au sens strict.

Études de cas : Les modèles qui abusent du terme open source

Examinons trois cas concrets – Mistral 7B, LLaMA de Meta, et DeepSeek R1 – qui illustrent l’usage abusif du terme open source. Chacun de ces modèles a été présenté comme ouvert, alors qu’il enfreint à sa manière l’une ou l’autre des exigences de l’OSI.

Mistral AI : une licence open source, mais opacité sur les données

Lorsque la startup française Mistral AI a sorti son modèle Mistral 7B en 2023, la communauté a salué un effort “open source”. En effet, les poids du modèle ont été publiés sous licence Apache 2.0, une licence approuvée par l’OSI qui n’impose aucune restriction d’usage. Cela signifie que n’importe qui peut utiliser, affiner ou intégrer Mistral 7B librement, y compris dans des produits commerciaux. Sur le papier, c’est une démarche exemplaire – et rarissime pour un modèle de ce calibre, ce qui a valu à Mistral des louanges méritées.

Cependant, ouvrir les poids ne suffit pas à assurer une vraie transparence. Mistral 7B a été fourni sans information détaillée sur les données d’entraînement. Aucune liste claire des corpus utilisés, pas de publication du jeu de données ou de la méthode exacte de constitution de celui-ci. Un article d’Open Future souligne que Mistral a été publié “sans aucune information sur les données qui ont servi à l’entraîner”. En d’autres termes, on nous donne un modèle entraîné, mais on ne sait pas sur quoi il a été entraîné.

Pourquoi est-ce un problème ? Parce que cela empêche de juger de la qualité et des biais potentiels du modèle. Si le jeu de données est secret, impossible de savoir si Mistral 7B a ingéré des données biaisées, du contenu protégé, ou s’il respecte les standards éthiques. De plus, cette opacité rend la reproduction du modèle impossible, réservant de facto le plein savoir-faire à l’éditeur. Certes, la licence Apache 2.0 garantit le droit d’utilisation, mais l’esprit de l’open source, c’est aussi l’ouverture du processus. Sur ce point, Mistral pèche par manque de transparence : on a l’outil, sans le mode d’emploi ni les ingrédients.

En somme, Mistral AI coche la case de la licence ouverte, mais pas celle de l’ouverture des données. On pourrait parler d’un modèle « open source inachevé » – les briques essentielles que sont les données d’entraînement (ou a minima leur description) et le code d’entraînement complet n’ont pas été partagées.

LLaMA (Meta) : des poids publics sous licence restrictive

Meta (Facebook) a frappé fort en annonçant ses modèles de langage LLaMA (en 2023 puis LLaMA 2 en 2024), présentés comme une alternative ouverte aux IA propriétaires de type GPT. De nombreux médias et acteurs les ont aussitôt qualifiés d’open source. C’est faux : ces modèles ne respectent absolument pas la définition OSI, et Meta a entretenu la confusion dans sa communication​. .

Avec LLaMA 1, Meta distribuait les poids du modèle sur demande, sous une licence interdisant tout usage commercial. LLaMA 2 a légèrement ouvert la porte : les poids sont librement téléchargeables, et la licence autorise l’usage commercial sauf dans certains cas. Mais cette licence maison – la “LLaMA 2 Community License” – reste restrictive : elle interdit par exemple d’utiliser le modèle pour des services comptant plus de 700 millions d’utilisateurs (clause visant les très grandes entreprises) et exige d’accepter des conditions d’utilisation spécifiques. Ce genre de limitation viole frontalement les principes OSI (pas de discrimination contre un domaine d’usage ou une catégorie d’utilisateurs)​. On est donc loin d’une licence ouverte au sens classique.

Par ailleurs, Meta n’a pas publié le code d’entraînement complet ni le jeu de données ayant servi à LLaMA. Comme pour Mistral, seuls les poids du réseau de neurones sont fournis, accompagnés de quelques informations haut-niveau, mais sans la recette. Le jeu de données exact reste secret, protégé par le secret industriel de Meta. Le code source du modèle (à savoir l’implémentation exacte utilisée pour le former) n’est pas fourni non plus – même si l’on connaît l’architecture générale, de nombreux détails de réalisation sont absents.

En réalité, LLaMA n’est “ouvert” qu’en apparence. On devrait plutôt parler de modèle “open weight comme le suggèrent de plus en plus de chercheurs​, c’est-à-dire un modèle dont les poids sont accessibles, mais pas le reste. L’OSI a d’ailleurs explicitement affirmé que LLaMA n’est pas open source, la licence de Meta n’étant pas conforme à l’Open Source Definition du fait de ses restrictions d’usage​. En ne fournissant ni le code complet, ni les données, Meta empêche toute reproduction indépendante du modèle et conserve une longueur d’avance. Stefano Maffulli (OSI) dénonce ces modèles “soi-disant open source” qui freinent l’expérimentation et l’innovation en restant partiellement fermés​. On le voit bien avec LLaMA : impossible pour la communauté de pleinement auditer ou améliorer le modèle sans dépendre de Meta.

Qualifier LLaMA d’open source est donc trompeur. Certes, Meta a fait un pas vers l’ouverture en partageant des poids de modèles très performants, ce qui est utile à la recherche. Mais l’esprit open source implique un lâcher-prise bien plus grand (publication du code, des données, absence de contrôle sur les usages) auquel Meta ne s’est pas résolu. LLaMA reste sous le contrôle de Meta, qui en définit les conditions et garde les clés du processus d’entraînement – tout le contraire d’un projet open source communautaire.

DeepSeek : ouverture proclamée, transparence limitée

Le cas DeepSeek est tout aussi édifiant. DeepSeek est une startup chinoise ayant sorti en janvier 2025 un modèle de langage baptisé DeepSeek R1, en fanfare, comme étant un modèle d’IA “open source” de premier plan. Sur le papier, certains voyants sont au vert : la licence est permissive (MIT), ce qui en théorie autorise tout usage et modification​. Le modèle prétend rivaliser avec les systèmes occidentaux haut de gamme, et DeepSeek a communiqué sur son attachement à l’open source, promettant même de publier du code source supplémentaire pour prouver sa bonne foi​.

Mais là encore, si l’on gratte sous le vernis marketing, la réalité est plus nuancée. DeepSeek R1 a été initialement publié sans le code d’entraînement complet, ni les données de formation. L’architecture du modèle et les poids ont bien été détaillés dans un papier technique, mais les dépôts de code correspondants n’étaient pas ouverts au moment de la sortie, et le jeu de données demeure en grande partie opaque​. En janvier, des analystes de l’OSI ont confirmé que DeepSeek R1 n’est pas un modèle open source au sens de la définition OSI, précisément parce qu’il ne partage pas ces éléments essentiels​. DeepSeek rejoint ainsi la liste des modèles qui se disent “open source” mais ont un score de transparence médiocre sur la question des données​ .

Une analyse de l’Open Data Institute (ODI) a évalué DeepSeek R1 selon un indice de transparence des données d’IA, et le verdict est tombé : DeepSeek est classé “faible” sur presque tous les aspects de transparence (sources des données, filtrage, vérification de la présence de données personnelles ou protégées, etc.)​. Aucune liste claire des datasets utilisés n’a été fournie, ni de datasheet ou model card détaillant la composition et l’éthique des données. DeepSeek partage donc le même défaut que LLaMA et Mistral : on vous donne un modèle en vous demandant de faire confiance aveuglément à son contenu.

La différence, c’est que DeepSeek affiche ostensiblement son ambition open source, ce qui est assez nouveau en Chine où la plupart des grands modèles sont fermés. L’entreprise a même ouvert partiellement certains de ses dépôts de code après coup, en février 2025, pour renforcer sa crédibilité en la matière​. Malgré ces progrès, il manque toujours la transparence complète sur les données d’entraînement. En l’absence de cette dernière pièce, DeepSeek R1 reste un cas d’“open source” incomplet. Sa licence libre autorise certes la communauté à l’utiliser largement, mais sans savoir d’où viennent ses données ni comment exactement il a été construit, on ne peut pas le considérer comme totalement ouvert et auditable.

Bilan : DeepSeek R1 illustre bien le faux ami qu’est le terme open source mal employé. Le projet utilise une licence open source (MIT) et se revendique comme tel, mais ne fournit pas toutes les garanties de transparence et de liberté qui font l’essence de l’open source. Ici encore, on devrait parler de modèle open-weight ou source-disponible, plutôt que vraiment open source.

Pourquoi ce faux open source pose problème ?

À première vue, on pourrait se dire : « Quel est le mal ? Ces modèles sont disponibles gratuitement, c’est déjà génial, non ? » Certes, la mise à disposition de modèles performants est positive. Mais l’abus du terme "open source" pour ces IA incomplètement ouvertes pose deux problèmes majeurs : d’une part, cela crée des désillusions et des risques pour les développeurs et chercheurs, et d’autre part, cela peut freiner l’innovation et menacer la souveraineté numérique à plus long terme.

Conséquences pour les développeurs et les chercheurs

Les praticiens de l’IA se retrouvent dans une situation ambiguë vis-à-vis de ces modèles “open source” d’un nouveau genre. Nombreux sont ceux qui, entendant open source, pensent pouvoir utiliser le modèle en toute liberté, comme ils le feraient avec un logiciel libre classique. Or, la réalité juridique peut être tout autre. Utiliser un modèle comme LLaMA à des fins non autorisées (ex. commercialement sans accord) expose à des litiges, puisque la licence l’interdit. Un développeur peut investir du temps à bâtir une application autour d’un modèle soi-disant ouvert, pour découvrir plus tard qu’il enfreint les conditions imposées par l’ayant-droit. Cette insécurité juridique et ce flou nuisent à l’écosystème.

De plus, l’absence de code source complet et de données d’entraînement limite fortement ce que la communauté peut faire. Un chercheur qui voudrait examiner le biais d’un modèle, ou tenter de le reproduire pour valider une publication scientifique, se retrouve bloqué. On ne peut ni inspecter finement le processus d’entraînement, ni auditer l’ensemble des données ingérées. C’est contraire à l’idéal de reproductibilité en science. Par exemple, dans le cas de DeepSeek R1, les experts n’ont pas pu vérifier les prétentions d’efficacité du modèle car le diable se cache dans les détails non divulgués (optimisations, données exactes utilisées, etc.)​.

Par ailleurs, compter sur un modèle “presque ouvert” revient à accepter une dépendance implicite envers l’entité qui a les informations manquantes. Si demain Meta change d’avis sur LLaMA ou décide de ne plus le mettre à jour, la communauté ne pourra pas reprendre le flambeau aisément, car elle n’a pas la recette complète du modèle. À l’inverse, avec un vrai logiciel open source, la communauté peut fork-er et continuer le projet sans l’accord du créateur d’origine. Ici, cette liberté est partielle, voire illusoire.

Un autre écueil pour les développeurs est la tentation d’ignorer sciemment les restrictions (« après tout, qui va vérifier qu’on dépasse 700 M d’utilisateurs ? »). Sauf que ces clauses restrictives qui semblent dormantes pourraient un jour être appliquées strictement. Comme le note un analyste à propos des licences restrictives de certains modèles, beaucoup d’utilisateurs ne les suivent pas à la lettre, ce qui pourrait “leur retomber dessus plus tard”. Mieux vaut éviter ce genre d’épée de Damoclès en s’appuyant dès le départ sur des bases légalement saines.

Impact sur l’innovation et la souveraineté numérique

À plus large échelle, la prolifération de modèles “open source” de façade peut freiner l’innovation dans l’IA. Comment innover véritablement si les soit-disant modèles ouverts sont en réalité partiels ? L’innovation ne prospère pleinement que dans un contexte de véritable ouverture, où n’importe qui peut tester de nouvelles idées, bricoler les entrailles du modèle, ou le réentraîner sur d’autres données. En maintenant fermées des composantes critiques (données, code d’apprentissage), les grands acteurs limitent ce que d’autres peuvent bâtir par-dessus. Ils préservent leur avance concurrentielle en empêchant des tiers de reproduire leurs résultats. Comme l’a souligné Stefano Maffulli de l’OSI, ces modèles pseudo-ouverts empêchent en partie l’expérimentation et l’innovation dans l’IA. On risque de se retrouver avec une communauté qui n’a que l’illusion du contrôle, contrainte de bricoler autour de boîtes noires intouchables.

Il y a aussi un enjeu de souveraineté numérique et d’indépendance technologique. De nombreux gouvernements (en Europe notamment) misent sur l’open source pour retrouver une autonomie face aux géants du numérique. Par exemple, l’Union européenne envisage de soutenir des modèles IA open source afin de ne pas dépendre uniquement des solutions américaines ou chinoises fermées​. Or, si les acteurs privés réussissent à faire passer des modèles semi-ouverts pour de l’open source, ils peuvent capter ces soutiens tout en maintenant leur contrôle. Le risque est de fausser le jeu : sous l’étiquette open source, des entreprises pourraient imposer leurs standards propriétaires ou leurs brevets. Stefano Maffulli avertit que si des Meta & consorts redéfinissent l’open source à leur avantage, ils pourront « insérer leurs brevets générateurs de revenus dans des standards que l’UE et d’autres aimeraient voir réellement ouverts »​. En d’autres termes, la puissance publique pourrait croire promouvoir l’ouverture alors qu’elle ne fait que renforcer la position dominante de quelques-uns, sous couvert de faux-semblants.

Du point de vue de la souveraineté technologique, s’appuyer sur une solution qui n’est pas pleinement ouverte équivaut à bâtir sur du sable. Si l’Europe adopte massivement un modèle comme LLaMA 2 en pensant qu’il est open source, elle reste en réalité à la merci de Meta pour les mises à jour, les corrections de bugs ou de biais, etc. Un véritable modèle open source, lui, pourrait être repris en main par n’importe quelle équipe locale compétente. La distinction est cruciale pour ne pas tomber dans une nouvelle forme de dépendance.

Enfin, au niveau de la culture de l’innovation, travestir le terme open source en outil marketing a un effet délétère : cela démotive les contributeurs open source authentiques. Pourquoi contribuer bénévolement à un projet si, au final, le label open source est vidé de son sens et galvaudé par des multinationales pour la com’ ? Cela peut éroder la confiance dans tout l’écosystème. À l’inverse, défendre une définition stricte permet de valoriser les efforts de ceux qui jouent réellement le jeu de la transparence et du partage intégral du savoir.

En résumé, le faux open source est un frein pour l’avenir : il trompe les acteurs, bride le potentiel d’innovation et peut mener à des choix stratégiques hasardeux en matière de souveraineté numérique. Il est donc impératif de reprendre le contrôle du narratif et de redonner au terme “open source” sa vraie signification dans le contexte de l’IA.

Et alors ?

Le terme “open source” a une valeur historique et pratique qu’il convient de défendre fermement, surtout face à l’essor de l’IA. L’usage abusif de cette étiquette par certains acteurs de l’IA n’est pas un simple détail sémantique – c’est un enjeu de clarté, de confiance et de liberté. En qualifiant d’open source des modèles qui n’en respectent pas les règles, on induit en erreur la communauté, on minore le mérite des projets vraiment ouverts et on prend le risque de ralentir le progrès en maintenant des zones d’ombre propriétaires là où tout devrait être transparent.

Il est temps de réagir : arrêtons de dire que ces IA sont open source quand ce n’est pas le cas ! Les professionnels et passionnés d’IA doivent exiger une terminologie juste. Si un modèle n’est que partiellement ouvert, appelons-le open weights, modèle à code source disponible ou toute autre appellation, mais ne lui donnons pas le label open source à tort. Cette honnêteté intellectuelle est essentielle pour que chacun comprenne ce qu’il peut (ou ne peut pas) faire avec un modèle.

Du côté des entreprises et laboratoires, un effort de responsabilité s’impose. Jouer sur l’ambiguïté peut offrir un gain d’image à court terme, mais cela nuit à l’écosystème sur le long terme. Mieux vaut être transparent sur ce qui est partagé ou non. Et si l’on veut vraiment profiter de l’aura de l’open source, alors il faut embrasser ses principes jusqu’au bout – publier la totalité du code, documenter et, si possible, ouvrir les jeux de données ou à minima en décrire finement la composition. L’Open Source Initiative a d’ailleurs pris les devants en définissant récemment des critères spécifiques pour l’open source appliqué à l’IA (Open Source AI Definition 1.0) qui incluent l’accès aux données d’entraînement et au code comme prérequis​. Cette initiative, tout comme le cadre du futur AI Act européen, montre qu’une prise de conscience est en cours pour encadrer l’usage du mot open. Nous devons la soutenir et la relayer.

Enfin, en tant que communauté (développeurs, chercheurs, utilisateurs), nous avons notre mot à dire. Refusons les abus de langage, privilégions les outils réellement ouverts, et n’hésitons pas à pointer du doigt les incohérences. Chaque fois qu’un acteur annoncera un modèle “open source” sans en remplir les conditions, il faudra le rappeler à l’ordre – sources et arguments à l’appui. C’est ainsi que nous préserverons l’intégrité de l’écosystème open source dans l’IA.

En conclusion, défendre un usage rigoureux du terme open source en IA, ce n’est pas être puriste pour le plaisir : c’est garantir un futur où l’innovation est réellement partagée, où les barrières à l’entrée pour développer des IA avancées sont abaissées pour tout le monde, et où la confiance règne grâce à la transparence. Ne laissons pas le marketing vider de sa substance un concept qui a permis les plus grandes avancées collaboratives en informatique. Exigeons des modèles vraiment ouverts quand on nous promet de l’open source. C’est à ce prix que l’IA restera un domaine d’émulation collective et de progrès pour tous, et non le pré carré de quelques-uns drapé d’un faux drapeau open source.

Sources et documents techniques :

  • Open Source Initiative – Open Source Definition (principes officiels de l’open source)​
    fr.wikipedia.orgfr.wikipedia.org
  • Stefano Maffulli (OSI), propos sur la confusion entretenue par Meta autour de “l’open source” pour LLaMA​
    news.itsfoss.comnews.itsfoss.com
  • Article Financial Times repris par It’s FOSS News – « OSI Calls Out Meta for its Misleading 'Open Source' AI Models » (18 octobre 2024)​
    news.itsfoss.comnews.itsfoss.com
  • Open Future – AI Act fails to set meaningful dataset transparency standards for open source AI (Alek Tarkowski, 2024)​
    openfuture.eu (mention du manque de transparence de Mistral AI)
  • VentureBeat – Mistral AI releases first model, outperforming Llama 2 13B (27 sept. 2023)​
    venturebeat.com (annonce de Mistral 7B sous licence Apache 2.0)
  • Open Data Institute – If DeepSeek wants to be a real disruptor, it should go much further on data transparency (30 janv. 2025)​
    theodi.orgtheodi.org (analyse de la transparence des données de DeepSeek R1 et comparaison avec Pythia)
  • Open Source Initiative – Publication: Open Data Initiativeopensource.org (confirmation par un analyste OSI que DeepSeek R1 n’est pas open source au sens OSI)
  • Reuters – DeepSeek to share some AI model code, doubling down on open source (21 fév. 2025)​
    reuters.comreuters.com (annonce de l’ouverture de dépôts de code par DeepSeek)
  • VentureBeat – Databricks releases Dolly 2.0, the first open instruction-following LLM for commercial use (12 avril 2023)​
    venturebeat.comventurebeat.com
  • Intelligent CIO – TII trained open-source Falcon 40B model on AWS (5 juil. 2023)​
    intelligentcio.com (Falcon 40B sous licence Apache 2.0 et performance)
  • Open Source Initiative – Open Source AI Definition 1.0 (2023)​
    go.opensource.orggo.opensource.org (extraits des critères requis pour qu’un système d’IA soit considéré open source : divulgation des informations sur les données d’entraînement, code complet, poids, etc.)
in IA
Résumer des documents avec des agents Mistral AI