En à peine un an, les grands modèles de langage (LLM) utilisés pour des usages généraux de l’intelligence artificielle (IA) ont laissé une trace indéniable dans nos vies. Plus de 100 millions de personnes ont testé ChatGPT dans les deux premiers mois suivant son lancement. Il s’agissait alors de la croissance la plus rapide jamais enregistrée pour une application pour les particuliers[1]. Dans le monde des affaires, les entreprises se démènent pour être les premières à saisir les avantages concurrentiels offerts par les LLM. Tout semble évoluer encore plus rapidement depuis que OpenAI a annoncé une version pour les entreprises de ChatGPT[2].
Pour les non-initiés, les LLM et d’autres applications de l’IA dégagent une aura de magie. En réalité, les résultats obtenus dépendent de la qualité et de la disponibilité des données qui ont servi à alimenter ces modèles. Autrement dit, la conception de votre architecture de données est l’unique élément qui déterminera le succès ou l’échec de vos projets d’IA. À cet égard, les LLM ne diffèrent guère de plusieurs autres services informatiques en entreprises qui les ont précédés.
Jusqu’à maintenant, les entreprises avec les architectures de données les plus flexibles et distribuées ont pu bénéficier le plus des services d’IA générative. À l’opposé, les entreprises qui dépendent toujours d’architectures statiques ont pris du retard. Tout nous porte à penser que cette tendance se maintiendra. À mesure que les LLM perdront leur aura de nouveauté et deviendront une partie intégrante du quotidien des entreprises, l’écart se creusera pour celles qui continueront à miser sur la mauvaise architecture de données.
Dans ce billet, j’expliquerai ce que l’on entend par la « bonne architecture » : intégrer un noyau de données fiables qui vous permet de transférer vos données de la périphérie dans le nuage et vice versa, sans jamais renoncer au contrôle de ces données.
Téléchargez le Guide des chefs de file sur l’infrastructure numérique
Apprenez à concevoir et à déployer une stratégie hybride pour relever les plus importants défis actuels.
TÉLÉCHARGERConserver le contrôle du noyau de données
Le concept le plus important que les entreprises doivent comprendre avant de concevoir leur architecture de données pour l’IA est celui de contrôle des données. Il réfère à la nécessité d’inclure dans l’architecture de données un endroit où l’entreprise peut stocker ses données sans risquer d’en perdre le contrôle ou la propriété. Une entreprise qui a le contrôle de ses données peut :
- Vérifier ses données et l’équipement sur lequel elles sont hébergées,
- Protéger ses données contre différentes menaces,
- Recouvrir ses données à la suite d’une panne ou d’un sinistre,
- Analyser ses données en les associant aux bons outils,
- Utiliser le modèle financier qui répond le mieux à ses besoins : dépenses de fonctionnement ou dépenses d’investissement.
Il existe bon nombre de raisons valables pour avoir recours aux services infonuagiques dans le cadre de votre architecture de données. Cependant, l’utilisation de ces services comporte le risque de perdre le contrôle sur vos données si vous omettez de prendre certaines précautions. Si vous créez votre architecture directement dans le nuage, vous devrez assumer d’énormes frais de transfert et, par le fait même, soumettrez votre entreprise à des contraintes artificielles. En effet, en raison de ces frais, une décision d’affaires qui devrait être simple et rapide à prendre, p. ex. la décision de quitter un fournisseur infonuagique pour un autre qui offre un meilleur service, devient complexe et coûteuse en temps et argent.
Dans un autre billet, j’ai expliqué ce qu’est un noyau de données fiables (en anglais) et l’importance pour les entreprises de conserver leur noyau de données à l’extérieur du nuage. Le noyau de données fiables ne représente pas un endroit particulier, mais plutôt une couche logique au centre de l’architecture de données. Vous devez pouvoir agréger des données dans votre noyau à partir de différentes sources situées à la périphérie. Aussi devez-vous pouvoir migrer ces données là où vous en avez besoin pour divers usages, soit en amont vers différents fournisseurs infonuagiques, soit en aval vers des endroits situés à la périphérie.
Dans ce billet, j’expliquais également quatre modèles de transfert de données qui permettent aux entreprises de bénéficier de services infonuagiques sur demande et de minimaliser l’effet des frais de transfert de données.
Bâtir une architecture de données qui tient compte des exigences particulières des charges de travail distribuées associées à l’IA
Dans le cas de l’IA, les différentes charges de travail viennent avec différentes exigences, d’où la nécessité de les héberger dans différents endroits. C’est pourquoi les entreprises doivent se doter d’une infrastructure numérique distribuée qui permet de migrer rapidement leurs données de la périphérie dans le nuage, et vice versa.
Supposant que vous décidez d’entraîner un modèle dans le nuage afin de tirer profit des services de LLM offerts par un fournisseur particulier. Toutefois, vos charges de travail d’ingénierie et de mise au point des données comprennent peut-être des données sensibles que vous ne souhaitez pas exposer dans le nuage. Vous pouvez alors choisir de conserver ces charges de travail dans le noyau et d’utiliser vos ressources informatiques privées ou un service de serveur sans système d’exploitation sur demande (en anglais) pour les traiter. Après l’entraînement des modèles, vous pouvez les transférer à la périphérie pour exécuter des charges de travail d’inférence sensible au temps de latence.
Idéalement, l’architecture de données pour l’IA ou tout autre usage avancé de données devrait combiner des solutions de stockage évolutives avec des capacités d’interconnexion programmatiques agiles, tel qu’illustré dans le graphique ci-dessous. Cette conception permet de créer des connexions virtuelles vers d’autres nuages ou de nouveaux endroits périphériques, au besoin. Les données peuvent migrer rapidement là où elles sont requises pour exécuter les différentes charges de travail mentionnées ci-dessus. Puisque les copies des données du noyau sont conservées à l’extérieur du nuage, les frais de transfert et la prise en otage de données ne constituent pas d’enjeux. Lorsque vous êtes prêts à vous retirer d’un nuage, vous pouvez simplement supprimer la copie de données de ce nuage et recommencer avec une nouvelle copie dans un nuage différent.
Authoritative Data Core | Noyau de données fiables |
EU Compute | EU infrastructure TI |
Burst | Rafale |
Data Center | Centre de données |
Site A – Primary Site | Site A- site primaire |
Site B – Secondary Site | Site B – site secondaire |
Soulignons que le noyau de données fiables ne représente ni une recommandation ni une pratique exemplaire. Il s’agit d’une direction prise par l’industrie. Tôt ou tard, toutes les entreprises adopteront cette architecture de données, que ce soit avec ou sans intention. Or, celles qui le font sciemment dès maintenant pourront bénéficier plus rapidement des avantages de choix et de flexibilité. Ainsi, elles bénéficieront de l’avantage de pouvoir utiliser les meilleurs et plus récents services avant leurs concurrents, p. ex ceux qui alimentent les applications d’IA.
Comment Equinix peut-elle vous aider?
Vous ne pouvez acheter un noyau de données fiable pour l’IA auprès d’un vendeur quelconque ni l’assembler vous-mêmes. Il constitue une cible pour votre organisation afin que vous puissiez prendre de futures décisions d’une manière qui vous en approche progressivement.
Le choix du bon partenaire pour votre infrastructure numérique constitue une étape cruciale pour atteindre cet objectif. Seule Equinix peut offrir l’accès à tous les plus importants fournisseurs infonuagiques de différentes zones métropolitaines au monde et, par conséquent, garantir la connectivité à faible latence requise pour le stockage adjacent à de multiples nuages. En outre, les services numériques d’Equinix (en anglais) peuvent servir de composantes centrales de votre architecture de données en offrant des capacités d’interconnexion définies par logiciel, la mise en réseau multinuage, ainsi que des capacités de calcul sans système d’exploitation à locataire unique et sur demande.
En résumé, Platform Equinix® représente la fondation idéale pour commencer à développer votre noyau de données fiables afin de garder le contrôle sur vos données et permettre à votre organisation d’utiliser tout le potentiel de la technologie d’IA.
Pour savoir comment les organisations chefs de file développent l’infrastructure numérique distribuée et interconnectée afin de maximiser leur avantage concurrentiel aujourd’hui et de se préparer à l’avenir, consultez le Guide des chefs de file sur l’infrastructure numérique.
[1] Dan Milmo, « ChatGPT reaches 100 million users two months after launch », The Guardian, 2 février 2023.
[2] Rachel Metz, « OpenAI Unveils ChatGPT for Businesses, Stepping Up Revenue Push », Bloomberg, 28 août 2023.