Les nouveaux cas d’utilisation de l’IA notamment les véhicules autonomes, la surveillance continue de la santé et l’analyse des fraudes en temps réel, deviennent de toujours plus courants. Dans ce contexte, les entreprises ont de plus en plus besoin d’un traitement de données ultra-rapide à proximité du lieu où elles sont générées et utilisées. Parallèlement, les préoccupations en matière de confidentialité des données, les lois sur la souveraineté des données ainsi que d’autres réglementations les incitent à conserver les données aussi près que possible de la source.
La croissance rapide de l’IA en tant que technologie d’entreprise essentielle a incité les entreprises à commencer à reconnaître l’importance des déploiements en périphérie dans leur architecture informatique globale. Celles qui ont privilégié le cloud ou un datacentres sur site font l’amère expérience des limites des modèles de traitement centralisés pour les charges de travail d’inférence d’IA sensibles à la latence.
Si vous traitez des charges de travail d’IA dans le cloud :
- vous avez moins de contrôle sur les données, ce qui peut vous exposer à des problèmes de conformité.
- vos coûts de transfert des données vers le cloud et depuis celui-ci sont plus élevés, à la fois en raison des frais de sortie et du coût du réseau de transport.
- le transfert de données est chronophage pour les cas d’utilisation sensibles à la latence, ce qui rend l’inférence de l’IA en temps réel impossible.
- même si des régions cloud locales sont disponibles, vous devez toujours payer des frais de sortie pour déplacer les données vers un emplacement central à des fins d’entraînement.
Si vous traitez des charges de travail de l’IA dans un datacentres centralisé :
- vous avez plus de contrôle sur les données qu’avec le cloud, mais l’emplacement peut ne pas répondre aux exigences de résidence des données.
- la latence reste élevée, en plus d’une congestion du réseau pour le transfert de données.
- votre scalabilité à mesure que les volumes de données augmentent peut être limitée.
Dans les deux cas, les modèles de traitement centralisés peuvent provoquer des goulots d’étranglement pour les charges de travail de l’IA en raison de la distance que les données doivent parcourir et peuvent épuiser le budget de l’IA. Certaines organisations qui en sont aux premiers stades de l’IA pensent que leur configuration actuelle de cloud ou de datacentres est suffisamment bonne. Pourtant, quand vient le temps de déplacer les projets d’IA des phases de tests vers la production, cette infrastructure peut compromettre les capacités en matière d’IA.
La meilleure voie à suivre est une approche distribuée de l’IA, dans laquelle certains aspects clés d’un flux de travail d’IA ont lieu dans des emplacements périphériques et d’autres dans un datacentre centralisé. L’inférence de l’IA, le réglage fin et certains entraînements spécifiques au domaine doivent intervenir à la périphérie pour une latence la plus faible, tandis que l’entraînement général du modèle d’IA peut se faire dans une infrastructure centralisée ou dans le cloud où il est plus facile de mettre à l’échelle et d’agréger plusieurs sources de données. Pour cette approche, il est nécessaire de tirer parti d’une infrastructure hybride interconnectée qui intègre des hubs numériques dans des emplacements périphériques. Les organisations qui ne disposent pas actuellement d’une stratégie de pointe en auront besoin, car rapprocher la puissance de calcul des sources de données permet le traitement à faible latence qu’exigent les applications d’IA.
Importance de la latence pour l’IA
Trois aspects de la latence sont à prendre en compte pour les applications d’IA :
- Le temps nécessaire pour déplacer les données de l’objet générant ces données vers le nœud d’inférence
- Le temps nécessaire au nœud d’inférence pour traiter les données avec le modèle entraîné
- Le temps dont le nœud d’inférence a besoin pour répondre avec une action sur un périphérique ou pour fournir un rapport
Ces transferts de données peuvent ne prendre que quelques millisecondes si vous vous trouvez dans un emplacement périphérique. Mais, si vous devez acheminer les données vers un emplacement central, la latence peut être préjudiciable.
Figure 1 : L’utilisation d’un datacentre centralisé peut augmenter les coûts et le temps de transfert des données
Une faible latence est particulièrement importante pour l’inférence de l’IA, car elle peut avoir un impact négatif sur l’expérience utilisateur, les coûts d’exploitation, voire la vie et la sécurité humaines. Prenons les exemples suivants :
- Les véhicules autonomes doivent être capables de réagir instantanément lorsque les données des capteurs indiquent qu’il y a un piéton devant eux afin de prévenir les accidents.
- Les systèmes d’ambulance connectés utilisent des nœuds de périphérie de réseau pour traiter en temps réel les signes vitaux des patients et les données diagnostiques pendant le transport, ce qui aide les hôpitaux à se préparer aux urgences entrantes.
- Les services publics et les sociétés de production d’énergie doivent réagir rapidement aux changements climatiques et aux situations d’urgence pour des raisons de sécurité.
- Dans l’automatisation industrielle, les modèles d’IA en périphérie analysent instantanément les données des capteurs et des caméras, offrant ainsi la possibilité de réagir immédiatement aux événements critiques tels que les anomalies d’équipement, les défauts de produit ou les changements environnementaux soudains comme les pics de température.
Dans tous ces cas, les organisations ne peuvent pas se permettre la latence qu’implique le traitement centralisé ou basé sur le cloud.
L’inférence de l’IA doit intervenir à la périphérie
Étant donné que l’entraînement de l’IA implique de gros volumes de données et n’est généralement pas limitée par la latence, le traitement centralisé est logique. L’infrastructure centralisée est mieux équipée pour gérer l’échelle nécessaire et l’entraînement peut être interrompu en attendant de recevoir de nouvelles données.
L’inférence de l’IA, en revanche, est déclenchée par de nouvelles données que les appareils envoient et reçoivent. Comme un nœud d’inférence doit réagir rapidement à ces données, elles n’ont pas le temps de revenir à un emplacement central pour être traitées. Si le nœud d’inférence est proche des données, il peut déclencher une action en temps réel. Grâce à des nœuds d’inférence situés à différents emplacements périphériques de l’infrastructure de l’entreprise, les entreprises peuvent améliorer la disponibilité des services et déployer des modèles d’IA spécifiques au domaine qui fonctionnent avec un ensemble de données plus restreint et peuvent conduire à un entraînement plus rapide et à des besoins informatiques réduits. Les exemples incluent l’analyse de l’imagerie médicale ou l’aide au diagnostic des maladies. L’infrastructure en périphérie rend également possibles des services spécifiques à l’emplacement comme l’analyse vidéo en temps réel pour la sécurité des aéroports.
L’IA à la périphérie ne se limite pas à la latence. Elle présente également des avantages en termes de coût et de confidentialité. Pour l’exemple des ambulances connectées ci-dessus, le traitement des données localement à la périphérie du réseau peut réduire considérablement la latence par rapport aux solutions uniquement basées sur le cloud. Il permet, par exemple, de donner des alertes en temps réel comme dans le cas de la détection d’un accident vasculaire cérébral. Ces alertes peuvent faire gagner des minutes vitales dans les soins d’urgence. De plus, le traitement local des données minimalise l’utilisation de la bande passante et améliore la confidentialité des données en transmettant uniquement les résumés essentiels. Cette solution permet de protéger les informations sensibles des patients tout en maintenant l’efficacité opérationnelle. De même, dans l’automatisation industrielle, l’IA de pointe peut éliminer les retards du traitement basé sur le cloud et garantir une prise de décision immédiate. Cette solution peut contribuer à améliorer l’efficacité opérationnelle, réduire les temps d’arrêt et améliorer la sécurité globale et la qualité des produits dans les environnements de fabrication et industriels.
Rôle de la technologie réseau dans l’informatique de pointe pour l’IA
Les nouvelles technologies de réseau, comme l’accès direct à la mémoire à distance (RDMA), font office de solutions révolutionnaires en répondant aux défis des réseaux « longs et lourds », c’est-à-dire ceux qui présentent une bande passante et une latence élevées sur de longues distances. Le RDMA permet un accès direct à la mémoire entre les systèmes sans impliquer le processeur, ce qui réduit considérablement la latence et augmentant le débit. Ceci est crucial pour les charges de travail d’IA qui nécessitent des transferts de données rapides et à grande échelle entre les nœuds d’inférence de périphérie et les clusters d’entraînement centralisés.
Le RDMA et le calcul à la périphérie peuvent fonctionner ensemble pour limiter la latence de l’IA. Le RDMA accélère le transfert et l’agrégation des données, et l’infrastructure en périphérie réduit la distance à parcourir pour le traitement. Le RDMA contribue ainsi à l’adoption d’une approche distribuée de l’IA en permettant une distribution stratégique des données entre l’infrastructure périphérique et l’infrastructure principale. D’un point de vue commercial, l’adoption de telles solutions accélère non seulement les cycles de déploiement de l’IA, mais améliore également l’efficacité opérationnelle, ce qui permet d’obtenir des informations en temps réel et une innovation plus rapide à grande échelle.
Une infrastructure de périphérie interconnectée
À l’ère de l’intelligence pilotée par les données, le calcul à la périphérie est devenu incontournable. En fin de compte, le succès de l’IA repose sur la collaboration entre l’entraînement centralisée et l’inférence locale. Pour y parvenir, vous avez besoin d’une infrastructure de périphérie interconnectée aux bons endroits, à proximité de vos sources de données et de vos utilisateurs finaux, et connectée aux clouds, aux fournisseurs de SaaS et aux autres partenaires de votre écosystème d’IA.
Figure 2 : Pôles numériques interconnectés à la périphérie
Avec plus de 270 datacentres répartis sur 76 marchés à travers le monde, Equinix dispose de la portée mondiale nécessaire pour prendre en charge vos déploiements périphériques pour l’IA. Dans nos datacentres haute performance et compatibles avec l’IA, vous pouvez déployer une infrastructure flexible là où vous en avez besoin tout en optimisant les coûts et en maintenant la conformité réglementaire.
Pour en savoir plus sur l’importance du calcul à la périphérie pour réduire la latence du réseau pour l’IA, téléchargez notre livre blanc « Informatique à la périphérie et opportunités d’IA ».

