Latency Tax: come l’elaborazione centralizzata ostacola le iniziative di AI

Per ottenere il massimo dall’AI in tempo reale, serve una strategia che porti l’inferenza all’edge.

Marco Zacchello
Latency Tax: come l’elaborazione centralizzata ostacola le iniziative di AI

Con l’avvento di nuovi casi d’uso dell’AI, come i veicoli a guida autonoma, il monitoraggio continuo della salute e le analisi delle frodi in tempo reale, le aziende hanno sempre più bisogno di un’elaborazione dei dati ultraveloce, vicina al luogo in cui i dati vengono generati e utilizzati. Parallelamente, le preoccupazioni legate alla privacy e alle leggi sulla sovranità dei dati, spingono le aziende a mantenere le informazioni il più vicino possibile al luogo in cui vengono elaborate.

Con la rapida crescita dell’AI come tecnologia strategica per le imprese, sempre più aziende stanno riconoscendo il valore delle soluzioni all’edge all’interno della propria architettura IT. Chi ha puntato a modelli centrallizati, affidandosi al cloud o a data center on-premise, si sta scontrando con i limiti di questi approcci nel gestire i carichi di inferenza AI sensibili alla latenza.

Se l’elaborazione dell’AI avviene nel cloud:

  • Il controllo sui dati è inferiore, con conseguenti problemi di conformità
  • Il trasferimento dei dati dentro e fuori dal cloud comporta costi più elevati, sia a causa delle tariffe di data egress sia a causa del costo della rete di trasporto.
  • Il trasferimento dei dati richiede troppo tempo nei casi d’uso sensibili alla latenza, rendendo impossibile l’inferenza in tempo reale.
  • Anche se sono disponibili regioni cloud locali, si devono comunque pagare tariffe di trasferimento dati verso una cloud region centrale dove avviene l’addestramento.

Se l’elaborazione dell’AI avviene in un data center centralizzato:

  • Il controllo sui dati è maggiore rispetto al cloud, ma la sede potrebbe non soddisfare i requisiti di residenza dei dati
  • Si continuano comunque a riscontrare latenze più elevate e congestione di rete nel trasferimento dei dati
  • La scalabilità potrebbe essere limitata al crescente volume di dati

In entrambi i casi, i modelli di elaborazione centralizzati possono creare ostacoli per i carichi di lavoro dell’AI, a causa della distanza che i dati devono percorrere – con un impatto significativo anche sui costi, che rischiano di assorbire gran parte del  budget destinato all’AI. Alcune organizzazioni nelle fasi iniziali dell’adozione dell’AI ritengono che la loro attuale infrastruttura basata su cloud o data center sia sufficiente, ma quando arriva il momento di portare i progetti AI dalla fase di test alla produzione, quell’infrastruttura può compromettere le capacità dell’AI.

La soluzione migliore è adottare un approccio distribuito all’AI, in cui alcune fasi chiave del flusso di lavoro vengono gestite all’edge, mentre altre si svolgono in data center centralizzati. L’inferenza dell’AI, il fine-tuning e alcune attività di addestramento specifiche per dominio dovrebbero avvenire all’edge, dov’è possibile garantire la latenza più bassa. Al contrario,  l’addestramento generale dei modelli AI, può essere effettuato su infrastrutture centralizzate o nel cloud, dove la scalabilità e l’aggregazione di molteplici fonti di dati è più semplice. Questo approccio richiede lo sfruttamento di un’infrastruttura ibrida interconnessa che integri hub digitali all’edge. Le organizzazioni che attualmente non dispongono di una strategia all’edge ne avranno bisogno, perché avvicinare la potenza di calcolo alle fonti dei dati consente di ottenere l’elaborazione a bassa latenza richiesta dalle applicazioni AI.

Perché la latenza è importante per l’AI

Ci sono tre aspetti della latenza da considerare per le applicazioni AI:

  1. Il tempo necessario per spostare i dati dall’oggetto che che li genera, al nodo di inferenza
  2. Il tempo impiegato dal nodo di inferenza per elaborare i dati con il modello addestrato
  3. Il tempo impiegato dal nodo di inferenza per rispondere con un’azione su un dispositivo o per fornire un report.

Questi trasferimenti di dati potrebbero richiedere solo pochi millisecondi se gestiti all’edge, ma quando è necessario eseguire il backhaul in una sede centrale, la latenza potrebbe diventare un fattore critico.

Figura 1: L’utilizzo di un data center centralizzato può aumentare i costi e i tempi di trasferimento dei dati

La bassa latenza è particolarmente importante per l’inferenza perché può influire negativamente sulla user experience, sui costi aziendali e persino sulla vita e sulla sicurezza delle persone. Vediamo alcuni esempi:

  • I veicoli a guida autonoma per evitare gli incidenti devono essere in grado di reagire istantaneamente quando i dati dei sensori indicano la presenza di un pedone davanti a loro.
  • I sistemi di ambulanze connesse utilizzano nodi edge per elaborare i parametri vitali e i dati diagnostici dei pazienti in tempo reale durante il trasporto, aiutando gli ospedali a prepararsi alle emergenze in arrivo.
  • Le aziende di servizi pubblici e di produzione di energia per motivi di sicurezza devono reagire rapidamente ai cambiamenti meteorologici e alle emergenze.
  • Nel settore dell’automazione industriale, i modelli AI all’edge analizzano istantaneamente i dati dei sensori e delle telecamere, consentendo risposte immediate a eventi critici quali anomalie delle apparecchiature, difetti dei prodotti o improvvisi cambiamenti ambientali, come ad esempio i picchi di temperatura.

In tutti questi casi, le organizzazioni non possono permettersi la latenza che comporta l’elaborazione centralizzata o basata sul cloud.

L’inferenza dell’AI deve essere gestita all’edge

Poiché l’addestramento dell’AI coinvolge grandi volumi di dati, ma non è particolarmente sensibile alla latenza, l’elaborazione centralizzata rappresenta una scelta logica. Questo tipo di infrastruttura è infatti più adatto a gestire operazioni su larga scala e consente di mettere in pausa il training, in attesa di nuovi dati da elaborare.

L’inferenza, a differenza dell’addestramento, si alimenta di nuovi dati inviati e ricevuti dai dispositivi. Per garantire una risposta immediata, il nodo di inferenza deve trovarsi vicino: non c’è tempo per inviarli a una sede centrale per l’elaborazione. Quando l’inferenza avviene all’edge, è possibile innescare processi in tempo reale. Distribuendo nodi di inferenza in diversi sedi all’interno dell’infrstruttura aziendale, le organizzazioni possono migliorare la disponibilità del servizio e implementare modelli specializzati (Domain Specific Language Model – DSLM). Questi modelli  operano su set di dati più ristretti, richiedono minor potenza di calcolo e possono essere addestrati più rapidamente. Alcuni esempi includono l’analisi di immagini mediche o il supporto nella diagnosi delle malattie. L’infrastruttura all’edge consente anche servizi specifici per ciascuna sede, come l’analisi video in tempo reale per la sicurezza negli aeroporti.

Tuttavia, l’AI all’edge non riguarda solo la latenza, ma offre anche vantaggi in termini di costi e privacy. Nel caso delle ambulanze connesse sopra citato, l’elaborazione dei dati in rete all’edge può ridurre in modo significativo la latenza rispetto alle soluzioni basate esclusivamente su cloud, consentendo così l’invio di allarmi in tempo reale, come il rilevamento di un ictus, che possono far risparmiare minuti preziosi nei soccorsi d’emergenza. Inoltre, l’elaborazione locale dei dati riduce al minimo l’utilizzo della larghezza di banda e migliora la privacy dei dati trasmettendo solo i riepiloghi essenziali. In questo modo si salvaguardano le informazioni sensibili dei pazienti mantenendo al contempo l’efficienza operativa. Allo stesso modo, nell’automazione industriale, l’AI all’edge può eliminare i ritardi dell’elaborazione basata su cloud e garantire che le decisioni vengano prese in tempo reale. Ciò può contribuire a migliorare l’efficienza operativa, ridurre i tempi di inattività, aumentare la sicurezza complessiva e la qualità dei prodotti negli ambienti industriali e di produzione.

Il ruolo della tecnologia di rete nell’edge computing per l’AI

Nuove tecnologie di rete, come il Remote Direct Memory Access (RDMA), stanno emergendo come elementi rivoluzionari perché affrontano le sfide delle Long Fat Networks (LFNs), ovvero quelle con elevata larghezza di banda e latenza su grandi distanze. La tecnologia RDMA consente l’accesso diretto alla memoria tra sistemi senza coinvolgere la CPU, riducendo significativamente la latenza e aumentando la produttività. Ciò è fondamentale per i carichi di lavoro AI che richiedono trasferimenti di dati rapidi e su larga scala tra nodi di inferenza all’edge e cluster di addestramento centralizzati.

La tecnologia RDMA e l’edge computing possono collaborare per ridurre al minimo la latenza dell’AI. La tecnologia RDMA velocizza il trasferimento e l’aggregazione dei dati, mentre l’infrastruttura all’edge riduce la distanza che i dati devono percorrere per essere elaborati. La tecnologia RDMA favorisce quindi l’adozione di un approccio distribuito all’AI, consentendo la distribuzione strategica dei dati tra infrastrutture edge e core. Dal punto di vista aziendale, adottare queste soluzioni non solo accelera i cicli di distribuzione dell’AI, ma migliora anche l’efficienza operativa, consentendo informazioni in tempo reale e un’innovazione più rapida su larga scala.

Un’infrastruttura all’edge interconnessa

Nell’era dell’intelligenza basata sui dati, l’edge computing è un must. Il successo dell’AI dipende in ultima analisi dalla collaborazione tra addestramento centralizzato e inferenza locale. Per raggiungere questo obiettivo serve un’infrastruttura all’edge interconnessa, nelle sedi giuste, vicino alle fonti dei dati e agli utenti finali e connessa a cloud, provider di servizi SaaS e ad altri partner all’interno del proprio ecosistema AI.

 

Figura 2: Hub digitali interconnessi all’edge

Con oltre 270 data center distribuiti in 76 mercati a livello globale, Equinix offre la copertura necessaria per supportare le soluzioni AI distribuite all’edge. Nei data center ad alte prestazioni predisposti per l’AI è possibile distribuire un’infrastruttura flessibile esattamente dove serve, ottimizzando i costi e garantendo la conformità alle normative.

Per saperne di più sull’importanza dell’edge computing nel ridurre la latenza di rete per l’AI, scarica il nostro whitepaper Dove l’edge incontra l’opportunità dell’AI.

Avatar photo
Marco Zacchello Global Principal
Subscribe to the Equinix Blog