El impuesto de latencia: Cómo el procesamiento centralizado afecta sus iniciativas de IA

Para maximizar los resultados en tiempo real con IA, las empresas deben ser estratégicas al llevar la inferencia al edge

Marco Zacchello
El impuesto de latencia: Cómo el procesamiento centralizado afecta sus iniciativas de IA

A medida que los casos de uso emergentes de IA, como los vehículos autónomos, el monitoreo continuo de la salud y el análisis de fraude en tiempo real, se generalizan, se hace cada vez más necesario para las empresas un procesamiento de datos ultrarrápido cerca de donde se generan y utilizan dichos datos. Simultáneamente, las preocupaciones sobre la privacidad, leyes de soberanía y otras regulaciones sobre los datos los motivan a mantenerlos lo más cerca posible de la fuente.

Con el rápido crecimiento de la IA como una tecnología empresarial esencial, las empresas han comenzado a reconocer la importancia de las implementaciones en el edge como parte de su arquitectura de TI general. Aquellos que han confiado en la nube o en un data center local experimentan las limitaciones de los modelos de procesamiento centralizado para cargas de trabajo de inferencia de IA sensibles a la latencia.

Si usted realiza procesamiento de IA en la nube:

  • Tiene menos control sobre los datos, lo que puede generar problemas de cumplimiento de regulaciones.
  • Afronta costos más elevados al transferir datos dentro y fuera de la nube, tanto por las tarifas de salida como por el costo de la red de transporte.
  • La transferencia de datos requiere demasiado tiempo para casos de uso sensibles a la latencia e imposibilitan la inferencia de IA en tiempo real.
  • Incluso si hay regiones de nube locales disponibles, aún tendrá que pagar tarifas de salida para trasladar datos a una ubicación central para el entrenamiento.

Si realiza procesamiento de IA en un data center centralizado:

  • Tiene más control de los datos que con la nube, pero es posible que la ubicación no cumpla con los requisitos de residencia de datos.
  • Todavía enfrenta una latencia más alta y congestión de red a la hora de transferir datos.
  • Es posible que tenga una capacidad de escalamiento limitada a medida que crecen los volúmenes de datos.

En ambos casos, los modelos de procesamiento centralizados pueden generar cuellos de botella para las cargas de trabajo de IA debido a las distancias que deben recorrer los datos y el agotamiento del presupuesto para IA. Algunas organizaciones en las primeras etapas de implementación de la IA piensan que su configuración actual de nube o data center es lo suficientemente buena, pero, cuando llega el momento de trasladar los proyectos de IA de las pruebas a la producción, esa infraestructura puede socavar sus capacidades de IA.

La mejor manera de avanzar es con un enfoque distribuido de la IA, donde algunos aspectos clave de un flujo de trabajo de IA ocurren en ubicaciones en el edge y otros tienen lugar en un data center centralizado. La inferencia de IA, el ajuste fino y algunas necesidades de entrenamiento específicas del dominio deben realizarse en el edge para obtener la latencia más baja, mientras que el entrenamiento general del modelo de IA se puede realizar en una infraestructura centralizada o en la nube, donde es más fácil escalar y agregar múltiples fuentes de datos. Este enfoque requiere aprovechar una infraestructura híbrida interconectada que incorpore hubs digitales en ubicaciones en el edge. Las organizaciones que actualmente no tienen una estrategia para el edge necesitarán una, porque acercar la capacidad de cómputo a las fuentes de datos hace posible el procesamiento de baja latencia que exigen las aplicaciones de IA.

Por qué la latencia es importante para la IA

Hay tres aspectos de la latencia a tener en cuenta para las aplicaciones de IA:

  1. El tiempo que se tarda en transportar datos desde el objeto que los genera al nodo de inferencia
  2. El tiempo que tarda el nodo de inferencia en procesar los datos con el modelo entrenado
  3. El tiempo que tarda el nodo de inferencia en responder con una acción en un dispositivo o en proporcionar un informe

Estas transferencias de datos podrían tardar solo unos milisegundos si se encuentra en una ubicación en el edge, pero si debe transportar los datos a una ubicación central, dicha latencia podría ser perjudicial.

Figura 1: Usar un data center centralizado puede aumentar los costos y el tiempo que toman las transferencias de datos

La baja latencia es especialmente importante para la inferencia de IA porque puede afectar negativamente las experiencias de los usuarios, los costos comerciales e incluso la vida y la seguridad humanas. Considere los siguientes ejemplos:

  • Los vehículos autónomos deben tener la capacidad responder instantáneamente cuando los datos del sensor indican que hay un peatón adelante para evitar accidentes.
  • Los sistemas de ambulancia conectados utilizan nodos de Network Edge para procesar en tiempo real los signos vitales y datos de diagnóstico del paciente durante su transporte, lo que ayuda a los hospitales a prepararse para las emergencias entrantes.
  • Las empresas de servicios públicos y de producción de energía deben responder rápidamente a los cambios climáticos y las emergencias por razones de seguridad.
  • En la automatización industrial, los modelos de IA en el edge analizan datos de sensores y cámaras al instante, para hacer posibles respuestas inmediatas a eventos críticos como anomalías en equipos, defectos de productos o cambios ambientales repentinos como picos de temperatura.

En todos estos casos, las organizaciones no pueden permitirse la latencia que conlleva el procesamiento centralizado o basado en la nube.

La inferencia de IA tiene que ocurrir en el edge

Dado que el entrenamiento de IA implica grandes volúmenes de datos y, en gran medida, no está limitado por la latencia, el procesamiento centralizado tiene sentido. La infraestructura centralizada está mejor equipada para manejar la escala necesaria y el entrenamiento puede pausarse mientras se espera recibir datos nuevos.

La inferencia de IA, por otro lado, se activa cuando se envían y reciben datos nuevos de los dispositivos. Un nodo de inferencia necesita reaccionar a esos datos rápidamente, por lo que no hay tiempo para que regresen a una ubicación central para su procesamiento. Si el nodo de inferencia está cerca de los datos, puede iniciar una acción en tiempo real. Con nodos de inferencia en varias ubicaciones edge en toda la infraestructura empresarial, las empresas pueden mejorar la disponibilidad del servicio y desplegar modelos de IA específicos de dominio que funcionen con un conjunto de datos más reducido y puedan conducir a un entrenamiento más rápido y menores requisitos de computación. Los ejemplos incluyen análisis de imágenes médicas o asistencia en el diagnóstico de enfermedades. La infraestructura en el edge también hace posibles servicios específicos para una ubicación como análisis de video en tiempo real para seguridad en aerpouertos.

Edge AI no se trata solo de latencia, además también hay beneficios de costo y privacidad. Para el ejemplo de ambulancias conectadas que se mencionó anteriormente, procesar datos localmente en el   Edgede la red puede reducir significativamente la latencia en comparación con las soluciones basadas solo en la nube, hacen posible alertas en tiempo real como la detección de accidentes cerebrovasculares que pueden ahorrar minutos vitales en la atención de emergencias. Además, el procesamiento local de datos minimiza el uso de ancho de banda y mejora la privacidad de los datos al transmitir solo resúmenes esenciales. Esto protege la información confidencial del paciente mientras se mantiene la eficiencia operativa. Del mismo modo, en la automatización industrial, la IA en el edge puede eliminar los retrasos del procesamiento basado en la nube y garantizar que las decisiones se tomen en tiempo real. Esto puede ayudar a mejorar la eficiencia operativa, reducir el tiempo de inactividad y mejorar la seguridad y la calidad general del producto en entornos industriales y de manufactura.

El papel de la tecnología de red en la computación en el edge para la IA

Las nuevas tecnologías de red, como el acceso directo a memoria remota (RDMA), surgen como alternativas revolucionarias al abordar los desafíos de las redes “largas y gruesas”, es decir, aquellas con alto ancho de banda y latencia en distancias extendidas. El RDMA permite el acceso directo a la memoria entre sistemas sin involucrar a la CPU, lo que reduce significativamente la latencia y aumenta el rendimiento. Esto es crucial para las cargas de trabajo de IA que requieren transferencias de datos rápidas y a gran escala entre nodos de inferencia en el edge y clústeres de entrenamiento centralizados.

El RDMA y la computación en el edge pueden trabajar juntos para minimizar la latencia de la IA. El RDMA acelera la transferencia y agregación de datos, y la infraestructura en el edge acorta la distancia que tiene que recorrer para su procesamiento. De esta forma, el RDMA ayuda a adoptar un enfoque distribuido para la IA al permitir la distribución estratégica de datos entre la infraestructura central y la del edge. Desde una perspectiva empresarial, la adopción de estas soluciones no solo acelera los ciclos de implementación de IA, sino que también mejora la eficiencia operativa, lo que permite obtener información en tiempo real y una innovación más rápida a escala.

Una infraestructura en el edge interconectada

En la era de la inteligencia basada en datos, la computación en el edge es imprescindible. El éxito de la IA depende en última instancia de la colaboración entre el entrenamiento centralizado y la inferencia local. Para lograr esto, necesita una infraestructura en el edge interconectada en las ubicaciones adecuadas, cerca de sus fuentes de datos y usuarios finales, y conectada a nubes, proveedores de SaaS y otros socios en su ecosistema de IA.

 

Figura 2: Hubs digitales interconectados en el edge

Con más de 270 data center en 76 mercados alrededor del mundo, Equinix tiene el alcance global para respaldar sus implementaciones de en el edge para la IA. En nuestros data center de alto rendimiento y preparados para la IA, puede implementar una infraestructura flexible donde la necesite mientras optimiza los costos y mantiene el cumplimiento normativo.

Para obtener más información sobre la importancia de la computación en el edge para reducir la latencia de red en la IA, descargue nuestro informe oficial Dónde el edge se encuentra con la oportunidad de la IA.

Avatar photo
Marco Zacchello Global Principal
Subscribe to the Equinix Blog