Business strategy reports, business matching and M&A in Japan

文字のサイズ

Cómo maximizar el rendimiento de la IA en la nube y en los dispositivos periféricos

Hasta ahora, maximizar el rendimiento de la nube y los dispositivos periféricos con IA ha requerido ingeniería especializada y vastos recursos.
En este contexto, Arm ha anunciado la integración de la tecnología Arm Kleidi con PyTorch y ExecuTorch, lo que permite a las aplicaciones de próxima generación ejecutar modelos de lenguaje a gran escala (LLM) en las CPU Arm.
Esto extiende los beneficios del rendimiento de la IA desde el borde a la nube, permitiendo la creación de aplicaciones de próxima generación capaces de ejecutar modelos de lenguaje a gran escala en CPUs Arm.

Los desarrolladores podrán adoptar los últimos modelos generativos de IA en toda la pila y utilizar inmediatamente el rendimiento de inferencia significativamente mejorado.
La colaboración con los proveedores de servicios en la nube y las empresas líderes de la comunidad ML ISV también proporcionará más apoyo a los desarrolladores de IA.
Los resultados ya confirmados incluyen la primera respuesta de chat en tiempo real en PyTorch de línea principal con el chatbot de demostración de Arm que se ejecuta en un procesador AWS Graviton, empleando el modelo de lenguaje a gran escala Meta Llama 3.

En este ejemplo, el tiempo hasta el primer token fue 2,5 veces más rápido medido por AWS Graviton4 tras integrar la tecnología Kleidi en la base de código PyTorch de código abierto.
El informe detalla las nuevas tecnologías destinadas a maximizar el rendimiento de la IA en la nube y en los dispositivos periféricos, y cómo se están utilizando estas tecnologías sobre el terreno.