文字のサイズ
- 小
- 中
- 大
Retos y soluciones para modelos lingüísticos LLM a gran escala.
A medida que evoluciona la tecnología de IA, los últimos modelos lingüísticos a gran escala (LLM) se ejecutan en todos los entornos, desde la nube hasta los bordes, y son esenciales para maximizar el potencial y las oportunidades de la IA.
Sin embargo, el reto es que consumen muchos recursos computacionales y energía.
Para hacer frente a este problema, Meta ha lanzado la última versión de su LLM de código abierto (Llama 3.2) con una mayor eficiencia para proporcionar rápidamente a los usuarios una experiencia de IA rápida sin precedentes.
Ejecutando el último LLM en una CPU Arm, se ha logrado una mejora de 5x en el procesamiento de solicitudes y de 3x en la generación de tokens, alcanzando 19,92 tokens/segundo en la fase de generación.
Se han observado mejoras de latencia, sobre todo al procesar cargas de trabajo de IA en dispositivos, lo que permite un procesamiento de IA más eficiente. Aumentar el procesamiento de IA en la periferia también reduce la energía y los costes al reducir el consumo de energía debido a los datos que viajan hacia y desde la nube.
El rendimiento de la IA en las CPU Arm ha mejorado drásticamente, y se espera que más de 100.000 millones de dispositivos basados en Arm estén habilitados para la IA en el futuro. Se espera que la IA se utilice cada vez más en la vida cotidiana y en los negocios.
Obtenga más información sobre la última versión de código abierto desarrollada conjuntamente por Arm y Meta y sobre cómo las tecnologías de IA de rápida aceleración, especialmente herramientas como “Kleidi” y “PyTorch”, han contribuido a mejorar el rendimiento de la IA. De interés.