文字のサイズ
- 小
- 中
- 大
Experiencia de IA rápida sin precedentes. La velocidad de procesamiento de la inteligencia artificial se ha multiplicado por 5.
A medida que evoluciona la tecnología de la IA, los LLM, los últimos modelos lingüísticos a gran escala, funcionan en todos los entornos, desde la nube hasta el borde, y son indispensables para maximizar el potencial y las oportunidades de la IA.
El reto, sin embargo, es que requieren enormes recursos informáticos y energía.
¡Elimine los retos de la carga computacional y el consumo de energía! Ya está disponible la nueva generación de LLM de código abierto.
Para abordar este problema, Meta ha lanzado la última versión de su LLM de código abierto (Llama 3.2) con una mayor eficiencia para proporcionar rápidamente a los usuarios una experiencia de IA rápida sin precedentes.
Ejecutando el último LLM en una CPU Arm, el procesamiento de solicitudes se ha mejorado en un factor de 5 y la generación de tokens en un factor de 3, logrando 19,92 tokens por segundo en la fase de generación.
En particular, se ha producido una mejora de la latencia al procesar cargas de trabajo de IA en los dispositivos, lo que permite que el procesamiento de la IA sea más eficiente.
El aumento del procesamiento de la IA en el borde también reduce la energía y los costes al disminuir el consumo de energía debido a los datos que viajan hacia y desde la nube.
El rendimiento de la IA en las CPU Arm ha mejorado drásticamente, y se espera que más de 100.000 millones de dispositivos basados en Arm estén habilitados para la IA en el futuro.
Se espera que esto haga que la IA sea aún más útil en la vida cotidiana y en los negocios.
Detalles de la última versión del código abierto desarrollado conjuntamente por Arm y Meta, y cómo las tecnologías de IA de rápida aceleración, especialmente herramientas como ‘Kleidi’ y ‘PyTorch’, han mejorado el rendimiento de la IA.
Esta sección explica cómo han contribuido al rendimiento de la IA.
Se anima a las empresas que deseen utilizar la última versión de LLM para Arm con el fin de acelerar y ampliar la inferencia de la IA a que adquieran el informe.