文字のサイズ
- 小
- 中
- 大
Come massimizzare le prestazioni dell’AI nel cloud e sui dispositivi edge
Finora, la massimizzazione delle prestazioni dei dispositivi cloud ed edge con l’AI ha richiesto un’ingegneria specializzata e grandi risorse.
In questo contesto, Arm ha annunciato l’integrazione della tecnologia Arm Kleidi con PyTorch ed ExecuTorch, consentendo alle applicazioni di nuova generazione di eseguire modelli linguistici su larga scala (LLM) sulle CPU Arm.
Questo estende i vantaggi delle prestazioni AI dall’edge al cloud, consentendo la creazione di applicazioni di nuova generazione in grado di eseguire modelli linguistici su larga scala su CPU Arm.
Gli sviluppatori potranno adottare i più recenti modelli di AI generativa in tutto lo stack e utilizzare immediatamente le prestazioni di inferenza significativamente migliorate.
La collaborazione con i fornitori di servizi cloud e le aziende leader della comunità ML ISV fornirà inoltre un ulteriore supporto agli sviluppatori di AI.
I risultati già confermati includono la prima risposta di chat in tempo reale in PyTorch mainline con il chatbot dimostrativo di Arm in esecuzione su un processore AWS Graviton, utilizzando il modello linguistico su larga scala Meta Llama 3.
In questo esempio, il tempo di risposta al primo token è stato 2,5 volte più veloce, misurato da AWS Graviton4 dopo l’integrazione della tecnologia Kleidi nel codice open source PyTorch.
Il rapporto illustra le nuove tecnologie volte a massimizzare le prestazioni dell’AI nel cloud e sui dispositivi edge, e come queste tecnologie vengono utilizzate sul campo.