banner

Blog

Dec 05, 2023

Google Cloud lance son IA la plus puissante

MISE À JOUR À 08H00 HAE / 29 AOÛT 2023

par Mike Wheatley

Google Cloud renforce son infrastructure informatique d'intelligence artificielle basée sur le cloud, en ajoutant de nouvelles unités de traitement tensoriel et des machines virtuelles basées sur des unités de traitement graphique qui, selon lui, sont optimisées pour alimenter les charges de travail d'IA les plus exigeantes.

Les nouvelles machines virtuelles optimisées pour l'IA ont été annoncées lors de Google Cloud Next 2023, parallèlement au lancement d'une offre Google Distributed Cloud mise à jour qui permet d'exécuter des charges de travail d'IA et d'analyse de données dans n'importe quel endroit, y compris à la périphérie du réseau. En outre, Google a lancé une nouvelle édition professionnelle de Google Kubernetes Engine pour les applications basées sur des conteneurs.

Dans un article de blog, Amin Vahdat, directeur général de l'apprentissage automatique, des systèmes et de l'IA cloud chez Google, a déclaré que les clients exigent des machines virtuelles plus puissantes pour faire face aux demandes exponentiellement croissantes de nouvelles charges de travail telles que l'IA générative et les grands modèles de langage. « Le nombre de paramètres dans les LLM a augmenté de 10 fois par an au cours des cinq dernières années », a-t-il déclaré. « Par conséquent, les clients ont besoin d’une infrastructure optimisée pour l’IA, à la fois rentable et évolutive. »

Pour répondre à ce besoin, Google a conçu le Cloud TPU v5e, disponible dès maintenant en avant-première. Il est considéré comme le cloud TPU le plus rentable, le plus polyvalent et le plus évolutif jamais conçu, offrant une intégration avec GKE, le framework d'apprentissage automatique de Google Vertex AI et divers frameworks d'IA de premier plan, tels que PyTorch, TensorFlow et JAX. Il est censé être conçu pour les applications de formation et d'inférence d'IA à moyenne et grande échelle, offrant des performances de formation par dollar jusqu'à deux fois plus rapides et jusqu'à 2,5 fois les performances d'inférence par dollar pour les LLM et les modèles d'IA génératifs, par rapport à la génération précédente. CloudTPU v4.

La bonne nouvelle est que les clients n'ont pas à sacrifier les performances ou la flexibilité pour ces gains de rentabilité, a déclaré Vahdat. Il a déclaré que les pods TPU v5e offrent un équilibre parfait entre performances, flexibilité et efficacité, permettant d'interconnecter jusqu'à 256 puces avec une bande passante supérieure à 400 téraoctets par seconde et 100 pétaOps de performances. Les clients peuvent choisir parmi huit configurations de VM différentes, allant d'une seule puce à plus de 250 dans une seule tranche. Il offre aux clients une flexibilité supérieure pour former et exécuter une grande variété de LLM et de modèles d'IA, a ajouté Vahdat.

Avec le lancement des VM Cloud TPU v5e, Google propose également en avant-première une nouvelle technologie Multislice, qui permet de combiner des dizaines de milliers de puces TPU v5e ou d'anciennes puces TPU v4 de Google. Auparavant, les clients étaient limités à une seule tranche de puces TPU, ce qui signifiait qu'ils étaient plafonnés à un maximum de 3 072 puces avec le TPU v4. Multislice permet aux développeurs de travailler avec des dizaines de milliers de puces basées sur le cloud connectées via une interconnexion inter-puces.

Parallèlement aux machines virtuelles TPU v5e, Google a annoncé ses nouvelles machines virtuelles A3 basées sur le dernier GPU H100 de Nvidia Corp., affirmant qu'elles sont spécialement conçues pour les charges de travail d'IA générative les plus exigeantes. Selon Google, ils offrent un énorme bond en avant en termes de performances par rapport aux GPU A100 de la génération précédente, avec une formation trois fois plus rapide et une bande passante réseau 10 fois supérieure. En raison de la plus grande bande passante, les clients peuvent étendre leurs modèles à des dizaines de milliers de GPU H100, a déclaré Vahdat.

Désormais en avant-première, une seule machine virtuelle A3 contient huit GPU H100 ainsi que 2 téraoctets de mémoire hôte, et contient également les dernières unités centrales de traitement Intel Xeon Scalable de 4e génération pour décharger d'autres tâches d'application.

Google a déclaré que la startup d'IA générative Anthropic AI, qui est une rivale d'OpenAI LP, est l'un des premiers à adopter ses nouvelles machines virtuelles TPU v5e et A3. Elle les utilise de concert avec Google Kubernetes Engine pour former, déployer et partager son plus grand nombre. modèles avancés.

PARTAGER