La conception peut exécuter un grand réseau de neurones plus efficacement que des banques de GPU câblées ensemble. Mais fabriquer et faire fonctionner la puce est un défi, nécessitant de nouvelles méthodes pour graver les caractéristiques du silicium, une conception qui inclut des redondances pour tenir compte des défauts de fabrication et un nouveau système d’eau pour garder la puce géante au frais.

Pour construire un cluster de puces WSE-2 capables d’exécuter des modèles d’IA de taille record, Cerebras a dû résoudre un autre défi d’ingénierie : comment faire entrer et sortir efficacement les données de la puce. Les puces ordinaires ont leur propre mémoire embarquée, mais Cerebras a développé une boîte de mémoire hors puce appelée MemoryX. La société a également créé un logiciel qui permet à un réseau de neurones d’être partiellement stocké dans cette mémoire hors puce, seuls les calculs étant transférés vers la puce de silicium. Et il a construit un système matériel et logiciel appelé SwarmX qui relie tout ensemble.

Photographie : Cerveaux

« Ils peuvent améliorer l’évolutivité de la formation à des dimensions énormes, au-delà de ce que n’importe qui fait aujourd’hui », déclare Mike Demler, analyste senior au sein du groupe Linley et rédacteur en chef de Le rapport du microprocesseur.

Demler dit qu’il n’est pas encore clair quel sera le marché pour le cluster, d’autant plus que certains clients potentiels conçoivent déjà leurs propres puces plus spécialisées en interne. Il ajoute que les performances réelles de la puce, en termes de vitesse, d’efficacité et de coût, ne sont pas encore claires. Cerebras n’a publié aucun résultat de référence jusqu’à présent.

« Il y a beaucoup d’ingénierie impressionnante dans les nouvelles technologies MemoryX et SwarmX », déclare Demler. « Mais tout comme le processeur, il s’agit de choses hautement spécialisées ; cela n’a de sens que pour la formation des plus grands modèles.

Les puces de Cerebras ont jusqu’à présent été adoptées par des laboratoires qui ont besoin d’une puissance de supercalcul. Les premiers clients incluent Argonne National Labs, Lawrence Livermore National Lab, des sociétés pharmaceutiques telles que GlaxoSmithKline et AstraZeneca, et ce que Feldman décrit comme des organisations de « renseignement militaire ».

Cela montre que la puce Cerebras peut être utilisée pour plus que simplement alimenter des réseaux de neurones ; les calculs que ces laboratoires exécutent impliquent des opérations mathématiques parallèles tout aussi massives. « Et ils ont toujours soif de plus de puissance de calcul », déclare Demler, qui ajoute que la puce pourrait vraisemblablement devenir importante pour l’avenir du supercalcul.

David Kanter, analyste chez Real World Technologies et directeur exécutif de MLCommons, une organisation qui mesure les performances de différents algorithmes et matériels d’IA, dit qu’il voit un futur marché pour des modèles d’IA beaucoup plus grands. « J’ai généralement tendance à croire au ML centré sur les données [machine learning], nous voulons donc des ensembles de données plus volumineux qui permettent de créer des modèles plus volumineux avec plus de paramètres », explique Kanter.