HPC / AI Server der AMD Instinct MI300 Serie

Mit der MI300X ist ein neuer Player auf dem GPU-Markt erschienen, der die Karten im KI-Bereich neu mischen wird.

AMD Instinct™ MI300X GPU-Beschleuniger wurden für überragende Leistung bei generativen KI-Workloads und HPC-Anwendungen entwickelt. Die CDNA3-Architektur von AMD wurde speziell für High-Performance-Computing (HPC) und Rechenzentren optimiert und unterscheidet sich damit von der RDNA-Architektur, die eher auf Spiele und Verbrauchergrafik ausgerichtet ist. Die MI300X bietet 19456 Cores (Stream Processors) und 192GB ECC-Arbeitsspeicher und hat damit ein deutlich besseres Preis-Leistungsverhältnis als die Konkurrenz.

Gigabyte G593-ZX1 | Dual AMD EPYC 5HE Mainstream HPC/AI Server

Unterstützt AMD Instinct™ MI300X-Beschleuniger

Gigabyte G593-ZX2 | Dual AMD EPYC 5HE Mainstream HPC/AI Server

Unterstützt AMD Instinct™ MI300X-Beschleuniger

AMD MI300 in Vergleich zur NVIDIA H100/H200

Auf dem Papier

Bei den Rohdaten übertrifft die AMD MI300X die NVIDIA H100 mit 30 % mehr FP8 FLOPS, 60 % mehr Speicherbandbreite und mehr als doppelt so viel Speicherkapazität. Natürlich tritt die MI300X tatsächlich eher gegen die neue NVIDIA-Generation H200 an, wodurch sich der Abstand bei der Speicherbandbreite auf einen einstelligen Wert und bei der Kapazität auf weniger als 40 % verringert.

In der realen Welt - Benchmarks*

LLAMA 2-70B Benchmark

Dies ist ein realistischer Inferenz-Benchmark für die meisten Anwendungsfälle. AMD hat einen Latenzvorteil von 40%, was angesichts des Bandbreitenvorteils von 60% gegenüber der H100 logisch erklärbar ist. Da die bisher noch unveröffentlichte H200 bei der Bandbreite nahe an der AMD-GPU liegt, ist zu erwarten, dass die H200 ähnlich abschneiden wird. Jedoch ist ebenfalls zu erwarten, dass es einen erheblichen Preisvorteil zugunsten der AMD-Architektur geben wird.

Bloom

in diesem Benchmark übertrifft die Mi300X die H100 beim Datendurchsatz um den Faktor 1,6. Der Benchmark ist beeindruckend, aber möglicherweise auch irreführend. Das für diesen Benchmark verwendete Modell ist sehr groß und es wurde eine lange Eingabesequenz verwendet. Das System mit dem kleineren Speicher (H100) ist gezwungen, mit einer viel kleineren Stapelgröße zu arbeiten, da der KVCache die gesamte Speicherkapazität in Anspruch nimmt. Das System mit dem größeren Speicher (MI300) kann eine größere Stapelgröße verwenden, um seine Rechenleistung zu nutzen. Das ist zwar tatsächlich ein echter Vorteil und das auf den Durchsatz ausgerichtete Szenario ist kein theoretisches, sondern real, aber es gibt andere Szenarien, in denen der Performance-Abstand deutlich geringer ist.

*Die angegebenen Werte und Einordnungen beziehen sich auf von AMD veröffentlichte Daten

Ausblick in die Zukunft

AMD wird NVIDIA im ersten Schritt für AI Inferencing und nicht für AI Training Konkurrenz machen. Allerdings ist Inferencing langfristig der größere Markt für GPUs.

Der große Vorteil von NVIDIA liegt zurzeit darin, dass die aktuell lauffähigen KI-Modelle auf NVIDIAs CUDA optimiert sind und es 2-3 Jahre dauert, ein KI-Modell zu trainieren. Es ist also für die bereits auf dem Markt befindlichen Modelle nicht ohne weiteres möglich, die Hardware zu wechseln.

Nun wollen jedoch AMD mit ROCm und OpenAI mit Triton als Programmiersprachen für Maschinelles Lernen das Monopol von NVIDIA brechen.

OpenAI arbeitet mit AMD zusammen, um ein offenes Ökosystem zu unterstützen. Wir planen, AMDs GPUs einschließlich MI300 in der Standard-Triton-Distribution zu unterstützen, beginnend mit der kommenden Version 3.0.

Philippe Tillet, OpenAI

Es ist also davon auszugehen, dass in einigen Monaten die Leistung von AMD gegenüber dem H100 durch Software-Optimierung weiter steigen wird und dass mittelfristig KI-Modelle auf den Markt kommen werden, die nativ auf die AMD-Architektur optimiert sind. Kurzfristig kommt kein ernstzunehmender Anbieter daran vorbei, auf AMD als zweites Standbein zu setzen.

Aktuelle Blogs