Blackwell (Grafikprozessor)

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Blackwell ist der Name einer im Jahr 2024 von Nvidia vorgestellten Mikroarchitektur. Sie stellt eine Weiterentwicklung von Hopper dar und wurde nach dem Mathematiker David Blackwell benannt. Das System ist dafür ausgelegt, Training und Inferencing von Large Language Models sowie die Performance komplexer Datenbankoperationen zu verbessern. NVIDIA gibt an, die Performance für Inferencing um das 30-fache erhöht und die Energieeffizienz um einen Faktor von bis zu 25 verbessert zu haben. Die Spitzenleistung eines GB200-Chips liegt bei 20 petaFLOPS. Für ein Board werden zwei GB200 GPUs mit einer Grace CPU kombiniert; Grace beinhaltet 144 Arm Neoverse CPU-Kerne.

Mit Blackwell wurden folgende neue Funktionen und Technologien eingeführt:

  • Für die neue Blackwell GB200 GPU werden zwei Dies zu einem Chip verbunden. Dies ist nötig, da bereits jeder der beiden Dies die produktionstechnisch maximale Größe für eine Fotomaske ausnutzt. Eine GB 200 GPU hat mit 208 Milliarden Transistoren mehr als 2,5 mal so viele Transistoren wie Hopper hatte. Die Herstellung erfolgt auf Basis des 4NP-Prozesses von TSMC.
  • Die 5. Generation von NVLink ermöglicht eine Kommunikation von GPU zu GPU mit bis zu 1,8 TB/sec; dies ist doppelt so schnell wie die bei Hopper eingesetzte 4. Generation NVLink war. Bis zu 576 GPUs können damit verknüpft werden.
  • Der neue NV-Link Switch ermöglicht ein Switching mit einer Bandbreite von 14,4 TB/s.
  • Nvidia Confidential Computing ermöglicht eine sichere, verschlüsselte Kommunikation.
  • Die neue Decompression Engine kann bis zu 800 GB/s entpacken, was im Zusammenwirken mit dem schnellen HBM3e-Speicher und dem Hochleistungs-Bus-System, Datenbankabfragen und Analysen signifikant beschleunigt.
  • Die zweite Generation der Transformer-Engine ermöglicht eine verbesserte Performance bei Training und Inferencing von LLMs und Mixture-of-Experts-Modellen mit bis zu 10 Billionen Parametern. Zum Vergleich: GPT-4 hat 1,8 Billionen Parameter.[1]
  • Blackwells neue Gleitkommaeinheit unterstützt nun auch 6-Bit und 4-Bit-Datentypen, was das Training und Inferencing weiter beschleunigt.
  • Eine dedizierte RAS-Engine (Reliability, Availability and Servicabiltity) verfügt u. a. über tausende von Sensoren; damit sollen Fehler frühzeitig erkannt und eingegrenzt werden können, womit Ausfallzeiten minimiert werden.

In einem GB200NVL72-Cluster werden 36 GB200 Chips kombiniert. Eine Speichergröße von bis zu 13,5 TB kann angesprochen werden und die Daten mit bis zu 576 TB/s übertragen werden.

Quellen[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Maximilian Schreiner: GPT-4 architecture, datasets, costs and more leaked. 11. Juli 2023, abgerufen am 9. April 2024 (amerikanisches Englisch).