Rechenressourcen - Trainingsplattform

Zielgruppen

  • Wissenschaftliche Forschung, Unternehmen, öffentliche Einrichtungen

Ihre Anforderungen

  • Nutzung von High-Performance-Computing (HPC) Ressourcen
  • Bedarf an GPU-basierten Systeme für Trainingsaufgaben
  • Direkter Ressourcenzugriff via Shell und Batchsystem

Unser Angebot

Für die Anwendungen und Dienste des KI-Servicezentrums wird ein GPU-basiertes HPC-System mit aktuellen NVIDIA A100 und H100 GPUs für Trainingsaufgaben in Forschung, Entwicklung und Technik bereitgestellt.

Die Rechenknoten sind über ein hochperformantes InfiniBand-Netzwerk untereinander und mit den ebenfalls angebotenen Speicherressourcen verbunden.

Das Trainingssystem ist in Göttingen installiert und besteht aus 35 Knoten mit je 4 NVIDIA A100 SXM4-GPUs (80 GB HBM2e-Speicher) sowie 11 Knoten mit je 4 NVIDIA H100 SXM5-GPUs (94 GB HBM2e-Speicher). Die GPUs in jedem Knoten sind mit NVLINK und die Knoten untereinander sind mit einer InfiniBand HDR Fabric (2x 200 GBit/s pro Knoten) verbunden.

Software, Modelle und Daten können im Self-service installiert oder über die Kataloge des KISSKI eingebunden werden. Das System kann entweder im direkten Zugriff genutzt werden oder als technische Basis für die KISSKI-Services eingesetzt werden.

Nutzungsvoraussetzungen

Für die Nutzung der Trainingsplattform wird ein aktueller SSH-Client benötigt, je nach Anwendungen mit einem lokalen X-Server.

Für die indirekte Nutzung der Rechenressourcen durch die am KISSKI angebotenen Dienste gelten individuelle Voraussetzungen.

Erfolgsstories

Art des Services

Hardware

Ansprechpartner:in

Christian Boehme

geplanter Starttermin

ab sofort