Solutions

GPU-Server einfach erklärt: GEX44 vs. GEX131

12. Juni 20268 min Lesedauer

TL;DR

GPU-Server sind spezialisierte Systeme für Workloads, bei denen viele Berechnungen parallel laufen. Eine wichtige Kennzahl ist der VRAM, also der Grafikspeicher: Je mehr davon zur Verfügung steht, desto größere Datenmengen verarbeitet die GPU auf einmal. Prozessor, Storage und Arbeitsspeicher dürfen kein Flaschenhals sein und müssen mithalten, damit der Server seine Stärken ausspielen kann. Am häufigsten kommen GPU-Server bei KI zum Einsatz: bei Inferenz (trainierte Modelle nutzen), Fine-Tuning (Modelle mit eigenen Daten anpassen) und Training (ein Modell von Grund auf aufbauen). Genauso stark sind sie bei wissenschaftlichen Simulationen und grafikintensiven Aufgaben wie CAD oder 3D-Rendering. Unser GEX44 ist das Einsteigermodell für kompaktere Aufgaben und KI-Inferenz. Der GEX131 schafft deutlich anspruchsvollere Aufgaben: KI-Training, Grafikprojekte mit großen Datenmengen und rechenintensive Renderings.

Ob es um KI-Chatbots oder erschreckend echte Videos und Bilder geht, die künstlich erstellt wurden: KI dominiert die aktuellen Themen von heute. Und wie es aussieht, wird das auch die nächsten Jahre noch so bleiben.

Aber wenn wir über KI reden, müssen wir auch über GPUs reden. Genauer gesagt, über GPU-Server. Sie sind das Rückgrat der KI-Welle, die die Welt überflutet. Sie stemmen so ziemlich die gesamte Rechenlast.

Aber nicht nur das: Für die ursprünglich gedachten grafikintensiven Arbeiten werden Grafikkarten natürlich auch noch verwendet – das heißt, zum Beispiel für komplexe 3D-Simulationen oder riesige Videorenderings.

In diesem Artikel klären wir, was ein GPU-Server überhaupt ist, wo seine Stärken liegen und für welche Aufgaben er sich wirklich lohnt. Anschließend stellen wir unsere beiden GPU-Server GEX44 und GEX131 vor.

Was ist ein GPU-Server?

Ein klassischer Server und dessen CPU erledigen viele Aufgaben: Datenbanken, Webserver, Webhosting oder Cloud-Dienste. Die Vorteile liegen dort, wo Prozesse schnell, flexibel und mit möglichst geringer Latenz ablaufen müssen. Die meisten Serverdienste kommen dabei ganz ohne GPU aus. GPU-Server sind also für speziellere Anforderungen gedacht.

Der große Vorteil der GPU ist die massive Parallelverarbeitung von Daten. Eine CPU arbeitet mit wenigen, dafür sehr leistungsfähigen Kernen. Eine GPU hingegen besitzt enorm viele Recheneinheiten, die noch mehr Operationen gleichzeitig ausführen können.

Stell dir den Prozessor als Sportwagen vor. Er ist klein, wendig und kann jede Kurve mit hoher Geschwindigkeit nehmen. Dafür passen nur zwei Personen (Daten) rein. Die GPU gleicht eher einem Linienbus. Er fährt einfachere Strecken ohne starke Kurven in einer moderaten Geschwindigkeit – aber dafür nimmt er 50 Personen gleichzeitig mit.

Trotzdem ersetzt die GPU den Prozessor nicht. Beide übernehmen unterschiedliche Aufgaben. Die CPU steuert Prozesse, bereitet Daten auf und koordiniert die Abläufe im System. Die GPU übernimmt dann die große Rechenlast. Erst im Zusammenspiel entsteht ein Server, der den speziellen Anforderungen von GPU-Aufgaben gewachsen ist.

Wofür du einen GPU-Server brauchst

Künstliche Intelligenz: der wichtigste Treiber

GPUs kommen vor allem im KI-Bereich zum Einsatz. Large Language Models (LLMs), KI-Bilderkennung oder andere anspruchsvolle KI-Modelle müssen große Datenmengen und viele Rechenoperationen parallel verarbeiten – perfekt für die Grafikkarte. Dabei gibt es drei Hauptphasen beim Bau eines KI-Modells. In jeder Phase muss der GPU-Server eine andere Last bewältigen:

Training: Im Pretraining wird ein Modell von Grund auf neu trainiert. Das bedeutet, es wird mit großen Datenmengen gefüttert, bis es ein allgemeines Verständnis entwickelt. Das ist extrem rechenintensiv, teuer und dauert Wochen bis Monate – typisch für Forschung, Big-Tech-Unternehmen oder Regierungen. Das Posttraining verbessert „Reasoning“-Fähigkeiten und entwickelt das typische Chatverhalten, das du von bekannten LLMs kennst. Das Ergebnis heißt Base-Modell.

Fine-Tuning: Das baut auf dem ersten großen Training auf. Unternehmen passen zum Beispiel ein bestehendes Base-Modell mit ihren eigenen, proprietären Daten an und machen es so zum Experten für ein bestimmtes Fachgebiet. Das Modell antwortet dann präziser und konsistenter. Ein kleineres, fein abgestimmtes Modell löst manche Aufgaben sogar besser als ein großes ohne Anpassung – und spart dabei Kosten.

Fine-Tuning ist mittelmäßig speicher- und rechenintensiv und lohnt sich für Firmen jeder Größe.

Inferenz: Diese Phase beschreibt die Anwendung des Modells. Es wird also nicht mehr angelernt. Ein Chatbot, der auf einer Webseite Supportfragen beantwortet, ist ein klassisches Beispiel.

Rendering, CAD und Visualisierung

Ursprünglich war die GPU ja in der Grafikwelt zuhause. Bewegtbilder lassen sich in sehr kleine Teilberechnungen aufteilen, die die Grafikkarte dann abarbeitet. Eine starke GPU verkürzt die Rechenzeit dabei enorm. Große Videorenderings und detailreiche 3D-Szenen profitieren am meisten. Aber auch CAD-Programme für technische Zeichnungen und Konstruktionen sowie anspruchsvolle Bild- und Videobearbeitung laufen damit spürbar flüssiger.

Wissenschaftliche Simulationen

Wettermodelle, Molekülsimulationen oder thermodynamische Berechnungen: Wie bei KI fallen auch hier gewaltige Datenmengen an, die parallel berechnet werden müssen – nur steht diesmal die Mathematik im Vordergrund. Eine leistungsstarke GPU beschleunigt solche Rechnungen deutlich.

Worauf es bei der Hardware ankommt

VRAM als entscheidende Kenngröße

GPU ist nicht gleich GPU. Generation und Modell verraten bereits, für welche Aufgaben sich ein Server eignet – ob KI, Rendering oder Visualisierungen.

Eine der wichtigsten Kennzahlen ist der VRAM, also der Grafikspeicher. Er entscheidet darüber, wie viele Daten die GPU direkt verarbeiten kann. Das betrifft sowohl KI-Modelle als auch komplexe 3D-Szenen. Denn alles, was die GPU gleichzeitig bearbeiten soll, muss in ihren Grafikspeicher passen. Ist er zu klein, bringt auch die schnellste GPU nichts.

Grob als Orientierung:

Bis rund 40 GB VRAM: gut für kleinere bis mittlere Modelle, Inferenz sowie viele GPU-beschleunigte Aufgaben wie Bild- oder Videoverarbeitung und CAD.
Rund 40 bis 100 GB VRAM: besser für größere Modelle und viele Fine-Tuning-Szenarien. Hier sind auch höhere Batch-Größen und längere Kontexte möglich. Das heißt: Du kannst mehr Daten gleichzeitig verarbeiten und das Modell kann größere Eingaben gleichzeitig bearbeiten.
Über 100 GB VRAM: sinnvoll für sehr große Modelle, Multi-GPU-Setups und Spezialfälle.

CPU, RAM and storage as supporting components

But the GPU alone does not determine performance. The CPU, RAM, and storage also need to match the workload. The CPU controls processes, prepares data, and supplies the GPU with new tasks.

RAM and fast SSDs make sure that data is available in time and that the workflow does not stall. What matters is not only how much storage is available, but also how quickly the GPU can access it. That is why NVMe SSDs are the right choice. ECC RAM also detects and corrects memory errors, which makes it especially relevant in scientific and professional environments.

CUDA, Tensor Cores und RT Cores

Unsere GPU-Server verwenden Grafikkarten von NVIDIA. Und wer NVIDIA sagt, muss auch CUDA sagen. Aber Achtung, Verwechslungsgefahr: CUDA Cores sind Recheneinheiten der GPU, während mit CUDA die Software- und Entwicklungsplattform von NVIDIA gemeint ist.

Diese Plattform ist im Bereich GPU-Computing besonders weit verbreitet. Viele KI-Frameworks wie PyTorch oder TensorFlow, aber auch Rendering-Software, setzen darauf.

Tensor Cores beschleunigen Matrixberechnungen, die die Grundlage moderner KI-Modelle bilden. RT Cores dagegen sind auf Raytracing spezialisiert: ein Verfahren, das realistisches Lichtverhalten simuliert. Dadurch beschleunigen sie vor allem Rendering-Aufgaben und andere grafisch anspruchsvolle Darstellungen.

Welcher Server am besten passt, hängt (wie immer) vom Einsatzzweck ab. Fangen wir mit dem Einsteiger an: dem GEX44.

GEX44: Das Einsteigermodell

Wir gehen hier nicht in die Tiefe einzelner Use Cases, sondern geben einen Überblick über unsere beiden GPU-Server.

Inferenz und Visualisierung

Der GEX44 ist vor allem für Unternehmen spannend, die bereits trainierte KI-Modelle einsetzen wollen. Im Mittelpunkt steht dabei nicht das aufwendige Training großer Modelle, sondern die Inferenz – also Anwendungen wie Chatbots, Texterstellung oder automatische Auswertungen.

Design- oder Grafikteams nutzen ihn außerdem für 3D-Modellierung, CAD und Renderings.

Du willst selbst ein LLM auf unseren Servern betreiben? In unserer Community findest du passende Tutorials, zum Beispiel zu Ollama mit Libre WebUI oder Ollama mit Deepseek.

Forschung in der Praxis: Elara Aerospace

Das war’s aber noch nicht. Forschungsteams betreiben auf GPU-Servern ihre Simulationen. Ein spannendes Praxisbeispiel ist Elara Aerospace: Die Studenteninitiative aus München baut eine Rakete, die gleich mehrere Weltrekorde brechen soll. Für das Triebwerk setzt das Team auf den GEX44 und berechnet damit die nötigen thermo- und fluiddynamischen Simulationen.

Die Grenze ist allerdings klar: Mit 20 GB VRAM passt der GEX44 vor allem zu kompakteren Szenarien. Größere Sprachmodelle, aufwendige Grafikprojekte oder speicherintensives Fine-Tuning bringen ihn schnell an seine Grenzen. Wer mehr Reserven braucht, schaut besser zum GEX131.

Dedicated

GEX44

Intel® Core™ i5-13500

startet ab max/mo.

pro Stunde

+ Einrichtungsgebühr

Specs

14 Core

64 GB DDR4

2x 1.92 TB NVMe SSD

GEX131: Für professionelle KI-Aufgaben

Level up: Die Hardware zielt auf professionelle Einsätze, bei denen viel Grafikspeicher, hohe Speicherbandbreite und eine starke Gesamtplattform gefragt sind. Mit Tensor Cores der 5. Generation und RT Cores der 4. Generation basiert der GEX131 auf einer sehr aktuellen NVIDIA-Architektur. Er deckt damit alles ab, was der GEX44 kann, und bietet noch viel mehr.

KI-Training, Fine-Tuning und Grafikanwendungen

Der entscheidende Unterschied ist nicht nur „mehr Leistung“, sondern vor allem deutlich mehr Grafikspeicher. Die 96 GB VRAM verschieben die praktische Grenze massiv. Damit lassen sich größere Modelle und speicherintensive Bild- und Sprachverarbeitung betreiben. Das öffnet die Tür für KI-Training, Fine-Tuning und anspruchsvolle Inferenz.

Der GEX131 eignet sich außerdem für komplexes Rendering, VFX-lastige Aufgaben, Animationen und andere grafisch anspruchsvolle Workflows.

Dedicated

GEX131

Intel® Xeon® Gold 5412U

startet ab max/mo.

pro Stunde

+ Einrichtungsgebühr

Specs

24 Core

256 GB DDR5

4x 3.84 TB NVMe SSD

Welcher GPU-Server passt zu dir?

Die Wahl ist am Ende eine Frage des Anspruchs. Der GEX44 ist dein Einstieg: ideal für Inferenz, kompaktere Modelle und Grafikaufgaben mit überschaubarem Speicherbedarf. Der GEX131 ist die Profi-Klasse: 96 GB VRAM, aktuelle Architektur und genug Reserven für Training, Fine-Tuning und große Grafikprojekte.

Für die allergrößten Vorhaben gibt es noch eine weitere Liga: Systeme mit mehreren GPUs und HBM-Speicher (High Bandwidth Memory). Das sind besonders schnelle Speicher mit sehr hoher Bandbreite. Sie lohnen sich, wenn Modelle oder Trainingsläufe nicht mehr sinnvoll auf eine einzelne GPU passen. Für die meisten mittelständischen und professionellen Anwendungsfälle ist das aber nicht relevant. Da dürften nur die Wenigsten die Grenzen des GEX131 ausreizen.

Fest steht: KI und somit auch GPUs entwickeln sich mit rasanter Geschwindigkeit. Sie übernehmen die unterschiedlichsten Aufgaben und sind in vielen Arbeitsprozessen von Firmen verankert. Damit wird der passende GPU-Server für immer mehr Unternehmen zur entscheidenden Frage.