Prozessorgeflüster

Nun ist er draußen, AMDs Bulldozer, doch die allgemeine Begeisterung hält sich in Grenzen: Das meistgelesene Attribut ist „enttäuschend“. Doch zahlreiche Rechenzentren setzen auf diese Architektur, in Stuttgart, in Oak Ridge und anderswo.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 7 Min.
Von
  • Andreas Stiller

Die Tester landauf, landab beklagen nicht nur die teils schlappe Performance und den hohen Energiebedarf des FX-8150 (siehe S. 132), sondern auch, dass ihnen AMD viel zu wenig Zeit eingeräumt hatte. Der fertige Chip wurde erst wenige Tage vor dem offiziellen Erscheinungstermin am 12. Oktober verschickt, viel zu kurz für wirklich ordentliche Messungen oder gar für Optimierungen mit AVX, FMA4 oder XOP. Ein offizieller Durchlauf der SPEC-CPU2006-Suite braucht allein gut zwei Tage – und auch nur dann, wenn alles auf Anhieb läuft.

Und es ist immer ein schlechtes Zeichen, wenn eine Firma bei der Vorstellung eines Produktes schon über den Nachfolger spricht. So hatte Intel zu Zeiten des NetBurst-Stromfressers Pentium 4 Besserung gelobt und verwies auch bei den letzten Atom-Premieren stets auf zukünftige Verbesserungen. „Ja, das ist noch nichts Tolles, aber das Nächste dann ganz bestimmt …“ Vor diesem Hintergrund bekommt der Ausblick von AMD auf die Orochi-Bulldozer-Nachfahren Piledriver, Steamroller und Excavator einen etwas schalen Beigeschmack.

Den Piledriver-Kern hatte AMD schon im Mobile-Prozessor Trinity mit integrierter Grafik lauffähig vorgeführt, er könnte möglicherweise bereits Anfang nächsten Jahres herauskommen, also gerade mal ein paar Monate nach dem Bulldozer. Seine Grafik ist weit schneller als die vom Llano, aber von den Rechenkernen ist keine weltbewegende Verbesserung zu erwarten, lediglich ein paar größere Puffer hier und da. Erst der Steamroller soll dann 2013 mit der inneren Architektur aufräumen und Flaschenhälse beseitigen (siehe S. 136) und bis zum Excavator will man den Energieverbrauch um bis zu 50 Prozent senken. Schon hört man im Mobile-Bereich von zahlreichen neuen Codenamen, von Kaveri-APU mit Steamroller oder von Kabini und Samara samt Jaguar-Prozessor als Nachfolger von Bobcat. Offen ist, was mit PCI Express 3 wird. Hypertransport ist dafür zu langsam, zumal sich AMD davon wohl ohnehin möglichst bald verabschieden will.

Bleibt die Frage, weshalb es AMD nicht schafft, vier Jahre nach der ersten Bulldozer-Ankündigung ein rundum überzeugendes Produkt vorzustellen. Mancher meint, daran trage auch Intel Schuld: Die illegalen Methoden, mit denen Intel seit der Athlon-Vorstellung bis zum Jahr 2004 AMD-Produkte aus dem Markt drängte, hätten dem kleineren Konkurrenten letztlich das Rückgrat gebrochen. Das konnte demnach auch die 2009 gezahlte Milliardensumme nicht mehr ausgleichen.

Allerdings hat AMD auch mit eigenen Fehlern zu kämpfen: Die Übernahme von ATI im Jahr 2006 wird mit 5,4 Milliarden US-Dollar als viel zu teuer bewertet. Das Geld fehlt für die Produktentwicklung. Die Abspaltung der Chipfertigung in Globalfoundries weckte Befürchtungen, dass die Trennung von der CPU-Entwicklung zu einem strukturellen Nachteil gegenüber Intel führen könne. Gleichzeitig nimmt das Stühlerücken in der AMD-Chefetage kein Ende – ständig gehen wichtige Führungskräfte von Bord. Ehemalige Mitarbeiter karten zudem nach, AMD hätte nur noch auf automatische Design-Tools gesetzt und nicht auf die Tweak-Fähigkeiten der Entwickler. Damit hätten sie 20 Prozent Performance verschenkt.

Doch selbst wenn AMD viel mehr Geld und Personal hätte, wären nicht zwangsläufig alle Probleme gelöst. Beispiele dafür liefert Intel zuhauf: Trotz märchenhafter Nettogewinne im zweistelligen Milliardenbereich gelingt es Intel seit Jahren nicht, konkurrenzfähige 3D-Grafiktreiber zu programmieren oder die ARM-Konkurrenz mit dem Atom zu stoppen. Erst zu Jahresbeginn stolperte man über den Serie-6-Chipsatzfehler. Und in den Itanium wurde ein Vermögen versenkt. Die CPU-Entwicklung ist eben ein risikoreiches Unterfangen, zu dessen Gelingen immer auch eine Portion Glück gehört.

Aber so schlecht sieht’s mit dem Bulldozer-Prozessor nun auch wieder nicht aus. Klar, das Design ist eher für Server denn für Desktop-PCs optimiert, bei denen Multi-Threading immer noch nicht breitflächig angekommen ist. Fürs High Performance Computing zeigt der FX-8150 als „Vorläufer“ des Interlagos-Prozessors zwar einige Schwächen, aber auch Stärken, etwa bei den oft unterschätzten Divisionen, die es ja auch noch gibt – der Linpack-Benchmark addiert und multipliziert nur. In dieser Disziplin kann der FX bei SSE3-Operationen mit seinen beiden Gleitkomma-Divisionseinheiten pro Modul den Core i7-2600 gut um Faktor zwei abhängen.

Cray XK6: Ein Knoten mit vier Interlagos-Prozessoren und vier Kepler GPUs, das ist die Grundlage für den 20-Petaflops-Rechner Titan des Oak Ridge National Laboratory.

Immerhin müssen die Interlagos-Prototypen auch die Wissenschaftler von Oak Ridge in Tennessee – dort wo „Linpack-Papst“ Prof. Jack Dongarra ein gewichtiges Wörtchen mitzureden hat – sowie die Geldgeber im US-Energieministerium überzeugt haben. Mitte Oktober wurde der Vertrag mit Cray endgültig unter Dach und Fach gebracht: ein Cray-XK6-Cluster namens Titan mit insgesamt 18 688 Interlagos-Prozessoren und 600 Terabyte Speicherplatz. Die eigentliche Rechenpower sollen aber 18 688 Nvidia-Tesla-Chips der nächsten GPU-Version Kepler erbringen. Von dieser GPU ist bekannt, dass sie für Linpack optimiert wurde, laut Nvidias Chefwissenschaftler Bill Daily kommt Kepler auf über 90 Prozent Effizienz, sodass beim Titan mit bis zu 20 Petaflops zu rechnen ist. Vielleicht eignen sich ja die Bulldozer besonders gut, um die Rechenknechte zu füttern.

Auch das Hochleistungsrechenzentrum in Stuttgart steht auf Interlagos, allerdings ohne Nvidia-GPUs im Cray-XE6-Cluster. Die Testphase ist vorbei, jetzt wird installiert: 3552 Knoten mit jeweils zwei Interlagos-Prozessoren (2,3 GHz, 16 MByte L3), die zusammen 1 PFlops Spitzenleistung erzielen sollen und damit etwa ein Drittel der reinen Prozessorleistung des Titan. Für 2013 ist die nächste Ausbaustufe geplant: Cray Cascade mit 4 bis 5 PFlops.

Auch Intel verschickt seine nächste Serverprozessorgeneration Sandy Bridge EP schon an Rechenzentren, ohne sie vorher offiziell gelauncht zu haben. Beim Leibniz-Rechenzentrum im bayrischen Garching feierte man zusammen mit den Vertretern von Bund und Freistaat schon mal die Einweihung des neuen Gebäudes für den SuperMUC, für das allein immerhin fast 50 Millionen Euro aufzubringen waren. Das Gebäude muss eben auch speziellen Anforderungen genügen, um die geplante Heißwasserkühlung für die entsprechend designten IBM iDataPlex-Racks zu ermöglichen und um die Wärme nutzen zu können. In Kernen ausgedrückt, wird der SuperMUC mit 112 896 ziemlich genau gleichauf mit dem Hermit in Stuttgart liegen (113 664), die aber bis zu 3 PFlops Spitzenleistung abliefern sollen.

Ins Rennen um den Spitzenplatz der nächsten Top500-Liste der Supercomputer Mitte November können all die genannten noch nicht eingreifen, da dürfte der japanische K Computer unangefochten bleiben, es sei denn, die Chinesen ziehen noch was aus dem Reispflückerhut. (as)