Tiers

Das Grid für den LHC

Zu den größten Nutzern des Grid-Computings zählen die Experimente am Teilchenbeschleuniger LHC, dessen gewaltige Datenmengen ab 2008 auszuwerten sind.

Diagramm von zahlreichen Teilchenspuren, die vom Mittelpunkt des Bildes nach außen streben. Sie sind von mehreren Lagen von kreisförmigen Nachweisgeräten umgeben.
Simulation eines mikroskopischen schwarzes Lochs im ATLAS-Detektor

Der Large Hadron Collider (LHC), der am Forschungszentrum CERN in der Nähe von Genf entsteht, ist das weltweit größte wissenschaftliche Instrument. Hier soll unter anderem der Ursprung der Masse untersucht werden – ein Unterfangen, bei dem jährlich bis zu 15 Millionen Gigabyte Daten anfallen, auf die tausende Wissenschaftler auf der ganzen Welt zur Auswertung Zugriff haben sollen. Der LHC stellt damit gewaltige und bisher nicht dagewesene Anforderungen an die Computer-Infrastruktur.

In dem 27 Kilometer langen unterirdischen Teilchenbeschleuniger werden Protonen auf hohe Energien gebracht und anschließend zum Zusammenstoß. Die Teilchenpakete durchdringen sich bis zu 40 Millionen Mal in der Sekunde, wobei jeweils mit etwa 25 Zusammenstößen gerechnet wird. Dabei entstehen im Mittel jeweils rund 100 neue Teilchen, deren Flugbahnen und Eigenschaften in hochhausgroßen unterirdischen Detektoren vermessen werden. Die interessanten Daten werden noch vor Ort aussortiert und aufgezeichnet. Hinzu kommen noch die Daten von Simulationen dieser Ereignisse, die zur Datenauswertung unerlässlich sind. Würde man alle diese Daten, die dabei jährlich entstehen auf CDs speichern und ohne Hüllen übereinander legen, ergäbe sich ein rund 20 Kilometer hoher Turm – und das Jahr für Jahr bei einer geschätzten Laufzeit von 15 Jahren. Die wissenschaftliche Arbeit entspricht dabei der Suche nach der Nadel im Heuhaufen. So wird etwa die Erzeugung des nobelpreisverdächtigen Higgs-Teilchens mit dem anschließenden Zerfall in beobachtbare Teilchen nur einmal in einer Billion Zusammenstößen erwartet.

Diagrammdaten: siehe Bildunterschrift
Datenrate und Datenmenge pro Ereignis bei den LHC-Experimenten

Prognosen ergaben, dass für die gesamte Datenanalyse rund 100.000 Prozessoren bei einem aktuellen Leistungsstand benötigt würden. Der herkömmliche Ansatz wären zentralisierte Rechenzentren in der Nähe der Experimente. Im Fall von LHC wurde jedoch eine neuartige Alternative verfolgt. Dazu sollten weltweit verfügbare Prozessor- und Speicher-Kapazitäten von Zehntausenden von Computern zu einem Daten-Netzwerk (DataGrid) zusammengefasst werden. Die Anwendung von Grid-Technologie am LHC ist dabei ein ideales Feld, um zu zeigen, dass die Technologie sowohl für daten- als auch rechenintensive Anwendungen genutzt werden kann.

In der so genannten MONARC-Studie (Models of Networked Analysis at Regional Centres for LHC Experiments) wurde gezeigt, dass ein hierarchisches System mit verschiedenen Ebenen (Tiers) den hohen Anforderungen der LHC-Wissenschaftler gerecht wird. Die Idee dabei lautet, die Daten nicht wie bisher an einem Ort vorzuhalten und zu verarbeiten, sondern diese auf mehrere Zentren zu verteilen. In diesem Modell hat CERN als Tier-0 die Aufgabe, Experimentdaten zu speichern und zu rekonstruieren. Die Analyse sowie die Erzeugung simulierter Ereignisse werden vor allen Dingen in regionalen Tier-1 Zentren stattfinden, gefolgt von nationalen Tier-2 Zentren, Institutsrechnern (Tier-3) und Arbeitsplatzrechnern (Tier-4).

Schemazeichnung, welche die netzwerkartige Struktur der LHC-Computerarchitektur zeigt (siehe Bildunterschrift).
Die Struktur des LHC-Grids

Neben CERN, RAL, IN2P3 und vielen anderen hochrangigen Forschungszentren beteiligt sich auch das Forschungszentrum Karlsruhe an diesem Projekt: Mit dem „Grid-Computing Centre Karlsruhe“ (GridKa) wird ein beachtliches Potenzial an Computerleistung und Speicherplatz geschaffen, welches Zugang zu einer neuen Qualität wissenschaftlichen Arbeitens eröffnen wird – 350 Kilometer Luftlinie vom CERN entfernt.