Der Pipeline-Editor des Prozesskoordinators ProC

Planck: Daten vom kosmischen Hintergrund

An der wissenschaftlichen Analyse der von Planck gelieferten Daten wird sich eine große Zahl von Wissenschaftlern aus aller Welt beteiligen. Bei der Vorläufer-Mission WMAP waren es nur etwa zwanzig Forscher. Doch schon dabei erwies es sich schließlich als eines der Hauptprobleme, nachträglich herauszufinden, wer wann welche Berechnung mit den Daten durchgeführt hatte und die jeweils erhaltenen Ergebnisse zu reproduzieren. Doch nur so kann der kreative und experimentierfreudige Arbeitsstil der Wissenschaftler zu nachvollziehbaren und überprüfbaren Ergebnissen führen. Bei Planck ist dieses Problem noch erheblich größer: Inzwischen sind bereits rund 500 Forscher an dem Projekt beteiligt.

Im Auftrag des Planck-Konsortiums der Gemeinschaft der an der Mission beteiligten Forscher und Forschungsinstitute wurde deshalb das Integrierte Daten- und Informationssystem IDIS entwickelt. IDIS besteht aus fünf miteinander verknüpften Komponenten: dem Dokumenten-Management-System DMS für – der Name sagt es – alle Dokumente, die für das Projekt nötig sind; einem Datenbank-System (Data Management System, DMC) zur Verwaltung der gemessenen, simulierten und bearbeiteten Daten; einem Software-Repositorium für alle Versionen der im Rahmen des Projekts entwickelten Programme; dem Prozess-Koordinator ProC für die Steuerung aller Simulationen und Datenanalysen; und schließlich der sogenannten „Federation Layer“, die alle Komponenten von IDIS zu einem einheitlichen System zusammenbindet.

Daten simulieren: Level-S

Gelbgrünes Oval mit einigen blauen und roten Strukturen.
Mit Level-S simulierte Karte der kosmischen Hintergrundstrahlung

Das Planck Analysis Center MPAC am Max-Planck-Institut für Astrophysik (MPA) in Garching ist für die Entwicklung und Wartung des IDIS-Datenbank-Systems und des Prozess-Koordinators zuständig. Außerdem wurde am MPA die Simulations-Software „Level-S“ entwickelt. Mit diesem Programmpaket lassen sich synthetische Planck-Daten erzeugen. Ausgehend von angenommenen kosmologischen Parametern simuliert die Software den Einfluss von Vordergrundstrahlungen aus der Milchstraße und dem Sonnensystem, sowie der Detektoreigenschaften auf die Daten. „Wir Forscher benötigen solche synthetischen Datensätze für die Verifikation, Optimierung und Kalibration der Analyse-Algorithmen“, so Torsten Enßlin, der Leiter des MPAC-Teams.

„Ein Problem bei der Entwicklung der IDIS-Komponenten war, dass uns am Anfang häufig klare Anforderungen von Seiten der beteiligten Forscher fehlten“, erinnert sich Wolfgang Hovest, Architekt des Prozess-Koordinators. „Wir mussten uns mit generischen Ansätzen und intensiven Analysen der zu erwartenden Benutzer-Anforderungen behelfen und mit viel Humor.“ Insgesamt fünfzig bis sechzig Personenjahre stecken in der am MPAC entwickelten Software, die einige hunderttausend Zeilen Programm-Code enthält.

Die Verarbeitung der Planck-Daten erfolgt in drei Schritten. Nachdem am Kontrollzentrum ESOC der europäischen Raumfahrtbehörde ESA in Darmstadt die Daten entpackt und jeweils an die Datenverarbeitungszentren des Hochfrequenz-Instruments HFI in Paris, sowie des Niederfrequenz-Instruments LFI in Triest verschickt wurden, werden sie dort überprüft, in chronologische Reihenfolge gebracht und kalibriert. Zeigt sich bei diesem Level-1 genannten Prozess, dass Datensätze fehlen oder gestört sind, können innerhalb weniger Tage Nachbeobachtungen der entsprechenden Regionen durchgeführt werden. Im Level-2 werden zunächst Himmelskarten in den zehn einzelnen Frequenzbändern erstellt, im Level-3 erfolgt dann eine Aufteilung dieser Karten in ihre physikalischen Komponenten. Auch hier besteht noch einmal die Möglichkeit, Nachbeobachtungen durchzuführen, wenn ein Datensatz eine aus wissenschaftlicher Sicht unzureichende Qualität aufweist.

Die am MPAC entwickelte Simulations-Software Level-S hat bereits eine wichtige Rolle bei der Erstellung der Arbeitsabläufe für die Level-1, Level-2- und Level-3-Prozesse gespielt. Während und nach der aktiven Phase der Planck-Mission bildet Level-S das Hauptwerkzeug für die Untersuchung des Einflusses von statistischen und systematischen Fehlerquellen auf die wissenschaftlichen Ergebnisse. Mit dem Programmpaket ist es möglich, die Entdeckung und Unterdrückung solcher Störeinflüsse an synthetischen Daten zu testen.

Daten sammeln: IDIS DMC

Auch das am MPAC entwickelte Datenbanksystem spielt für die Planck-Mission eine entscheidende Rolle. Es sorgt dafür, dass gemessene, simulierte und bearbeitete Daten in allen Entwicklungsstadien übersichtlich archiviert und jederzeit zugreifbar sind. Eine vollständig automatische Dokumentation ermöglicht es, für jedes Datenprodukt in den DMCs die Herkunftsgeschichte zu rekapitulieren. Eine grafische Benutzeroberfläche erlaubt den Forschern die interaktive Suche in den Datenbanken, die Auswahl von Datensätzen und Bearbeitungs-Abläufen und die Verfolgung aller zwischen Daten, Programmen und Arbeitsabläufen bestehenden Verknüpfungen. Und schließlich: Auch Wissenschaftlern unterlaufen mitunter Fehler. „Die Datenbanken müssen also auch ein konsistentes Löschen aller durch einen fehlerhaften Prozess erzeugten Datensätze ermöglichen“, so DMC-Entwickler Jörg Knoche.

Daten bearbeiten: ProC

Screenshot eines komplexen Flussdiagramms in einem Programmfenster.
Der Pipeline-Editor des Prozesskoordinators ProC

Die eigentliche Bearbeitung der Planck-Daten erfolgt mit dem am MPA entwickelten Prozess-Koordinator (ProC). Die Anforderungen an ProC sind hoch: Er soll den dezentralen, optimierten Betrieb komplexer Arbeitsabläufe auf einer heterogenen, verteilten Computerumgebung ermöglichen. Was bedeutet das? Dezentral heißt, dass die Steuerung eines Arbeitsablaufs – von den Wissenschaftlern „Pipeline“ genannt – von beliebigen Orten aus über das Internet erfolgen kann. Optimiert heißt, dass verschiedene Zweige einer Pipeline jeweils so früh wie möglich starten, also schon vor parallelen, aber unabhängigen Zweigen. Komplex heißt, dass die Pipelines Verzweigungen, Schleifen, Abfragen und Bedingungen enthalten können, also nicht nur linear sein können. Heterogen und verteilt heißt, dass zur Durchführung der Pipelines an verschiedenen Orten verschiedene Rechnerplattformen zur Verfügung stehen, die sich hinsichtlich ihrer Leistungsmerkmale und ihrer Betriebssysteme unterscheiden.

Und natürlich muss ProC einfach zu bedienen und benutzerfreundlich sein. Der Prozess-Koordinator besitzt einen komfortablen, grafischen Editor, der es den Benutzern erlaubt, Arbeitsabläufe per „Drag and Drop“ zusammenzustellen, sowie einen Session-Manager, mit dessen Hilfe der Forscher mehrere gleichzeitig ablaufende Pipelines verwalten, überwachen und steuern kann.

Mit dem Start von Planck beginnt auch für die Mitarbeiter des Planck Analysis Centers am MPA die heiße Phase der Mission. Rund ein Terabyte Daten erwarten die Forscher von der Sonde, hinzu kommt das Hundert- bis Tausendfache an Simulationsdaten. Neben der Pflege der IDIS-Komponenten, der Unterstützung und Beratung der Planck-Forschungszentren und der IDIS-Nutzer wollen sich die Wissenschaftler um Enßlin und die MPA-Direktoren Rashid Sunyaev und Simon White auch an der wissenschaftlichen Nutzung der Planck-Daten beteiligen. Die Astrophysiker wollen beispielsweise den Einfluss von Galaxienhaufen und großräumigen kosmischen Strukturen auf die Hintergrundstrahlung untersuchen und so vielleicht auch neue Erkenntnisse über die rätselhafte Dunkle Energie gewinnen.