Rechnen im Datenstrom

Rüdiger Berlich, Marcel Kunze

Rechenzentrum

Grid-Computing stellt eine Antwort auf die zunehmende Herausforderung dar, immer gewaltigere Datenmengen verarbeiten zu wollen. Namenspate ist dabei das Elektrizitätsnetz, in das ganz verschiedene Energieanbieter einspeisen.

Mit dem wissenschaftlichen Fortschritt wachsen auch die Leistungsfähigkeit von Forschungsinstrumenten und der Detailreichtum von Simulationen. Daher liefern Experimente und theoretische Berechnungen immer mehr Daten, die verarbeitet und gespeichert werden müssen.

Foto von in Reihe gestellten Regalen mit Computern. Dazwischen ein Globus aus Metallteilen.

Einblick in das Grid-Center am CERN

Zwar nimmt gleichzeitig auch die Rechenleistung in einem immer rasanter werdenden Tempo zu, aber immer größere Supercomputer sind nur eine Möglichkeit, sich den neuen Datenverarbeitungsanforderungen zu stellen. Viele Vorteile verspricht ein Ansatz, bei dem die Aufgaben der Datenspeicherung und der Datenverarbeitung auf neue oder bestehende Rechner länderübergreifend verteilt werden. Er firmiert unter den Namen „Grid-Computing“.

Abstrakt lässt sich das Grid-Computing definieren als eine sichere, flexible, koordinierte und gemeinsame Nutzung von Ressourcen innerhalb virtueller Organisationen (nach I. Foster, C. Kesselman, The Grid: Blueprint for a New Computing Infrastructure, 1999). Dabei werden unter Ressourcen neben Rechenkapazität auch Daten und Instrumente und im weitergehenden Sinne auch Personen verstanden. Beispiele für virtuelle Organisationen sind internationale Wissenschaftsprojekte, aber auch Konsortien von Firmen, die gemeinsam ein neues Produkt wie etwa ein Auto oder Flugzeug entwickeln wollen.

Der Name

Namenspate für die Bezeichnung „Grid“ ist dabei das Elektrizitätsnetzwerk (engl. electrical power grid). Denn mit dem Grid-Computing soll Rechenkapazität und Datenspeicherung in gleicher Weise universell zur Verfügung gestellt werden, wie dies heute für elektrische Energie der Fall ist. Allerdings hat der Vergleich mit dem Elektrizitätsnetzwerk seine Grenzen. So gibt es beim elektrischen Strom nur wenige anzupassende Parameter (Spannung und Frequenz), wohingegen beim Austausch von Rechnerleistung wesentlich mehr Grundeigenschaften zu berücksichtigen sind: So können sich die Rechner, die zu einem Grid zusammengeschlossen sind, zum Beispiel in Architektur, Betriebssystem, Anbindung an das Netzwerk und vielem mehr unterscheiden.

Bestandteile eines Grids

Ein Computer-Grid ist der Zusammenschluss von Rechnern, die über eine gemeinsame Software, die Middleware, angesprochen werden können. Diese Middleware kann als eine Art Betriebssystem für das Grid angesehen werden. Es vermittelt zwischen den Bedürfnissen der Nutzer und der Grid-Infrastruktur und kümmert sich gleichzeitig um Sicherheitsaspekte und den Zugriffsschutz.

Daher gibt es nicht die eine Grid-Middleware, sondern viele verschiedene Systeme. Bei einigen übernehmen so genannte Resource Broker eine wesentliche Rolle. Diese entscheiden, welche Aufgaben von welchen Rechnern verarbeitet werden. Die Entscheidung wird dabei anhand von Angaben getroffen, mit denen der Nutzer sein Programm beschreibt. Der Benutzer kann dabei etwa einen minimalen Speicherplatz oder die Notwendigkeit zum Vorhandensein bestimmter Daten auf dem Zielsystem einfordern. Der Resource Broker wählt dann anhand der ihm vorliegenden Informationen eine passende Ressource aus und schickt das Programm des Benutzers an dieses System. Der Benutzer erhält hierbei einen eindeutigen Zugriffsschlüssel, mit dem er Informationen über den Programmablauf erfragen kann. Zu guter Letzt kann er über seinen Schlüssel Zugang zu den Ergebnissen seiner Berechnung erhalten.

Foto eines Rechenschranks, zwei mal zwei mal ein Meter groß, aus Metall. Ein Mensch steht davor.

Rechenschrank im Rechenzentrum Karlsruhe

Grid-Computing funktioniert besonders gut, wenn die unterschiedlichen Programme keine Zwischenergebnisse austauschen müssen. Dies ist bei Anwendungen der Fall, bei denen sich riesige Datensätze in Unterdatensätze aufteilen lassen, deren Analyse jeweils identische Programme auf unterschiedlichen Rechnern unabhängig voneinander übernehmen können. Zum Schluss werden die Ergebnisse der Berechnungen wieder eingesammelt und zusammengefügt. Dieser Anwendungstyp, den man als embarrassingly oder nicely parallel bezeichnet, ist ideal für eine Grid-Umgebung. Viele Grid-Middlewares basieren mittlerweile auf so genannter Webservice-Technolgie. Dabei handelt es sich um Schnittstellen zu lokalen Programmen, die Kommandos, die über das Internet verschickt werden, entgegennehmen und Ergebnisse – auf wieder über das Internet – zurückliefern. Ähnlich zur Situation im World Wide Web, wo Dokumente durch Links zu einem „Geflecht“ aus Informationen verschmelzen, können Webservices zu einem Geflecht aus Dienstleistungsprogrammen verschmelzen.

Vorteile

Ein Ansatz, bei dem die Datenspeicherung und -analyse auf verschiedenen verteilten Ressourcen erfolgt, bringt zahlreiche Vorteile mit sich. Diese sind nicht nur technologischer Art, sondern betreffen auch politische und soziale Aspekte:

  • Indem Daten aus verschiedenen Quellen untereinander vernetzt werden, kann neues Wissen erschlossen werden. Insbesondere Disziplinen wie die Astronomie und die Bioinformatik profitieren von der transparenten Nutzung verteilter Datenarchive.
  • Die gemeinsame Nutzung eines großen Pools verteilter Ressourcen kann helfen, dem zeitlich kaum vorhersagbaren Spitzenbedarf einzelner Nutzergruppen besser Rechnung zu tragen, da lokale Installationen nur noch nach dem Durchschnittsbedarf ausgelegt werden müssen. Hierdurch kann sich spürbare Kostenersparnis ergeben.
  • In verteilten Systemen sind Totalausfälle weniger wahrscheinlich. Das Vorhalten mehrerer Datenkopien und die automatische Zuteilung von Rechenaufgaben an verfügbare Ressourcen erleichtert dabei Wissenschaftler den Zugriff - egal von wo.
  • Ein über alle Zeitzonen weltweit verteiltes System erleichtert die technische Überwachung und Nutzerunterstützung rund um die Uhr.
  • Die beträchtlichen Kosten für Wartung und Erneuerung von Computerressourcen kann in einer verteilten Umgebung wie einem Computer-Grid leichter realisiert werden. Nationale Organisationen können lokale Ressourcen finanzieren, um ein gemeinsames globales wissenschaftliches Ziel zu verfolgen. Sie zeigen sich dabei meist weit eher bereit, die häufig sehr hohen Summen lokal zu vergeben, als Gelder einer zentralen Instanz in einem anderen Land zur Verfügung zu stellen.

Zukunft des Grids

Es ist abzusehen, dass Umgebungen für die kooperative Problemlösung zukünftig in vielen wissenschaftlichen Bereichen eine signifikante Rolle spielen werden und damit einen wesentlichen Einfluss auf die Entwicklung globaler Informationsinfrastrukturen wie die des Internets ausüben. Ein Wissenschaftler hat in diesem Szenario des World Wide Grids den Eindruck, als hätte er Zugang zu einem gigantischen Supercomputer mit immensen Datensammlungen. Dabei wird die Integration von standardisierten Grid-Middelware-Komponenten in Web-Browser zu einer Verschmelzung von Desktop-System und Grid führen.

Auf der Seite der Industrie wird Grid-Computing zum einen bereits sehr erfolgreich eingesetzt – etwa bei Firmen wie Amazon oder Google. Das Angebot von preiswerten Ressourcen zusammen mit der Einführung entsprechender Bezahldienste wird jedoch auch ganz neue Geschäftsmodelle bei der Bereitstellung von IT-Dienstleistungen ermöglichen.

Quelle: https://www.weltderphysik.de/gebiet/technik/computing/datenstrom/