Supercomputing und E-Science

EDSM-2020.jpg

Moderne Wissenschaft bedeutet vor allem den Umgang mit großen Datenmengen, die entsprechende wissenschaftliche Dienste und Infrastrukturen benötigen. In Kooperation mit den wissenschaftlichen Arbeitsgruppen und Projekten wird am AIP das FAIR-Prinzip sichergestellt, nach dem Arbeitsprozesse für die Verarbeitung und Veröffentlichung von Datensammlungen mit modernen Standards für Metadaten arbeiten und die Daten auffindbar, zugänglich, interoperabel und wiederverwendbar sind. Die Grundlage bilden kollaborative Arbeitsumgebungen, einschließlich effizienter Computing- und Speicherkapazitäten.

Kollaborative Forschungsumgebungen (CRE), die auf der effizienten Verbindung von Supercomputing- und Storageeinrichtungen beruhen, werden bereitgestellt und weiterentwickelt. Ein weiterer Schwerpunkt der Forschungsabteilung ist die Veröffentlichung der Forschungsdaten unter Anwendung von Standards des Internationalen Virtuellen Observatoriums (IVOA). Die E-Science-Gruppe entwickelt Open-Source-Software für die wissenschaftliche Gemeinschaft, insbesondere für Datenpublikation. Die Basis der wissenschaftlichen Infrastruktur bilden Supercomputing- und Virtualisierungsumgebungen, im Verbund mit dem Management der wachsenden Storage-Kapazitäten.

Supercomputing, Storage und Virtualisierungsinfrastruktur

Das AIP hostet mehrere Rechenanlagen für Forschungszwecke und Datenanalyse. Es gibt zwei Compute-Cluster Leibniz und Newton mit etwa 3.000 Kernen, die sich in verschiedenen Gebäuden befinden - im Leibniz- bzw. Schwarzschild-Haus. Der schnelle Infiniband-Interconnect zwischen den Clustern wird für den Datentransfer genutzt. Die Datenspeichegung erfolgt auf parallelen Lustre-Dateisystemen. Es werden ca. 4 PB Speicherkapazität für wissenschaftliche Daten aus Beobachtungen und Simulationen bereitgestellt. Etwa 0,5 PB auf jedem Cluster sind für den parallelen Zugriff von den Rechenknoten verfügbar. Für Entwicklung und Produktion stehen auch einige GPU-Computing-Einrichtungen zur Verfügung. Die ausführliche Bedienungsanleitung zu Clustern finden Sie auf den `````.

Zusätzlich zu den Clustern hostet das E-Science-Team die Compute-Cloud-Infrastruktur (CCI) auf Basis der Open-Source-Virtualisierungslösung ProxMox. Über 65 virtuelle Maschinen werden in ProxMox mit unterschiedlichen Aufgaben und Profilen gehostet. Zu den Aufgaben gehören Datenanalyse- und Datenreduktionspipelines sowie Gitlab-, CI- und Mattermost-Dienste oder Webservices. Die Dienste und Pipelines laufen in separaten virtuellen Maschinen oder Docker-Containern. Die isolierten Umgebungen erhöhen die Sicherheit und Zuverlässigkeit der Umgebung. Das AIP-Backbone-Netzwerk ist mit 10-GB-Switches implementiert, es ermöglicht die grossen Datensammlungen den Compute-Clustern und den VMs zur Verfügung zu stellen.

In 2021/2022 ist mit EFRE Mitteln die IT-Infrastruktur des AIP erneuert und erweitert worden.

Kollaborative Forschungsumgebungen (CRE)

Internationale wissenschaftliche Kollaborationen, an denen AIP-Wissenschaftler beteiligt sind, werden von COLAB unterstützt, einer Webbasierten kollaborativen Platform für Data Science. COLAB dient als Schnittstelle zwischen verschiedenen Datenspeicher- und Rechenressourcen und bringt eine breite Palette an wissenschaftlichen Programmier- und Analyseumgebungen mit. COLAB verwendet eine Virtualisierungsschicht, die auf der oVirt Software basiert und eine effiziente Nutzung der Hardwareressourcen des Instituts ermöglicht. COLAB ist eine fortschritliche Implementierung des "Code to the Data"-Paradigmas. Die zusätzliche Bereitstellung von GitLab, CI und Matttermost bieten ein komplettes Softwarecode Ökosystem für die moderne Code-Entwicklung mit Versionskontrolle und Continous Integration für Tests.

Darüber hinaus entwickelte die E-Science Gruppe spezialisierte CRE's für die Kosmologie wie CLUES, MultiDark und HESTIA, MUSEWise für die MUSE-Kollaboration und GREGOR für Beobachter, die das Sonnenteleskop GREGOR nutzen. Diese Forschungsumgebungen bieten den Mitgliedern der Kollaboration Zugang zu den riesigen Datensammlungen, die noch nicht veröffentlicht sind und an denen aktiv gearbeitet wird. Die Softwareumgebung ist auf die Bedürfnisse jeweiliger Kollaborationen zugeschnitten.

Datenveröffentlichung und Virtuelles Observatorium (VO)

Der Daiquiri-Softwarestack wird für die Datenpubklikation und Datendienste verwendet. Mehrere Daten-Releases (DR) wurden unter Verwendung dieses Frameworks publiziert. Derzeit sind der finale Datenrelease RAVE DR6 des RAVE Surveys, der Datenrelease 3 des Fotographischen Plattenarchives APPLAUSE, der Gaia Early Data Release 3 des europäischen Gaia Satelliten (das AIP ist einer von 4 Partner-Datenzentren), die Resultate des MUSEWIDE Survey und viele kleinere Datensammlungen veröffentlicht. Der Zugriff auf die Daten kann entweder über ein webasiertes SQL-Abfrageformular oder über einen skriptgesteuerten Zugriff mithilfe des TAP Protokolls vom Virtuellen Observatorium (VO) erfolgen, wobei sowohl Astropy als auch TOPCAT unterstützt werden.

Alle veröffentlichten Dantesammlungen tragen umfangreiche, VO-konforme Metadaten und sind mit regristrierten DOI's (Digital Object Identifier) versehen, um ihre Auffindbarkeit und Zitierfähigkeit zu verbessern. Der VO-Standard für die Provenienz astronomischer Daten wurde unter wesentlicher Mitwirkung der E-Science Gruppe entwickelt und fertiggestellt, eine Referenzimplementierung wird auf der APPLAUSE-Seite bereitgestellt.

Neben der Kuratierung und Veröffentlichung von Daten bietet der Bereich E-Science den wissenschaftlichen Arbeitsgruppen Zusammenarbeit und Unterstützung beim Crossmatch von Katalogen und der Anwendung von Methoden des maschinellen Lernens.

Die veröffentlichten Forschungsdatensammlungen sind unter Forschungsdaten näher beschrieben.

Softwareentwicklung und Community-Arbeit

Der Daiquiri-Softwarestack wird von der E-Science-Sektion entwickelt und zur Veröffentlichung vieler Forschungsdatensammlungen verwendet. Die Software wird unter der Apache2 Open-Source-Lizenz auf Daiquiri (Github) veröffentlicht. Daiquiri stellt zahlreichen Projekten maßgeschneiderte Webservices zur Verfügung, von der Benutzerverwaltung für wissenschaftliche Kollaborationen, wie sie im 4MOST-Projekt verwendet werden (4MOST), über die Unterstützung der aktiven Kollaborationsphase bis hin zur Veröffentlichung von Daten-Releases wie APPLAUSE, RAVE, MUSEWide, Gaia@AIP . Das 4MOST Public Archive wird derzeit entwickelt.

Das Projekt RDMO (Research Data Management Organiser) hat große Unterstützung erfahren. Mittlerweile nutzen rund 35 Institutionen (Universitätsbibliotheken, Physikalisch-Technische Bundesanstalt, Helmholtz-Zentren, Leibniz-Institute) die von der Sektion E-Science in Zusammenarbeit mit KIT und FHP entwickelte Software als Bestandteil ihres Datenmanagements. Ursprünglich von AIP und FHP als Forschungsprojekt gestartet und von der DFG gefördert, ermöglichte der auf Open Source basierende Ansatz die Fortführung von RDMO über die DFG-Förderung hinaus. Die RDMO Arbeitsgemeinschaft vereint Mitwirkende, Nutzer und Teilnehmer aus ganz Deutschland, und das AIP ist ein unterzeichnendes Mitglied des Memorandum of Understanding. In Fortsetzung ist das AIP an einem BMBF-Projekt zur Datenkuratierung und Datenzertifizierung (DDP Bildung) beteiligt.

In der Nationalen Forschungs-Daten Infrastruktur NFDI) werden wertvolle Datenbestände von Wissenschaft und Forschung für das gesamte deutsche Wissenschaftssystem systematisch erschlossen, vernetzt und nachhaltig sowie qualitativ nutzbar gemacht. In PUNCH4NFDI haben sich vier Bereiche der Physik - Teilchen-, Astro-, Astroteilchen- und nukleare Physik zu einem Konsortium innerhalb von NFDI zusammengeschlossen. Neben AIP und DESY (Projektkoordinator) sind weitere 19 Institutionen, die aus NDFI Funds finanziert werden, und 22 Partnerinstitutionen dabei - Institute der Leibniz Gemeinschaft, Helmholtz-Zentren, Institute der Max Plack Gesellschaft und Universitäten. Die Arbeit von PUNCH fokussiert sich auf neuartigen Methoden für "Big Data" Management, "Open Data" und "Open Science". Im Zentrum steht eine "Science Data Platform", mit deren Hilfe wissenschaftliche Daten in der Form von "Digital Research Products" für die Weiternutzung erhalten werden und während des Datenlebenszyklus untereinander verlinkt werden.

Das Betriebssystem Debian Astro Pure Blend hat im Juli 2019 sein zweites großes Release veröffentlicht. Das neue Release enthält mehr als 300 für die Astronomie geeignete Softwarepakete, darunter Astropy und dessen Ökosystem, sowie Pakete für maschinelles Lernen. Klassische Pakete wie das Bildverarbeitungswerkzeug IRAF oder die Software ESO-MIDAS sind ebenfalls verfügbar. Debian Astro Pure Blend wird hauptsächlich innerhalb des E-Science-Bereichs realisiert.

Das Pilotprojekt Virtual Reality wurde 2016 gestartet und beim IAU Symposium 334 im Juni 2017 erfolgreich eingesetzt. Ausgestattet mit Virtual-Reality-Brillen können die Teilnehmer durch ein Universum reisen, das von einer kosmologischen Computersimulation erzeugt wurde. Das Projekt erhielt für seine innovative Technologie einen Sonderpreis beim 18. Potsdam Congress Award im März 2019.

Letzte Aktualisierung: 24. Juli 2024