Die DPG-Frühjahrstagung in Bonn musste abgesagt werden! Lesen Sie mehr ...
Bereiche | Tage | Auswahl | Suche | Aktualisierungen | Downloads | Hilfe
HK: Fachverband Physik der Hadronen und Kerne
HK 10: Instrumentation II
HK 10.3: Vortrag
Montag, 30. März 2020, 17:00–17:15, J-HS D
Vorstellung eines Data-Lake-Konzepts für FAIR — •Paul-Niklas Kramp — GSI Helmholtzzentrum für Schwerionenforschung, Darmstadt, Deutschland
Im Rahmen dieses Vortrags wird ein Konzept eines Data Lakes vorgestellt, welches den zukünftigen Ansprüchen des FAIR-Experimentes hinsichtlich der geforderten Funktionalität entspricht und auch als Anregung für die anderen, vor ähnlichen Problemen stehenden Bereiche der Wissenschaft dienen kann.
Konkreter wird ein Konzept einer verteilten Datenspeicherinfrastruktur vorgestellt, welche benutzbar, sicher, heterogen, modular und skalierbar sein soll.
Das Konzept wurde bereits zu signifikanten Teilen in einer prototypischen Implementierung umgesetzt. Diese beinhaltet eine verteilte, reproduzierbare Infrastruktur, die zum Aufbau des Data Lake dient. Die Reproduzierbarkeit ist ein wichtiger Punkt dieser Implementierung, da durch Ansible-Playbooks, bei denen auf einfache Konfigurierbarkeit Wert gelegt wurde, ein schnelles Aufsetzen der Data-Lake-Komponenten bei weiteren Teilnehmern ermöglicht wird.
Der vorliegende, nach dem Discovery-Prinzip arbeitende Data Lake verzichtet auf einen zentralen Filekatalog.
Durch das Zusammenspiel von Dynafed und einer Hash-Table-Verteilung ist ein performantes Hybrid-System entwickelt worden. Performanz-Tests zeigen, dass noch Optimierungsbedarf bei Schreibzugriffen besteht. Lesende Zugriffe sind allerdings als performant aufgezeigt worden, und primär von der zur Verfügung stehenden Bandbreite der Infrastruktur abhängig.