Skip to main content

Data Lake for Geoscience Research Data Management

Wir entwickelten eine S3-basierte Open-Source Datalake-Lösung zur zentralen Erfassung, Kategorisierung und Durchsuchbarkeit von Daten. Ziel war es, die manuelle Datenverwaltung durch eine integrierte Architektur mit Workflowsteuerung, Datenkatalog und Zugriffsschutz zu automatisieren und zu verbessern.

Auftraggeber

GFZ Helmholtz-Zentrum für Geoforschung

Dauer

12 Monate

Produkt

Dienstleistung

Expertise

Softwareentwicklung

Ziel

Ziel des Projekts war die Entwicklung einer zentralen Datalake-Lösung, mit der verschiedene Datenquellen integriert, Daten kategorisiert und effizient durchsucht werden können. Dabei sollte der bisher manuelle Prozess der Datenverwaltung automatisiert und optimiert werden, um Effizienz und Zugänglichkeit der Daten zu verbessern.

Aufgaben

  • Planung und Projektorganisation
  • Konzeption der Softwarearchitektur
  • Evaluation geeigneter Softwarebibliotheken
  • Evaluation von S3 für die Ablage unstrukturierter Daten
  • Evaluation von Apache Airflow zur Prozess- und Workflowsteuerung
  • Evaluation von STAC für die Datenkatalogisierung
  • Umsetzung eines Proof-of-Concepts auf Basis von MinIO, S3, Apache Airflow und STAC
  • Weiterentwicklung zu einer MVP-basierten Datalake-Implementierung
  • Implementierung von Datenbankfunktionen mit PL/pgSQL in PostgreSQL
  • Integration eines Identity Providers mit Keycloak
  • Implementierung von SSO mit OAuth2/OpenID Connect zur Autorisierung von REST-Endpunkten
  • Implementierung einer REST-Schnittstelle mit FastAPI und Pydantic
  • Gestaltung und Entwicklung der Benutzeroberfläche mit HTML, CSS und JavaScript/TypeScript
  • Konzeption der SPA-Architektur
  • Entwicklung neuer Features mit Vuetify
  • Entwicklung von Unit-, Nuxt- und UI-Komponententests
  • Nutzung von Pytest, Playwright und Vitest für automatisiertes Testen
  • Konfiguration des Reverse Proxy mit Nginx
  • Entwicklung von CI/CD-Pipelines
  • Pflege und Verwaltung von GitLab-Tickets

Herausforderungen

Eine zentrale Herausforderung bestand darin, Anforderungen an Datenspeicherung, Workflowsteuerung, Datenkatalogisierung, Zugriffsschutz und Benutzeroberfläche in einer konsistenten Gesamtarchitektur zusammenzuführen. Zusätzlich mussten geeignete Technologien zunächst im Rahmen eines Proof-of-Concepts evaluiert und anschließend in eine tragfähige MVP-Lösung überführt werden.

Programmiersprachen

Python, JavaScript/TypeScript, PL/pgSQL

Technologien

Apache Airflow, Docker, Docker-Compose, FastAPI, GitLab CI/CD, HTML, CSS, Keycloak, MinIO, Nginx, OAuth2/OpenID Connect, Playwright, PostgreSQL, Pydantic, Pytest, REST, S3, STAC, Nuxt, Vitest, Vuetify

Project Image

Das Bild zeigt eine schematische Darstellung eines Research-Data-Management-Systems auf Basis einer Data-Lake-Architektur.

Ähnliches Problem?

Zum Kontaktformular

Fazit

Im Ergebnis stand ein MVP bereit, mit dem Daten erfasst und kategorisiert werden können. Durch automatisierte Workflows zur Datenvalidierung wurde die Reproduzierbarkeit wissenschaftlicher Ergebnisse verbessert. Gleichzeitig entstand eine technische Grundlage für die weitere Entwicklung einer S3-basierten Datalake-Infrastruktur.

Ähnliche Projekte

Project Image

RIM2D - Hocheffiziente 2D hydraulische Simulation von fluvialen, pluvialen und urbanen Hochwassern

Hydrodynamische Simulation Webanwendung Geodaten GPU-Computing

RIM2D ist ein bestehendes, hocheffizientes 2D-hydraulisches Simulationsmodell für fluviale, pluviale und urbane Hochwasser. Wir unterstützten im Rahmen einer strategischen Partnerschaft dabei, den Forschungscode um eine Webanwendung und eine cloudbasierte GPU-Simulationsumgebung zu erweitern und so den Transfer in ein marktfähiges Produkt zu ermöglichen.

Project Image

Computer Vision basierte KI zur Wunderkennung

Computer Vision Machine Learning Medizinische Bildverarbeitung

Wir entwickelten Computer-Vision- und KI-Komponenten für ein System zur Wunderkennung. Dabei entstand ein Service, der Wundflächen in Patientenbildern segmentiert und ihre Größe anhand von Referenzmarkern berechnet.

Zum Anfang