PERFACCT

Data Lake for Geoscience Research Data Management

Wir entwickelten eine S3-basierte Open-Source Datalake-Lösung zur zentralen Erfassung, Kategorisierung und Durchsuchbarkeit von Daten. Ziel war es, die manuelle Datenverwaltung durch eine integrierte Architektur mit Workflowsteuerung, Datenkatalog und Zugriffsschutz zu automatisieren und zu verbessern.

Auftraggeber

GFZ Helmholtz-Zentrum für Geoforschung

Dauer

12 Monate

Produkt

Dienstleistung

Expertise

Softwareentwicklung

Ziel

Ziel des Projekts war die Entwicklung einer zentralen Datalake-Lösung, mit der verschiedene Datenquellen integriert, Daten kategorisiert und effizient durchsucht werden können. Dabei sollte der bisher manuelle Prozess der Datenverwaltung automatisiert und optimiert werden, um Effizienz und Zugänglichkeit der Daten zu verbessern.

Aufgaben

Planung und Projektorganisation
Konzeption der Softwarearchitektur
Evaluation geeigneter Softwarebibliotheken
Evaluation von S3 für die Ablage unstrukturierter Daten
Evaluation von Apache Airflow zur Prozess- und Workflowsteuerung
Evaluation von STAC für die Datenkatalogisierung
Umsetzung eines Proof-of-Concepts auf Basis von MinIO, S3, Apache Airflow und STAC
Weiterentwicklung zu einer MVP-basierten Datalake-Implementierung
Implementierung von Datenbankfunktionen mit PL/pgSQL in PostgreSQL
Integration eines Identity Providers mit Keycloak
Implementierung von SSO mit OAuth2/OpenID Connect zur Autorisierung von REST-Endpunkten
Implementierung einer REST-Schnittstelle mit FastAPI und Pydantic
Gestaltung und Entwicklung der Benutzeroberfläche mit HTML, CSS und JavaScript/TypeScript
Konzeption der SPA-Architektur
Entwicklung neuer Features mit Vuetify
Entwicklung von Unit-, Nuxt- und UI-Komponententests
Nutzung von Pytest, Playwright und Vitest für automatisiertes Testen
Konfiguration des Reverse Proxy mit Nginx
Entwicklung von CI/CD-Pipelines
Pflege und Verwaltung von GitLab-Tickets

Herausforderungen

Eine zentrale Herausforderung bestand darin, Anforderungen an Datenspeicherung, Workflowsteuerung, Datenkatalogisierung, Zugriffsschutz und Benutzeroberfläche in einer konsistenten Gesamtarchitektur zusammenzuführen. Zusätzlich mussten geeignete Technologien zunächst im Rahmen eines Proof-of-Concepts evaluiert und anschließend in eine tragfähige MVP-Lösung überführt werden.

Programmiersprachen

Python, JavaScript/TypeScript, PL/pgSQL

Technologien

Apache Airflow, Docker, Docker-Compose, FastAPI, GitLab CI/CD, HTML, CSS, Keycloak, MinIO, Nginx, OAuth2/OpenID Connect, Playwright, PostgreSQL, Pydantic, Pytest, REST, S3, STAC, Nuxt, Vitest, Vuetify

Das Bild zeigt eine schematische Darstellung eines Research-Data-Management-Systems auf Basis einer Data-Lake-Architektur.

Ähnliches Problem?

Zum Kontaktformular

Fazit

Im Ergebnis stand ein MVP bereit, mit dem Daten erfasst und kategorisiert werden können. Durch automatisierte Workflows zur Datenvalidierung wurde die Reproduzierbarkeit wissenschaftlicher Ergebnisse verbessert. Gleichzeitig entstand eine technische Grundlage für die weitere Entwicklung einer S3-basierten Datalake-Infrastruktur.

RIM2D - Hocheffiziente 2D hydraulische Simulation von fluvialen, pluvialen und urbanen Hochwassern

Hydrodynamische Simulation Webanwendung Geodaten GPU-Computing

RIM2D ist ein bestehendes, hocheffizientes 2D-hydraulisches Simulationsmodell für fluviale, pluviale und urbane Hochwasser. Wir unterstützten im Rahmen einer strategischen Partnerschaft dabei, den Forschungscode um eine Webanwendung und eine cloudbasierte GPU-Simulationsumgebung zu erweitern und so den Transfer in ein marktfähiges Produkt zu ermöglichen.

Projekt ansehen

Computer Vision basierte KI zur Wunderkennung

Computer Vision Machine Learning Medizinische Bildverarbeitung

Wir entwickelten Computer-Vision- und KI-Komponenten für ein System zur Wunderkennung. Dabei entstand ein Service, der Wundflächen in Patientenbildern segmentiert und ihre Größe anhand von Referenzmarkern berechnet.