Wir entwickelten eine S3-basierte Open-Source Datalake-Lösung zur zentralen Erfassung, Kategorisierung und Durchsuchbarkeit von Daten. Ziel war es, die manuelle Datenverwaltung durch eine integrierte Architektur mit Workflowsteuerung, Datenkatalog und Zugriffsschutz zu automatisieren und zu verbessern.
Auftraggeber
GFZ Helmholtz-Zentrum für Geoforschung
Dauer
12 Monate
Produkt
Dienstleistung
Expertise
Softwareentwicklung
Ziel des Projekts war die Entwicklung einer zentralen Datalake-Lösung, mit der verschiedene Datenquellen integriert, Daten kategorisiert und effizient durchsucht werden können. Dabei sollte der bisher manuelle Prozess der Datenverwaltung automatisiert und optimiert werden, um Effizienz und Zugänglichkeit der Daten zu verbessern.
Eine zentrale Herausforderung bestand darin, Anforderungen an Datenspeicherung, Workflowsteuerung, Datenkatalogisierung, Zugriffsschutz und Benutzeroberfläche in einer konsistenten Gesamtarchitektur zusammenzuführen. Zusätzlich mussten geeignete Technologien zunächst im Rahmen eines Proof-of-Concepts evaluiert und anschließend in eine tragfähige MVP-Lösung überführt werden.
Programmiersprachen
Python, JavaScript/TypeScript, PL/pgSQL
Technologien
Apache Airflow, Docker, Docker-Compose, FastAPI, GitLab CI/CD, HTML, CSS, Keycloak, MinIO, Nginx, OAuth2/OpenID Connect, Playwright, PostgreSQL, Pydantic, Pytest, REST, S3, STAC, Nuxt, Vitest, Vuetify
Das Bild zeigt eine schematische Darstellung eines Research-Data-Management-Systems auf Basis einer Data-Lake-Architektur.
Ähnliches Problem?
Im Ergebnis stand ein MVP bereit, mit dem Daten erfasst und kategorisiert werden können. Durch automatisierte Workflows zur Datenvalidierung wurde die Reproduzierbarkeit wissenschaftlicher Ergebnisse verbessert. Gleichzeitig entstand eine technische Grundlage für die weitere Entwicklung einer S3-basierten Datalake-Infrastruktur.
RIM2D ist ein bestehendes, hocheffizientes 2D-hydraulisches Simulationsmodell für fluviale, pluviale und urbane Hochwasser. Wir unterstützten im Rahmen einer strategischen Partnerschaft dabei, den Forschungscode um eine Webanwendung und eine cloudbasierte GPU-Simulationsumgebung zu erweitern und so den Transfer in ein marktfähiges Produkt zu ermöglichen.
Wir entwickelten Computer-Vision- und KI-Komponenten für ein System zur Wunderkennung. Dabei entstand ein Service, der Wundflächen in Patientenbildern segmentiert und ihre Größe anhand von Referenzmarkern berechnet.