Zum Inhalt

ADR-007 — Verarbeitungs-Engine: Apache Spark mit Sedona (vs. Alternatives)

Status: 🔄 In Diskussion

Fälligkeit: Ende Phase 1

Kontext

Die Plattform muss große Geodatensätze verarbeiten — sowohl Vektor als auch Raster. Die Verarbeitungs-Engine ist die zentrale Komponente der Pipeline-Architektur.

Bewertete Alternativen

Alternative Vorteile Nachteile
Apache Spark + Sedona Skalierbar, räumliche Operationen nativ, breite Format-Unterstützung Ressourcenintensiv, komplex im Betrieb
Dask + GeoPandas Python-nativ, einfacher Einstieg Skalierungsgrenzen bei sehr großen Datensätzen
DuckDB + Spatial Extension Extrem schnell für analytische Abfragen, einfach Kein verteiltes Processing
GDAL-basierte Skripte Maximale Formatunterstützung Nicht skalierbar, schwer orchestrierbar

Entscheidung

Noch offen — abhängig von verfügbarer Infrastruktur und Teamkompetenz.

Empfehlung: Hybridansatz - DuckDB für analytische Workloads in der Curated Zone - Spark + Sedona für große Batch-Transformationen in der Processed Zone

Konsequenzen

  • Hybridansatz erhöht die Komplexität, deckt aber beide Workload-Typen optimal ab
  • Teamkompetenz in Spark muss ggf. aufgebaut werden
  • Entscheidung bis Ende Phase 1 erforderlich