ADR-007 — Verarbeitungs-Engine: Apache Spark mit Sedona (vs. Alternatives)¶
Status: 🔄 In Diskussion
Fälligkeit: Ende Phase 1
Kontext¶
Die Plattform muss große Geodatensätze verarbeiten — sowohl Vektor als auch Raster. Die Verarbeitungs-Engine ist die zentrale Komponente der Pipeline-Architektur.
Bewertete Alternativen¶
| Alternative | Vorteile | Nachteile |
|---|---|---|
| Apache Spark + Sedona | Skalierbar, räumliche Operationen nativ, breite Format-Unterstützung | Ressourcenintensiv, komplex im Betrieb |
| Dask + GeoPandas | Python-nativ, einfacher Einstieg | Skalierungsgrenzen bei sehr großen Datensätzen |
| DuckDB + Spatial Extension | Extrem schnell für analytische Abfragen, einfach | Kein verteiltes Processing |
| GDAL-basierte Skripte | Maximale Formatunterstützung | Nicht skalierbar, schwer orchestrierbar |
Entscheidung¶
Noch offen — abhängig von verfügbarer Infrastruktur und Teamkompetenz.
Empfehlung: Hybridansatz - DuckDB für analytische Workloads in der Curated Zone - Spark + Sedona für große Batch-Transformationen in der Processed Zone
Konsequenzen¶
- Hybridansatz erhöht die Komplexität, deckt aber beide Workload-Typen optimal ab
- Teamkompetenz in Spark muss ggf. aufgebaut werden
- Entscheidung bis Ende Phase 1 erforderlich