In den vorangegangenen Teilen dieser Serie haben wir die Grundlagen, die Architektur und die Integration in bestehende Datenplattformen beleuchtet. In diesem vierten Teil werfen wir einen genaueren Blick auf das September 2024 Update von Microsoft Fabric. Dieses hat Microsoft Fabric Data Warehouse (DW) mit neuen Funktionen und einer erweiterten Roadmap ausgestattet. Der Fokus liegt auf der verbesserten Parallelität, neuen SQL-Features und den laufenden Entwicklungen, die das DW mit Funktionalität und Performance ergänzen.
Architektur von Microsoft Fabric DW: Trennung von Rechenleistung und Speicher
Die Microsoft Fabric Plattform basiert auf der Trennung von Rechenleistung und Speicher, was für eine dynamische Skalierbarkeit und Flexibilität sorgt (ein Erbe der Polaris Engine). Diese Architektur erlaubt es, die Rechenressourcen unabhängig von den Speicherkapazitäten zu skalieren. Speicherseitig kommt Delta Lake (offenes Delta Table Format) als primäres Speicherformat zum Einsatz. Dies ermöglicht nicht nur eine effiziente Datenverwaltung, sondern auch eine nahtlose Integration mit externen Systemen.
Delta Lake unterstützt dabei offene Datenformate, was den Zugang zu Daten sowohl über T-SQL als auch über Dateioperationen erleichtert. Dies bietet Nutzern die Flexibilität, je nach Anforderung direkt auf ihre Daten zuzugreifen, für analytische Zwecke oder für Ad-hoc-Abfragen.
Für die Query-Perfomance im Fabric Data Warehouse (und allen SQL-Endpoints) verlässt sich Microsoft dann nicht mehr nur auf Delta Tables. Die bereits hochkompromierten Parquet Dateien (standardmässig sortiert nach “V-Order”) werden in eine In-Memory Clustered Column Index Struktur transcodiert und auf die optimale Anzahl Nodes verteilt:
Parallelität und Skalierbarkeit: High Concurrency Mode für Spark-Workloads
Ein zentrales Feature, das im September auf der Konferenz gezeigt wurde, ist die High Concurrency-Funktionalität für Spark-Workloads. Mit dieser Option können mehrere Notebooks gleichzeitig auf demselben Spark-Cluster laufen, was die Startzeit für jede einzelne Sitzung deutlich reduziert. Dies ist besonders vorteilhaft in Umgebungen, in denen mehrere Datenverarbeitungsschritte parallel ablaufen müssen. Zum Beispiel bei der gleichzeitigen Ausführung mehrerer Pipelines oder beim Arbeiten in mehreren Notebooks.
Das Ergebnis: deutlich weniger Rechenzeit, höhere Effizienz und eine optimierte Nutzung von Spark-Resourcen in komplexen Datenverarbeitungs-Szenarien. Diese Funktion ermöglicht es Unternehmen, die Verarbeitungszeiten zu verkürzen und so ihre Datenprozesse noch effizienter zu gestalten.
Die Evolution von T-SQL und neue Features: Roadmap bis Q1 2025
Ein Blick auf die an European Microsoft Fabric Community Conference präsentierten Roadmap zeigt, dass T-SQL weiter verbessert werden soll. Gerade die Migration von bestehenden SQL Server DWHs auf Fabric ist momentan noch erschwert durch den begrenzten T-SQL Umfang. Im September-Update wurden unter anderem folgende wichtige Features hinzugefügt:
- Nested CTEs: Verschachtelte Common Table Expressions ermöglichen es, komplexere Abfragen mit besseren Leistungsergebnissen zu erstellen.
- JSON volle Funktionalität: Verbesserte JSON-Funktionalität erleichtert die Verarbeitung und den Zugriff auf semi-strukturierte Daten.
- T-SQL Notebooks: T-SQL Notebooks erlauben es Entwicklern, SQL-Code mit Dokumentation, Diagrammen und Abfragen zu kombinieren, was besonders für kollaborative Umgebungen von Vorteil ist.
- DW Copilot: Diese neue KI-gestützte Funktion unterstützt Anwender bei der Datenanalyse und SQL-Abfragen durch Vorschläge und Automatisierungen.
Zusätzlich wurden signifikante Performance-Verbesserungen für die Verarbeitung von Zeichenketten eingeführt. Ebenso die Erweiterung der Varchar(MAX)-Funktion, die nun die Speicherung grösserer Datenmengen pro Feld ermöglicht.
Ausblick auf Q4 2024 und Q1 2025
In den kommenden Quartalen wird Microsoft Fabric weitere spannende Funktionen bereitstellen. Im vierten Quartal 2024 können wir unter anderem die Einführung von Data Clustering erwarten, was die Query-Performance von sehr grossen Datenmengen erheblich verbessern kann. Data Clustering ist zu unterscheiden von Indices: es geht um die optimale Verteilung der Daten:
Auch wird es mit dem Result Set Caching und erweiterten Proaktiven Statistiken leichter, grosse und komplexe Datensätze effizient zu analysieren. Die Einführung von OPENROWSET, BULK INSERT und BCP werden das Weiterverwenden von vertrautem Code ebenfalls erleichtern.
Für das erste Quartal 2025 stehen ebenfalls bedeutende Neuerungen an:
- Endlich Temp Tables
- ALTER TABLE (drop/rename) und MERGE ermöglichen mehr Flexibilität bei der Verwaltung von Tabellenstrukturen.
- External Tables und Scalar UDFs erweitern die Möglichkeiten der Datenintegration und -manipulation, besonders in hybriden Umgebungen.
- Die Einführung von AI-gestützten Funktionen und Fabric Git CI/CD zeigt, dass Microsoft verstärkt auf Automatisierung und intelligente Datenverarbeitung setzt.
Trotz der Speicherung in Delta Tables gelten weiterhin die meisten gängigen Regeln aus der Welt der relationalen Datenbanken.
Auf der Konferenz gab es einen Einblick in die Möglichkeiten Abfrageperformance weiter zu optimieren. Unter anderem wurde gezeigt, dass Ausführungspläne auch im Fabric Data Warehouse hochrelevant sind: sie bestimmen z.B. die Anzahl der jeweils verwendeten Nodes. Korrekte Datentypen und aktuelle Statistiken bleiben weiterhin relevant.
Fazit: Microsoft Fabric gewinnt an Data Warehouse-relevanten Features
Das September 2024 Update von Microsoft Fabric markiert einen weiteren Meilenstein in der Evolution von Data Warehouse-Technologien. Mit Funktionen wie High Concurrency für Spark, erweiterter T-SQL-Unterstützung und einer klar definierten Roadmap für die kommenden Monate richtet sich Microsoft Fabric an Unternehmen, die grosse Datenmengen schnell und effizient verarbeiten und analysieren müssen.
Die Migration von bestehenden T-SQL Lösungen wird spätestens im Q1 2025 erheblich vereinfacht.
IT-Logix unterstützt Sie gerne bei ihrer Reise mit Microsoft Fabric.