In einem Satz gesagt, mit “Power BI Data Flow” lassen sich Daten von A (Quelle) nach B (Azure Datalake) verschieben. Alle dies geschieht via der Cloud.
“Power BI Data Flow” kann an unterschiedliche Quellsysteme angebunden werden. Es extrahiert die Daten, transformiert und speichert diese innerhalb vom «Azure Datalake» im sogenannten «Common Data Model». Via «Azure Datalake» sind dann die Daten für alle Tools aus dem Microsoft Ökosystem verfügbar, nicht nur für Power BI.
Abb.1 – Positionierung DataFlows
Das «Common Data Model (CDM)”
Beim «Common Data Model» handelt es sich um vorgefertigte standardisierte und modulare Datenmodelle, welche den Bau von Applikationen, aber auch die Analyse erleichtern sollen, da durch die «standardisierten Datenmodelle» Ordnung im Datenjungel herrschen soll und klar ist, wo welche Daten zu finden sind.
Ein Account ist immer ein Account, besteht immer aus denselben Attributen, muss nur einmal definiert werden und kann für mehrere Geschäftsbereiche zur Anwendung kommen (Reuse). So die Idee dahinter.
Solche und weitere vorgefertigte Datenmodelle (Schema) stellt Microsoft bereit. Es können aber auch eigene Datenmodelle erstellt und verwendet werden.
Reference: “CDM Poster”Abb.2 – CDM Schema
Technisch gesehen handelt es sich bei «Common Data Model» um ein Datenbank-Schema, hinter welchem sich Meta-JSON-File befindet und welchem wiederum CSV-Files zugrunde liegen.
Reference: “The metadata file (model.json) for the Common Data Model” Abb.3 – Metadata file
Unterschiede “Power BI Data Flow” und “PowerQuery”
«Power BI Data Flow» beinhaltet alle Funktionalitäten aus «PowerQuery». Der wesentliche Unterscheid besteht jedoch darin, dass bei «PowerQuery» die ETL Möglichkeiten nur «intern» also innerhalb vom jeweiligen «Power BI Report» nutzbar sind. Bei «Power BI Data Flow» sind diese ETL Möglichkeiten für alle (also extern) nutzbar, via Cloud mit Zugriff auf das «Common Data Model».
Weiter erlaubt «Power BI Data Flow» eine grosse Skalierung, im Vergleich zu «PowerQuery» und einmal erstelle “Data Flows» lassen sich wiederverwenden.
Man beachte die jeweilige Benutzeroberfläche bzw. die Menü-Funktionalitäten, welche hier bei «Power BI Data Flows» nach wenig aussieht. Jedoch ist der Umfang identisch mit PowerQuery. Die Funktionen sind lediglich an anderen Orten implementiert (siehe Abb.5 – Query Editor “Power BI Desktop”)
Reference: “Introducing: Power BI data prep with dataflows” Abb.4 – Query Editor “Power BI Data Flows”
Abb.5 – Query Editor “Power BI Desktop”
Was die verfügbaren Datenquellen angeht, so bietet «Power BI Data Flows» etwas weniger an.
Die Anbindung an diese Datenquellen ist aber identisch. So lassen sich «On Prem» Datenquellen wie z.B. «SQL Server database» auch über den Gateway ansprechen, genau wie es bei «Power BI Desktop» der Fall ist.
Abb.6 – Datenquellen “Power BI Data Flow”
In «Power BI Desktop» gibt es dann doch einige «Datenquellen» mehr (z.B. diverse SAP Systeme).
Abb.7 – Datenquellen “Power BI Desktop (PowerQuery)”
Pro vs. Premium
Ein gravierender Unterschied zwischen Pro und Premium «Subscription» ist sicherlich jener des Speichers. Bei «Pro» sind dies 10 Giga Byte, gegenüber «Premium» von 100 Tera Byte. Wenn zum Beispiel 2 Spalten zusammengefügt werden (Merge) so entsteht physisch der doppelte Speicherplatz und so kann recht schnell die Grenze von 10GB erreicht werden. Überschreiten ist nicht möglich, es muss immer erst wieder Speicher freigegeben werden. Auch kann bei Pro kein weiterer Speicherplatz dazu gekauft werden, 10 GB ist das Maximum.
Aber auch der Inkrementelle Refresh lässt sich nur bei Premium nutzen, was heisst, dass bei Pro immer alle Daten neu geladen werden.
Weiter ist es auch nur bei Premium möglich sogenannte «Linked Entities», also Daten aus anderen «Dataflows», wieder zu verwenden.
Hier noch der komplette Auszug zu den Unterschieden zwischen Pro/Premium:
Reference: Whitepapers for Power BI “Power BI and Dataflow” Abb.8 – Subscriptions
Die Geschwindigkeit der Datenabfrage bzw. Aufbereitung sollen ebenfalls unterschiedlich sein zwischen Pro und Premium, sprich Premium ist sehr schnell und Pro vergleichsweise langsam.
Ref.: https://www.youtube.com/watch?v=Xp3iwC8hVDU
Fazit
> «Power BI Data Flows» ist eine gut technisch umgesetzte Variante von «PowerQuery», welche genauso einfach in der Anwendung ist.
> Wer bereits im Besitz einer «Pro» Lizenz ist, der verfügt auch bereits über «Power BI Data Flow» und kann dies direkt nutzen.
> Den viel zitierten Enduser, den «Business-Analyst», würde aber daran nur teilweise Freude finden, da es immer noch sehr viel technisches Know-How abverlangt und somit immer noch die Hilfe von einem IT-Fachmann benötigt. Zumindest für komplexere Abfragen.
> Die zwei verfügbaren Varianten Pro und Premium könnten unterschiedlicher nicht sein und können schon nur mit einem Speicher von 10 GB (Pro), für KMUs, unterdimensioniert sein. Jedoch sind dann 100 TB massiv überdimensioniert. Selbiges wiederspiegelt sich auch im Preis. Hier wäre eine Zwischengrösse wünschenswert.
> Wer auf «Power BI Data Flows» setzt, muss auch das gesamte Umsystem (Abb. 1) mit dazu nehmen, denn ohne Datalake (CDM) lässt sich das Ergebnis von «Power BI Data Flow» auch nicht benutzen. Das schafft eine gewisse Anhängigkeit, dessen muss man sich aber einfach bewusst sein.