Technik und Wissenschaft

Streamen Sie Daten mithilfe von Azure Data Explorer in Ihren Data Lake

Zusammenfassung

Microsoft Azure Data Explorer ist eine großartige Ressource zum Erfassen und Verarbeiten von Streaming-Daten. Azure Data Lake Storage ist eine großartige Ressource zum Speichern großer Datenmengen. Die konzeptionelle End-to-End-Architektur, die im GitHub-Repository enthalten ist, das diesen Blog begleitet, konzentriert sich auf die Bereitstellung einer Umgebung, die die Stärken dieser beiden Dienste ausschöpft, indem Azure Synapse Analytics verwendet wird, um Streamingdaten für sie zu simulieren. In dieser Architektur ist die Kernstärke von Azure Data Explorer die leistungsstarke Echtzeitspeicherung und -analyse. Die Kernstärke von Azure Data Lake Storage ist die kostengünstige und effiziente Langzeitspeicherung.

Zielgruppe

Der Abschnitt Ereigniserzeugung würde in Produktions-Streaming-Szenarien durch andere Quellen ersetzt

Data-Engineering- und Analytics-Teams, die sowohl Echtzeitanalysen (heißer Weg) als auch länger andauernde Stapelanalysen (kühler Weg) unterstützen müssen, sind die Teams, auf die die oben gezeigte Architektur abzielt. Länger laufende Batch-Analysen können Schulungen für maschinelles Lernen, Enterprise Data Warehouse-Ladevorgänge oder das Abfragen von Daten an Ort und Stelle, aber Anreicherung mit Daten aus Batch-Quellen umfassen. Diese Architektur kann Konzepte wie Lamda, Kappa oder Lakehouse unterstützen.

Warum Azure Data Explorer?

Leistung auf dem heißen Weg

Azure Data Explorer ist extrem leistungsfähig mit Telemetrie- und Protokolldaten gemäß diesem Benchmark. Um diese Leistung nutzen zu können, müssen Streamingdaten in Azure Data Explorer Tables aufgenommen werden, damit die Vorteile von Column Store, Textindizierung und Sharding genutzt werden können. Daten, die sich in den Azure Data Explorer-Tabellen befinden, können von gängigen Analysediensten wie Spark, Power BI oder anderen Diensten verwendet werden, die ODBC-Quellen verwenden können.

Lesen Sie auch Video: Nach Ausschussbefragung von Habeck und Graichen: Opposition sieht viele Fragen offen

Leistung und Kontrolle im Cool Path

Azure Data Explorer bietet die Möglichkeit, Daten, die in den Cool Path/Data Lake gelangen, auf granularer Ebene mithilfe von kontinuierlichem Export und externen Tabellen zu steuern. Mit externen Tabellen können Sie einen Speicherort und ein Format zum Speichern von Daten im Lake definieren oder einen bereits vorhandenen Speicherort verwenden. Kontinuierlicher Export ermöglicht es Ihnen, das Intervall zu definieren, in dem Daten in den See exportiert werden. Durch die Kombination dieser beiden Funktionen können Sie Parquet-Dateien erstellen, die partitioniert sind und eine optimale Größe für analytische Abfragen haben, während Sie das Problem kleiner Dateien vermeiden, vorausgesetzt, Sie können die Latenz akzeptieren, die mit dem Stapeln der Daten für größere Schreibvorgänge einhergeht.

Einfache Aufnahme aus Azure Event Hubs

Azure Event Hubs dient oft als Ausgangspunkt für Big-Data-Streaming. Azure Data Explorer lässt sich sehr gut in Azure Event Hubs integrieren. Im mit dieser Architektur verknüpften GitHub-Repository finden Sie eine Anleitung zum Abschließen des Prozesses zum Erfassen von Daten in Azure Data Explorer von Event Hubs über einen benutzerfreundlichen Assistenten. Auch wenn im Vorfeld ein höherer Konfigurationsaufwand erforderlich ist, gibt es eine effiziente Möglichkeit, diese Integration im Azure-Portal zu erstellen.

Flexibilität für andere Anwendungsfälle

Azure Data Explorer verfügt über eine schwindelerregende Anzahl von Funktionen, die über das hinausgehen, was hier gezeigt wird. Andere anwendungsfallbasierte Lösungsarchitekturen, die unter diesem Link dokumentiert sind, sind Big Data Analytics, IoT Analytics, Geospatial Processing and Analytics und mehr. Die von Azure Data Explorer verwendete Kusto-Abfragesprache verfügt über viele nützliche, sofort einsatzbereite Funktionen, bei denen andere Analysetools möglicherweise einen höheren Grad an Anpassung erfordern. Einige Beispiele wären Geo-Clustering, Zeitreihenanalyse und JSON-Parsing/-Abfrage. Schließlich verfügt Azure Data Explorer auch über eine nützliche integrierte Visualisierungsebene, die Echtzeit-Dashboards anzeigen kann, um beim Erstellen von Analysen eine schnelle Wertschöpfung zu erzielen.

Lesen Sie auch 'Chaos? Das ist natürliches Leben!' Das Genie von Shane MacGowan | Sean O'Hagan

Was ist im Repo?

Das Repository enthält alle Artefakte, die zum Erstellen der in diesem Beitrag beschriebenen konzeptionellen Architektur erforderlich sind. Darüber hinaus ist das Repository für Azure-Neulinge freundlich und bietet detaillierte exemplarische Vorgehensweisen zu den folgenden Konzepten (und mehr!).

Infrastruktur als Code (IaC)-Bereitstellung über Bicep-Vorlagen – Die Bicep-Sprache ist eine der besten Möglichkeiten, Code zum Bereitstellen von Ressourcen in Azure zu verwenden. Alle Ressourcen für die Architekturbereitstellung und ein Teil der Konfiguration der Integration zwischen diesen Ressourcen sind in Bicep-Vorlagen im Repository enthalten.
Verwaltete Identitäten zum Sichern der Kommunikation zwischen Ressourcen – Verwaltete Identitäten können verwendet werden, um die Verwendung von Anmeldeinformationen zu vereinfachen, die erforderlich sind, damit Azure-Ressourcen miteinander kommunizieren können. Das Repository führt Sie durch die Verwendung dieser Anmeldeinformationen, sodass Azure Data Explorer aus Event Hubs lesen, in den Speicher schreiben und andere Anwendungsfälle verwenden kann.
Einführung in die Streamingnutzung in Azure – Azure Data Explorer und Event Hubs arbeiten in dieser Architektur zusammen, um die von Azure Synapse Analytics generierten Ereignisse zu nutzen. Das Repository zeigt, wie Sie mit Event Hubs eine Verbindung zu anderen Diensten herstellen, Ereignisse beobachten und Verbrauchergruppen verwenden. Wie bereits erwähnt, zeigt das Repository für Azure Data Explorer, wie Event Hub-Ereignisse verarbeitet, in Azure Data Explorer-Tabellen gespeichert und in Parquet-Dateien gespeichert werden, die sich in Azure Data Lake Storage befinden.
Einführung in Konzepte in Azure Synapse Analytics – Azure Synapse Analytics wird zum Generieren von Ereignissen in dieser Architektur verwendet. Obwohl dies nicht die normale Arbeitslast für Synapse ist, gibt es mehrere übergeordnete Konzepte, die im Repository durchlaufen werden. Zu den eingeführten Konzepten gehören die Orchestrierung der Datenverarbeitung in Synapse Pipelines, Abfragen aus Azure Data Lake Storage mit Synapse Serverless SQL und die Bereitstellung von Python-Code in Synapse Spark.

Lesen Sie auch Julio Rodriguez kratzte sich an einer Fußverletzung, bevor die Mariners gegen die A’s verloren

Abschluss

Azure Data Explorer und Azure Data Lake Storage arbeiten gut zusammen, um eine flexible Streaminganalyseumgebung bereitzustellen. Der Azure Data Explorer-Blog und der Azure Storage-Blog sind großartige Orte, um kommende Features zu überwachen und sich über detaillierte Anwendungsfälle zu informieren. Probieren Sie die Architektur im GitHub-Repository noch heute aus, um zu erfahren, wie Azure Data Explorer Ihre Streaminganalysen vereinfachen kann!