Home » Dremio führt Data Lake-Service ein, der in der AWS-Cloud läuft

Dremio führt Data Lake-Service ein, der in der AWS-Cloud läuft

by drbyos
0 comment

Alle Sessions von Transform 2021 sind jetzt on-demand verfügbar. Schau jetzt.


Dremio hat heute einen Cloud-Dienst auf den Markt gebracht, der einen Data Lake basierend auf einer speicherinternen SQL-Engine erstellt, die Abfragen für Daten startet, die in einem objektbasierten Speichersystem gespeichert sind.

Das Ziel ist es, Unternehmen die Nutzung des Data Lake, genannt Dremio Cloud, zu erleichtern, ohne ein internes IT-Team für die Verwaltung einsetzen zu müssen, sagte Tomer Shiran, Chief Product Officer von Dremio. Ein Unternehmen kann jetzt in nur fünf Minuten auf die Dremio Cloud zugreifen, sagte er.

Basierend auf der bestehenden SQL Lakehouse-Plattform von Dremio läuft der Dremio Cloud-Dienst in der öffentlichen Cloud von Amazon Web Services (AWS). Es bietet alle Vorteile eines Data Warehouse auf einer Plattform, die ein objektbasiertes Speichersystem verwendet, um die Gesamtkosten für den Aufbau eines Data Lake zu reduzieren, bemerkte Shiran.

Aufbau der Dremio-Cloud

Dremio Cloud basiert auf einer Microservices-Architektur, die ein Service Mesh umfasst, um Infrastrukturressourcen bei Bedarf über die Dremio Cloud-Steuerungsebene verfügbar zu machen. Dadurch entstehen den Kunden keine Dremio- oder AWS-Kosten, wenn die Plattform im Leerlauf ist, sagte Shiran.

Dieser Ansatz macht es auch überflüssig, Tabellen zu aggregieren, Daten zu extrahieren oder einen separaten OLAP-Cube (Online Analytic Processing) zu verwenden, um Daten auf eine Weise zu strukturieren, die mit SQL kompatibel ist, fügte er hinzu. Es bedeutet auch, dass Sie keine Daten, die in einem objektbasierten Speichersystem gespeichert sind, in ein proprietäres Data Warehouse kopieren müssen, um Zugriff auf SQL-basierte Anwendungen zu ermöglichen, fügte Shiran hinzu.

Daten werden sowohl im Ruhezustand als auch während der Übertragung mit Schlüsselverwaltungstools verschlüsselt, die eine sichere Kommunikation zwischen den Clients, der Steuerungsebene und der Datenebene gewährleisten. Rollenbasierte Zugriffskontrollen (RBAC) ermöglichen es Unternehmen, Berechtigungen für jeden Datensatz und jedes Objekt im System zu definieren. Darüber hinaus können Unternehmen bestehende Benutzer- und Gruppendefinitionen in Dremio mithilfe von Identitätsverwaltungsplattformen wie Okta aufrufen, um Zero-Trust-Sicherheitsrichtlinien durchzusetzen, sagte Shiran. Dremio Cloud habe bereits die SOC 2-Konformität erreicht, fügte er hinzu.

Lesen Sie auch  TikTok, Cameo und Clubhouse Hellseher sind sehr gefragt

Dremio hat kürzlich eine Dart-Initiative gestartet, um die Leistung von SQL-Abfragen in den nächsten 12 Monaten mit proprietären Beschleunigungstechnologien um den Faktor fünf zu verbessern. Im Mittelpunkt dieser Bemühungen steht Gandiva, ein Toolkit, das die vektorisierte Ausführung auf modernen Prozessoren unter Verwendung der In-Memory-Puffer in Apache Arrow ermöglicht, einem Open-Source-Kolumnendatenformat, das Dremio mitentwickelt hat.

Das Unternehmen unterhält auch physikalisch optimierte Darstellungen von Quelldaten, die als Data Reflections bekannt sind. Der Abfrageoptimierer kann dann eine Abfrage beschleunigen, indem er eine oder mehrere Datenreflexionen verwendet, um Abfrageergebnisse teilweise oder vollständig anzuzeigen, ohne Rohdaten für jede gestartete Abfrage verarbeiten zu müssen.

Dremio bietet auch Unterstützung für das Caching von Abfrageplänen, wodurch sowohl Overhead als auch Latenzzeiten für wiederholte Abfragen vermieden werden, zusätzlich zu einem leistungsstarken Compiler, der viel größere und komplexere SQL-Anweisungen ermöglicht und gleichzeitig maschinelle Lernalgorithmen verwendet, um die Menge der erforderlichen Rechenressourcen zu reduzieren SQL-Abfragen starten. Cloud-Speicher-Lesevorgänge machen bei einigen Workloads 30 bis 60 % der Kosten für die Abfrageausführung aus, sagt Dremio, und das Unternehmen reduziert die Datenmenge, die aus dem Cloud-Objektspeicher gelesen wird, indem es die Pushdown-Funktionen für Scanfilter verbessert.

Data Lakes einfacher machen

Während das Konzept eines Data Lakes schon seit einiger Zeit existiert, sind viele Unternehmen bei der Bereitstellung ins Stocken geraten, da sich die Verwaltung von Petabytes an Daten in dieser Größenordnung als zu schwierig erwiesen hat. Ein auf Hadoop basierender Data Lake wurde beispielsweise oft schnell zu einem Datensumpf, wenn mehr Daten hinzukommen. „Datenteams befinden sich in einer schwierigen Lage“, sagte Shiran.

Dremio geht dieses Problem an, indem es eine Reihe von SQL-Beschleunigungs- und Datenverwaltungstools in seine Plattform einbettet, um Abfragen über einen Data Lake basierend auf Objektspeichersystemen zu optimieren, die in Cloud-Computing-Umgebungen leicht verfügbar sind. Die Herausforderung besteht nun darin, Unternehmen, die sich in der Vergangenheit auf ein traditionelles Data Warehouse verlassen haben, davon zu überzeugen, einen Data-Lake-Ansatz zu überdenken, der auf einer Plattform basiert, die verspricht, den Zugriff auf Petabytes an Daten in der Cloud zu vereinfachen.

Lesen Sie auch  So erkennen Sie, ob außerirdische Besucher Freund oder Feind sind

VentureBeat

Die Mission von VentureBeat ist es, ein digitaler Marktplatz für technische Entscheidungsträger zu sein, um Wissen über transformative Technologien und Transaktionen zu erlangen. Unsere Website bietet wichtige Informationen zu Datentechnologien und -strategien, die Sie bei der Führung Ihrer Organisationen unterstützen. Wir laden Sie ein, Mitglied unserer Community zu werden, um Zugang zu erhalten:

  • aktuelle Informationen zu den für Sie interessanten Themen
  • unsere Newsletter
  • geschlossene Vordenker-Inhalte und ermäßigter Zugang zu unseren wertvollen Veranstaltungen, wie z Transformieren 2021: Erfahren Sie mehr
  • Netzwerkfunktionen und mehr

Mitglied werden

0 comment
0

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.