Unstrukturierte Daten und der benötigte Speicher

IDC schätzt, dass bis 2025 wahrscheinlich mehr als 80 % der Geschäftsinformationen aus unstrukturierten Daten bestehen werden.

Und obwohl „unstrukturiert“ eine Art Fehlbezeichnung sein kann, weil alle Dateien eine Art Metadaten haben, anhand derer sie beispielsweise durchsucht und bestellt werden können, gibt es riesige Mengen solcher Daten in den Händen von Unternehmen.

In diesem Artikel sehen wir uns an, was das Arbeiten mit unstrukturierten Daten und die dafür erforderliche Speicherung – in der Regel Dateien oder Objekte – besonders macht.

In der Vergangenheit waren Bilder, Sprachaufzeichnungen, Videos, Chatprotokolle und Dokumente unterschiedlicher Art größtenteils nur eine Speicherlast und wurden als Kopfschmerzen für jeden angesehen, der sie verwalten, organisieren und sicher aufbewahren musste.

Aber jetzt werden unstrukturierte Daten als wertvolle Quelle für Geschäftsinformationen angesehen. Mit der Analyseverarbeitung kann daraus ein Wert gewonnen werden – zum Beispiel ist es möglich, KI/ML gegen Sätze von Werbebildern laufen zu lassen und das Klickverhalten der Website-Besucher zuzuordnen. Durch die Analyse unstrukturierter Bilddaten können strukturierte Felder erstellt werden, die die redaktionelle Entscheidungsfindung vorantreiben können.

An anderer Stelle werden Backups – lange in verstaubten und schwer zugänglichen Bandarchiven verwahrt – jetzt als potenzielle Datenquelle für die Analyseverarbeitung angesehen. Und da die Bedrohung durch Ransomware ganz oben auf der Tagesordnung steht, ist die Notwendigkeit von Backups für die Wiederherstellung aktueller denn je.

Strukturiert, unstrukturiert, halbstrukturiert

Unstrukturierte Daten sind im weitesten Sinne Daten und Informationen, die keinem vordefinierten Datenmodell entsprechen – mit anderen Worten, Informationen, die außerhalb einer relationalen Datenbank erstellt werden und existieren.

Von Systemen generierte Geschäftsinformationen sind höchstwahrscheinlich strukturiert, wobei Kunden- und Produktdetails, Bestellnummern, Lagerbestände und Versandinformationen, die von einem Verkaufssystem erstellt und in der zugrunde liegenden Datenbank gespeichert werden, typische Beispiele sind.

Dies sind mehr als wahrscheinlich SQL-Datenbanken, die mit einem tabellenbasierten Schema und Daten in Zeilen und Spalten konfiguriert sind, die ein sehr schnelles Schreiben und Abfragen der Daten mit sehr guter Transaktionsintegrität ermöglichen. SQL-Datenbanken sind das Herzstück der leistungsstärksten und geschäftskritischsten Anwendungen im Einsatz.

Lesen Sie auch  Wie eine neue Datenbank zum Schutz des Ozeans beitragen kann

Unstrukturiert/halbstrukturiert

Unstrukturierte Daten werden oft von Menschen erstellt und umfassen E-Mails, Beiträge in sozialen Medien, Sprachaufzeichnungen, Bilder, Videos, Notizen und Dokumente wie PDFs.

Wie bereits erwähnt, können die meisten unstrukturierten Daten tatsächlich halbstrukturiert sein, und obwohl sie nicht in einer Datenbank gespeichert sind – obwohl dies möglich ist – gibt es eine gewisse Struktur in ihren Metadaten. Beispielsweise wäre ein Bild eines gelieferten Artikels oberflächlich betrachtet unstrukturiert – obwohl Metadaten aus den Kameradateien es halbstrukturiert machen.

Und dann gibt es Backup-Dateien, in denen alle Daten einer Organisation kopiert, komprimiert, verschlüsselt und in das (normalerweise proprietäre) Format des Backup-Anbieters verpackt werden.

Die Tatsache, dass Backups alle Arten von Daten bündeln, macht es zu einer unstrukturierten Datenherausforderung, die mit dem Aufstieg der Ransomware-Bedrohung möglicherweise relevanter denn je ist.

Unstrukturierter und halbstrukturierter Speicherbedarf

Wie wir gesehen haben, sind unstrukturierte Daten mehr oder weniger dadurch definiert, dass sie nicht mithilfe einer Datenbank erstellt werden. Es kann sein, dass unstrukturierten Daten später in ihrem Leben mehr Struktur verliehen wird, aber dann werden sie zu etwas anderem.

Was wir uns hier ansehen werden, sind die wichtigsten Anforderungen an die Speicherinfrastruktur für unstrukturierte Daten. Diese sind:

  • Volumen: Normalerweise gibt es viele unstrukturierte Daten, daher ist Kapazität eine Schlüsselanforderung.
  • Datei- und/oder Objektspeicherung: Blockspeicherung ist für Datenbanken gedacht, und wie wir gesehen haben, ist dies einfach keine Voraussetzung für Anwendungsfälle mit unstrukturierten Daten. Dateibasierte (NAS) und Objektspeicher erfüllen die Anforderungen an.
  • Leistung: Früher hätte dies nicht auf der Tagesordnung gestanden, aber angesichts der Notwendigkeit von Analysen, die näher an der Echtzeit liegen, und für eine schnelle Wiederherstellung nach Cyberangriffen, ist dies jetzt eher eine Überlegung.

Cloud und unstrukturierte Daten

Unter Berücksichtigung dieser Anforderungen scheint Cloud-Speicher als Ort zum Speichern unstrukturierter Daten gut geeignet zu sein. Es gibt jedoch möglicherweise ein paar Dinge, die dagegen sprechen.

Lesen Sie auch  Google erhöht den Datenschutz und schränkt Cookies von Drittanbietern für 1 % der Chrome-Nutzer ein

Cloud-Speicher bietet Objektspeicher (überwiegend in Bezug auf das Volumen) und Dateizugriffsspeicher, sodass er in dieser Hinsicht potenziell gut geeignet ist.

Cloud-Storage kann auch Kapazität bereitstellen, und es kann durchaus sein, dass Daten in großen Mengen äußerst kostengünstig in der Cloud gespeichert werden können. Allerdings können die Kosten meist nur dann sehr gering gehalten werden, wenn auf die Daten nicht zugegriffen wird, das ist also der erste potentielle Nachteil von Cloud-Storage.

Die Cloud eignet sich also sehr gut für kalte Daten, aber jede Art von I/O beginnt, die Kosten in die Höhe zu treiben. Abhängig von der Größe und den Zugriffsanforderungen Ihres Workloads kann dies jedoch akzeptabel sein. Ideal wären kleine Datensätze oder solche, auf die nur selten zugegriffen werden muss.

Objekt- und Dateispeicherung vor Ort

Cluster-NAS und Objektspeicher sind beide gut für sehr große Mengen unstrukturierter Daten geeignet. Wenn überhaupt, ist Objektspeicher aufgrund seiner überlegenen Skalierbarkeit sogar noch besser für große Datenmengen geeignet.

Die dateibasierte Speicherung basiert auf einem Dateisystem und einer baumartigen hierarchischen Struktur. Dies kann zu Leistungseinbußen führen, wenn das Dateisystem durchlaufen wird. Die Objektspeicherung hingegen basiert auf einer flachen Struktur mit Objekten/Dateien, die eine eindeutige ID besitzen, die den Zugriff erleichtert.

Die Speicherung vor Ort kann Bedenken hinsichtlich der Sicherheit von Daten und ihrer Verfügbarkeit zerstreuen und möglicherweise weniger kostspielig sein, als Daten in die Cloud zu stellen.

Beide Protokollsätze – Datei und Objekt – eignen sich gut für die Speicherung unstrukturierter Daten.

Fügen Sie Flash für schnellen Zugriff hinzu

Es ist durchaus möglich, vor Ort einen Datei- und Objektspeicher mit angemessener Leistung zu erstellen, indem eine sich drehende Festplatte verwendet wird. Bei den benötigten Kapazitäten ist HDD oft die wirtschaftlichste Option.

Fortschritte in der Flash-Fertigung haben jedoch dazu geführt, dass Solid-State-Speicher mit hoher Kapazität verfügbar wurden, und Hersteller von Speicher-Arrays haben damit begonnen, sie in Datei- und Objektspeicher-fähiger Hardware zu verwenden.

Lesen Sie auch  Ereignisse im Vorfeld der 25-jährigen Haftstrafe von FTX-Gründer Sam Bankman-Fried

Das ist QLC – Quad-Level Cell – Flash. Dieser enthält vier Ebenen von Binärschaltern für Flash-Zellen, um eine höhere Speicherdichte und damit niedrigere Kosten pro GB als bei jedem anderen derzeit kommerziell nutzbaren Flash bereitzustellen.

Die Kompromisse, die mit QLC einhergehen, sind jedoch, dass die Flash-Lebensdauer beeinträchtigt werden kann, sodass es besser für Daten mit großer Kapazität und weniger häufigem Zugriff geeignet ist.

Die Flash-Geschwindigkeit eignet sich jedoch besonders gut für unstrukturierte Anwendungsfälle, wie z. B. in der Analytik, wo eine schnelle Verarbeitung und damit E/A erforderlich sind – und in Fällen, in denen Kunden im Falle eines Ransomware-Angriffs möglicherweise große Datensätze aus Backups wiederherstellen möchten. Zum Beispiel.

Zu den Anbietern von Speicherhardware, die QLC-basierte Arrays verkaufen, die für Datei- und in einigen Fällen Objektspeicherung geeignet sind, gehören:

Dell EMC mit PowerScale, das EMCs Isilon-Scale-out-NAS mit (teilweise) Umbenennung und mit S3-Objektspeicherzugriff umfasst. Seine All-Flash- (es hat auch Hybrid-Flash) NVMe QLC-Flash-ausgestatteten Optionen sind in einer Reihe von Kapazitäten erhältlich, die bis zu mehreren zehn PB skalieren können.

NetApp, das kürzlich eine neue QLC-Flash-Speicher-Array-Familie – die C-Serie – auf den Markt gebracht hat, die auf Anwendungsfälle mit höherer Kapazität abzielt, die auch die Geschwindigkeit von SSD benötigen. Die C-Serie beginnt mit drei Optionen – C250, C400 und C800 – die auf 35 PB, 71 PB bzw. 106 PB skalieren. Der Zugriff auf den Objektspeicher ist möglich, aber eingeschränkt, wenn das Protokoll über NetApps Ontap OS verwendet wird.

Pure Storage bietet mit seinem FlashArray//C All-QLC NVMe-verbundenen Flash in zwei Modellen, dem //C40 und //C60 mit Kapazitäten bis in den PB-Bereich. Die FlashBlade//S-Familie von Pure wird unterdessen explizit als „schnelle Datei und Objekt“ mit NVMe QLC in ihren proprietären Modulen in zwei Modellen vermarktet. Der S200 betont die Kapazität mit Datenreduktion, während der S500 auf Leistung setzt.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.