Go to Top

Was ist eigentlich ein Data-Lake?

Data-Lake oder Daten-See bezeichnet einen Datenspeicher, der eine große Menge an Rohdaten in ihrem nativen Format enthält.

In einer hierarchischen Speicherarchitektur werden Ordner und Dateien verwendet, in denen vorsortierte und –verarbeitete Daten gespeichert sind. Im Daten-See kommt eine flache Architektur zum Tragen, wobei jedem Datenelement eine eindeutige Kennung zugeordnet und mit einem Satz von erweiterten Metadaten-Tags markiert wird. Die Daten – Videos und Serverlogs, Textdokumente und Bilder, Anmeldedaten und Produktionsunterlagen – werden quasi unsortiert in den See gekippt. In Zeiten von Big-Data (und kostengünstigem Speicherplatz) ist das unkategorisierte Speichern von Daten durchaus sinnvoll, da das Unternehmen heute nicht unbedingt sagen kann, welche Daten in Zukunft wofür benötigt werden, weshalb eine Speicherung in Ordner oder anderen Kategoriesystemen aufwändig und möglicherweise unnötig ist.

Bei einer Daten-Anfrage wird der Speichersee nach relevanten Daten durchsucht. Sie werden herauskopiert und können weiter bearbeitet werden, die Rohdaten bleiben unverändert.

Bildquelle: tpsdave / pixabay