Was genau sind eigentlich Data Lakes und wie funktionieren sie? Infolge der enormen Datenströme ergibt sich dazu die entscheidende Frage: Wie kann aus den riesigen Datenmengen ein Mehrwert gezogen werden?
Zur Problemlösung spielt der Data Lake eine entscheidende Rolle. Der Data Lake (dt. „Datensee“) wird als Ort bezeichnet, an dem ein Unternehmen alle strukturierten und unstrukturierten Daten speichern kann. Durch die Menge an Informationen kann der Data Lake für flexible Analysen im Big Data-Umfeld verwendet werden.
Das Konzept der Data Lakes
Der Data Lake steht bildlich für einen See voller Wasser. Dieser See wird aus einem stetigen Strom voller Daten wie E-Mails, Excel-Dateien bis hin zum Content der Social Media-Plattformen gefüllt. Dargestellt werden einerseits unstrukturierte Daten wie zB. Rohdaten wie E-Mails, PDF-Dateien, Bilder, Videos oder Social Media-Beiträge, die vor der Speicherung nicht validiert oder umformatiert werden müssen. Erst, wenn die Daten tatsächlich Verwendung finden, erfolgt die Strukturierung und ggf. Formatierung der benötigten Daten. Andererseits befinden sich darin strukturierte Daten wie Informationen in Zeilen, Spalten oder Datensätzen, die mit Datenbanken und Datenmining-Tools sortiert und verarbeitet wurden.
Das Wasserreservoir dient als Datenbasis, in der die Daten analysiert werden. Das Wasser im Auslauf beinhaltet die analysierten Daten. Durch diesen Prozess können Daten durchsiebt werden, um daraus nützliche Geschäftsimpulse Marketing abzuleiten.
Data Warehouses vs. Data Lakes
Wird von der Speicherung und Bereitstellung riesiger Datenmengen gesprochen, so fällt auch oft die Bezeichnung des Data Warehouse. Der Data Lake und das Data Warehouse unterscheiden sich jedoch in ihrem Konzept und der Art der Datenspeicherung deutlich.
Das Data Warehouse führt Daten aus unterschiedlichen Quellen zusammen und formatiert, sowie strukturiert die Daten, um eine direkte Analyse zu gewähren. Der Data Lake hingegen nimmt Daten aus verschiedenen Quellen im Rohformat auf und legt sie unstrukturiert an einem Ort ab. Der Data Lake muss für die Speicherung der Daten nicht die anschließende Art der Analyse kennen. Wenn die Daten tatsächlich gebraucht werden, erfolgt die Umformatierung und Strukturierung.
Die Konzentration des Data Warehouse liegt auf Kennzahlen oder Transaktionsdaten. Beispielsweise Bilder oder Audiodateien – die unstrukturierten Daten – werden nicht abgelegt. Da der Data Lake die Daten im Ursprungsformat bereithält, ist er flexibler einsetzbar. Dementsprechend können die Daten in völlig neue Strukturen überführt und mit neuartigen Methoden gemessen werden.
Schaffen von Wettbewerbsvorteilen
Durch die hohe Anzahl an zur Verfügung gestellten Informationen sind äußerst aussagekräftige und tiefe Analysen möglich. Somit können sich wichtige Wettbewerbsvorteile für Unternehmen ergeben. Die genaue Analyse der Verkaufstransaktionen verbunden mit Kundenmeinungen kann die Preis- und Angebotspolitik entscheidend verbessern.
Data Lakes: Schnell & vielfältig
Die Speichervorgänge erfolgen sehr schnell, weil die Daten im Rohformat vorliegen. Auch die Fähigkeit die großen Datenmengen zu durchsuchen erfolgt mit einer hohen Geschwindigkeit. Der Data Lake bietet mehr Möglichkeiten für die Auswertung der Daten als das Data Warehouse. Das Data Warehouse hingegen sortiert bereits bei der Speicherung die Informationen aus, die für spätere Analysen nicht benötigt werden.
Weg von herkömmlichen Datensilos
Da der Data Lake in der Lage ist die Skalierbarkeit, Agilität und Flexibilität einzubeziehen, können verschiedene Arten von Daten und Analyseverfahren kombiniert werden, um tiefere Einblicke zu gewinnen. Herkömmliche unverbundene Datensilos und das Data Warehouse bieten diese Eigenschaft nicht. Diese Besonderheit ist jedoch äußerst wichtig, da sich die Datenmenge im digitalen Universum bis Ende 2020 verzehnfachen wird.
Data Lakes in der Praxis
Die Hauptanwendungsgebiete der Data Lakes sind Big Data Analysen. Mithilfe von Data Lakes kann das Verhalten der Kunden in Zukunft möglichst genau vorhergesagt werden, da der Zusammenhang zwischen dem Ansehen und Kauf der betrachteten Produkte und dem Erwerb ähnlicher Produkte deutlich schneller ersichtlich wird. So können dem Kunden die passenden Angebote in Zukunft besser präsentiert werden. An dieser Stelle dient der Einsatz von Data Lakes, Künstlicher Intelligenz (KI) und Algorithmen, denn Algorithmen sind befähigt unstrukturierte Daten in ihre Auswertungen miteinzubeziehen.
Sollten Sie weiterführende Fragen haben, schauen Sie doch auf unseren Social Media Kanälen vorbei (Xing, Linkedin, Instagram) oder rufen Sie uns an +49 (0)641 984 46 – 0.