Go to Top

Welche Anwendungen und welche Systeme können mit Big Data umgehen?

Big Data

Das Datensammeln wächst in allen Bereichen kontinuierlich an – egal ob in der Medizin oder im Marketing, Finanzsektor oder Maschinenbau. Alle diese Daten wollen genutzt, gespeichert oder verarbeitet werden. Verschiedene Systeme, oder besser gesagt „Ökosysteme“, erscheinen ständig neu, entwickeln sich weiter, etablieren sich auf dem Markt… um dann von anderen Systemen verdrängt zu werden, die an ihre Stelle treten. Schauen wir uns deshalb diesen Markt einmal genauer an.

Das eigentliche Geheimnis von Big Data liegt in der Flexibilität der Systeme gepaart mit der Intelligenz der Menschen, die diese Systeme einsetzen. Heutzutage kann man bei den eingesetzten Big Data Systemen tatsächlich von umfassenden „Ökosystemen“ sprechen. Beispielhaft kann man hier Hadoop und natürlich Apache Spark nennen, in das IBM eine Menge investiert hat und von dem die Entwickler sagen, dass es 100mal schneller als alle anderen Big Data Systeme ist. Aber gleichzeitig gibt es eben auch noch ElasticSearch, Google BigQuery, MongoDB, … Aber was sind das eigentlich für Lösungen? Grundsätzlich kann man das „Ökosystem-Konzept“ für den Big Data Einsatz wie folgt zusammenfassen: Hier müssen unterschiedliche Services besonders schnell und solide zusammenarbeiten. Dies erfordert eine hohe und ständig fortschreitende Koordinationsleistung der Lösungen.

Die dafür genutzten Dienste existieren dabei in verschiedenen Formen und mit unterschiedlichen Technologien. Oder sie nutzen vielmehr verschiedene Wege, um einen Zustand zu analysieren und gemäß den Prozessen zu reagieren. Die dabei genutzte Plattform kann zusammengefasste Dienste nutzen, die dabei auf bestimmte Ressourcen zugreifen, wobei diese nicht notwendigerweise in der Cloud vorliegen müssen. Im Gegensatz dazu, kann ein System auch Dienste nutzen, die in einer Multi-Service-Infrastruktur und dabei oft in der Cloud vorgehalten werden. Das ist zum Beispiel bei einer Big Data Plattform der Fall, die auf OpenStack aufgebaut ist. So oder so: In der Big Data Welt werden – anders als anderswo in der IT – viel freie Open Source Lösungen eingesetzt, aber wenn es um die Praxis geht, ist die Technik der entscheidende Faktor dieser Ökosysteme. Dabei haben die eingesetzte Hardware, die vorhandenen Maschinenressourcen und natürlich die Anschaffungskosten einen entscheidenden Einfluss auf das gesamte Big Data System und damit auf das Sammeln, Verarbeiten und Analysieren von Daten. Aber was sind die entscheidenden Faktoren, die man beachten sollte? Hier sind die wichtigsten zusammengefasst:

  1. Das verteilte Dateisystem ist das Herzstück der Lösung: Es erlaubt die Speicherzuverlässigkeit, einen Wiederaufbau nach einem Ausfall und die Datenreparatur auf hunderten, ja tausenden von Servern zu gewährleisten. Für den Big Data Einsatz ist dabei ein verteiltes Dateisystem unerlässlich. Für Hadoop (Apache) Systeme ist das HDFS-Dateisystem zu nennen, aber es gibt auch GFS, für die von Google, oder DFS, für die von Microsoft entwickelten und unterstützten, Systeme und einige mehr.
  2. Die Wahl des Datenbank-Typs ist oftmals bestimmt durch die Auswahl einer bestimmten Lösung. Man kennt die normalen relationalen Datenbanken wie SQL von Microsoft oder MySQL von Oracle, aber bei Big Data kommt meist NoSQL zum Einsatz, da die zu verarbeitenden Daten oft un- oder nur wenig strukturiert vorliegen. Das bedeutet nicht, dass SQL überhaupt nicht eingesetzt wird, sondern eben nicht mehr nur ausnahmslos. Bei den NoSQL-Datenbanken kann man nicht nur Cassandra nennen, das z.B. von Twitter genutzt wird, sondern auch MongoDB, mit dem beispielsweise SourceForge.net seine Dienstleistungen zur Verfügung stellt, so wie auch SimpleDB bei Amazon Implementierungen, BigTable bei Google und HBase bei Hadoop.
  3. Die Analyse von Big Data Datensätzen basiert auf eine Indexierung der verschiedenen Arten von strukturierten und unstrukturierten Daten. Hadoop wurde für die Verwaltung großer Finanzdaten auf Basis von Lucene von Apache entwickelt. Unter den aufstrebenden Entwicklungsprojekten in diesem Feld ist besonders ElasticSearch zu nennen, das aus dem erwähnten Lucene-Projekt hervorgegangen ist und der Flaggschiff-Lösung Soir ernsthaft Konkurrenz macht. Als Wettbewerber ist hier auch Sphinx zu nennen, oder auch kommerzielle Lösungen wie Splunk. Google bietet mit BigQuerry Big Data Analysen über die Nutzung der Google-eigenen Server an. Auch Microsoft bietet auf seiner Azure-Plattform sowohl Lösungen auf Hadoop-Basis wie auch mit SQL an. Da diese Plattformen jeweils auf Basis der genutzten Ressourcen abgerechnet werden, muss man dabei stets individuell entscheiden, ob diese Art der Technologie-Nutzung günstiger als eine Lösung ist, die man selbst besitzt und hostet, oder nicht.
  4. Die Verteilung/die Koordination: Zookeeper koordiniert bei einem Hadoop-System die native Datenbank HBase durch Konzentration auf das verteilte System der HDFS-Dateien. Dieses System ist eng verzahnt mit anderen Diensten, darunter besonders denjenigen zur Verarbeitung durch Indexierung, Katalogisierung und speziellen Diensten wie z.B. MapReduce. Die MapReduce Lösung ermöglicht dabei, dass genau die Daten extrahiert werden, die zu einem bestimmten Zeitpunkt oder für spezifische Aufgaben benötigt werden.
  5. Und schließlich haben alle Dienstleistungen einen Datenfluss (Workflow), der sich an dem jeweiligen spezifischen Bedarf orientiert.

 

Bildquelle: flickr/KamiPhuc

Lizenz: CC2