Sicherheitslösungen für Big Data Hadoop wird sicherer

Autor / Redakteur: Dr. Jakob Jung / Nico Litzel

Der kleine Apache-Hadoop-Elefant wird erwachsen. Als Babys müssen die Dickhäuter noch Löwen fürchten, als Erwachsene nicht mehr. Ähnlich wie die der Kollegen in freier Wildbahn verläuft auch die Entwicklung des Software-Stacks. Bei der Sicherheit von Hadoop sind schon erhebliche Fortschritte erzielt worden, aber es bleibt noch einiges zu tun.

Anbieter zum Thema

Der kleine Elefant Hadoop muss sich noch eine dickere Haut zulegen.
Der kleine Elefant Hadoop muss sich noch eine dickere Haut zulegen.
(Bild: Apache.org)

Beim ursprünglichen Konzept von Hadoop spielte die Kategorie Sicherheit noch keine Rolle, weil nur web-basierte Daten erfasst werden sollten, für die Vertraulichkeit als unwichtig angesehen wurde. Als Hadoop dann aber zu einer beliebten Plattform für Datenanalyse wurde, wurden die Mängel in Sachen Sicherheit schnell offensichtlich.

In der Version Hadoop v1 waren die Sicherheitsstrukturen ähnlich wie bei einem High Performance Computing (HPC) Cluster. Es gab Access Control Lists (ACLs) und Job Queue Authorization, aber sehr wenige dedizierte Lösungen von Drittanbietern.

In der aktuellen Version 2.60 vom 18. November 2014 hat sich schon einiges mehr getan. Es sind Sicherheitsfunktionen hinzugekommen, die aus der Welt der relationalen Datenbanken stammen und sich dort bewährt haben, wie rollenbasierte Zugangskontrollen (Role based Access Controls, RBAC) oder Label-Sicherheit. Hadoop hat jetzt bereits starke Sicherheitssysteme auf der Basis der Dateisysteme ähnlich wie bei UNIX-Permission-Systemen.

Sicherheitslösungen von Drittanbietern

Auch Datenbanksicherheitslösungen von Drittanbietern sind jetzt für Hadoop verfügbar, etwa Sentry von Cloudera. Sentry erlaubt feinkörnige Authentifizierung und enthält Fähigkeiten, um Sicherheitsfunktionen zu definieren.

Es gibt weitere Sicherheitsansätze. So hat es sich das von Intel ins Leben gerufene Open-Source-Projekt Rhino zur Aufgabe gemacht, Lücken im Hadoop-Stack zu schließen und zusätzliche Multikomponenten-Sicherheit in Hadoop zu integrieren. Intel hat sich mittlerweile von Hadoop zurückgezogen und Cloudera führt das Projekt Rhino weiter.

Das Apache Knox Gateway fokussiert sich auf Perimeter-Sicherheit. Es ist als Reverse Proxy ausgelegt, in den andere Lösungen integriert werden können. Darüber hinaus haben sich einige Hadoop-Spezialisten durch Zukäufe von Sicherheitsanbietern verstärkt. Cloudera hat Gazznang übernommen und Hortonworks hat XASecure gekauft.

Auch andere Database- und Audit-Protection-Anbieter haben ihre Angebote in Richtung Hadoop erweitert, wie etwa IBM mit dem InfoSphere Guardium Data Activity Monitor for Hadoop. Imperva hat mit Cloudera eine Technologieallianz geschlossen und will sensitive Daten absichern. Informatica bietet mit Dynamic Data Masking and Persistent Data Masking Lösungen Lösungen zum Schutz sensibler Daten und für die Sicherstellung von Compliance in Echtzeit. Protegrity hat mit dem Big Data Protector eine Data-Protection-Lösung für Big Data entwickelt. Auch Voltage Security fokussiert sich auf das Absichern von Big Data.

NoSQL eröffnet neue Gefahrenquellen

Allerdings sind auch die Risiken beim Einsatz von Big Data gewachsen. So lange man sich im SQL-Bereich bewegt, sind diese beherrschbar, aber bei der Verwendung von NoSQL eröffnen es neue Gefahrenquellen, die bisher nicht abschätzbar sind. Die Innovation von Sicherheitsfunktionen konzentriert sich auf traditionelle Datenbankmodelle. Bewegen sich Kunden außerhalb davon, müssen sie akzeptieren, dass sie in unsichere Welten aufbrechen und dass sich die Situation in absehbarer Zeit auch nicht verbessern wird.

Die Marktforscher von Gartner raten deshalb Kunden, für ihre Hadoop Cloud ein Vulnerability Assessment durchzuführen, sonst droht eine Elefantenstampede im Rechenzentrum. Es ist sehr leicht, Hadoop falsch zu konfigurieren, was zusätzliche Risiken birgt.

(ID:43149077)