Mehrfachidentitäten, Geldwäsche und Steuerhinterziehung Forensik und mehr mit Graph-Datenbanken
Eine Graph-Datenbank ist die Grundlage für die visualisierte Darstellung vernetzter Informationen und Beziehungen. Egal, ob es dabei um die „Panama Papers“, Mehrfachidentitäten im Sozialsystem oder Geldwäsche geht – sie bilden die Grundlage für Recherchen.
Anbieter zum Thema

Bei einer Herangehensweise mit klassischen relationalen Datenbanken gibt es beispielsweise eine Datenbank mit der Bezeichnung „Kunden“, eine mit „Aufträgen“ und eine namens „Kunden-Aufträge“, die die Beziehung herstellt. Bei einer Graph-Datenbank gibt es Knoten und Kanten. Letztere stellen die Beziehungen zwischen Knoten her. Beispielsweise sind Personen Knoten und „telefonieren“ ist die Beziehung zwischen den Knoten und wird auch „Kante“ genannt. „Werden die Beziehungen zwischen den Knoten durchforstet, ist von ‚traversieren‘ die Rede, beispielsweise wenn ich ermittle, mit welchen Knoten Person A in einem bestimmten Zeitraum die Beziehung ‚telefoniert mit‘ eingegangen ist“, erläutert Stefan Kolmar, Vice President Field Engineering Europe bei Neo4j. Dieses Traversieren ist weniger aufwändig als die Beziehungen in Zwischentabellen abzubilden, so wie es in relationalen Datenbanken nötig ist. So viel zum Grundprinzip hinter so genannten Graph-Datenbanken, zu denen Neo4j zählt.
Gründer sind Matrix-Fans
Der Name Neo4j kam laut Kolmar folgendermaßen zustande: „Neo war ursprünglich eine Library, und 4j heißt abgekürzt ,für Java‘. Heute ist Neo4j eine Client-Server-Datenbank.“ Die Unternehmensgründer haben ein Faible für Matrix. So steckt nicht nur der Hauptprotagonist Neo im Firmennamen, sondern beispielsweise heißt auch die Abfragesprache „Cypher“ – ebenso wie einer der Piloten bei Matrix.
Mit der Abfragesprache Cypher verhält es sich ähnlich wie bei SQL: Mit ihr kann die Datenbank durchforstet werden. Mit der so genannten Graph-Plattform ist aber mehr möglich: „Hierbei geht es darum, den ETL-Prozess ordentlich umsetzen zu können, also das berühmte ‚Extraktion, Transformation, und Laden‘ von Daten“, sagt Graph-Spezialist Kolmar. Datenquellen können damit bestimmt und eingerichtet werden. Die Visualisierung der Ergebnisse spielt dabei auch eine zentrale Rolle. Außerdem beinhaltet die Plattform Graph-Algorithmen, zum Beispiel um kürzeste Wege oder Communities und zentrale Knoten zu finden, Funktionen zur Administration und Development, Treiber, um mit verschiedenen Programmiersprachen und -Umgebungen die Neo4j-Datenbank zu benutzen, sowie Tools zur Graphanalyse, die das Tagesgeschäft von Data Scientists und Analysten erleichtern.
In der Praxis wird Neo4j nämlich nur in Ausnahmefällen isoliert eingesetzt. Die Regel ist eine Einbettung in ein Tool-Set, darunter andere Datenbanken, Visualisierungstechnologien, entsprechende Treiber und APIs, Tools zur Datenintegration sowie Data-Warehouses oder Hadoop-Frameworks für Big-Data-Analysen. In der Plattform wurde ein entsprechender Werkzeugkasten bestückt. Das Visualisierungstool „Neo4j Bloom“ vereinfacht die Zusammenarbeit zwischen Entwicklern und Business-Anwendern.
Unverzichtbar in der Forensik
Die Forensik setzt häufig auf Graph-Datenbanken. Zu den typischen Einsatzszenarien zählt beispielsweise die Betrugserkennung. Kolmar führt das Beispiel Geldwäsche an: „Am Hauptbahnhof in München gibt es eine öffentliche Bargeldeinzahlungsmöglichkeit. Wenn hier, sagen wir, 100 Leute kleinere Beträge um die 1.000 Euro einzahlen, würde das unter dem Radar verschwinden. Gibt es aber Verknüpfungen mit 100 Leuten, die das Geld in Kolumbien wieder abheben, kann diese Clusterbildung zur Geldwäsche-Erkennung eingesetzt werden. Kunden für solche Projekte können Ermittlungsbehörden oder Finanzdienstleister sein, die regulatorisch dazu angehalten sind, Maßnahmen gegen Geldwäsche vorzunehmen.“ Ein weiteres Beispiel aus dem Bereich der Betrugserkennung ist die Aufdeckung von Mehrfach-Identitäten, wenn also verschiedene Namen mit denselben Sozialversicherungsnummern oder Adressen verknüpft sind. Mit Mehrfach-Identitäten werden Sozialleistungen mehrfach abkassiert, was nicht im Sinne des Erfinders und der redlichen Beitragszahler sein kann.
Ein Grundsatz für Rechercheure lautet: „Folge dem Geld!“ Finanzielle Verflechtungen können per Graph-Datenbank effizient ans Tageslicht gebracht werden: „Auch bei den Panama-Papers wurden Verknüpfungen über unsere Graph-Datenbank sichtbar gemacht.“
Patentübersicht, Kaufempfehlungen und Wissensmanagement
Abseits der Kriminalistik zählt zu den Kunden von Neo4j beispielsweise auch die NASA, die es über Graph-Datenbanken möglich macht, schnell an vorhandenes, aber zunächst verborgenes Wissen zu gelangen, indem über entsprechende Taxonomien Verknüpfungsstrukturen geschaffen werden. Ferner nutzen laut Kolmar auch verschiedene Dax-Unternehmen die Technologie: „Hierbei geht es zum Beispiel darum, einen Überblick über vorhandene Patente zu erlangen.“ Auch Empfehlungen in Online-Shops, die dem Käufer anzeigen, dass Kunden, die dieses Produkt kauften, sich auch für jenes interessierten, basieren in der Regel auf Graph-Technologie. Ebenso verhält es sich, wenn der Online-Shop automatisiert Zubehör anbietet, wie etwa eine passende Schutzhülle für ein konkretes Smartphone.„Es gibt ja die These, dass sich alle Menschen auf der Welt über sechs Ecken kennen. Diese Verbindungen zwischen zwei beliebigen Menschen über Graph-Algorithmen zu finden und grafisch darzustellen, wäre eine klassische Aufgabe für eine Graph-Datenbank“, beschreibt Daten-Profi Kolmar.
Knowhow ist Geld wert
Die Einsatzszenarien sind mannigfaltig und dergestalt, dass Knowhow in Form von Dienstleistungen in bare Münze verwandelt werden kann. „Relationale Datenbanken sind in Unternehmen stark verbreitet. Darin steckt viel Wertschöpfungspotenzial für unsere Partner, zum Beispiel im Bereich Knowledge-Management, neue Strukturen über eine Graph-Datenbank einzuführen und damit das vorhandene Wissen zueinander in Beziehung zu setzen“, führt Kolmar aus. Partner aus dem Neo4j-Channel machen Umsatz mit Trainings, Services wie Datenmodellierung, Projektmanagement – beispielsweise ein Betrugserkennungsprojekt bei einer Versicherung –, dem Erstellen von Abfrageskripten, Performance-Optimierungen oder auch mit der industriellen Entwicklungsarbeit oder dem Programmieren von Applikationen. Im laufenden Betrieb kann es dann Health-Checks geben, bei denen geprüft wird, ob alles rund läuft.
Insgesamt ist Graph-Technologie nach Angaben von Neo4j „im Grunde sehr intuitiv“, und der Umgang damit sei einfacher als mit relationalen Datenbanken.
(ID:45578104)