Wie funktioniert ein Captcha?

Testsystem zur Bot-Erkennung Wie funktioniert ein Captcha?

09.02.2018Autor / Redakteur: Ralph Dombach / Peter Schmitz

Viele IT-Sicherheitsmaßnahmen werden erst dann entwickelt oder eingesetzt, wenn man auf ein konkretes Problem trifft. Bei Captcha war es genauso. Diese Sicherheitsabfrage wurde entwickelt, um Spam und der nicht erwünschten Nutzung von Webdiensten durch automatisierte Bots einen Riegel vorzuschieben und Mensch klar von Maschine unterscheiden zu können. Aber wie so oft bei neuen Methoden, gibt es unbeabsichtigte Nebeneffekte und Sackgassen.

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Arvato Systems GmbH

Onapsis Europe GmbH

Hundertprozentige Sicherheit bei der Verifikation ob ein menschlicher Akteur oder ein Bot die Webseite besucht, wird sich nie erreichen lassen.
(© Danielle Bonardelle & Artsiom-Kusmartseu - stock.adobe.com)

Jeder kennt sie und fast jeder war auch schon genervt von ihnen.denn aus verschlungenen Mustern, Buchstabenkombinationen herauszulesen oder Südfrüchte auf einem Präsentationstisch zu zählen ist nicht jedermanns Sache. Die Rede ist von Captchas. Das Kunstwort Captcha steht für “Completely Automated Public Turing test to tell Computers and Humans Apart“ und basiert auf der Definition von IT-Experten der Carnegie-Mellon-Universität aus dem Jahr 2000.

Diese Technik sollte die unerwünschte Nutzung von Dienstleistungen, dass überfluten von Diskussionsforen mit Kommentaren oder Werbung und die maschinelle Erstellung von Accounts unterbinden. Denn, so die Annahme, eine variable Frage (Challenge/Response), kann nur ein menschlicher Anwender korrekt beantworten. Doch diese Annahme wurde schnell widerlegt, denn clevere Software-Mechanismen, Mustersammlungen und eine fortschrittliche Text- und Mustererkennung forciert stets bessere Techniken.

Bildergalerie

Bildergalerie mit 10 Bildern

So wurde eine neue Front geschaffen, an der seit mehr als fünfzehn Jahren ein Kleinkriegt tobt! Gegeneinander treten an, die Verteidiger von Webseiten und Services gegen die Cyberkriminellen, die eine missbräuchliche Nutzung automatisieren wollen – beispielsweise um Spam zu versenden oder auch Meinungen und Zustände zu manipulieren. Das Ergebnis dieses Kleinkriegs ist eine stetige Weiterentwicklung von neuen Captcha-Mechanismen und agilen Taktiken, diese automatisiert zu umgehen.

Die Grenzen von Captchas

Der Komplexität von Captchas sind jedoch auch Grenzen gesetzt. Denn überschreiten Sie einen gewissen Komplexitätsgrad, können die menschlichen Anwender Sie nicht mehr lösen. Wobei viele Captcha-Implementationen leider nicht barrierefrei sind und so User-Gruppen von vornherein die Erkennung erschweren bzw. diese ausschließen. Auch die Option, bei manchen Captchas sich Komponenten vorlesen zu lassen, hilft mitunter nur bedingt.

Im Jahr 2008 waren Bild-Captchas der De-Facto-Standard. Text gebogen, mit Linien verzerrt, vor farblichen Hintergründen, in unterschiedlichen Schriften und Größen, mit variablen Störobjekten dominierten die Szene. Auch die ersten Content-Management-Systeme unterstützen den Anwender aktiv mit vorgefertigten Lösungen und speziell bei Wordpress sind Captcha-Plugins noch immer sehr beliebt. Doch auch die Gegenseite schlief nicht und implementierte mit OCR-Adaptionen ein Mittel, die Camouflage-Texte trotzdem korrekt auszulesen.

2009 kaufet Google das Unternehmen reCAPTCHA und setzte mit deren Lösung einen neuen Standard. Denn die Qualität der Darstellungsobjekte (bzw. Abfrageobjekte) und Verformungen, kombiniert mit der Einfachheit der Nutzung, erleichterten den effektiven Einsatz diese Abfragen enorm. reCAPTCHA wurde von Luis von Ahn, mitgegründet, dem Wissenschaftler der Jahre zuvor an der Universität den Begriff Captcha prägte.

ASIRRA

Im gleichen Zeitraum präsentierte Microsoft seine Alternative zu Captchas, das ASIRRA-System. Basierend auf einer Image-Datenbank mit Millionen von Bildern, muss der Anwender Hunde und Katzen erkennen, um sich zu authentisieren. Nebenbei wurde auch ein herrenloses Tier vorgestellt, für das ein neues Heim gesucht wurde. Als Stolperschwelle für automatisierte System wurde eine zeitliche Beschränkung eingebaut, um einen computergestützte Image-Analyse zu verhindern (Anfangs 30 sec. zur Lösung). Trotz des sozialen Effekts konnte sich das System nicht durchsetzen. Die Universität Stanford untersuchte die Angreifbarkeit des Algorithmus und konnte mit hoher Wahrscheinlichkeit, dank automatisiertem lernen, die Verifikationskontrolle erfolgreich attackieren. 2014 wurde der Dienst dann von Microsoft eingestellt.

Cyberkriminelle haben Wordpress-Blogs im Visier, aber mit den richtigen Einstellungen Plugins und Multi-Faktor-Authentifizierung lässt sich einfach mehr Sicherheit erreichen. (DigiClack - stock.adobe.com)

reCAPTCHA

Googles Lösung folgte folgte dem eingeschlagenen Weg und forderte den User zur Verifikation von clever aufbereitete Bildschirmeingaben auf. Zur Unterstützung des Web-Nutzers wurden die folgende Optionen implementiert:

Vorlesen des Textes

Anfordern eines neuen Captchas

Hilfefunktion

Fünf Jahre nach Kauf von reCAPTCHA wurde das Tool einer Risikoanalyse unterzogen. Basierend auf diesen Erkenntnissen, überarbeitete man die Captcha-Lösung und offeriert das neue „No CAPTCHA reCAPTCHA“ dem Anwender. Der Modus Operandi ist dabei sehr Anwenderfreundlich, denn das Tool analysiert den User und entscheidet selbst, ob es sich um einen Menschen oder einen Bot handelt. Im Idealfall muss der User also keinerlei Aktivitäten vornehmen. Sollte das neue reCAPTCHA aber nicht sicher entscheiden können, ob ein Mensch oder Bot agiert, wird eine grafische Abfrage nachgeschaltet. Dabei muss man entweder aus eingeblendeten Bildern, die in Ausschnitte unterteilt sind, die Bildausschnitte identifizieren, bei denen beispielsweise ein Straßenschild sichtbar (oder Tiere einer Rasse oder Art). Oder man erhält die bekannten Textelemente zur Identifikation, die mit Störobjekten belegt sind (Textdeformation etc.).

Über die Mechanismen, welche das neue reCAPTCHA nutzt, um den Anwender als Mensch zu identifizieren schweigt sich Google aus. Man darf aber vermuten, dass es eine Kombination verschiedener Elemente ist, wie z.B.:

Elemente des Cache-Speicher

Maus-Bewegungen

Anzahl gespeicherter Favoriten

Browser User-Agent

Aktuelle Web-Historie

Daten des Systems (Betriebssystem, Variante, Ausbaustufe)

Lokale Einstellungen, etc.

Aber egal, wie clever ein Mechanismus ist, es wird immer wieder Versuche geben, diesen zu brechen oder zu umgehen. 2016 zeigte auf der renommierten Black Hat Konferenz der Vortrag „I’m not a human: Breaking the Google reCAPTCHA“ wie ein erfolgreicher Angriff auf den Algorithmus ablaufen könnte. Die Forscher Suphannee Sivakorn, Jason Polakis, und Angelos D. Keromytis konnten mit einem automatischen Mechanismus täglich rund 110 US-Dollar verdienen, wobei sie je 1000 gelöster Abfragen 2 Dollar addierten. Da die Forscher aber Google ihre Unterlagen übergaben, wird das seinerzeit vorgestellte Angriffsmodell heute nicht mehr funktionieren, sondern in die Optimierung des Algorithmus eingeflossen sein.

Das neue reCAPTCHA wird über eine API angeboten und ist, dank der Unterstützung von Google, einfach einzubinden. Entsprechende Anweisungen und Beispiele findet man auf der Google-Webseite. Die Nutzung von reCAPTCHA ist gratis, man benötigt aber ein API-Schlüsselpaar, welches man bei Google anfordern muss.

Bildergalerie

Bildergalerie mit 10 Bildern

Alternativen

Obwohl Googles reCAPTCHA am Markt dominiert, gibt es zahlreiche andere Lösungen, um den Zugriff auf Services zu verifizieren. Eine Lösung ist FunCaptcha, bei dem der Anwender kleine Spiele lösen muss, beispielsweise sind Objekte zu drehen, Felder zu verschieben oder Positionen zu bestätigen (Welches Bild steht Senkrecht). Der Vorteil bzw. die Sicherheitskomponente von FunCaptcha besteht darin, dass OCR zum Brechen der Verifikation nicht genutzt werden kann. Ebenso kommt erschwerend hinzu, dass die Maus zur Lösung des Captchas genutzt werden muss.

Ob man nun auf ein Honeypot-Captcha setzt, bei dem beispielsweise ein Textfeld auf der Webseite angezeigt wird, welches nicht ausgefüllt werden muss (Bots verraten sich, indem sie diese Felder auch mit Inhalt füllen). Alternativ bietet sich auch die Einbindung eines Audio-Captcha an, bei dem eine Eingabe akustisch angefordert wird oder ein Logik-Captcha (Wieviel Beine haben Kühe; Welche Farbe hat der Schnee) - jedes System hat Vor und Nachteile. Letztendlich wird die genutzte Lösung immer vom Aufwand zur Implementierung und der Usability abhängig sein – ebenso wie von der erreichten Qualität, Menschen zuzulassen und Bots auszusperren.

Zukunftsaussichten

Hundertprozentige Sicherheit bei der Verifikation ob ein menschlicher Akteur oder ein Bot die Webseite besucht, wird sich nie erreichen lassen. Spezialisierte Tools können bereits heute die Prüfungen umgehen oder werden in naher Zukunft erneut Wege finden, die Verifikationsmechanismen zu brechen. Zuletzt war das Tool unCAPTCHA mit einer Quote von 85 Prozent in der Lage, reCAPTCHA zu erkennen. Ebenso wird über einen Bot berichtet, der auf Basis von künstlicher Intelligenz deutlich über 50 Prozent der diversen Captcha-Methoden aushebeln kann.

Der beste Schutz besteht aktuell darin, periodisch das Verifikationssystem zu wechseln, um so von den Bot-Entwicklern ständig neue Anpassungen zu verlangen. Wobei man schon heute mitunter daran zweifeln mag dass Programme wirklich in der Lage sind, grafische Captchas zu brechen, wie die Bespiele in dem untenstehenden Tweet, von Security-Guru Mikko Hyppönen zeigen. Klar ist aber natürlich auch, dass der beste Captcha-Schutz nichts nützt, wenn die Spammer auf menschliche Hilfskräfte aus Billiglohnländern setzen.

#CAPTCHA
Select all images with: DOGS pic.twitter.com/YVAAyml2fI
— Mikko Hypponen (@mikko) 8. Juli 2016

(ID:45122113)