Machine Learning Tipps

Fatale Fehler in der KI-Anwendung

| Redakteur: Peter Schmitz

Machine Learning ist eine bahnbrechende und richtungsweisende, aber auch hochkomplexe Technologie, mit großem Potenzial für selbst verschuldetes Versagen.
Machine Learning ist eine bahnbrechende und richtungsweisende, aber auch hochkomplexe Technologie, mit großem Potenzial für selbst verschuldetes Versagen. (Bild: Pixabay / CC0)

In naher Zukunft werden Unternehmen viele Millionen investieren und Menschen werden Machine-Learning-Lösungen entwickeln und einsetzen. Doch neue Technologien führen oft zu neuen Fehlerquellen und Möglichkeiten für Cyberangriffe. Neben den Machenschaften der Hacker ist im jungen Stadium des Machine Learning sicherlich der Entwickler und Anwender die größte Gefahr.

Machine Learning ist groß, wirklich groß. Machine Learning ist eine Technologie, die alles verändern könnte. Sie hat sich bereits als bahnbrechende Technologie für so unterschiedliche Aufgaben wie das Aufspüren von Bankbetrug, das Fahren von Autos, das Verstehen menschlicher Sprache und das Erkennen von Malware bewährt. Die Technologie ist noch recht neu, sehr komplex und das Potenzial für selbst verschuldetes Versagen der Technologie ist hoch.

Während traditionelle Software im Wesentlichen ein Regelwerk ist das festlegt, wonach sich ein Computer in einem bestimmten Kontext verhalten soll, ist Machine Learning hingegen ein Zweig der Künstlichen Intelligenz (KI). Hier werden Softwaremodelle verwendet, die anhand von Beispielen trainiert werden und ihre eigenen Regeln erstellen. Der Computerpionier Arthur Lee Samuel hält das maschinelle Lernen für einen „Forschungsbereich, der Computern die Möglichkeit gibt zu lernen, ohne explizit programmiert zu werden“. Während sich herkömmliche Software durch Transparenz und nachweislich korrektes Verhalten auszeichnet, ist Machine Learning unscharf, flexibel und undurchsichtig.

Cyberangriffe mit künstlicher Intelligenz

Cyberkriminelle und KI

Cyberangriffe mit künstlicher Intelligenz

07.03.18 - Künstliche Intelligenz (KI) und Technologien wie maschinelles Lernen, Deep Learning und intelligente Automation sind Schlüsselthemen, die die IT-Branche seit geraumer Zeit umtreibt. Vor allem bei der Abwehr von Cyberangriffen haben KI-Techniken viel Potenzial. Aber auch der Feind schläft nicht: Längst haben Cyberkriminelle die Vorzüge von Artificial Intelligence (AI) für sich entdeckt um ihre Opfer noch gezielter, schneller und raffinierter angreifen zu können. lesen

Gutes Füttern ist Grundvoraussetzung

Modernes Machine Learning funktionieren gut, weil es komplexe Zusammenhänge aus Trainingsdaten lernen kann. Auf diese Weise erkennt es Dinge, seien es Gesichter, Betrugsmuster oder Spam, mit denen menschliche Programmierer nicht mithalten können. Aber diese Fähigkeit kann auf unerwartete Weise zum Bumerang werden. Wenn die Trainingsdaten eine falsche oder nicht existente Korrelation enthalten, kann Machine Learning leicht die falschen Lektionen lernen. Eine fatale Situation denn vielfach wird Machine Learning mit Big Data gefüttert, Daten, die voll von falschen Korrelationen sind.

Ein Beispiel: Man stelle sich ein Machine-Learning-Modell vor, um Spam-E-Mails zu erkennen. Die Trainingsdaten sind eine Datenbank mit E-Mails, die von Menschen gewissenhaft als "Ham" (E-Mails die wir mögen) oder "Spam"(E-Mails die wir nicht haben wollen) gekennzeichnet sind. Nun passiert es, dass die Trainingsdaten eine plausible aber falsche Korrelation enthalten: Zufällig landet jede E-Mail mit einem Bildanhang, die von einer IP-Adresse mit der Endung 12 stammt, im Spam-Stapel. Und damit ist es geschehen: obwohl alles mit größter Sorgfalt gepflegt wurde, erhält das Machine-Learning-Modell Datenmüll – mit Folgen. Das komplexe Modell kann man daraus schließen, dass das Vorhandensein der IP-Adresse eines Absenders, die mit 12 endet, in einer E-Mail mit einem Bildanhang ein sicherer Indikator für Spam ist, obwohl dies außerhalb unserer Trainingsdaten nicht der Fall ist. Wenn dieses Modell in der Security eingesetzt würde, blockiert die Anti-Spam-Engine eine Menge korrekter E-Mails von Personen, deren IP-Adresse mit einer 12 endet.

Tipps für das richtige Füttern von Machine Learning

Es gibt keine einfache Lösung für das Machine Learning. Aber es gibt fünf Punkte auf die man achten sollte, um möglichst viele Probleme im Vorfeld auszuschließen:

  • 1. Verwendung von guten Daten. Es ist wichtig, das Modell mit vielen gut beschrifteten Daten (Labels) aus Quellen zu füttern, die ein reales Bild repräsentieren.
  • 2. Daten müssen bereinigt werden. Es ist mühevoll Daten zu reinigen, zu beschriften oder zu ändern, um Fehler zu minimieren. Aber der Aufwand lohnt.
  • 3. Das Modell sollte nicht zu stark trainiert werden, um es nicht zu überfrachten. Denn es geht nicht darum, die Trainingsdaten mit perfekter Klarheit zu erkennen, sondern darum, Dinge zu erkennen, die Ähnlichkeiten mit den Trainingsdaten aufweisen.
  • 4. False Positives und False Negatives sollten beim Test genau beachtet werden und das Modell sollte auch bei der Bereinigung der Daten unterstützen. Achtung: manchmal sind nur die Label falsch und das Modell ist richtig.
  • 5. Deep Learning sollte bevorzugte Methode des maschinellen Lernens sein. Untersuchungen haben ergeben, dass es besser ist, mit vielen unterschiedlichen Labels umzugehen, als mit flacheren Lernmethoden.

Kommentare werden geladen....

Kommentar zu diesem Artikel

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45188798 / Monitoring und KI)