Definition DarkBERT? Was ist DarkBERT?

Von Dipl.-Ing. (FH) Stefan Luber 3 min Lesedauer

Anbieter zum Thema

DarkBERT ist ein auf den Sprachmodellen BERT und RoBERTa basierendes Large Language Model (LLM). Es wurde mit Daten aus dem Darknet trainiert. Die Trainingsdaten stammen beispielsweise von Hackern, Cyberkriminellen oder politisch Verfolgten. Durch dieses spezielle Training versteht die KI die Sprache und die Vorgänge im Darknet besser. Das Sprachmodell eignet sich zu Forschungszwecken und zur Unterstützung von Straf­verfolgungs­behörden oder, um potenzielle Bedrohungen zu erkennen.

DarkBERT ist ein auf BERT basierendes und mit Daten aus dem Darknet trainiertes Sprachmodell.(Bild:  gemeinfrei /  Pixabay)
DarkBERT ist ein auf BERT basierendes und mit Daten aus dem Darknet trainiertes Sprachmodell.
(Bild: gemeinfrei / Pixabay)

DarkBERT ist der Name eines Large Language Models, das mit Daten aus dem Darknet trainiert wurde. Der Name setzt sich aus dem Anfang des Worts "Darknet" und dem Kürzel BERT zusammen. BERT steht für "Bidirectional Encoder Representations from Transformers" und ist ein von Google entwickeltes und im Jahr 2018 veröffentlichtes Sprachmodell, auf dem DarkBERT basiert. DarkBERT wurde von einem südkoreanischen Forscherteam entwickelt und trainiert. Im Gegensatz zu den herkömmlichen Sprachmodellen wurde es nicht mit Daten aus dem öffentlichen Internet (Clear Web), sondern mit Daten aus dem Darknet trainiert.

Das Darknet ist ein Teil des Internets, der nur mit spezieller Software wie dem Tor Browser zugänglich ist und die Anonymität der Nutzer und Anbieter sicherstellt. Es wird beispielsweise von Cyberkriminellen, Hackern, aber auch von politisch Verfolgten oder Journalisten genutzt. Die Art der Kommunikation und die Sprache im Darknet unterscheiden sich von der des öffentlichen Internets. Leistung und die prinzipiellen Fähigkeiten des mit Darknet-Daten trainierten KI-Modells entsprechen denen vergleichbarer Modelle wie BERT und RoBERTa oder übertreffen sie. Durch das spezielle Training versteht DarkBERT aber die Sprache und die Vorgänge des Darknet besser. DarkBERT ist nicht für die allgemeine Öffentlichkeit vorgesehen und zugänglich. Laut den Entwicklern ist es auch nicht geplant, die KI zu veröffentlichen. Sie ist auf Antrag zu akademischen Forschungszwecken oder eventuell auch von Sicherheitsbehörden nutzbar.

Funktionsweise und Training von DarkBERT

Wie aus dem Namen erkennbar ist, basiert DarkBERT auf dem von Google entwickelten KI-Modell BERT. BERT ist als Open Source verfügbar und nutzt eine spezielle Technik des maschinellen Lernens und Pretrainings von Transformer-basierten Natural-Language-Processing-Modellen. Mit der Veröffentlichung von BERT im Jahr 2018 hat das Natural Language Processing einen deutlichen Leistungsschub erhalten. Im Vergleich zu aktuellen Modellen wie GPT-4 von OpenAI oder Gemini von Google gilt BERT aber als veraltet. Genau genommen basiert DarkBERT auf RoBERTa, einem 2019 von Facebook und der Washington University entwickelten optimierten Pretraining-Ansatz für BERT. DarkBERT ist quasi eine über einen Zeitraum von über zwei Wochen mit Daten aus dem Darknet nachtrainierte Version von RoBERTa. Zunächst wurden per Crawling im Darknet gewonnene Rohdaten verwendet. Zusätzlich fand ein Training mit aufbereiteten Darknet-Daten statt.

Fähigkeiten und Einsatzmöglichkeiten von DarkBERT

DarkBERT besitzt ähnliche grundlegende Fähigkeiten und Leistungen wie vergleichbare KI-Modelle oder übertrifft diese. Das Besondere an dem mit Darknet-Daten trainierten KI-Modell ist, dass es durch die besonderen Trainingsdaten die Vorgänge und die Sprache des Darknet besser versteht. Das Sprachmodell besitzt viele Fähigkeiten und lässt sich für eine Vielzahl verschiedener Anwendungen einsetzen. Dazu zählen zum Beispiel:

  • besseres Verständnis der kontextbezogene Sprache des Darknet
  • Repräsentation des Darknet in einem großen KI-Sprachmodell mit größerer lexikalischer und struktureller Vielfalt
  • Erforschung des Darknet
  • Analyse und Klassifizierung der Themen, Tätigkeiten und Vorgänge im Darknet
  • Erstellung von Anschauungs- und Schulungsmaterial über das Darknet und seine Gefahren
  • Erkennen von Mustern in Darknet-Inhalten
  • Erkennung von Websites, die Ransomware oder sensible Daten anbieten
  • Aufdecken von illegalem Informationsaustausch
  • Monitoring illegaler Aktivitäten im Darknet
  • Unterstützung von Strafverfolgungsbehörden bei der Aufdeckung krimineller Handlungen oder dem Aufspüren von Anbietern illegaler Inhalte
  • Verbrechensbekämpfung, Betrugserkennung und Schutz der Bevölkerung
  • Früherkennung potenzieller Bedrohungen
  • Verbesserung der allgemeinen Cybersicherheit
  • Nachrichtenanalyse

Risiken durch DarkBERT

Auch wenn die primäre Zielgruppe von DarkBERT nicht Cyberkriminelle sind, besteht dennoch die Gefahr, dass diese das Sprachmodell für kriminelle Zwecke missbrauchen. Sie könnten es beispielsweise für die Durchführung von Phishing-Kampagnen oder Ransomware-Attacken verwenden. Zudem ist es möglich, dass sich das Sprachmodell durch das Training mit Darknet-Daten diskriminierend, ethisch bedenklich oder rechtlich fragwürdig verhält. Auch die Sprache des KI-Modells kann rassistische, kriminelle oder diskriminierenden Tendenzen haben. Unter Umständen werden illegal beschaffte, sensible oder personenbezogene Daten aus dem Trainingsmaterial durch das Modell wiedergegeben.

(ID:49996911)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung