Gemini 2.5 Pro und GPT-5 am stärksten EQS-Report bewertet die Compliance von KI-Modellen

Quelle: Pressemitteilung EQS 2 min Lesedauer

Anbieter zum Thema

Ein gemeinsamer Report von EQS Group und dem Berufsverband der Compliance Manager bewertet sechs KI-Modelle in 120 Alltagsszenarien. Die Systeme überzeugen bei strukturierten Aufgaben. Doch bei offenen Briefings bleiben Lücken.

Der EQS AI Benchmark Report testete sechs KI-Modelle in realen Compliance-Workflows. Am besten schnitten „Google Gemini 2.5 Pro“ und „GPT-5“ ab.(Bild: ©  Chanelle M/peopleimages.com - stock.adobe.com)
Der EQS AI Benchmark Report testete sechs KI-Modelle in realen Compliance-Workflows. Am besten schnitten „Google Gemini 2.5 Pro“ und „GPT-5“ ab.
(Bild: © Chanelle M/peopleimages.com - stock.adobe.com)

Künstliche Intelligenz (KI) hält messbar Einzug in Compliance-Prozesse. EQS und der Be­rufsverband der Compliance Manager (BCM) testeten jüngst sechs aktuelle KI-Modelle in 120 realen Anwendungsszenarien. Der Benchmark-Report „KI-Performance im Bereich Compliance & Ethik“ liefert Leistungsdaten speziell für Compliance-Workflows. Ziel ist Orientierung zu geben für Teams, die KI gezielt einsetzen wollen.

Die Ergebnisse fallen differenziert aus. Google „Gemini 2.5 Pro“ und „GPT-5“ von OpenAI führen das Ranking mit über 86 Prozent Gesamtleistung an. Am schlechtesten schneidet „Mistral Large 2“ mit 70,1 Prozent Gesamtleistung ab. Knapp davor liegt „GPT-4o“ mit 72,9 Prozent.

Die Fortschritte der KI-Modelle im Vergleich zu den jeweiligen Vorgängermodellen seien laut Report bedeutend. Besonders stark schneiden alle Modelle bei klar strukturierten Aufgaben ab. Klassifizierungen und regelbasierte Entscheidungen erreichen im Schnitt mehr als 95 Prozent Genauigkeit. Datensatzabgleiche und standardisierte Entscheidungsvorlagen laufen stabil und reproduzierbar.

Doch die KI-Modelle bergen auch Tücken

Bei offenen und mehrdeutigen Aufgaben zeigen sich die Grenzen der KI: In Management­briefings, bewertet durch eine Fachjury, erreicht GPT-5 nur 67,4 Prozent. Hier bleibt mensch­liches Urteilsvermögen ausschlaggebend.

Der Report schreibt den KI-Modellen eine hohe Verlässlichkeit im Tagesgeschäft zu. In über 95 Prozent der Fälle liefern sie konsistente Antworten. Sachlich falsche Ausgaben, beziehungs­weise Halluzinationen, treten in drei von 420 durchgeführten Tests auf. Das entspricht 0,71 Prozent.

Passendes Prompting führt zu einer höheren Qualiät der Ergebnisse

Ein wichtiger Aspekt bleibt das Prompt-Design: Präzise formulierte, kontextreiche An­wei­sun­gen erhöhen die Qualität der Ergebnisse deutlich. Die jüngsten Modelle setzen komplexe Vorgaben besonders zuverlässig um.

Für die Praxis bedeutet das laut EQS: KI eignet sich, um repetitive, strukturierte Aufgaben wie Risikoklassifizierung oder Massendatenanalyse zu entlasten. So gewinnen Teams Zeit für strategische Entscheidungen und heikle Abwägungen. Wo Deutung und Kontext über das Regelwerk hinausgehen, bleibt die Kontrolle durch Fachpersonal unverzichtbar. Der Bench­mark-Report „KI-Performance im Bereich Compliance & Ethik“ bietet hierfür belastbare Referenzwerte und einen Rahmen, um Einführung, Standards und Quali­täts­sicherung im Compliance-Alltag gezielt zu planen.

(ID:50623506)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung