Foto: Michael B. Strecker
Warum wir Juraklausuren anders korrigieren müssen
Seit Jahren sorgt die Bewertung juristischer Aufsichtsarbeiten bei Studierenden und Rechtsreferendar:innen für Frust. Eine Befragung des Bundesverbands Rechtswissenschaftlicher Fachschaften e. V. (BRF) zeigt: Mehr als 80 Prozent der Studierenden empfinden die Klausurbewertung als hochgradig subjektiv, intransparent und teilweise willkürlich.
Tatsächlich ist diese Ungerechtigkeit nicht nur für Prüflinge spürbar, sondern auch empirisch nachweisbar. In einer Studie von Clemens Hufeld, Doktorand an der Ludwig-Maximilians-Universität München (LMU), schwankte die Bewertung ein und derselben Klausur durch verschiedene Korrektor:innen im Durchschnitt – nicht im Höchstwert! – um mehr als 6 Punkte.
Wissenschaftler testen KI zu Korrekturzwecken
Das Forschungsnetzwerk "DigitalProjekt" hat diesem Problem den Kampf angesagt. Der Zusammenschluss von Jurist:innen möchte die Korrektur von Juraklausuren durch Künstliche Intelligenz (KI) erproben und so womöglich für mehr Fairness bei der Bewertung sorgen.
Das Projekt testet das mit zwei KI-Systemen: dem von KlausurenKIste, einem Kölner Start-up, und DeepWrite, der KI aus einem Forschungsprojekt der Universität Passau. Zwei Forschungsphasen sind bereits abgeschlossen, ihre Ergebnisse in der Zeitschrift Ordnung der Wissenschaft veröffentlicht.
In der ersten Phase schrieben 14 Studierende an der Universität Bielefeld eine elektronische Probeklausur, wobei sie zusätzlich das kostenfreie Online-Gesetzbuch LexMea verwenden durften. Neben der Korrektur durch einen Menschen erhielten sie freiwillig eine KI-Korrektur. Ziel war es, zu prüfen, ob KI juristische Klausuren überhaupt sinnvoll bewerten kann.
Die zweite Phase im Sommersemester 2025 an der LMU baute darauf auf und ging deutlich weiter: 16 Klausuren im Verwaltungsrecht wurden jeweils von 15 Menschen und dann achtmal unter verschiedenen Rahmenbedingungen (KlausurenKIste, DeepWrite, ChatGPT, Gemini, usw.) durch die KI korrigiert. Insgesamt wurde jede der 16 Klausurlösungen ganze 23-mal korrigiert, woraufhin die Ergebnisse miteinander verglichen wurden.
Korrigiert KI besser als ein Mensch?
Die Ergebnisse waren ebenso aufschlussreich wie ein Stück weit erwartbar: Die KI ist konstanter, objektiver und unabhängiger von äußeren Einflüssen. Sie ist – anders als der Mensch – nie unausgeschlafen, überarbeitet, besonders gut oder besonders schlecht drauf. Außerdem arbeitet sie schneller und kostengünstiger als jeder Mensch.
Und sie hat einen weiteren Vorteil: Die KI gibt ausführliches, sogenanntes formatives Feedback. Jede:r Jurist:in kennt schlechte Klausurkorrekturen, die nur aus Haken und kryptischen Wellenlinien bestehen. Darunter ein Gesamtergebnis: "Eine Arbeit, die trotz ihrer Mängel durchschnittlichen Anforderungen noch entspricht – 6 Punkte". So oder so ähnlich klingt es häufig.
Die KI macht das anders. "Sie ist deutlich individueller als der Mensch, hat einen höheren Detailgrad und mehr Geschwindigkeit", sagt Michael B. Strecker, Doktorand an der Humboldt Universität in Berlin und Gründer von LexMea. Gleichzeitig räumt er ein: "Die Qualität variiert". Kleinere juristische Fehler kämen weiterhin vor. Gewisse Schwankungen kenne allerdings auch die menschliche Korrektur.
Prof. Dr. Susanne Hähnchen von der Universität Potsdam, die sich dem Forschungsprojekt angeschlossen hat, findet, dass die KI im Vergleich mit dem Menschen oft schon sehr gut abschneide. Das hänge aber vom Vergleichsmaßstab ab, also davon, welche menschliche Korrektur man mit der KI vergleiche. Schließlich gebe es neben der minimalistischen Schnellkorrektur auch viele Korrektor:innen, die die Klausur sorgfältig lesen, gutes Feedback geben und der KI noch voraus seien.
Ähnlich sieht es Prof. Dr. Marie Herberger von der Universität Bielefeld, die ebenfalls Teil des DigitalProjekts ist: Das KI-Feedback sei nicht per se besser als das menschliche. Entscheidend sei vielmehr, "dass Menschen einfach zu unterschiedlich korrigieren".
Mit anderen Worten: KI bewertet nicht generell besser als ein Mensch. Sie ist aber jetzt schon besser als eine schlechte, vielleicht sogar besser als eine durchschnittliche menschliche Korrekturkraft.
Das eigentliche Problem: Was ist eine "gute" Korrektur?
Die eigentliche Erkenntnis des Projekts hat dabei gar nicht so viel mit KI zu tun. Da KI kein Mensch ist, kann sie nicht auf ein Bauchgefühl vertrauen, sondern nur Wahrscheinlichkeiten berechnen. Damit sie sinnvoll korrigieren kann, braucht sie klare Anweisungen. Je mehr Vorgaben man ihr macht, desto gerechter sind die Ergebnisse, da der Prozess der Notenfindung transparenter und konstanter wird.
Nur: Welche Vorgaben macht man der KI, damit die Korrektur gut wird oder jedenfalls gerecht? Die Beteiligten des DigitalProjekts mussten feststellen, dass es erschreckend wenig – um nicht zu sagen gar keine – objektive Kriterien und Richtlinien gibt, wie eine Prüfungsleistung zu bewerten ist.
Herberger beschreibt die Korrekturpraxis so: "Der einzige Maßstab, den ich als Mensch habe, sind die Definitionen im Gesetz – bei mir als Korrektorin das Juristenausbildungsgesetz (JAG) NRW – und darunter muss man subsumieren." Hinzu komme ein weiteres Problem: Die gesetzlichen Definitionen bezögen sich jeweils auf eine Notenstufe, "die aber drei verschiedene Noten umfasst."
Ein Beispiel aus dem JAG NRW: Die Definition "durchschnittliche Leistung" lässt großen Interpretationsspielraum zu. Reicht es dann nicht, die Hälfte der Musterlösung zu treffen? Müssten dann nicht rechnerisch in so einem Fall neun von 18 Punkten vergeben werden? Zum Vergleich: Der Durchschnitt in den Klausuren des ersten Examens liegt bei 5,69 Punkten. Tatsächlich liegt der Durchschnitt in der Praxis also bei einer "ausreichenden" Note.
Für Strecker ist "absurd", dass diese Erkenntnis der "Beifang" ihrer Forschung gewesen sei: "In anderen Fachdisziplinen ist das klar geregelt, nur bei uns Juristen hat Klausurbewertung viel mit Bauchgefühl zu tun."
Rohpunkteschema macht alle Korrekturen konsistenter
Die Forscher:innen gaben der KI sowie den menschlichen Korrektor:innen bei ihren Experimenten eine ausführliche Musterlösung und ein sogenanntes Rohpunkteschema an die Hand. Dieses ordnete einzelnen Prüfungsleistungen – etwa Methodik, Gutachtenstil oder einzelne Prüfungspunkte – konkrete Punktzahlen zu.
Das Ergebnis: Nicht nur die KI bewertete konsistenter. Auch die Streuung menschlicher Bewertungen verringerte sich deutlich.
Das Learning war also nicht, dass die KI mit oder ohne Rohpunkteschema näher am Menschen ist – hier waren die Ergebnisse eher uneindeutig. Stattdessen wurde ganz deutlich, dass sowohl Mensch als auch KI mit dem Teilpunktesystem gerechter bewerteten, da der Weg zur Note transparenter und nachvollziehbarer ist. Das zeigte sich besonders stark in den Bereichen, in denen es wirklich wichtig wird: im oberen und im unteren Punktebereich, zwischen Bestehen und Nichtbestehen.
Mit Rohpunkteschema, so Menaf Erol, Gründer von KlausurenKIste, seien "sogar die sonst unerreichbaren 18 Punkte möglich – jedenfalls mathematisch."
Hähnchen arbeitet aus diesem Grund an ihrem Lehrstuhl schon lange mit einem Rohpunkteschema bei der Klausurkorrektur. Diese Transparenz habe aber eine Kehrseite: Wer das Schema offenlege, lade zum Remonstrieren ein, so Hähnchen.
Grundsätzliche Reform der Klausurenkorrektur notwendig
Aktuell läuft die dritte Projektphase an der Universität Potsdam. Im Januar haben Studierende eine Probeklausur im BGB AT geschrieben, die derzeit mit KI korrigiert wird. Dann soll das Feedback der Studierenden eingeholt werden und ein Expertenteam, inklusive einer empirischen Didaktikforscherin, "die KI korrigieren", um Kriterien für eine gute Korrektur zu entwickeln, wobei diesmal ein besonderes Augenmerk auf die Qualität des "formativen Feedbacks" gerichtet wird.
Obwohl Testphase drei noch läuft, teilen Hähnchen, Herberger, Strecker und Erol bereits jetzt eine zentrale Einschätzung: Die größte Schwäche der Klausurkorrektur liegt nicht im Unterschied zwischen Mensch und Maschine, sondern in der fehlenden Standardisierung der Bewertungsmaßstäbe. Die KI wirkt nur wie ein Katalysator, der diese strukturellen Defizite sichtbar macht.
Sie sind sich einig: Bevor man überlegt, wie KI beim Korrigieren von Juraklausuren helfen kann, müsse man erst einmal die derzeitige Korrekturpraxis überdenken. Alle vier plädieren dafür, immer auf ein Rohpunkteschema zurückzugreifen – ohne dabei die Flexibilität für alternative Lösungswege zu verlieren.
Laut Strecker steht dem auch nicht der viel beschworene Ermessensspielraum der Korrektor:innen entgegen: "Der Ermessensspielraum der Korrektoren ist kein gutes Argument. Man sollte nicht frei nach Bauchgefühl entscheiden, das halte ich schon aus rechtsstaatlichen Gründen nicht für überzeugend."
"Viele sagen, das kann man nicht verobjektivieren", schließt sich Hähnchen an, "aber bis zu einem bestimmten Grad lässt sich die Korrektur von Juraklausuren unserer Auffassung nach eben doch objektivieren."
Schlauer als die Musterlösung – was dann?
Ohne Musterlösung und Rohpunkteschema ist die KI auf sich allein gestellt, was das Risiko von Halluzinationen und Fehlern erhöht. Herberger warnt: "Je weniger präzise die Vorgaben, desto größer die Halluzinationsgefahr" – auch wenn es aus ihrer Sicht Mittel und Wege gibt, diesen Effekt abzuschwächen. Die KI sei umso verlässlicher, je detailgenauer die Musterlösung ist.
Gerade die Rechtswissenschaft lebt allerdings davon, dass nicht alles auf eine Musterlösung passt, sondern ein breites Spektrum vertretbarer Auslegungen und Anwendungen von Rechtsnormen existiert. Nicht selten ist ein:e Student:in sogar "schlauer" als der oder die Klausurersteller:in und findet einen Lösungsweg, den letztere:r gar nicht bedacht hatte.
"Wir wollen auf gar keinen Fall, dass der Maßstab für die Korrektur immer 1:1 die Musterlösung ist", betont Herberger gegenüber LTO.
Allerdings müssen auch KI-Skeptiker:innen einräumen: Viele menschliche Korrekturkräfte überprüfen nicht selbstständig alternative Lösungswege. Dafür fehlt es an Zeit und Geld und manchmal auch an der nötigen Fachkompetenz.
"Der Knackpunkt ist der Umgang der KI mit vertretbaren Lösungen", folgert Hähnchen hieraus, "die müssen in die Musterlösung". Aber wer kann schon alles vorhersehen, was sich die Studierenden ausdenken?
Examenskorrektur durch KI?
Mittelfristig wird KI im Examen noch keine Rolle spielen. Verfassungs- und europarechtliche Hürden stehen dem entgegen. Die europäische KI-Verordnung ((EU) 2024/1689) stuft Systeme zur "Bewertung von Lernergebnissen" als Hochrisiko-KI ein. Ihr Einsatz ist nur unter strengen Auflagen und nach Abschluss eines Zertifizierungsprozesses möglich.
Realistisch erscheint zunächst eher ein Einsatz von KI als Korrekturassistenz. Herberger will überlegen, "wie die KI den Korrektor so unterstützen kann, dass wir zu mehr Gleichförmigkeit kommen. Eine solche Gleichförmigkeit ist notwendig, wenn man Notengerechtigkeit verwirklichen will."
Laut Strecker kann KI dem Menschen einen Spiegel vorhalten und bei großen Abweichungen eine verdeckte Zweitkorrektur anregen. In jedem Fall solle die Letztverantwortung beim Menschen liegen. So ist es etwa schon in Bayreuth, wo eine Software KI-gestützt verdächtige Abweichungen bei Klausurbewertungen herausfiltert und noch einmal überprüfen lässt.
KI ist nichts für Anfänger
Für Übungszwecke könnte KI hingegen schon bald eine wichtige Rolle spielen. Der Einsatz zu Lernzwecken fällt nach Ansicht von Strecker, der im Bereich Regulierungsmodelle für KI promoviert, nicht unter die Hochrisiko-Kategorie. Hähnchen nennt die Systeme von DeepWrite und KlausurenKIste eine "super Trainingsmöglichkeit für Studierende."
Für den Lerneffekt kommt es weniger auf die genaue Note als auf hilfreiches inhaltliches Feedback an – und genau das kann die KI schon jetzt. KlausurenKIste plant daher eine Abo-Plattform, auf der Studierende Sachverhalte bearbeiten und unmittelbar eine ausführliche Rückmeldung erhalten.
Zumindest die jüngeren Semester sollten dieses Feedback aber mit Vorsicht genießen, warnt Herberger. Die KI könne sehr überzeugend falsch liegen. Für sie sei das Stichwort immer „Beurteilungskompetenz“. Diese setze aber Erfahrung und einen guten juristischen Riecher voraus, den die jüngeren Semester womöglich noch nicht hätten.
Da die ersten – noch sorgenfreien – Semester ohnehin nicht nur am Schreibtisch stattfinden sollten, empfiehlt es sich, erst in der Examensvorbereitung auf das Üben mit der KI zurückzugreifen – und selbst dann stets im Austausch mit Dozent:innen zu bleiben.
Spannend wird sein, welche Ergebnisse das DigitalProjekt noch zutage fördert. Schon jetzt lässt sich erahnen, dass die Digitalisierung sogar die beharrlich reformresistente Rechtswissenschaft über kurz oder lang zu Veränderungen zwingt.
Im Idealfall verändert sich nicht nur, wer korrigiert, sondern auch, wie korrigiert wird. Denn eins ist klar: Die bloße Automatisierung eines schlechten Systems hilft niemandem.
Prof. Dr. Susanne Hähnchen ist Inhaberin des Lehrstuhls für Bürgerliches Recht und Rechtsgeschichte an der Universität Potsdam.
Prof. Dr. Marie Herberger, LLM. Ist Inhaberin des Lehrstuhls für Bürgerliches Recht, Zivilverfahrensrecht, Methodenlehre, Recht der Digitalisierung und Legal Tech an der Universität Bielefeld.
Michael B. Strecker ist wissenschaftlicher Mitarbeiter am Lehrstuhl für Öffentliches Recht, insbesondere Verwaltungsrecht (Prof. Dr. Thomas Wischmeyer) an der Humboldt-Universität zu Berlin und Gründer des kostenlosen Online-Gesetzbuches LexMea.de, das die Studierenden beim Schreiben der Klausuren verwendet haben.
Menaf Erol ist Jurist sowie Gründer und CEO des Legal-Tech-Start-ups KlausurenKIste.
Auf Jobsuche? Besuche jetzt den Stellenmarkt von LTO Karriere.
Künstliche Intelligenz
Verwandte Themen:- Künstliche Intelligenz
- Examen
- Staatsexamen
- Jurastudium
- Studium
- Digitalisierung
Teilen