Eine Frau tippt auf einem Laptop, auf dem ChatGPT geöffnet ist
Testlauf an der Ruhr-Uni Bochum

ChatGPT besteht Haus­ar­beit im All­ge­meinen Schuld­recht

Gastbeitrag von Dr. Jan David Hendricks und Fabien Josten20. Dezember 2025, Lesedauer: 5 Minuten

Alle diskutieren, wie KI das Jurastudium verändern wird. Jan David Hendricks und Fabien Josten haben dagegen schon den Praxistest gemacht und ChatGPT eine offizielle Hausarbeit mitschreiben lassen. Den Korrektoren fiel es nicht auf.

Generative Künstliche Intelligenz (KI) lässt sich in unbeaufsichtigten Prüfungen zwar untersagen, kontrollieren lässt sich das Verbot aber kaum. Die Universitäten behelfen sich deshalb mit Selbstverpflichtungserklärungen und Kennzeichnungspflichten. Zumal sich auch kritisch hinterfragen ließe, ob ein Verbot gerechtfertigt wäre. 

Gerade die Hausarbeiten drohen deshalb, zum "Prompt-Wettbewerb" zu verkommen. Lerneffekt und Prüfungswert des Formats Hausarbeit werden schmaler und schmaler – so jedenfalls die These. 

Wie nah diese These der Realität schon kommt, hat ein Praxistest an der juristischen Fakultät in Bochum nun gezeigt. Die dort vom Lehrstuhl von Prof. Dr. Jacob Joussen gestellte Hausarbeit im Allgemeinen Schuldrecht ließen die Autoren von ChatGPT bearbeiten. Dazu ließen sie Lösungsskizze und vollständiges Gutachten generieren und reichten den Text in Absprache mit dem betreuenden Lehrstuhl zur Korrektur ein.

Ziel des Versuchs an der Ruhr-Universität war es, zu testen, inwieweit schon heute frei zugängliche generative KI-Tools die in der deutschen Juristenausbildung klassischen Hausarbeiten als Prüfungsformat infrage stellen. Welche Ergebnisse können durchschnittlich motivierte und KI-versierte Studierende, die ausschließlich frei verfügbare Modelle nutzen, mit welchem Aufwand erzielen? Daher wurde die KI-Hausarbeit ausschließlich mithilfe der Freiversion von ChatGPT (Modelle GPT-5 und 4o) erstellt.

Anzeige

In vier Schritten zur KI-Hausarbeit

In einem ersten Schritt galt es, zwei Prompts zu erstellen: einen für die Lösungsskizze und einen für das ausformulierte Gutachten. Beide Prompts haben wir anhand der Ergebnisse einiger Testläufe verfeinert. Entscheidend war, dass Skizzen- und Gutachtenprompt aufeinander aufbauen und dieselben Schwerpunkte setzen.

Um im zweiten Schritt eine ausführliche Lösungsskizze generieren zu lassen, haben wir den Sachverhalt zusammen mit einem Schuldrecht-AT-Lehrbuch in ChatGPT hochgeladen und den Skizzenprompt in einem leeren Chatfenster ausgeführt. In den Output griffen wir nicht ein. Die Überlegung: Wir wollten das Modell nicht durch gezielte Nachfragen zum richtigen Ergebnis führen.

Am schwierigsten war der dritte Schritt: das ausgeschriebene Gutachten. Die Aufgabenstellung war zu umfangreich, um ein Gesamtgutachten generieren zu lassen. Zudem reichte das Tokenlimit der Freiversion dafür nicht aus. Daher haben wir einzelne Gutachtenteile generiert, wobei die Herausforderung darin bestand, über das gesamte Gutachten hinweg von ChatGPT passende Schwerpunkte setzen zu lassen. Denn wenn das Modell nur isolierte Teile generiert, verliert es zwangsläufig den Gesamtüberblick. 

Um das zu lösen, haben wir in Schritt zwei nicht nur eine ausführliche Lösungsskizze erstellen lassen, sondern eine gewichtete, in der prozentual angegeben wurde, welcher Prüfungsschritt welchen Anteil an der Gesamtprüfung haben sollte. 

Auch in das so generierte Gutachten haben wir inhaltlich nicht eingegriffen. Lediglich das in drei Teilen generierte Gutachten haben wir manuell in einem Dokument zusammengefasst und anhand der Fakultätsvorgaben formatiert.

Schritt vier: der Fußnotenapparat. ChatGPT hat keinen Zugriff auf juristische Datenbanken. Es kann frei zugängliche Entscheidungen nennen und Nachweise aus dem hochgeladenen Lehrbuch auswerfen, aber keine belastbaren Fundstellen aus Kommentaren oder Datenbanken liefern. Daher haben wir hier den Versuchsgrundsatz "ChatGPT pur" ausnahmsweise durchbrechen müssen: Dort, wo in dem Gutachten offensichtlich Nachweise zu erwarten waren, haben wir Fußnoten gesetzt und diese manuell befüllt. Dabei war eine Balance zwischen Minimal- und Maximalaufwand beabsichtigt: Der Fußnotenapparat sollte so durchschnittlich wie möglich gestaltet sein, damit er die Benotung weder positiv noch negativ beeinflusst. 

Zusammengefasst: Den Gutachtentext lieferte ChatGPT ohne inhaltliche Eingriffe durch Menschenhand. Nur Fußnoten sowie Literaturverzeichnis haben wir manuell erstellt. 

Bewertungen von vier Korrektoren: 3, 6, 6 und 8 Punkte

Die so entstandene Hausarbeit wurde zusammen mit den anderen Hausarbeiten an vier nicht eingeweihte Korrektoren verteilt. Das Ergebnis: einmal mangelhaft (3 Punkte), zweimal ausreichend (6 Punkte) und einmal befriedigend (8 Punkte). Der Durchschnitt von 5,75 Punkten liegt nahe am Gesamtdurchschnitt (6,05 Punkte bei 241 Arbeiten). ChatGPT hat damit eine echte Hausarbeit im Schuldrecht AT an einer deutschen Universität bestanden. 

Besonders spannend: Keiner der Korrektoren äußerte den Verdacht eines Täuschungsversuchs dahingehend, dass der Gutachtentext KI-generiert sein könne. Ihre Kritik ähnelte sich: Alle Korrektoren bemängelten vor allem den fehlenden Normbezug der Arbeit sowie eine teils mangelhafte Schwerpunktsetzung. Auch die argumentative Eindringtiefe war ihnen zu dünn. 

In den drei bestandenen Arbeiten wurde dagegen positiv hervorgehoben, dass die Arbeit sachgerechte und juristisch korrekte Ergebnisse erziele und dass sie zeige, dass komplizierte Normen des BGB AT beherrscht würden. Die KI traf die Musterlösung nicht punktgenau, gelangte aber auf nachvollziehbarem Weg zu vertretbaren Ergebnissen. Große Schwerpunkte oder Probleme wurden nicht übersehen, sondern eher Detailfragen nicht in der geforderten Tiefe erörtert. 

Das Ziel, durch die Gestaltung des Fußnotenapparats und des Literaturverzeichnisses keinen Notenausschlag in die eine oder andere Richtung zu geben, haben wir dabei erreicht: Manche Korrektoren bemängelten fehlende Varianz bei der Quellenauswahl, andere wiesen darauf hin, dass Auswahl und Umfang der verwendeten Quellen sowie das Literaturverzeichnis angemessen seien und dem üblichen Umfang entsprächen. 

Was heißt das für die Hausarbeit als Prüfungsformat?

Die Stichprobe ist klein, aber der Befund ist bemerkenswert. Mit einem ausschließlich KI-generierten Gutachtentext erzielt man zwar keine Bestnoten, aber man kann eine Hausarbeit in der deutschen Juristenausbildung durchaus mit einem durchschnittlichen Ergebnis bestehen. 

Der Preis dafür liegt weniger im Schreiben als in der Vorbereitung: Notwendig sind durchdachte Prompts – was die These vom "Prompt-Wettbewerb" stützt – und Nacharbeit bei den Quellen und Formalia. Quellenangaben müssen in den einschlägigen Datenbanken gesucht werden. Außerdem begrenzen die Tageslimits der kostenfreien Version den Prozess. Lässt man diese unbeachtet, liegt der Arbeitsaufwand allerdings etwa in der Größenordnung von zwei bis drei Tagen für Generierung, Formatierung und Recherche der Fundstellen. Nicht schlecht, wenn man bedenkt, dass Studierenden mehrere Wochen während der vorlesungsfreien Zeit für eine Hausarbeit zur Verfügung stehen.

Dr. Jan David Hendricks (c) Lea Streubel

Wer bessere Noten anstrebt, wird natürlich weiter kontrollieren und überarbeiten müssen. Gerade Aufbaufehler und Brüche im Gutachtenstil lassen sich aber – je nach Leistungsniveau des Studierenden – rasch glätten. Der entscheidende Aspekt der KI-Hausarbeit liegt darin, dass sich die Grenze zwischen Eigenleistung und Prompting verschiebt, wenn ChatGPT eine vollständig ausformulierte Hausarbeit ausspuckt. Damit verschiebt sich nämlich insgesamt das, was mit dem Prüfungsformat Hausarbeit überhaupt abgeprüft werden kann.

Studierende müssen nicht einmal das ganze Gutachten generieren lassen: Schon die generierte, nach Schwerpunkten gewichtete Lösungsskizze kann eine große Hilfe sein, anhand der man dann nur noch ausformuliert. Das umgeht sogar das Problem mit der begrenzten Freiversion. Unsere KI-Lösungsskizze lag dabei nicht allzu weit neben der Musterlösungsskizze und eine saubere Vorgliederung ist erfahrungsgemäß die halbe Miete für eine gute juristische Arbeit.

Für die Zukunft wäre ein Versuch mit größerer Stichprobe noch interessant. Man könnte auch am Versuchsaufbau ansetzen und Bezahlversionen verwenden oder für die Fußnoten auf Modelle mit Datenbankzugriff setzen, um zu testen, wie weit man auch die Fußnotenarbeit auf die KI auslagern kann.

Fabien Josten (c) Lea Streubel

Mit diesem kleinen Test als Ausgangspunkt lässt sich aber bereits heute feststellen: Die Tage der althergebrachten Hausarbeit als Prüfungsformat sind gezählt.

Dr. Jan David Hendricks ist Akademischer Rat a.Z. und Habilitand am Lehrstuhl für Bürgerliches Recht, Unternehmensrecht (Arbeitsrecht und Gesellschaftsrecht) und Recht der Familienunternehmen von Prof. Dr. Katharina Uffmann an der Ruhr-Universität Bochum.

Fabien Josten ist dort Studentische Hilfskraft.

Ein ausführlicher Bericht über den Versuch wird in Heft 2/2026 der Zeitschrift für Didaktik der Rechtswissenschaft (ZDRW) erscheinen.

Auf Jobsuche? Besuche jetzt den Stellenmarkt von LTO Karriere.

Thema:

Jurastudium

Verwandte Themen:
  • Jurastudium
  • Künstliche Intelligenz

Teilen

Aktuelle Jobs

Ähnliche Artikel

Freiversion von ChatGPT besteht Hausarbeit im Schuldrecht