Legal Data Science verständlich erklärt – Teil I: Was ist das?

von Seán Fobbe

08.06.2022

Data Science, aber für Jura: Das ist Legal Data Science. Seán Fobbe erklärt in zwei Teilen, was sie ist, wie sie funktioniert und wie man sie sich nützlich machen kann - und zwar verständlich für alle. Heute in Teil I: die Grundlagen.

Legal Tech hat sich in den vergangenen Jahren einen festen Platz im juristischen Diskurs erobert und beflügelt seitdem die Fantasien von Jurist:innen und Politiker:innen gleichermaßen. Big Data, künstliche Intelligenz, Predictive Analytics & Co. sind in aller Munde. Ihre Propheten versprechen die unmittelbar bevorstehende Revolution im Rechtsstaat und die radikale Veränderung des juristischen Alltags. Jahr für Jahr bleibt diese Revolution aber aus. Wieso?

Zunächst die schlechten Nachrichten: Durch mehr Daten werden Ergebnisse nicht unbedingt besser, künstliche Intelligenz ist auch 2022 keine magische Lösung für beliebige Probleme und die von Predictive Analytics versprochene Kristallkugel zeigt meist nur, dass Vorhersagen schwierig sind. Überraschung.

Die gute Nachricht: Hinter dem Hype verbergen sich nützliche Entwicklungen mit viel Potenzial, auch und gerade in unserer juristischen Branche.

Data Science ist ehrlicher als jedes Buzzword

Treten wir daher einen Schritt zurück und blicken zunächst auf die Grundlagen. Big Data, künstliche Intelligenz, Predictive Analytics — all diesen Buzzwords gemeinsam ist eine übergeordnete Disziplin: Data Science. Auch ein Buzzword? Nein, denn Data Science ist einer der ehrlichsten Begriffe aus dem Bereich der neuen Technologien, nennt er doch seine zwei zentralen Elemente direkt im Namen: Data und Science.

Bei Data Science geht es im Kern um das Trennen von relevanten und irrelevanten Informationen ("Data") durch reproduzierbare quantitative Analysen ("Science"). Dieses Prinzip kennen wir im Grunde schon aus der althergebrachten Rechtswissenschaft, nur die Methoden sind dort vorwiegend quantitativ statt qualitativ.

Relevanz ist aber menschengemacht. Wir müssen uns immer klar werden: Welche Frage soll uns Data Science überhaupt beantworten? Interessieren wir uns für eine bestimmte Art von Vertragsklausel, die in einem Bestand von mehreren Tausend aktiven Verträgen überarbeitet werden soll? Wollen wir einen bestimmten Rechtsbegriff in der Rechtsprechung eines Bundesgerichts analysieren? Ist ein Strukturvergleich deutscher Bundesgesetze unser Ziel?

Auch wenn die fortschrittlichste künstliche Intelligenz des Universums "42" für die Antwort auf alle Fragen hält, ist diese Antwort für uns bedeutungslos, wenn die Frage unbekannt oder irrelevant ist. Data Science allein löst keine Probleme, sie generiert stattdessen Wissen, mit dem Menschen Probleme lösen können. Auch hier ist die Verwandtschaft zur Juristerei unverkennbar: Ein juristisches Gutachten kann die Rechtslage darstellen und Handlungsoptionen aufzeigen, die abschließende Entscheidung innerhalb der rechtlichen Rahmenbedingungen müssen aber die Entscheidungsträger in Politik, Wirtschaft und Justiz treffen.

Die Formulierung der Fragestellung erfordert immer eine menschliche Wertung. Deshalb ist eine Automatisierung des gesamten Data-Science-Prozesses (inklusive der Bestimmung des Relevanzkriteriums) ohne die Existenz einer starken künstlichen Intelligenz kaum denkbar. Das Blöde: Von dieser sind wir noch weit entfernt und es ist unklar, ob eine solche überhaupt herstellbar ist. Keine Maschine kann uns (aktuell) diesen Schritt abnehmen. Computer sind auch weiterhin vergleichbar mit dem Geist aus der Flasche: Der Geist erfüllt uns den Wunsch, den wir äußern, ungeachtet der Konsequenzen.

Data Science wird zu Legal Data Science, wenn wir damit entweder juristische Fragestellungen zu beantworten versuchen oder Daten aus juristischen Kontexten analysieren. Wie die traditionelle Dogmatik füllt Legal Data Science zwei Rollen parallel aus: wissenschaftliche Disziplin und pragmatisches Werkzeug für Unternehmen und juristische Praxis.

Es geht um Daten, aber nicht irgendwelche

In Hochglanzbroschüren und auf den Webseiten von Legal-Tech-Unternehmen werden Daten in einen fast mystischen Rang erhoben. Aber worum geht es dabei wirklich?

Daten, so kokettiert die Rechtsdogmatik nichtssagend, sind codierte und codierbare Informationen unabhängig vom Verarbeitungsgrad. Wirtschaftlich geprägte Jurist:innen sprechen bevorzugt von Daten als einem teuren Rohstoff, dem Öl des 21. Jahrhunderts.

Data Scientists nähern sich dem Datenbegriff dagegen zunächst ganz an der Praxis orientiert und teilen ihn in konkrete Typen auf. Darunter sind die besonders bedeutenden tabellarischen Daten (man denke an Excel-Tabellen, daher gerne auch "rechteckige" Daten genannt), Textdaten (z.B. ein Artikel oder ein Urteil), Geodaten (z.B. Koordinaten aller Amtsgerichte in Deutschland), Bilddaten (z.B. unglaublich niedliche Katzenfotos) oder Audiodaten (z.B. ein Lied von Andrea Bocelli), um nur die wichtigsten zu nennen.

Der Typ der Daten ist für die Analyse ganz entscheidend, denn es ist viel einfacher, Katzen in Texten zu finden, als in Bildern oder Tonaufnahmen. Zur maschinellen Aufbereitung und Analyse findet daher im Grunde immer eine Transformation von einem Typ in den anderen statt. Ein klassisches Beispiel mit juristischem Bezug: Aus einem eingescannten Dokument (visuelle Daten) werden mittels optischer Zeichenerkennung maschinenlesbare Texte hergestellt (Textdaten), die auf tabellarische Daten (z.B. eine Matrix) reduziert werden, um sie beispielsweise für Frequenzanalysen zu nutzen. Damit Computer mit Daten rechnen können, steht zwischendrin oder am Ende praktisch immer eine Tabelle, die entweder mathematischen Berechnungen unterworfen wird oder diese zusammenfasst.

Eines ist damit klar: ohne Daten keine Data Science. Wer hätte es gedacht.

Die Qualität und Verfügbarkeit von Daten ist für das Gelingen von Data Science zentral, egal wofür man sie nutzen möchte. Schlechte Daten führen zu schlechten Ergebnissen (auch bekannt als "garbage in, garbage out"). Über diese fundamentale Eigenschaft kann selbst die derzeit beste künstliche Intelligenz nicht hinweghelfen — der wichtigste Grund für Enttäuschungen in diesem Bereich. Üblicherweise rechnet man in einem kompetent organisierten Data-Science-Projekt mit einem sehr hohen Aufwand (ca. 60-80 Prozent der Arbeitskraft) für die Sammlung, Prüfung und Aufbereitung von Daten. In der Industrie hat sich aus diesem Grund das spezialisierte Berufsbild des Data Engineers etabliert — in der Zukunft wird man im juristischen Bereich sicher auch Legal Data Engineers antreffen.

Juristische Daten sind in Deutschland nicht so einfach verfügbar

Damit Legal Data Science nicht ein Werkzeug der Reichen und Mächtigen bleibt, ist Open Legal Data — also die freie Verfügbarkeit von juristischen Daten — für einen gesunden Rechtsstaat, die Zivilgesellschaft, die Wissenschaft und als wirtschaftliche Rahmenbedingung für eine florierende Startup-Szene von ganz zentraler Bedeutung. Die Europäische Union geht hier vorbildlich voran und stellt den gesamten verfügbaren Bestand des EU-Rechts maschinenlesbar und unter freier Lizenz über offene Schnittstellen zur Verfügung. Im deutschen Rechtsstaat ist Open Legal Data hingegen die Ausnahme, nicht die Regel.

Die wichtigsten juristischen Datenbanken (juris, Beck Online) sind fest in privater Hand, berechnen hohe Gebühren für Nutzer:innen und erlauben den Datenzugriff für Konkurrenz und Forschung entweder gar nicht oder nur unter strengen Auflagen, inklusive obligatorischer Geheimhaltungsvereinbarung für wissenschaftliche Projekte. Staatliche Stellen beschränken sich auf das absolute Mindestangebot, welches in dutzende Datenbanken von schwacher Qualität zersplittert ist (etwa die Urteilsdatenbanken der Länder).

Die mehrheitlich in Bundeseigentum stehende juris GmbH nimmt hier eine kuriose Doppelrolle ein: einerseits als privater und klar gewinnorientierter Akteur mit privilegiertem Zugang zu Gerichten und Behörden, andererseits als technischer Dienstleister für öffentliche Datenbanken, die mit dem eigenen privat lizenzierten Angebot in Konkurrenz stehen. Zivilgesellschaftliche Projekte wie openjur.de und openlegaldata.io versuchen, einheitliche und kostenfreie Datenbanken zu schaffen, arbeiten aber mit stark begrenzten Ressourcen und kämpfen mit dem wie gesagt schwierigen Zugang zu juristischen Daten.

Selbst die routinierte Veröffentlichung von Entscheidungen der Bundesgerichte in maschinenlesbaren Formaten erfolgt erst seit dem Jahr 2016 auf der als Ergebnis eines jahrelangen Rechtsstreits eingerichteten Plattform www.rechtsprechung-im-internet.de. Doch auch dieses Angebot umfasst nur einen ganz kleinen, "ausgewählten" Bruchteil der Gerichtsentscheidungen auf Bundesebene, der noch viel geringer ist als das Angebot in den selbstständigen Entscheidungsdatenbanken der Bundesgerichte. Entscheidungen der Gerichte der Länder sind nicht enthalten.

Aktuelle maschinenlesbare Gesetze und Verordnungen können zwar über www.gesetze-im-internet.de abgerufen werden, historische Fassungen werden von der juris GmbH trotz der dominierenden Gesellschafterstellung des Bundes als privates Wirtschaftsgut betrachtet und unter Verschluss gehalten. Von öffentlich finanzierten Wissenschaftler:innen an staatlichen Lehrstühlen erstellte juristische Kommentare und Aufsätze werden praktisch immer an private Akteure verkauft und sind grundsätzlich nur gegen Bezahlung zugänglich.

Ein Hinweis in eigener Sache: Um in dieser verfahrenen Lage das Wachstum der Disziplin Legal Data Science zu fördern, veröffentliche ich seit zwei Jahren aufbereitete, reproduzierbare und urheberrechtsfreie Sammlungen juristischer Daten ("Datensätze"), die über das wissenschaftliche Archiv des Kernforschungsinstituts CERN frei im Internet abrufbar sind. Darunter sind beispielsweise umfangreiche Entscheidungssammlungen für das Bundesverfassungsgericht (BVerfG), den Bundesgerichtshof (BGH), das Bundesverwaltungsgericht (BVerwG), das Bundespatentgericht (BPatG), das Bundesarbeitsgericht (BAG), den Internationalen Gerichtshof (IGH) und den Ständigen Internationalen Gerichtshofs (StIGH). Die vollständige Liste, inklusive Links zum Download, kann unter www.seanfobbe.de/data eingesehen werden.

Da nun in etwa klar sein dürfte, was Legal Data Science ist, kann es im kommenden Teil II um die Anwendung von Legal Data Science gehen. Kleiner Spoiler: Es wird um die Corona-Rechtsprechung des BVerfG gehen – eine heiße Diskussion.

Der Autor Seán Fobbe ist Völkerrechtler und Legal Data Scientist. Er twittert über Menschenrechte, Data Science und den Schutz von Kulturgütern im Irak.

Zitiervorschlag

Legal Data Science verständlich erklärt – Teil I: Was ist das? . In: Legal Tribune Online, 08.06.2022 , https://www.lto.de/persistent/a_id/48673/ (abgerufen am: 10.08.2022 )

Infos zum Zitiervorschlag