Machine Learning: Eine Unterkategorie der KI
Bevor wir uns dem Thema Machine Learning widmen, müssen wir zuerst ein paar Begrifflichkeiten klären. Angefangen mit der Künstlichen Intelligenz (KI) oder Artificial Intelligence (AI). Eine KI ist dabei im einfachsten Fall der Einsatz von Maschinen für die Lösung komplexer Probleme. Im Bereich der Vertragsverwaltung lassen sich viele Prozesse mithilfe von KI optmieren und drastisch verbessern.
Machine Learning ist ein Bereich der KI, der sich mit der Entwicklung von Systemen befasst, die Muster aus Daten "erlernen" und diese Muster dann zur Erstellung von Vorhersagen verwenden können, wenn ihnen neue Daten präsentiert werden, die sie vorher noch nicht gesehen haben. Machine Learning gestaltet sich in der Regel in einem zweistufigen Prozess.
Die Datenmenge ist entscheidend
Bekannt ist, dass für Machine Learning in der Regel ein großer Datensatz benötigt wird. In der Mathematik ist dies ein weithin bekanntes Phänomen. Möchte man mit Aussagen eine hohe Wahrscheinlichkeit beimessen, dann wird ein großer Datensatz benötigt. Da das Machine Learning auf die Statistik zugreift, findet diese Regel hier auch ohne Einschränkung Anwendung. Heißt: Analysen, die mit hoher Wahrscheinlichkeit aussagekräftige Auswertungen über Ihren Vertragsprozess liefern, benötigen große Datensätze.
Ein Teil dieser Datensätze muss zunächst herangezogen werden, um das Modell zu entwickeln. Anders als bei herkömmlichen Algorithmen, die direkt von Menschen für ein bekanntes Muster geschrieben werden, wird einem Machine Learning Algorithmus die Aufgabe gestellt, ein Muster aus den Daten, die zu einem bekannten Ergebnis führen, selbst festzustellen.
Schlussfolgerung oder Vorhersage
Das fertige Modell kann nun mit neuen, für das Modell unbekannten Daten gefüttert werden. Das Machine Learning Modell trifft dann auf Basis der bekannten Trainingsdaten, Vorhersagen für Ergebnisse der neuen Datenreihe.
Welche Bedeutung hat Machine Learning das für den rechtlichen Bereich?
Es gibt zwei große Bereiche des maschinellen Lernens, die auch für den juristischen Sektor von großem Interesse sind:
Supervised Learning
Das Supervised Learning ist eine der einfacheren Aufgaben für Machine Learning zur Extrahierung und Analyse von Vertragsdaten. Im Rahmen des Supervised Learnings werden Datenpunkte mit sogenannten Labeln versehen. Datenpunkte können dabei ganze Verträge, Paragraphen oder auch nur einzelne Wörter sein. Die Anreicherung der Daten mit Labeln erleichtert es für die Machine Learning Algorithmen, Muster in den Daten zu erkennen. Die erlernten Muster, beispielsweise das Erkennen von Paragraphen in Verträgen, kann dann von der Maschine für neue Datensätze wiederum selbständig durchgeführt werden.
Die Anreicherung der Daten mit Labeln im Supervised Learning erleichtert es für die Machine Learning Algorithmen, Muster in den Daten zu erkennen
Ein klarer Nachteil des Supervised Learning gegenüber anderen Methoden ist allerdings die Tatsache, dass menschlicher Input benötigt wird um Muster innerhalb von Daten zu erkennen. Insbesondere wenn es um die Auswertung tausender Verträge geht, ist der zusätzliche Aufwand als substantiell einzustufen.
Unsupervised Learning
Im Falle des Unsupervised Learning entfällt die Kategorisierung der Daten durch den Menschen. Dies ermöglicht eine automatisierte Extraktion der Vertragsdaten, wodurch Die Maschine versucht auch in diesem Fall, Ähnlichkeiten in den Daten zu erkennen. Die zusätzliche Informationen des Labelling fehlt aber für das Training der Machine Learning Algorithmen. Die Erkenntnis von Muster innerhalb ungeordneter Datensätze gestaltet sich daher in der Regel schwieriger. Die Interpretation der eventuell aufgedeckten Zusammenhänge, obliegt, wie im Ersten Fall, wieder dem Menschen.
Die Kontrolle durch den Menschen ist beim Unsupervised Learning insbesondere notwendig, da das in der Statistik bekannte Prinzip der Scheinkorrelation, die die Frage der Kausalität stellt, erst durch den Menschen ausgeschlossen werden kann.
Das Unsupervised Learning findet vielfach Anwendung in der Aufdeckung von Anomalien in Verträgen, die sich nicht mit einfachen Labeln erfassen lassen. Das ist insbesondere im Rahmen von Due Diligence Analysen eine wertvolle Information.
Das Unsupervised Learning findet vielfach Anwendung in der Aufdeckung von Anomalien in Verträgen, die sich nicht mit einfachen Labeln erfassen lassen.
Problematik des Machine Learning für die Textanalyse
Die Schwierigkeit, die Machine Learning Algorithmen mit der Textanalyse haben, besteht darin, dass es oftmals viel schwieriger ist, Textstellen in eine numerische Darstellung umzuwandeln, die in der Lage ist, alle Informationen zu erfassen, die einer normalen Person zur Verfügung stehen, wenn sie den Text liest. Wir können eine Maschine mit Wörtern und einer Syntax versehen, die numerisch ausgedrückt werden können, aber es ist viel schwieriger, die Semantik, die Bedeutung und den Kontext hinter einem bestimmten Dokument auszudrücken.
Anders als bei der Analyse von Bildern bei der eine Vielzahl von Pixel ohne Auswirkung auf die Erkenntnis des Bildes geändert werden können, kann sich die Bedeutung eines Textabschnittes signifikant ändern, wenn man Kleinigkeiten am Text ändert; sogar winzige Details wie ein Komma können die Aussage eines Satzes komplett ändern.
Welche Vertragsdaten lassen sich extrahieren?
Metadaten
Diese Daten liegen bereits in numerischer Form vor und können sehr leicht in der Analyse erfasst und verarbeitet werden. Daten in dieser Kategorie sind Dauer der Bearbeitung, Revisionsschleifen, Anzahl der bearbeitenden und mitwirkenden Personen bis hin zur Qualität der engagierten Anwälte. All dies trägt dazu bei, dass Vertragsprozesse intelligenter und effizienter werden. Die Metadaten sind dabei das Layer über dem eigentlichen Vertrag.
Daten in den Verträgen selbst
Die Daten in den eigentlichen Verträgen selbst sind viel schwieriger zu verarbeiten und auszuwerten, da sich die Semantik oft nicht in numerischen Strukturen, die für das Machine Learning notwendig sind, erfassen lässt und Kleinigkeiten entscheidend sind. Für unsere Modelle betrachten wir die Textanalyse auf 3 Ebenen:
- Wortebene: Auf dieser Ebene können wertvolle Informationen aus einzelnen Wörtern oder Wortgruppen extrahieren werden. Dies könnte das Anfangs- oder Enddatums eines Vertrags sein, das Feststellen der Vertragsparteien oder der festgelegte Gerichtsstand sein.
- Paragraphen-Ebene: Die Analyse einzelner Paragraphen dient in der Regel, um festzustellen, ob ein Vertrag eine bestimmte Art von Klausel enthält (wie z.B. eine Geheimhaltungsklausel oder eine Haftungsklausel), oder es kann bestimmt werden, wie ähnlich die Klauseln in zwei Verträgen sind.
- Vertragsebene: Auf der Vertragsebene kann die Art des Vertrags sowie die Industrie für die der Vertrag geschrieben wurde, klassifizieren werden.
Unabhängig davon in welcher Form und an welcher Stelle Daten erhoben und verarbeitet werden, der wichtige Punkt des Machine Learnings ist, sich stets bewusst zu sein, warum wir überhaupt Vertragsdaten überhaupt modelliert werden: um Probleme für Kunden zu lösen.
Machine Learning kann in einem Unternehmen, wo üblicherweise mehrere Juristen sehr viel Zeit und Mühe in die manuelle Auswertung und Analyse von Vertragsklauseln stecken, von großem Vorteil sein. Da künstliche Intelligenz diesen Prozess deutlich beschleunigt, lassen sich dadurch nicht nur Zeit, Aufwand und Ressourcen sparen, sondern letztlich mehr Vertragsverhandlungen in einer kürzeren Zeit abschließen.
Ist Machine Learning die ultimative Lösung?
Auch wenn viele Marktteilnehmer künstliche Intelligenz als heiligen Gral für alle Probleme hochstilisieren, so ist sie dennoch aktuell nur ein Werkzeug im Baukasten des geneigten Software-Ingenieurs.
Machine Learning sollte daher niemals um seiner selbst Willen eingesetzt werden, um beispielsweise eine noch fehlende Marketingbotschaft auf einer Website zu setzen, oder Investoren von einer technischen Kompetenz zu überzeugen. Auch wenn eine künstliche Intelligenz eingesetzt wird, ist der Endkunde einfach nur an der Lösung des Problems interessiert. Und das sollte für jedes seriöse Unternehmen im Vordergrund stehen. Gute Machine Learning Algorithmen sind daher stets eingebettet und integrale Baustein in das bestehende Software-Design für die Lösung eines konkreten Problem. Wenn das Design funktioniert, sollten die Nutzer nicht einmal bemerken, ob Machine Learning im Spiel ist.