Black Box KI: Trainingsdaten im Deep Learning

27. März 2026

Oliver Schwartz

Dass Künstliche Intelligenz in den letzten Jahren enorme Fortschritte gemacht hat, hat man vermutlich auch mitbekommen, wenn man unter einem Stein lebt. Gerade Deep-Learning-Modelle treiben Anwendungen wie Sprachassistenten, Bilderkennung oder automatisierte Textgenerierung voran. Doch je leistungsfähiger diese Systeme werden, desto banger wird die Frage: Woher stammen eigentlich die Daten, mit denen diese Modelle trainiert wurden – und warum weiß das oft niemand so genau?

Um die rechtlichen Herausforderungen zu verstehen, lohnt sich ein kurzes Schlaglicht auf die technischen Grundlagen.

Deep Learning basiert auf sogenannten neuronalen Netzen. Diese sind lose vom menschlichen Gehirn inspiriert und bestehen aus vielen miteinander verbundenen „Knoten“ (Neuronen oder auch Perzeptronen), die Informationen verarbeiten. Ein Modell erhält Eingabedaten (z. B. Texte oder Bilder) und versucht, daraus Muster zu erkennen. Um das Ganze nachzuvollziehen ist das Perzeptron ein gutes Einstiegsmodel. Man kann sich dieses Perzeptron wie einen kleinen Entscheidungsmechanismus vorstellen: Es bekommt mehrere Eingabewerte (z.B. Farbe, Kontrast, usw.) und multipliziert jeden dieser Werte mit einem sog. Gewicht (Wie wichtig ist diese Information?). Alle gewichteten Werte werden schließlich addiert und sodann ein sogenannter Bias hinzugefügt.

Der Bias ist im Grunde eine Art Drehregler, also ein zusätzlicher Verschiebewert. Er sorgt dafür, dass das Modell flexibler entscheiden kann – ähnlich wie ein Startpunkt, der die Entscheidung beeinflusst, auch wenn alle Eingaben gleichbleiben.

Am Ende wird das Ergebnis durch eine Funktion geschickt, die entscheidet: „Ja“ oder „Nein“ (oder allgemeiner: eine bestimmte Klassifikation). Das Entscheidende: Diese Gewichte und der Bias werden während des Trainings angepasst. Das Modell bekommt dazu viele Beispiele nach dem Muster „Das ist ein Hund“. Wenn das Modell falsch liegt, werden die Gewichte und/oder der Bias leicht verändert. Dieser Prozess wird Tausende bis Milliarden Male wiederholt. So „lernt“ das System schrittweise, Muster zu erkennen, es justiert alle Perzeptronen immer weiter um, d.h. verändert Bias und Gewicht der einzelnen Informationen, bis es das beste Trainingsergebnis erreicht. Im Beispiel ist das Modell so etwa nach 1000+ Hundebildern derart „getunt“, dass es mit immer höherer Wahrscheinlichkeit auch weitere Hundebilder erkennt.

In komplexeren Deep-Learning-Modellen gibt es von diesen Perzeptronen eben nicht nur eins, sondern viele nacheinander geschaltete Schichten daher der Begriff „deep“.

Doch mit der Frage der Trainingsdaten beginnt eine der rechtlichen Herausforderungen.

Moderne KI-Modelle werden oft mit riesigen Datenmengen trainiert, d.h. mit Texten aus dem Internet, Bildern aus Datenbanken und anderen öffentlich verfügbaren Inhalten verschiedenster Quellen. Doch in vielen Fällen gibt es keine vollständige Transparenz darüber, welche konkreten Daten verwendet wurden.

Das liegt an unterschiedlichen Faktoren: Es handelt sich um oftmals automatisierte Trainingsprozesse mit sehr großen Datenmengen aus den unterschiedlichsten Quellen. Der kritische Punkt: Nach dem Training lässt sich in der Regel nicht mehr feststellen, welche konkreten Daten in das Modell eingeflossen sind.

Kommen wir dazu auf das o.g. Perzeptron zurück. Während des Trainings hat es die Inhalte nicht „gespeichert“, sondern in Form von Gewichtungen in einem mathematischen System verdichtet. Das Modell merkt sich so eben keine einzelnen Texte oder Bilder, sondern nur statistische Zusammenhänge. Zudem sind diese Informationen über Millionen oder Milliarden Parameter verteilt.

Dies ist in etwa vergleichbar mit einem Kuchen, bei dem man nach dem Backen nicht mehr sagen kann, aus welchem Ei genau welcher Teil stammt.

Oder auch mit einem professionellen Tontechniker, der für seine Aufnahmen irgendwann mit unzähligen Schiebereglern die perfekte Einstellung gefunden hat. Im Nachhinein kann er nicht mehr sagen, welche einzelnen Aufnahmen ihn zu der perfekten Einstellung all der Regler geführt haben.

Für die Modelle gilt: Selbst mit großem technischem Aufwand ist es praktisch unmöglich, im Nachhinein zu rekonstruieren ob bspw. ein bestimmter Text verwendet wurde, urheberrechtlich geschützte Inhalte enthalten waren oder gar personenbezogene Daten eingeflossen sind

Diese fehlende Nachvollziehbarkeit wirft Fragen zum Urheberrecht, zum Datenschutz und zu der Frage „Wurde eine Nutzungserlaubnis eingeholt“ auf? Handelt es sich um eine zulässige Nutzung? Wurden private Informationen verarbeitet? Können diese indirekt im Modell „wieder auftauchen“?

Wenn schließlich nicht klar ist, welche Daten konkret verwendet wurden, stellt sich die Frage nach der Verantwortung für mögliche Rechtsverletzungen. Trifft sie den Entwickler, den Betreiber oder gar den Lieferanten der Daten? Die Black-Box-Natur von Deep Learning erschwert hier klare Antworten. Transparenz als rechtliche Schlüsselanforderung scheint in jedem Fall geboten, ist aber letztlich auf die Redlichkeit derjenigen angewiesen, die das Modell trainiert haben. So wird auch in Zukunft im Regelfall als Ausblick für Haftungsfragen, die Ermittlung des maßgeblichen wirtschaftlichen Interesses an dem fraglichen Modell die verlässlichere Richtschnur bleiben.

Die zentrale Herausforderung wird sein, Transparenz mit technischer Realität in Einklang zu bringen. Solange Deep-Learning-Modelle strukturell nicht in der Lage sind, ihre Trainingsdaten offenzulegen, wird stets ein erhebliches Spannungsfeld zwischen Innovationskraft und Rechtssicherheit verbleiben. Reicht es aus, strenge Regeln zu erlassen, wenn Transparenz technisch kaum möglich ist?
Die Antwort wird entscheidend dafür sein, wie sich KI in Zukunft entwickelt – und unter welchen Bedingungen sie gesellschaftlich akzeptiert wird.

Oliver Schwartz

Oliver Schwartz ist Rechtsanwalt, der seine langjährige Begeisterung für Legal Tech in seinen beruflichen Stationen bei einem Kanzleisoftwareentwickler, bei Soldan oder als Hochschullehrer einbrachte. Aktuell arbeitet er an Digitalisierungsprojekten des Bundesverwaltungsamtes in Köln.

Lösungen zum Thema

Passende Leistungen

Interessante Seminare

Sie haben Fragen? Wir sind für Sie da

0201 8612-251

Weitere interessante Blogbeiträge

Black Box KI: Trainingsdaten im Deep Learning

27. März 2026

Oliver Schwartz

Künstliche Intelligenz

Dass Künstliche Intelligenz in den letzten Jahren enorme Fortschritte gemacht hat, hat man vermutlich auch mitbekommen, wenn man unter einem Stein lebt. Gerade Deep-Learning-Modelle treiben Anwendungen wie Sprachassistenten, Bilderkennung oder automatisierte Textgenerierung voran. Doch je leistungsfähiger diese Systeme werden, desto banger wird die Frage: Woher stammen eigentlich die Daten, mit denen diese Modelle trainiert wurden […]

Cookie Einstellungen

Melden Sie sich zum Newsletter an

Jetzt kostenlos anmelden

Besuchen Sie uns auf Social Media