Datenschutzrechtliche Anforderungen in Bezug auf das Training von KI-Systemen, insbesondere Rechtsgrundlagen

12. August 2024 von Das Team der aigner business solutions GmbH

Datenschutzrechtliche Anforderungen in Bezug auf das Training von KI-Systemen

Anwendungen, basierend auf Künstlicher Intelligenz (KI) wie ChatGPT sind derzeit in aller Munde. Neben den sogenannten Large Language Models (LLM), unter die z.B. ChatGPT zu subsumieren ist, gibt es noch weitere KI-Modelle. Genannt seien beispielsweise Bilderkennungsmodelle oder auch Modelle in der Robotik. Mit künstlicher Intelligenz sind viele rechtliche Fragestellungen verbunden. Aus datenschutzrechtlicher Sicht betrifft dies zum Beispiel Fragen zu Training, Nutzung und Auswirkungen von KI. Im vorliegenden Beitrag soll auf die datenschutzrechtlichen Anforderungen hierzu und im Schwerpunkt auf die Rechtsgrundlagen bzgl. des massenhaften Sammelns und Verwendens von Trainingsdaten durch KI in Form von Large Language Models eingegangen werden. Dieses KI-Modell steht auf Grund der Nutzung von Scraping und Crawling zur Datengewinnung derzeit im Fokus der datenschutzrechtlichen Fragestellungen.

Wie „lernt“ KI?

Large Language Models lernen mit Hilfe von riesigen Mengen an Daten, den sogenannten Trainingsdaten. Trainingsdaten sind Daten, die zum Trainieren eines KI-Systems verwendet werden.

Dies bedeutet, dass die Daten dazu dienen, ein KI-Modell zu trainieren und aus ihm ein „intelligentes Tool“ zu machen. Doch wie werden diese Daten gesammelt und unter welcher Rechtsgrundlage erfolgt dies?

Die Informationen bestehen aus Daten, die aus dem Internet gesammelt werden und für die jeweilige KI-Anwendung aufbereitet werden. Dabei werden vor allem Scraping und Crawling genutzt. Scraping umfasst das ganz bestimmte Herausfiltern von Daten aus einer Webseite, wie z.B. Bilder, Videos und Texte. Crawling wiederum beinhaltet die Analyse einer Webseite und das Speichern von all ihren Daten in einen Index. Das hierbei auch personenbezogene Daten „mitgesammelt“ werden, kann nicht ausgeschlossen werden.

Dabei ist interessant, dass Sammler dieser Daten nicht immer diejenigen sind, welche die KI trainieren, sondern die gesammelten Datensätze zum Verkauf anbieten. Wie die Daten genau erhoben werden, ist jedoch äußerst intransparent.

Rechtsgrundlage für die Datenverarbeitung

Kann eine solche, massenhafte Verarbeitung von Daten, bei denen Betroffene oft nichts davon wissen, unter dem Anwendungsbereich der DSGVO überhaupt legal sein?

Nach der DSGVO gilt bei der Datenverarbeitung ein Verbot mit Erlaubnisvorbehalt. Die Datenverarbeitung muss somit durch einen gesetzlich geregelten Erlaubnistatbestand gerechtfertigt sein. Hier kommt aus der Palette des Art. 6 Abs. 1 DSGVO nur das berechtigte Interesse in Betracht, da es realitätsfern wäre anzunehmen, dass bei den Unmengen an erhobenen Daten eine Einwilligung der jeweils betroffenen Personen eingeholt werden könnte, bzw. ein Vertragsverhältnis zu diesen besteht.

Berechtigtes Interesse

Das berechtigte Interesse liegt gem. Art. 6 Abs. 1 lit. f) DSGVO vor, wenn eine Datenverarbeitung zu dessen Wahrung erforderlich ist und nicht das Interesse oder die Grundrechte und Grundfreiheiten der betroffenen Person überwiegen. Ein solches Interesse könnte der Verantwortliche zum Beispiel durch seine unternehmerische Freiheit geltend machen. Dabei muss dieses Interesse mit den Rechten der von der Verarbeitung Betroffenen abgewogen werden. Dies kann beispielsweise in deren schlichtem Interesse an Privatheit, der Sorge vor Veröffentlichung oder einer verfälschten Darstellung durch die entwickelte KI in der Zukunft vorliegen. Ferner muss die Verarbeitung erforderlich sein und somit das mildeste Mittel für die Erreichung des Interesses darstellen. Dies kann im Fall von Scraping und Crawling angenommen werden, da es derzeit keine effektiveren Verfahren zur Datensammlung gibt. Die Interessen der jeweiligen Parteien, werden sodann gegeneinander abgewogen, um ein Ergebnis zu erhalten.

Dabei wird die Datensammlung regelmäßig auf das berechtigte Interesse gestützt werden können. Diese Rechtsgrundlage stellt jedoch keinen Freifahrtschein dar und wie so oft, sind immer die jeweiligen Umstände des Einzelfalls zu betrachten.

Fazit

Derzeit ist die Weiterentwicklung von KI-Modellen in Form von Large Language Models ohne Nutzung von Scraping und Crawling nicht möglich. Die Verarbeitung so mitgewonnener personenbezogener Daten ist nach derzeitigem Stand der Technik nicht zu vermeiden, sodass eine gesetzliche Rechtfertigung nach Art. 6 Abs. 1 lit. f DSGVO erfolgen kann, wenn die entsprechenden Voraussetzungen vorliegen.

Falls Sie Fragen zum geschilderten Thema und/oder zu anderen datenschutzrelevanten Themen haben, kontaktieren Sie uns einfach!

Zentrale Hutthurm: +49 (0) 8505 91927 – 0

Niederlassung München: +49 (0) 89 413 2943 – 0

Oder nutzen Sie unser Kontaktformular.

assets/images/b/datenschutzbeauftrag-443cfc9e.png

Das Team der aigner business solutions GmbH

Unser Team – Ihr Vorteil | Hier stellen wir uns vor.

Unser Team besteht aus erfahrenen Juristen, Webspezialisten, IT-Experten, zertifizierten Datenschutz- und Informationssicherheitsbeauftragten. Mit unserer Erfahrung, Expertise und erprobten Verfahren, helfen wir Unternehmen, praxisnahe Lösungen im Bereich Datenschutz und Informationssicherheit zu finden. So helfen wir beispielsweise bei der Umsetzung der DSGVO oder der Einführung von Informationssicherheitsmanagementsystemen (ISMS).