Large Language Models lernen mit Hilfe von riesigen Mengen an Daten, den sogenannten Trainingsdaten. Trainingsdaten sind Daten, die zum Trainieren eines KI-Systems verwendet werden.
Dies bedeutet, dass die Daten dazu dienen, ein KI-Modell zu trainieren und aus ihm ein „intelligentes Tool“ zu machen. Doch wie werden diese Daten gesammelt und unter welcher Rechtsgrundlage erfolgt dies?
Die Informationen bestehen aus Daten, die aus dem Internet gesammelt werden und für die jeweilige KI-Anwendung aufbereitet werden. Dabei werden vor allem Scraping und Crawling genutzt. Scraping umfasst das ganz bestimmte Herausfiltern von Daten aus einer Webseite, wie z.B. Bilder, Videos und Texte. Crawling wiederum beinhaltet die Analyse einer Webseite und das Speichern von all ihren Daten in einen Index. Das hierbei auch personenbezogene Daten „mitgesammelt“ werden, kann nicht ausgeschlossen werden.
Dabei ist interessant, dass Sammler dieser Daten nicht immer diejenigen sind, welche die KI trainieren, sondern die gesammelten Datensätze zum Verkauf anbieten. Wie die Daten genau erhoben werden, ist jedoch äußerst intransparent.