Eric Goldman ha sintetizzato egregiamente un articolo di Kieran McCarthy sullo stato delle cose riguardo a grandi modelli linguistici e scraping, al punto che il mio resoconto è praticamente una traduzione del suo pezzo. Per una volta, spero mi perdonerà.
Microsoft ha recentemente vietato lo scraping o altre forme di estrazione di dati dai propri servizi di intelligenza artificiale, soi-disant. Se vuoi curiosare e ricavare dati accumulati da quei servizi, niente da fare se non trovarsi un avvocato.
Nel mentre, OpenAI – produttori di ChatGPT, abbondantemente finanziati da Microsoft – mettono a punto Gptbot, uno strumento che fa scraping in Internet a beneficio di ChatGPT stesso.
E può non essere ammesso pubblicamente, ma OpenAI ha quasi certamente già pescato a strascico nell’intera Internet libera per procurarsi i dati con cui addestrare GPT-3, ChatGPT e GPT-4.
Dati raccolti sui quali i termini di utilizzo della licenza di OpenAi, senza la minima traccia di ironia, è proibito fare scraping.
Il problema non è che lo facciano per soldi, ma che lo facciano senza dirlo e senza avere chiestouna autorizzazione o concesso alcuna strada per starne fuori.
Quando pensi che Microsoft abbia toccato il fondo, e dopo che ha finito di scavare, inizia a fare scraping.
Gli aggiornamenti in agosto del blog potrebbero essere irregolari o infrequenti.