Sempre più in fondo

Eric Goldman ha sintetizzato egregiamente un articolo di Kieran McCarthy sullo stato delle cose riguardo a grandi modelli linguistici e scraping, al punto che il mio resoconto è praticamente una traduzione del suo pezzo. Per una volta, spero mi perdonerà.

Microsoft ha recentemente vietato lo scraping o altre forme di estrazione di dati dai propri servizi di intelligenza artificiale, soi-disant. Se vuoi curiosare e ricavare dati accumulati da quei servizi, niente da fare se non trovarsi un avvocato.

Nel mentre, OpenAI – produttori di ChatGPT, abbondantemente finanziati da Microsoft – mettono a punto Gptbot, uno strumento che fa scraping in Internet a beneficio di ChatGPT stesso.

E può non essere ammesso pubblicamente, ma OpenAI ha quasi certamente già pescato a strascico nell’intera Internet libera per procurarsi i dati con cui addestrare GPT-3, ChatGPT e GPT-4.

Dati raccolti sui quali i termini di utilizzo della licenza di OpenAi, senza la minima traccia di ironia, è proibito fare scraping.

Il problema non è che lo facciano per soldi, ma che lo facciano senza dirlo e senza avere chiestouna autorizzazione o concesso alcuna strada per starne fuori.

Quando pensi che Microsoft abbia toccato il fondo, e dopo che ha finito di scavare, inizia a fare scraping.

Gli aggiornamenti in agosto del blog potrebbero essere irregolari o infrequenti.

Quickloox

Dal mondo Apple all'universo digitale, in visualizzazione rapida dell'ovvio

Sempre più in fondo

Commenta