..::ARCHIVIO TESTUALE DI https://www.marotochi.it
DATA: 2025-04-17
Wikipedia lancia dataset per l'addestramento AI: stop allo scraping
Wikipedia ha sferrato un colpo agli sviluppatori di AI abituati a fare scraping dalla piattaforma. La sua arma segreta? Un dataset ottimizzato appositamente per l'addestramento dei modelli AI. Niente più scuse per saccheggiare il sito: ora i dati sono serviti su un piatto d'argento.
Wikipedia dice basta allo scraping non autorizzato: arriva il dataset ottimizzato per l'AI
Invece di raccogliere in modo non autorizzato grandi quantità di contenuti dal sito, ora gli sviluppatori hanno a disposizione un pacchetto di dati pulito, facilmente utilizzabile. Una mossa strategica per proteggere i server di Wikipedia e al tempo stesso offrire un'alternativa legale ed efficiente.
Per lanciare questa iniziativa, la Wikimedia Foundation si è alleata con un peso massimo: Kaggle. Questa community di data science, di proprietà di Google, è il punto di riferimento per chiunque voglia accedere a dati per il machine learning. E ora, tra i suoi "tesori", spicca un dataset beta di contenuti strutturati di Wikipedia in inglese e francese.
Il nuovo dataset di Wikipedia pubblicato su Kaggle non è una semplice raccolta grezza di articoli. Ogni elemento âeuro" dai riassunti delle voci enciclopediche alle descrizioni brevi, dai link alle immagini ai dati strutturati delle infobox, fino alle singole sezioni degli articoli âeuro" è organizzato in formato JSON, quindi facilmente leggibile e pronto per essere analizzato, processato e usato per addestrare modelli AI. E il bello? È tutto sotto licenza aperta.
Gli scraper non hanno più scuse
Con questo dataset, Wikimedia manda un messaggio chiaro agli sviluppatori AI: non avete più scuse per "raschiare" il testo grezzo degli articoli. I bot automatizzati che consumano banda senza sosta stanno mettendo a dura prova i server di Wikipedia. Ora, con una fonte di dati strutturati a portata di mano, questa pratica non ha più senso.
Wikipedia ha già accordi di condivisione dei contenuti con Google e Internet Archive. Ma il dataset su Kaggle rende questi dati accessibili anche alle piccole aziende e ai data scientist indipendenti.
di Tiziana Foglio
FONTE: https://www.punto-informatico.it
RAGGIUNGIBILE ALL'INDIRIZZO:
https://www.punto-informatico.it/wikipedia-dataset-addestramento-ai-stop-scraping/