Rischi dell'IA generativa

Abbiamo già discusso i possibili rischi legati all'IA in generale. Naturalmente, molti dei rischi dell'IA vengono ereditati anche dalla sua versione generativa, ad esempio le decisioni distorte o i possibili impatti sull'occupazione. In questa sezione vedremo le controversie legate in modo specifico all'IA generativa (IAG).

Questa parte è tratta da Guidance for generative AI in education and research pubblicata da Unesco e The Global Education 2030 Agenda.

Peggioramento della povertà digitale

L'IAG si basa su enormi quantità di dati e su un'enorme potenza di calcolo, oltre a innovazioni nelle architetture dell'IA e nei metodi di addestramento, che sono per lo più disponibili solo alle più grandi aziende tecnologiche internazionali e a poche economie (soprattutto Stati Uniti, Repubblica Popolare Cinese e, in misura minore, Europa). Ciò significa che la possibilità di creare e controllare l'IAG è fuori dalla portata della maggior parte delle aziende e della maggior parte dei Paesi, soprattutto quelli del Sud globale.

Inoltre, gli attuali Large Language Model (LLM) sono addestrati su dati provenienti da utenti online che riflettono i valori e le norme del Nord globale, rendendoli inadeguati per le comunità povere di dati in molte parti del Sud globale o nelle comunità più svantaggiate del Nord globale. Come conseguenza, le regioni povere di dati rischiano di essere nuovamente colonizzate, questa volta dagli standard incorporati nei modelli di IAG.

Riduzione della diversità di opinione

L'IAG tende a produrre solo risposte standard che assumono i valori dei proprietari e dei creatori dei dati utilizzati per addestrare i modelli, e spesso di allinea anche ai desideri dell'utente, che impara a conoscere. Infatti, se una sequenza di parole appare frequentemente nei dati di addestramento - come nel caso di argomenti comuni e non controversi e di credenze mainstream o dominanti - è probabile che venga ripetuta dal chatbot nel suo output.

Questo rischia di limitare e minare lo sviluppo di opinioni fuori dal coro, in particolare quelle delle popolazioni povere di dati del Sud globale e delle comunità emarginate del Nord globale che hanno una presenza digitale minima o limitata.

Utilizzo di contenuti senza consenso

I modelli di IAG sono costruiti a partire da grandi quantità di dati (ad esempio testo, codice, immagini, ma anche musica e video) spesso prelevati dal Web e di solito senza l'autorizzazione del proprietario. Molti sistemi di IAG sono stati di conseguenza accusati di violazione dei diritti di proprietà intellettuale.

Le aziende che sviluppano IAG, da parte loro, hanno alcuni argomenti per rispondere alle cause sul copyright:

possono fare valere il valore che i loro sistemi di IA forniscono a tutti gli utenti (in parte gratuitamente), ovvero affermare che l'IAG è o può diventare un bene comune;
osservare i modi creativi con cui l'IA generativa elabora le opere esistenti (e non semplicemente le ripropone tali e quali);
far notare che è legale per un essere umano imparare da un libro protetto da copyright.

We all learn for free. We learn from the world around us and so do machines. Daniel Jeffries

La complicazione è che l'IA non plagia veramente, come chi copia un'immagine o un blocco di testo e lo spaccia per proprio. L'IA memorizza solo i pesi del suo pre-addestramento, non il testo sottostante su cui si è addestrata, quindi riproduce un lavoro con caratteristiche simili, ma non una copia diretta dei pezzi originali su cui si è addestrata. In effetti, sta creando qualcosa di nuovo, anche se è un omaggio all'originale. Tuttavia, più spesso un'opera compare nei dati di addestramento, più i pesi sottostanti permetteranno all'intelligenza artificiale di riprodurre fedelmente l'opera.

I diversi Paesi hanno approcci diversi. Alcuni, come quelli dell'Unione Europea, hanno norme severe sulla protezione dei dati e sulla privacy e hanno mostrato interesse nel limitare l'addestramento dell'IA sui dati senza autorizzazione. Altri, come gli Stati Uniti, hanno un atteggiamento più permissivo, consentendo ad aziende e privati di raccogliere e utilizzare i dati con poche restrizioni, ma con il rischio di azioni legali per uso improprio. Il Giappone ha deciso che l'addestramento dell'IA non viola il diritto d'autore. Ciò significa che chiunque può utilizzare qualsiasi dato per l'addestramento dell'IA, indipendentemente dalla sua provenienza, da chi lo ha creato o da come è stato ottenuto.

Inquinamento del Web

Poiché i dati di addestramento dell'IAG sono tipicamente tratti dal Web, che troppo spesso include un linguaggio discriminatorio e inaccettabile, gli sviluppatori hanno dovuto implementare quelli che chiamano guardrail per evitare che i risultati dei chatbot di IAG siano offensivi o non etici. Tuttavia, a causa dell'assenza di norme rigorose e di meccanismi di monitoraggio efficaci, i materiali tendenziosi generati dall'IAG si stanno diffondendo sempre di più sul Web, inquinando una delle principali fonti di conoscenza per la maggior parte delle persone di tutto il mondo.

Questo aspetto è particolarmente importante perché il materiale generato dall'IAG può sembrare abbastanza accurato e convincente, mentre a volte contiene errori e idee distorte. Questo rappresenta un rischio elevato per le persone che non hanno una solida conoscenza preliminare dell'argomento in questione (ad esempio giovani studenti). Inoltre, rappresenta un rischio ricorsivo per i futuri modelli GPT, che saranno addestrati su testi estrapolati dal Web e creati dagli stessi modelli GPT, che includono anche i loro errori e pregiudizi. Questo potrebbe portare verso un processo di punto fisso degenerativo, convergente ad una conoscenza mediocre.

PreviousModelli per la generazione di immagini NextApprofondimenti

Last updated 3 months ago

Was this helpful?