Rischi dell'IA generativa

Abbiamo già discusso i possibili rischi legati all'IA in generale. Naturalmente, molti dei rischi dell'IA vengono ereditati anche dalla sua versione generativa, ad esempio le decisioni distorte o i possibili impatti sull'occupazione. In questa sezione vedremo le controversie legate in modo specifico all'IA generativa (IAG).

Questa parte è tratta da Guidance for generative AI in education and research pubblicata da Unesco e The Global Education 2030 Agenda.

Peggioramento della povertà digitale

L'IAG si basa su enormi quantità di dati e su un'enorme potenza di calcolo, oltre a innovazioni nelle architetture dell'IA e nei metodi di addestramento, che sono per lo più disponibili solo alle più grandi aziende tecnologiche internazionali e a poche economie (soprattutto Stati Uniti, Repubblica Popolare Cinese e, in misura minore, Europa). Ciò significa che la possibilità di creare e controllare l'IAG è fuori dalla portata della maggior parte delle aziende e della maggior parte dei Paesi, soprattutto quelli del Sud globale.

Inoltre, gli attuali Large Language Model (LLM) sono addestrati su dati provenienti da utenti online che riflettono i valori e le norme del Nord globale, rendendoli inadeguati per le comunità povere di dati in molte parti del Sud globale o nelle comunità più svantaggiate del Nord globale. Come conseguenza, le regioni povere di dati rischiano di essere nuovamente colonizzate, questa volta dagli standard incorporati nei modelli di IAG.

Mancanza di regolamentazione al passo coi tempi

Nonostante le richieste di regolamentazione da parte della stessa industria dell'IA, la stesura di leggi sulla creazione e sull'uso di tutte le IA, compresa l'IA generativa, è spesso in ritardo rispetto al rapido ritmo di sviluppo.

A tal proposito, a Marzo 2024 il Parlamento Europeo ha approvato l'AI Act, un Regolamento dell'Unione Europea sull'Intelligenza Artificiale. Le nuove norme mettono fuori legge alcune applicazioni di IA che minacciano i diritti dei cittadini. Tra queste:

  • i sistemi di categorizzazione biometrica basati su caratteristiche sensibili

  • l'estrapolazione indiscriminata di immagini facciali da internet o dalle registrazioni dei sistemi di telecamere a circuito chiuso per creare banche dati di riconoscimento facciale

  • i sistemi di riconoscimento delle emozioni sul luogo di lavoro e nelle scuole

  • i sistemi di credito sociale

  • le pratiche di polizia predittiva (se basate esclusivamente sulla profilazione o sulla valutazione delle caratteristiche di una persona)

  • i sistemi che manipolano il comportamento umano o sfruttano le vulnerabilità delle persone

Intervento di Gabriele Franco sulla regolamentazione europea dell'IA.

Utilizzo di contenuti senza consenso

I modelli di IAG sono costruiti a partire da grandi quantità di dati (ad esempio testo, codice, immagini, ma anche musica e video) spesso prelevati dal Web e di solito senza l'autorizzazione del proprietario. Molti sistemi di IAG sono stati di conseguenza accusati di violazione dei diritti di proprietà intellettuale.

Le aziende che sviluppano IAG, da parte loro, hanno alcuni argomenti per rispondere alle cause sul copyright:

  1. possono asserire il valore che i loro sistemi di IA forniscono a tutti gli utenti (anche senza pagare), ovvero affermare che l'IAG è o può diventare un bene comune;

  2. osservare i modi creativi con cui l'IA generativa elabora le opere esistenti (e non semplicemente le ripropone tali e quali);

  3. far notare che è legale per un essere umano imparare da un libro protetto da copyright.

We all learn for free. We learn from the world around us and so do machines. Daniel Jeffries

Why The New York Times might win its copyright lawsuit against OpenAI by Timothy B. Lee and James Grimmelmann

The AI community needs to take copyright lawsuits seriously.

Trasparenza e spiegabilità dei modelli

Questo è un problema generale di tutti gli approcci subsimbolici all'IA. È noto che il funzionamento delle reti neurali artificiali non è al momento spiegabile in modo comprensibile ad un umano.

Questo problema è particolarmente aggravato dall'IAG, poiché tutta la conoscenza di questi sistemi è codificata in miliardi di parametri (pesi sinaptici) la cui interpretabilità è ancora oscura. Attualmente non sappiamo perché l'IA generativa funziona, cioè non abbiamo una teoria esplicita per essa; possiamo solo osservare che funziona o che produce allucinazioni (quando ce ne accorgiamo).

Inoltre, i modelli di IA generativa ereditano e perpetuano le distorsioni presenti nei dati di addestramento che, data la natura non trasparente dei modelli, sono difficili da individuare e da risolvere.

Infine, questa opacità è anche una causa fondamentale dei problemi di fiducia nei confronti dell'IAG: se gli utenti non capiscono come un sistema è arrivato a uno specifico risultato, è meno probabile che siano disposti ad adottarlo.

Inquinamento del Web

Poiché i dati di addestramento dell'IAG sono tipicamente tratti dal Web, che troppo spesso include un linguaggio discriminatorio e inaccettabile, gli sviluppatori hanno dovuto implementare quelli che chiamano guardrail per evitare che i risultati dei chatbot di IAG siano offensivi o non etici. Tuttavia, a causa dell'assenza di norme rigorose e di meccanismi di monitoraggio efficaci, i materiali tendenziosi generati dall'IAG si stanno diffondendo sempre di più sul Web, inquinando una delle principali fonti di conoscenza per la maggior parte delle persone di tutto il mondo.

Questo aspetto è particolarmente importante perché il materiale generato dall'IAG può sembrare abbastanza accurato e convincente, mentre a volte contiene errori e idee distorte. Questo rappresenta un rischio elevato per le persone che non hanno una solida conoscenza preliminare dell'argomento in questione (ad esempio giovani studenti). Inoltre, rappresenta un rischio ricorsivo per i futuri modelli GPT, che saranno addestrati su testi estrapolati dal Web e creati dagli stessi modelli GPT, che includono anche i loro errori e pregiudizi. Questo potrebbe portare verso un processo di punto fisso degenerativo, convergente ad una conoscenza mediocre.

Riduzione della diversità di opinione

L'IAG tende a produrre solo risposte standard che assumono i valori dei proprietari e dei creatori dei dati utilizzati per addestrare i modelli. Infatti, se una sequenza di parole appare frequentemente nei dati di addestramento - come nel caso di argomenti comuni e non controversi e di credenze mainstream o dominanti - è probabile che venga ripetuta dal chatbot nel suo output.

Questo rischia di limitare e minare lo sviluppo di opinioni fuori dal coro. Le popolazioni povere di dati, in particolare, comprese le comunità emarginate del Nord globale, hanno una presenza digitale minima o limitata. Di conseguenza, le loro voci non vengono rappresentate nei dati utilizzati per addestrare i modelli, e quindi raramente compaiono nei risultati.

Last updated