La storia

Dove raccontiamo la storia dell'IA

Le macchine in grado di pensare ci affascinano da tempo. Nel 1770, l'invenzione del primo computer meccanico per il gioco degli scacchi stupì coloro che lo videro: una scacchiera posta su un mobile, con i pezzi manipolati da un robot vestito da mago ottomano.

La macchina, nota anche come il Turco Meccanico (Mechanical Turk), ha battuto Ben Franklin e Napoleone in partite di scacchi e ha portato Edgar Allan Poe a ipotizzare la possibilità di un'intelligenza artificiale. Ha girato il mondo dal 1770 al 1838.

Naturalmente era tutta una bugia: la macchina nascondeva abilmente un vero maestro di scacchi all'interno dei suoi finti ingranaggi, ma la nostra capacità di credere che le macchine potessero essere in grado di pensare ha ingannato molte delle migliori menti del mondo per tre quarti di secolo.

Un modo rapido per riassumere le pietre miliari della storia dell'AI è elencare i vincitori del Turing Award (l'equivalente del premio Nobel per l'Informatica):

Marvin Minsky (1969) e John McCarthy (1971) per aver definito le fondamenta dell'IA;
Allen Newell e Herbert Simon (1975) per aver definito l'approccio simbolico all'IA;
Ed Feigenbaum e Raj Reddy (1994) per il loro contributo nel contesto dei sistemi esperti;
Judea Pearl (2011) per lo sviluppo di tecniche di ragionamento probabilistico in condizioni di incertezza;
Yoshua Bengio, Geoffrey Hinton e Yann LeCun (2019) per aver reso il deep learning (apprendimento profondo) una parte fondamentale dell'informatica moderna.

Nel 2024 sono stati assegnati premi Nobel a ricercatori che hanno dato contributi nel campo dell'IA:

John J. Hopfield e Geoffrey E. Hinton hanno vinto il premio Nobel per la Fisica 2024 con le seguenti motivazioni:
- John J. Hopfield: Ha introdotto nel 1982 le reti neurali associative, note come reti di Hopfield, che hanno permesso di comprendere come le reti neurali possano memorizzare e processare informazioni in modo distribuito, ispirandosi al funzionamento del cervello umano.
- Geoffrey E. Hinton: Ha sviluppato algoritmi fondamentali per l'addestramento delle reti neurali profonde, come la retropropagazione dell'errore, e ha contribuito alla diffusione del deep learning, che è alla base di molte applicazioni moderne dell'IA, tra cui il riconoscimento vocale, la visione artificiale e la traduzione automatica.
David Baker assieme a Demis Hassabis e John M. Jumper hanno vinto il premio Nobel per la Chimica 2024 con le seguenti motivazioni:
- David Baker: Ha sviluppato metodi computazionali per progettare nuove proteine con funzioni desiderate, utilizzando l'IA per simulare e prevedere come le sequenze di amminoacidi si ripiegano in strutture tridimensionali funzionali.
- Demis Hassabis e John M. Jumper: Con AlphaFold, hanno rivoluzionato la biologia strutturale, permettendo di prevedere accuratamente la struttura delle proteine, facilitando la comprensione dei processi biologici e accelerando lo sviluppo di nuovi farmaci.

L'inizio dell'intelligenza artificiale (1943-1956)

Il primo lavoro che oggi è generalmente riconosciuto come IA fu realizzato da Warren McCulloch e Walter Pitts (1943). Essi attinsero a tre fonti: la conoscenza della fisiologia di base e del funzionamento dei neuroni nel cervello; un'analisi formale della logica proposizionale dovuta a Russell e Whitehead; e la teoria della computazione di Turing.

McCulloch e Pitts hanno proposto un modello di neuroni artificiali in cui ogni neurone è caratterizzato come acceso o spento, con un passaggio all'accensione che avviene in risposta alla stimolazione di un numero sufficiente di neuroni vicini. Mostrarono, ad esempio, che qualsiasi funzione computabile poteva essere calcolata da una rete di neuroni connessi.

McCulloch e Pitts suggerirono anche che le reti opportunamente definite potevano apprendere. Donald Hebb (1949) propose una semplice regola di aggiornamento per modificare le forze di connessione (i pesi) tra i neuroni.

Due studenti universitari di Harvard, Marvin Minsky e Dean Edmonds, costruirono il primo computer a rete neurale nel 1950. In seguito, a Princeton, Minsky studiò la computazione universale nelle reti neurali. La sua commissione di dottorato era scettica sul fatto che questo tipo di lavoro dovesse essere considerato matematica, ma von Neumann disse: "Se non lo è ora, lo sarà un giorno".

Il punto di vista di Alan Turing fu forse il più influente. Già nel 1947 tenne delle conferenze sull'argomento alla London Mathematical Society e articolò un programma persuasivo nel suo articolo del 1950 Computing Machinery and Intelligence. In esso introdusse, tra l'altro, il Test di Turing, l'apprendimento automatico, gli algoritmi genetici e l'apprendimento per rinforzo.

Propose l'idea del Programma Bambino (Child Programme), spiegando:

Invece di cercare di produrre un programma che simuli la mente di un adulto, perché non provare a produrne uno che simuli quella di un bambino?

In questo modo, suggerì che sarebbe stato più facile creare un'intelligenza artificiale sviluppando algoritmi di apprendimento e poi insegnando alla macchina, piuttosto che cercare di programmare direttamente la sua intelligenza. Inoltre, affrontò molte delle obiezioni sollevate alla possibilità dell'IA e avvertì che il raggiungimento di un IA forte potrebbe non essere la cosa migliore per gli umani.

Princeton ospitava un'altra figura influente nell'IA, John McCarthy. Nel 1955, John McCarthy convinse Minsky, Claude Shannon e Nathaniel Rochester ad aiutarlo a riunire i ricercatori statunitensi interessati alla teoria degli automi, alle reti neurali e allo studio dell'intelligenza. Organizzarono un workshop di due mesi a Dartmouth nell'estate del 1956. I partecipanti erano in tutto 10, tra cui Allen Newell e Herbert Simon della Carnegie Tech, Trenchard More di Princeton, Arthur Samuel dell'IBM e Ray Solomonoff e Oliver Selfridge del MIT. La loro proposta recita:

Lo studio deve procedere sulla base della congettura che ogni aspetto dell'apprendimento o di qualsiasi altra caratteristica dell'intelligenza possa essere in linea di principio descritto in modo così preciso da poter essere simulato da una macchina. Si cercherà di capire come far sì che le macchine usino il linguaggio, formino astrazioni e concetti, risolvano tipi di problemi ora riservati agli esseri umani e migliorino sé stesse.

Due ricercatori della Carnegie Tech, Allen Newell e Herbert Simon, rubarono la scena. Avevano già un programma di ragionamento, il Logic Theorist (LT), a proposito del quale Simon affermò: "Abbiamo inventato un programma per computer capace di pensare in modo non numerico, risolvendo così il venerabile problema mente-corpo". Poco dopo il workshop, il programma fu in grado di dimostrare la maggior parte dei teoremi del capitolo 2 dei Principia Mathematica di Russell e Whitehead. Secondo quanto riferito, Russell fu molto contento quando Simon gli mostrò che il programma era riuscito a trovare una dimostrazione di un teorema più breve di quella contenuta nei Principia. I redattori del Journal of Symbolic Logic furono meno impressionati e rifiutarono un articolo di cui Newell, Simon e Logic Theorist erano coautori.

Nel complesso, il workshop di Dartmouth non portò a nuove scoperte significative, ma fece conoscere tra loro i personaggi più importanti nel contesto dell'IA di allora. Per i 20 anni successivi, il campo sarebbe stato dominato da queste persone e dai loro studenti e colleghi.

Primi entusiasmi, grandi aspettative (1952-1969)

L'establishment intellettuale degli anni '50 preferiva credere che una macchina non potrà mai fare X. I ricercatori di IA risposero dimostrando una X dopo l'altra. John McCarthy definì questo periodo come l'era “Look, Ma, no hands!”.

Il successo iniziale di Newell e Simon (autori del Logic Theorist) fu seguito dal General Problem Solver, o GPS. A differenza di Logic Theorist, questo programma fu progettato fin dall'inizio per imitare i protocolli umani di risoluzione dei problemi. Pertanto, GPS è stato probabilmente il primo programma a incarnare l'approccio "pensare umanamente".

Il successo di GPS e dei programmi successivi come modelli di cognizione portò Newell e Simon a formulare la famosa ipotesi del sistema di simboli fisici, che afferma che un sistema di simboli fisici possiede i mezzi necessari e sufficienti per un'azione intelligente generale. Ciò che essi intendevano dire è che qualsiasi sistema (umano o macchina) che mostri intelligenza deve operare manipolando strutture di dati composte da simboli (il cosiddetto approccio simbolico all'IA). In realtà, questa ipotesi è stata contestata da più parti.

Di tutti i lavori esplorativi svolti in questo periodo, forse il più influente nel lungo periodo è stato quello di Arthur Samuel sul gioco della dama. Utilizzando metodi che oggi chiamiamo apprendimento per rinforzo, i programmi di Samuel impararono a giocare a un buon livello amatoriale.

Samuel smentì così l'idea che i computer possano fare solo ciò che viene loro detto: il suo programma imparò rapidamente a giocare meglio del suo creatore.

Il programma di Samuel è stato il precursore di sistemi successivi come TD-Gammon (1992), che è stato tra i migliori giocatori di backgammon al mondo, Deep Blue (1996), il primo calcolatore a vincere una partita a scacchi contro un campione del mondo in carica, e AlphaGo (2016), che ha scioccato il mondo sconfiggendo il campione mondiale di Go.

Una dose di realtà (1966-1973)

Fin dall'inizio, i ricercatori di IA non hanno esitato a fare previsioni sui loro futuri successi. La seguente dichiarazione di Herbert Simon del 1957 è spesso citata:

Non è mio scopo sorprendervi o scioccarvi, ma il modo più semplice che posso riassumere è dire che ora nel mondo ci sono macchine che pensano, che imparano e che creano. Inoltre, la loro capacità di fare queste cose aumenterà rapidamente fino a quando, in un futuro visibile, la gamma di problemi che possono gestire sarà paragonabile alla gamma di problemi a cui è stata applicata la mente umana.

L'eccessiva fiducia di Simon era dovuta alle promettenti prestazioni dei primi sistemi di IA su esempi semplici. In quasi tutti i casi, tuttavia, questi primi sistemi si sono rivelati miseramente fallimentari quando sono stati provati su selezioni più ampie di problemi e su problemi più difficili.

Il primo tipo di difficoltà nasceva dal fatto che la maggior parte dei primi programmi non conoscevano nulla del contesto in cui operavano. Una storia emblematica si è verificata durante i primi sforzi di traduzione automatica, generosamente finanziati dal Consiglio Nazionale delle Ricerche degli Stati Uniti nel tentativo di accelerare la traduzione di documenti scientifici russi in seguito al lancio dello Sputnik nel 1957. Inizialmente si pensava che semplici trasformazioni sintattiche basate sulle grammatiche del russo e dell'inglese e l'uso di un dizionario sarebbero state sufficienti a preservare il significato esatto delle frasi. In realtà, una traduzione accurata richiede ulteriori conoscenze per risolvere le ambiguità e stabilire il contesto della frase. La famosa traduzione di "lo spirito è volenteroso ma la carne è debole" come "la vodka è buona ma la carne è marcia" illustra le difficoltà incontrate.

Il secondo tipo di difficoltà era la intrattabilità di molti dei problemi che l'IA cercava di risolvere. La maggior parte dei primi programmi di IA risolveva i problemi provando diverse combinazioni di passi fino a trovare la soluzione. Questa strategia funzionava inizialmente perché i micromondi contenevano pochi oggetti e quindi poche azioni possibili e sequenze di soluzioni molto brevi. Prima che venisse sviluppata la teoria della complessità computazionale, era opinione diffusa che scalare a problemi più grandi fosse semplicemente una questione di hardware più veloce e memorie più grandi. L'ottimismo che ha accompagnato lo sviluppo della dimostrazione automatica di teoremi, ad esempio, si è presto smorzato quando i ricercatori non sono riusciti a dimostrare teoremi che coinvolgessero più di qualche decina di fatti.

L'incapacità di affrontare l'esplosione combinatoria fu una delle principali critiche all'IA contenute nel rapporto Lighthill (1973), che costituì la base per la decisione del governo britannico di porre fine al sostegno alla ricerca sull'IA in tutte le università tranne due. Era iniziato il primo inverno dell'IA.

Sistemi esperti (1969-1986)

In questo periodo si sperimentò con successo l'utilizzo della conoscenza specifica del dominio, che consente di effettuare ragionamenti più ampi e di gestire più facilmente i casi tipici che si verificano in aree ristrette di competenza. I sistemi basati sulla conoscenza specifica del dominio sono chiamati sistemi esperti.

Si potrebbe dire che per risolvere un problema difficile, bisogna quasi conoscere già la risposta.

Il programma DENDRAL (1969) è stato un primo esempio di questo approccio. Fu sviluppato per risolvere il problema di dedurre la struttura molecolare dalle informazioni fornite da uno spettrometro di massa. La versione naive del programma generava tutte le possibili strutture coerenti con la formula e poi prevedeva quale spettro di massa sarebbe stato osservato per ciascuna di esse, confrontandolo con lo spettro effettivo. Come ci si può aspettare, questa operazione è intrattabile anche per molecole di dimensioni moderate. I ricercatori del DENDRAL hanno consultato i chimici analitici e hanno scoperto che si poteva lavorare cercando modelli ben noti di picchi nello spettro che suggerissero sottostrutture comuni nella molecola. Riconoscere che la molecola contiene una particolare sottostruttura riduce enormemente il numero di possibili candidati.

Il successivo sforzo importante è stato il sistema MYCIN per la diagnosi delle infezioni del sangue. Con circa 450 regole, MYCIN è stato in grado di fornire prestazioni pari a quelle di medici esperti e notevolmente superiori a quelle dei medici in formazione. Inoltre, presentava due importanti differenze rispetto a DENDRAL. In primo luogo, a differenza delle regole di DENDRAL, non esisteva un modello teorico generale, come per la biologia molecolare, da cui dedurre le regole di MYCIN. Esse dovevano essere acquisite attraverso un'ampia intervista agli esperti, che a loro volta le avevano acquisite dai libri di testo, da altri esperti e dall'esperienza diretta dei casi. In secondo luogo, le regole dovevano riflettere l'incertezza associata alla conoscenza medica.

Furono sviluppati anche alcuni tipi di hardware dedicati ad accelerare le computazioni dei sistemi esperti, come per esempio le Lisp Machines, che ebbero grande successo in quegli anni.

Subito dopo è arrivato un secondo inverno dell'IA, in cui molte aziende sono cadute in disgrazia perché non sono riuscite a mantenere le loro promesse troppo ambiziose. È risultato difficile costruire e mantenere sistemi esperti per domini complessi per i seguenti motivi:

i metodi di ragionamento utilizzati dai sistemi eseperti mal funzionavano di fronte all'incertezza della realtà
i sistemi esperti non potevano imparare dall'esperienza, ma applicavano solo delle regole precostituite

Alla fine, i sistemi esperti si rivelarono troppo delicati per l’ambiguità del mondo reale, e troppo costosi da mantenere: in molti campi di applicazione sembra proprio che non esistano teorie chiare rappresentabili mediante un insieme di regole esplicite.

Il ritorno delle reti neurali (1986-oggi)

A metà degli anni '80 almeno quattro gruppi diversi hanno reinventato l'algoritmo di apprendimento back-propagation (retropropagazione) sviluppato per la prima volta all'inizio degli anni '60. La retropropagazione è un processo di addestramento di una rete neurale. Consente di prendere il tasso di errore di una propagazione in avanti e di far passare questa perdita all'indietro attraverso gli strati della rete neurale per mettere a punto i pesi, ovvero modificarli per ridurre l'errore futuro.

Questo rilanciò con successo l'approccio connessionista all'IA (detto anche sub-simbolico). Il connessionismo è un approccio delle scienze cognitive che tenta di spiegare il funzionamento della mente usando reti neurali artificiali. Questo approccio suggerisce un modello distribuito per la rappresentazione delle informazioni nella memoria. Le informazioni all'interno di una rete neurale (biologica o artificiale che sia) sono distribuite tra tutti i vari nodi della rete e non risiedono in un posto singolo. L'approccio connessionista all'IA era visto da alcuni come diretto concorrente all'approccio simbolico promosso da Newell, Simon, e McCarthy.

Potrebbe sembrare ovvio che a un certo livello gli esseri umani manipolino i simboli - in effetti, il libro dell'antropologo Terrence Deacon The Symbolic Species (1997) suggerisce che questa è la caratteristica distintiva degli esseri umani. Al contrario, Geoff Hinton, una figura di spicco nella rinascita delle reti neurali negli anni Ottanta e nel 2010, ha descritto i simboli come "l'etere luminoso dell'IA", un riferimento al mezzo attraverso il quale molti fisici del XIX secolo credevano si propagassero le onde elettromagnetiche.

Ragionamento probabilistico e apprendimento automatico (1987-oggi)

La fragilità dei sistemi esperti ha portato a un nuovo approccio più scientifico che incorpora la probabilità piuttosto che la logica, l'apprendimento automatico piuttosto che la codifica manuale e i risultati sperimentali piuttosto che le affermazioni filosofiche.

È diventato più comune basarsi su teorie esistenti piuttosto che proporne di nuove, basare le affermazioni su teoremi rigorosi o su esperimenti solidi piuttosto che sull'intuizione, e dimostrare la rilevanza delle applicazioni al mondo reale piuttosto che usare esempi giocattolo.

Alcuni hanno caratterizzato questo cambiamento come una vittoria dei neat - coloro che credono nel rigore matematico - sugli scruffies - coloro che preferiscono provare molte idee, scrivere alcuni programmi e poi valutare ciò che sembra funzionare. Entrambi gli approcci sono in realtà importanti. Uno spostamento verso l'approccio neat implica che il campo ha raggiunto un livello di stabilità e maturità.

Il campo del riconoscimento vocale illustra questo schema. Negli anni '70 è stata sperimentata un'ampia gamma di architetture e approcci diversi. Molti di questi erano piuttosto ad hoc e fragili, e sono stati dimostrati solo su alcuni esempi appositamente selezionati. Negli ultimi anni, gli approcci basati sui modelli di Markov nascosti (Hidden Markov Models, HMM) hanno dominato l'area.

Due aspetti degli HMM sono rilevanti:

In primo luogo, si basano su una rigorosa teoria matematica. Questo ha permesso ai ricercatori di basarsi su diversi decenni di risultati matematici sviluppati in altri campi.
In secondo luogo, sono generati da un processo di addestramento su un ampio corpus di dati vocali reali. Questo garantisce la solidità delle prestazioni.

Di conseguenza, la tecnologia vocale e il campo correlato del riconoscimento dei caratteri manoscritti sono diventati applicazioni industriali e di consumo molto diffuse. Si noti che non vi è alcuna affermazione scientifica che gli esseri umani utilizzino gli HMM per riconoscere il parlato; piuttosto, gli HMM forniscono un quadro matematico per comprendere e risolvere il problema.

Big data (2001-oggi)

Il termine big data si riferisce a insiemi di dati così grandi e complessi che le applicazioni tradizionali di elaborazione dei dati non sono sufficienti per gestirli efficacemente. Questi dati provengono da molteplici fonti e sono caratterizzati da una grande varietà, un elevato volume e una rapida velocità di generazione. La natura dei big data è spesso descritta attraverso tre "V":

Volume: La quantità di dati generati e immagazzinati è immensa. Questo volume richiede capacità di memorizzazione significative e tecnologie avanzate per il loro trattamento ed analisi.
Velocità: I dati vengono prodotti e modificati rapidamente. Questo aspetto richiede che le tecnologie di elaborazione siano in grado di processare i flussi di dati in tempo reale o quasi-reale.
Varietà: I big data provengono da una vasta gamma di fonti e includono diversi tipi di dati, come testo, immagini, video, dati strutturati e semi-strutturati. Questa varietà richiede metodi flessibili ed efficaci per l'organizzazione, l'immagazzinamento e l'analisi dei dati.

La generazione di dati ha avuto un impulso significativo a causa degli smart phone, dei blog e dei social network e dell'Internet of Things.

La disponibilità di grandi insiemi di dati ha portato allo sviluppo di algoritmi di apprendimento appositamente progettati per sfruttare l'apprendimento automatico a partire dai dati.

Apprendimento profondo (2011-oggi)

Il termine apprendimento profondo (deep learning) è un ramo del machine learning che utilizza reti neurali artificiali profonde per apprendere modelli complessi dai dati. È ispirato alla struttura e al funzionamento del cervello umano, con strati multipli di neuroni artificiali che trasformano e raffinano le informazioni. Funziona meglio con grandi quantità di dati e hardware specializzato come GPU e TPU.

L'uso di una rete profonda per rappresentare la funzione di valutazione ha contribuito alle vittorie di AlphaGo sui principali giocatori di Go umani. Questi notevoli successi hanno portato a una rinascita dell'interesse per l'IA da parte di studenti, aziende, investitori, governi, media e pubblico in generale. Era iniziata una nuova estate per l'IA, attualmente ancora in corso.

PreviousLe fondamenta NextLo stato dell'arte

Last updated 3 months ago

Was this helpful?