La storia

Dove raccontiamo la storia dell'IA

Un modo rapido per riassumere le pietre miliari della storia dell'AI è elencare i vincitori del Turing Award (l'equivalente del premio Nobel per l'Informatica):

  • Marvin Minsky (1969) e John McCarthy (1971) per aver definito le fondamenta dell'IA;

  • Allen Newell e Herbert Simon (1975) per aver definito l'approccio simbolico all'IA;

  • Ed Feigenbaum e Raj Reddy (1994) per il loro contributo nel contesto dei sistemi esperti;

  • Judea Pearl (2011) per lo sviluppo di tecniche di ragionamento probabilistico in condizioni di incertezza;

  • Yoshua Bengio, Geoffrey Hinton e Yann LeCun (2019) per aver reso il deep learning (apprendimento profondo) una parte fondamentale dell'informatica moderna.

L'inizio dell'intelligenza artificiale (1943-1956)

Il primo lavoro che oggi è generalmente riconosciuto come IA fu realizzato da Warren McCulloch e Walter Pitts (1943). Essi attinsero a tre fonti: la conoscenza della fisiologia di base e del funzionamento dei neuroni nel cervello; un'analisi formale della logica proposizionale dovuta a Russell e Whitehead; e la teoria della computazione di Turing.

McCulloch e Pitts hanno proposto un modello di neuroni artificiali in cui ogni neurone è caratterizzato come acceso o spento, con un passaggio all'accensione che avviene in risposta alla stimolazione di un numero sufficiente di neuroni vicini. Mostrarono, ad esempio, che qualsiasi funzione computabile poteva essere calcolata da una rete di neuroni connessi.

McCulloch e Pitts suggerirono anche che le reti opportunamente definite potevano apprendere. Donald Hebb (1949) propose una semplice regola di aggiornamento per modificare le forze di connessione (i pesi) tra i neuroni.

Due studenti universitari di Harvard, Marvin Minsky e Dean Edmonds, costruirono il primo computer a rete neurale nel 1950. In seguito, a Princeton, Minsky studiò la computazione universale nelle reti neurali. La sua commissione di dottorato era scettica sul fatto che questo tipo di lavoro dovesse essere considerato matematica, ma von Neumann disse: "Se non lo è ora, lo sarà un giorno".

Il punto di vista di Alan Turing fu forse il più influente. Già nel 1947 tenne delle conferenze sull'argomento alla London Mathematical Society e articolò un programma persuasivo nel suo articolo del 1950 Computing Machinery and Intelligence. In esso introdusse, tra l'altro, il Test di Turing, l'apprendimento automatico, gli algoritmi genetici e l'apprendimento per rinforzo.

Propose l'idea del Programma Bambino (Child Programme), spiegando:

Invece di cercare di produrre un programma che simuli la mente di un adulto, perché non provare a produrne uno che simuli quella di un bambino?

In questo modo, suggerì che sarebbe stato più facile creare un'intelligenza artificiale sviluppando algoritmi di apprendimento e poi insegnando alla macchina, piuttosto che cercare di programmare direttamente la sua intelligenza. Inoltre, affrontò molte delle obiezioni sollevate alla possibilità dell'IA e avvertì che il raggiungimento di un IA forte potrebbe non essere la cosa migliore per gli umani.

Princeton ospitava un'altra figura influente nell'IA, John McCarthy. Nel 1955, John McCarthy convinse Minsky, Claude Shannon e Nathaniel Rochester ad aiutarlo a riunire i ricercatori statunitensi interessati alla teoria degli automi, alle reti neurali e allo studio dell'intelligenza. Organizzarono un workshop di due mesi a Dartmouth nell'estate del 1956. I partecipanti erano in tutto 10, tra cui Allen Newell e Herbert Simon della Carnegie Tech, Trenchard More di Princeton, Arthur Samuel dell'IBM e Ray Solomonoff e Oliver Selfridge del MIT. La loro proposta recita:

Proponiamo che uno studio sull'intelligenza artificiale, della durata di 2 mesi e composto da 10 persone, venga condotto durante l'estate del 1956 al Dartmouth College di Hanover, nel New Hampshire. Lo studio deve procedere sulla base della congettura che ogni aspetto dell'apprendimento o di qualsiasi altra caratteristica dell'intelligenza possa essere in linea di principio descritto in modo così preciso da poter essere simulato da una macchina. Si cercherà di capire come far sì che le macchine usino il linguaggio, formino astrazioni e concetti, risolvano tipi di problemi ora riservati agli esseri umani e migliorino sé stesse. Riteniamo che un gruppo di scienziati accuratamente selezionati possa compiere un progresso significativo in uno o più di questi problemi lavorando insieme per un'estate.

Due ricercatori della Carnegie Tech, Allen Newell e Herbert Simon, rubarono la scena. Avevano già un programma di ragionamento, il Logic Theorist (LT), a proposito del quale Simon affermò: "Abbiamo inventato un programma per computer capace di pensare in modo non numerico, risolvendo così il venerabile problema mente-corpo". Poco dopo il workshop, il programma fu in grado di dimostrare la maggior parte dei teoremi del capitolo 2 dei Principia Mathematica di Russell e Whitehead. Secondo quanto riferito, Russell fu molto contento quando Simon gli mostrò che il programma era riuscito a trovare una dimostrazione di un teorema più breve di quella contenuta nei Principia. I redattori del Journal of Symbolic Logic furono meno impressionati e rifiutarono un articolo di cui Newell, Simon e Logic Theorist erano coautori.

Nel complesso, il workshop di Dartmouth non portò a nuove scoperte significative, ma fece conoscere tra loro i personaggi più importanti nel contesto dell'IA di allora. Per i 20 anni successivi, il campo sarebbe stato dominato da queste persone e dai loro studenti e colleghi.

Primi entusiasmi, grandi aspettative (1952-1969)

L'establishment intellettuale degli anni '50 preferiva credere che una macchina non potrà mai fare X. I ricercatori di IA risposero dimostrando una X dopo l'altra. John McCarthy definì questo periodo come l'era “Look, Ma, no hands!”.

Il successo iniziale di Newell e Simon (autori del Logic Theorist) fu seguito dal General Problem Solver, o GPS. A differenza di Logic Theorist, questo programma fu progettato fin dall'inizio per imitare i protocolli umani di risoluzione dei problemi. Pertanto, GPS è stato probabilmente il primo programma a incarnare l'approccio "pensare umanamente".

Il successo di GPS e dei programmi successivi come modelli di cognizione portò Newell e Simon a formulare la famosa ipotesi del sistema di simboli fisici, che afferma che un sistema di simboli fisici possiede i mezzi necessari e sufficienti per un'azione intelligente generale. Ciò che essi intendevano dire è che qualsiasi sistema (umano o macchina) che mostri intelligenza deve operare manipolando strutture di dati composte da simboli (il cosiddetto approccio simbolico all'IA). In realtà, questa ipotesi è stata contestata da più parti.

Di tutti i lavori esplorativi svolti in questo periodo, forse il più influente nel lungo periodo è stato quello di Arthur Samuel sul gioco della dama. Utilizzando metodi che oggi chiamiamo apprendimento per rinforzo, i programmi di Samuel impararono a giocare a un buon livello amatoriale.

Samuel smentì così l'idea che i computer possano fare solo ciò che viene loro detto: il suo programma imparò rapidamente a giocare meglio del suo creatore.

Il programma di Samuel è stato il precursore di sistemi successivi come TD-Gammon (1992), che è stato tra i migliori giocatori di backgammon al mondo, Deep Blue (1996), il primo calcolatore a vincere una partita a scacchi contro un campione del mondo in carica, e AlphaGo (2016), che ha scioccato il mondo sconfiggendo il campione mondiale di Go.

John McCarthy diede un contributo fondamentale nel 1958:

  1. McCarthy definì il linguaggio di alto livello Lisp, che sarebbe diventato il linguaggio di programmazione dominante per l'IA per i successivi 30 anni

  2. McCarthy pubblicò un articolo intitolato Programs with Common Sense, in cui descrisse l'Advice Taker, un programma che può essere considerato il primo sistema di IA completo. L'Advice Taker incarnava i principi centrali della rappresentazione della conoscenza e del ragionamento, ovvero che è utile avere una rappresentazione formale ed esplicita del mondo e del suo funzionamento ed essere in grado di manipolare tale rappresentazione con processi deduttivi.

Una dose di realtà (1966-1973)

Fin dall'inizio, i ricercatori di IA non hanno esitato a fare previsioni sui loro futuri successi. La seguente dichiarazione di Herbert Simon del 1957 è spesso citata:

Non è mio scopo sorprendervi o scioccarvi, ma il modo più semplice che posso riassumere è dire che ora nel mondo ci sono macchine che pensano, che imparano e che creano. Inoltre, la loro capacità di fare queste cose aumenterà rapidamente fino a quando, in un futuro visibile, la gamma di problemi che possono gestire sarà paragonabile alla gamma di problemi a cui è stata applicata la mente umana.

L'eccessiva fiducia di Simon era dovuta alle promettenti prestazioni dei primi sistemi di IA su esempi semplici. In quasi tutti i casi, tuttavia, questi primi sistemi si sono rivelati miseramente fallimentari quando sono stati provati su selezioni più ampie di problemi e su problemi più difficili.

Il primo tipo di difficoltà nasceva dal fatto che la maggior parte dei primi programmi non conoscevano nulla del contesto in cui operavano. Una storia emblematica si è verificata durante i primi sforzi di traduzione automatica, generosamente finanziati dal Consiglio Nazionale delle Ricerche degli Stati Uniti nel tentativo di accelerare la traduzione di documenti scientifici russi in seguito al lancio dello Sputnik nel 1957. Inizialmente si pensava che semplici trasformazioni sintattiche basate sulle grammatiche del russo e dell'inglese e l'uso di un dizionario sarebbero state sufficienti a preservare il significato esatto delle frasi. In realtà, una traduzione accurata richiede ulteriori conoscenze per risolvere le ambiguità e stabilire il contesto della frase. La famosa traduzione di "lo spirito è volenteroso ma la carne è debole" come "la vodka è buona ma la carne è marcia" illustra le difficoltà incontrate.

Il secondo tipo di difficoltà era la intrattabilità di molti dei problemi che l'IA cercava di risolvere. La maggior parte dei primi programmi di IA risolveva i problemi provando diverse combinazioni di passi fino a trovare la soluzione. Questa strategia funzionava inizialmente perché i micromondi contenevano pochi oggetti e quindi poche azioni possibili e sequenze di soluzioni molto brevi. Prima che venisse sviluppata la teoria della complessità computazionale, era opinione diffusa che scalare a problemi più grandi fosse semplicemente una questione di hardware più veloce e memorie più grandi. L'ottimismo che ha accompagnato lo sviluppo della dimostrazione automatica di teoremi, ad esempio, si è presto smorzato quando i ricercatori non sono riusciti a dimostrare teoremi che coinvolgessero più di qualche decina di fatti.

L'incapacità di affrontare l'esplosione combinatoria fu una delle principali critiche all'IA contenute nel rapporto Lighthill (1973), che costituì la base per la decisione del governo britannico di porre fine al sostegno alla ricerca sull'IA in tutte le università tranne due. Era iniziato il primo inverno dell'IA.

Sistemi esperti (1969-1986)

In questo periodo si sperimentò con successo l'utilizzo della conoscenza specifica del dominio, che consente di effettuare ragionamenti più ampi e di gestire più facilmente i casi tipici che si verificano in aree ristrette di competenza. I sistemi basati sulla conoscenza specifica del dominio sono chiamati sistemi esperti.

Si potrebbe dire che per risolvere un problema difficile, bisogna quasi conoscere già la risposta.

Il programma DENDRAL (1969) è stato un primo esempio di questo approccio. Fu sviluppato per risolvere il problema di dedurre la struttura molecolare dalle informazioni fornite da uno spettrometro di massa. La versione naive del programma generava tutte le possibili strutture coerenti con la formula e poi prevedeva quale spettro di massa sarebbe stato osservato per ciascuna di esse, confrontandolo con lo spettro effettivo. Come ci si può aspettare, questa operazione è intrattabile anche per molecole di dimensioni moderate. I ricercatori del DENDRAL hanno consultato i chimici analitici e hanno scoperto che si poteva lavorare cercando modelli ben noti di picchi nello spettro che suggerissero sottostrutture comuni nella molecola. Riconoscere che la molecola contiene una particolare sottostruttura riduce enormemente il numero di possibili candidati.

Il successivo sforzo importante è stato il sistema MYCIN per la diagnosi delle infezioni del sangue. Con circa 450 regole, MYCIN è stato in grado di fornire prestazioni pari a quelle di medici esperti e notevolmente superiori a quelle dei medici in formazione. Inoltre, presentava due importanti differenze rispetto a DENDRAL. In primo luogo, a differenza delle regole di DENDRAL, non esisteva un modello teorico generale, come per la biologia molecolare, da cui dedurre le regole di MYCIN. Esse dovevano essere acquisite attraverso un'ampia intervista agli esperti, che a loro volta le avevano acquisite dai libri di testo, da altri esperti e dall'esperienza diretta dei casi. In secondo luogo, le regole dovevano riflettere l'incertezza associata alla conoscenza medica.

Subito dopo è arrivato un secondo inverno dell'AI, in cui molte aziende sono cadute in disgrazia perché non sono riuscite a mantenere le loro promesse troppo ambiziose. È risultato difficile costruire e mantenere sistemi esperti per domini complessi, in parte perché i metodi di ragionamento utilizzati dai sistemi mal funzionavano di fronte all'incertezza della realtà e in parte perché i sistemi non potevano imparare dall'esperienza.

Il ritorno delle reti neurali (1986-oggi)

A metà degli anni '80 almeno quattro gruppi diversi hanno reinventato l'algoritmo di apprendimento back-propagation (retropropagazione) sviluppato per la prima volta all'inizio degli anni '60. La retropropagazione è un processo di addestramento di una rete neurale. Consente di prendere il tasso di errore di una propagazione in avanti e di far passare questa perdita all'indietro attraverso gli strati della rete neurale per mettere a punto i pesi, ovvero modificarli per ridurre l'errore futuro.

Questo rilanciò con successo l'approccio connessionista all'IA (detto anche sub-simbolico). Il connessionismo è un approccio delle scienze cognitive che tenta di spiegare il funzionamento della mente usando reti neurali artificiali. Questo approccio suggerisce un modello distribuito per la rappresentazione delle informazioni nella memoria. Le informazioni all'interno di una rete neurale (biologica o artificiale che sia) sono distribuite tra tutti i vari nodi della rete e non risiedono in un posto singolo. L'approccio connessionista all'IA era visto da alcuni come diretto concorrente all'approccio simbolico promosso da Newell, Simon, e McCarthy.

Potrebbe sembrare ovvio che a un certo livello gli esseri umani manipolino i simboli - in effetti, il libro dell'antropologo Terrence Deacon The Symbolic Species (1997) suggerisce che questa è la caratteristica distintiva degli esseri umani. Al contrario, Geoff Hinton, una figura di spicco nella rinascita delle reti neurali negli anni Ottanta e nel 2010, ha descritto i simboli come "l'etere luminoso dell'IA", un riferimento al mezzo attraverso il quale molti fisici del XIX secolo credevano si propagassero le onde elettromagnetiche.

I modelli connessionisti formano concetti interni in un modo più fluido e impreciso che si adatta meglio alla confusione del mondo reale. Hanno anche la capacità di apprendere dagli esempi: possono confrontare il valore di uscita previsto con il valore reale su un problema e modificare i loro parametri per diminuire la differenza, rendendo più probabile una buona performance sugli esempi futuri.

Ragionamento probabilistico e apprendimento automatico (1987-oggi)

La fragilità dei sistemi esperti ha portato a un nuovo approccio più scientifico che incorpora la probabilità piuttosto che la logica, l'apprendimento automatico piuttosto che la codifica manuale e i risultati sperimentali piuttosto che le affermazioni filosofiche.

È diventato più comune basarsi su teorie esistenti piuttosto che proporne di nuove, basare le affermazioni su teoremi rigorosi o su esperimenti solidi piuttosto che sull'intuizione, e dimostrare la rilevanza delle applicazioni al mondo reale piuttosto che usare esempi giocattolo.

Alcuni hanno caratterizzato questo cambiamento come una vittoria dei neat - coloro che credono nel rigore matematico - sugli scruffies - coloro che preferiscono provare molte idee, scrivere alcuni programmi e poi valutare ciò che sembra funzionare. Entrambi gli approcci sono in realtà importanti. Uno spostamento verso l'approccio neat implica che il campo ha raggiunto un livello di stabilità e maturità.

Il campo del riconoscimento vocale illustra questo schema. Negli anni '70 è stata sperimentata un'ampia gamma di architetture e approcci diversi. Molti di questi erano piuttosto ad hoc e fragili, e sono stati dimostrati solo su alcuni esempi appositamente selezionati. Negli ultimi anni, gli approcci basati sui modelli di Markov nascosti (Hidden Markov Models, HMM) hanno dominato l'area.

Due aspetti degli HMM sono rilevanti:

  1. In primo luogo, si basano su una rigorosa teoria matematica. Questo ha permesso ai ricercatori di basarsi su diversi decenni di risultati matematici sviluppati in altri campi.

  2. In secondo luogo, sono generati da un processo di addestramento su un ampio corpus di dati vocali reali. Questo garantisce la solidità delle prestazioni.

Di conseguenza, la tecnologia vocale e il campo correlato del riconoscimento dei caratteri manoscritti sono diventati applicazioni industriali e di consumo molto diffuse. Si noti che non vi è alcuna affermazione scientifica che gli esseri umani utilizzino gli HMM per riconoscere il parlato; piuttosto, gli HMM forniscono un quadro matematico per comprendere e risolvere il problema.

Big data (2001-oggi)

Il termine big data si riferisce a insiemi di dati così grandi e complessi che le applicazioni tradizionali di elaborazione dei dati non sono sufficienti per gestirli efficacemente. Questi dati provengono da molteplici fonti e sono caratterizzati da una grande varietà, un elevato volume e una rapida velocità di generazione. La natura dei big data è spesso descritta attraverso tre "V":

  1. Volume: La quantità di dati generati e immagazzinati è immensa. Questo volume richiede capacità di memorizzazione significative e tecnologie avanzate per il loro trattamento ed analisi.

  2. Velocità: I dati vengono prodotti e modificati rapidamente. Questo aspetto richiede che le tecnologie di elaborazione siano in grado di processare i flussi di dati in tempo reale o quasi-reale.

  3. Varietà: I big data provengono da una vasta gamma di fonti e includono diversi tipi di dati, come testo, immagini, video, dati strutturati e semi-strutturati. Questa varietà richiede metodi flessibili ed efficaci per l'organizzazione, l'immagazzinamento e l'analisi dei dati.

La generazione di dati ha avuto un impulso significativo a causa degli smart phone, dei blog e dei social network e dell'Internet delle Cose.

La disponibilità di grandi insiemi di dati ha portato allo sviluppo di algoritmi di apprendimento appositamente progettati per sfruttare questi insiemi di dati. Spesso, i dati in questi insiemi non sono etichettati; ad esempio, le occorrenze di una parola come "plant" in Inglese non sono etichettate nell'insieme di dati per indicare se si riferiscono alla flora o alla fabbrica. Etichettare i dati manualmente è però molto costoso. Tuttavia, con insiemi di dati sufficientemente ampi, gli algoritmi di apprendimento adatti possono raggiungere un'ottima accuratezza nel compito di identificare quale senso fosse inteso in una frase.

Inoltre, i ricercatori hanno sostenuto che il miglioramento delle prestazioni ottenuto aumentando le dimensioni dell'insieme di dati di due o tre ordini di grandezza supera qualsiasi miglioramento ottenuto modificando gli algoritmi.

La disponibilità di big data e il passaggio all'apprendimento automatico hanno aiutato l'IA a recuperare attrattiva commerciale. I big data sono stati un fattore cruciale nella vittoria del 2011 di IBM Watson sui campioni umani nel gioco a quiz Jeopardy!, un evento che ha avuto un forte impatto sulla percezione dell'IA da parte del pubblico.

Apprendimento profondo (2011-oggi)

Il termine apprendimento profondo (deep learning) si riferisce all'apprendimento automatico che utilizza più strati di semplici elementi di calcolo regolabili chiamati neuroni. Mentre una CPU standard può eseguire 10910^9 o 101010^{10} operazioni al secondo, un algoritmo di deep learning eseguito su hardware specializzato (GPU e TPU) può eseguire tra 101410^{14} e 101710^{17} operazioni al secondo, per lo più sotto forma di operazioni matriciali e vettoriali altamente parallelizzate.

Già negli anni '70 sono stati condotti esperimenti con queste reti, che negli anni '90 hanno ottenuto un certo successo nel riconoscimento di cifre scritte a mano. Tuttavia, è solo nel 2011 che i metodi di apprendimento profondo hanno preso piede. Questo è avvenuto prima nel riconoscimento vocale e poi nel riconoscimento visivo degli oggetti.

L'uso di una rete profonda per rappresentare la funzione di valutazione ha contribuito alle vittorie di AlphaGo sui principali giocatori di Go umani. Questi notevoli successi hanno portato a una rinascita dell'interesse per l'IA da parte di studenti, aziende, investitori, governi, media e pubblico in generale. Era iniziata una nuova estate per l'IA, attualmente ancora in corso.

Last updated