Le fondamenta

Dove identifichiamo le discipline che sono alla base dell'IA

L'IA è un argomento veramente interdisciplinare, che fa leva su 10 altre discipline:

Filosofia

  • Come possiamo utilizzare le regole formali del pensiero per trarre conclusioni valide?

  • Come emerge la mente a partire da un cervello fisico?

  • Da dove viene la conoscenza?

  • Come passiamo dalla conoscenza all'azione?

Aristotele (384-322 a.C.) fu il primo a formulare un insieme preciso di leggi che regolano la parte razionale della mente. Sviluppò un sistema informale di sillogismi per ragionare correttamente, che in linea di principio permetteva di generare conclusioni in modo meccanico, date le premesse iniziali. Se conosciamo la regola "tutti gli uomini sono mortali" e sappiamo che "tutti i Greci sono uomini", possiamo concludere che "tutti i Greci sono mortali".

Cartesio (1596-1650) fornì la prima chiara discussione della distinzione tra mente e materia. Il materialismo ritiene che la mente sia il funzionamento del cervello fisico secondo le leggi della fisica. Un problema con una concezione puramente fisica della mente è che sembra lasciare poco spazio al libero arbitrio: se la mente è governata interamente da leggi fisiche, allora non ha più libero arbitrio di un sasso che decide di cadere verso il centro della terra. Cartesio era un sostenitore del dualismo. Egli sosteneva che esiste una parte della mente umana che è al di fuori della natura, esente dalle leggi fisiche.

Il problema successivo è stabilire la fonte della conoscenza. Il movimento dell'empirismo, a partire da Francis Bacon (1561-1626), è caratterizzato da un dettame di John Locke (1632-1704): "Nulla è nell'intelletto, che non sia stato prima nei sensi", quindi secondo l'empirismo la conoscenza si acquisisce mediante l'esperienza.

L'ultimo elemento del quadro filosofico della mente è la connessione tra conoscenza e azione. Questa domanda è fondamentale per l'IA, perché l'intelligenza richiede l'azione oltre che il ragionamento. Il passaggio da conoscenza ad azione prevede di trovare una giustificazione alle azioni. Aristotele sosteneva che le azioni sono giustificate da una connessione logica tra gli obiettivi e la conoscenza del risultato dell'azione.

Matematica e Informatica

  • Quali sono le regole formali per trarre conclusioni valide?

  • Cosa si può calcolare?

  • Come possiamo ragionare in presenza di informazioni incerte?

I filosofi hanno delineato alcune delle idee fondamentali dell'IA, ma il salto verso una scienza formale ha richiesto un livello di formalizzazione matematica della logica e della probabilità, nonché l'introduzione di una nuova branca della filosofia: l'informatica.

L'idea della logica formale può essere fatta risalire ai filosofi dell'antica Grecia, dell'India e della Cina, ma il suo sviluppo matematico iniziò davvero con il lavoro di George Boole (1815-1864), che elaborò i dettagli della logica proposizionale.

Nel 1879, Gottlob Frege (1848-1925) estese la logica di Boole per includere oggetti e relazioni, creando la logica del primo ordine che viene utilizzata oggi.

La teoria della probabilità può essere vista come una generalizzazione della logica a situazioni con informazioni incerte, una considerazione di grande importanza per l'IA. La formalizzazione della probabilità, unita alla disponibilità di dati, ha portato alla nascita della statistica. Ronald Fisher è considerato il primo statistico moderno. Egli riunì le idee di probabilità, progettazione di esperimenti, analisi dei dati e computazione.

Nel 1930, Kurt Gödel (1906-1978) dimostrò che esisteva una procedura efficace per dimostrare qualsiasi affermazione vera nella logica del primo ordine, ma che la logica del primo ordine non era in grado di catturare il principio di induzione matematica necessario per caratterizzare i numeri naturali.

Nel 1931, Gödel dimostrò che esistevano limiti alla deduzione automatica. Il suo teorema di incompletezza dimostrò che in qualsiasi teoria formale forte come l'aritmetica di Peano (la teoria elementare dei numeri naturali), esistono enunciati veri che sono indecidibili, nel senso che non hanno alcuna prova all'interno della teoria.

Questo risultato fondamentale può essere interpretato anche come la dimostrazione che alcune funzioni sui numeri interi non possono essere calcolate da un programma. Ciò ha motivato Alan Turing (1912-1954) a cercare di caratterizzare esattamente quali funzioni sono computabili, ovvero in grado di essere calcolate da una procedura automatica.

La tesi Church-Turing propone di identificare la nozione generale di computabilità con le funzioni calcolate da una macchina di Turing. Una macchina di Turing è un modello matematico astratto di calcolo che manipola simboli su una striscia infinita di nastro secondo una tabella di regole.

Turing dimostrò che esistono alcune funzioni che nessuna macchina di Turing può calcolare. Ad esempio, nessuna macchina è in grado di dire in generale se un dato programma terminerà su un dato input o se continuerà la sua esecuzione all'infinito (problema della terminazione).

Sebbene la decidibilità e la computabilità siano importanti per la comprensione della computazione, la nozione di trattabilità ha avuto un impatto ancora maggiore. In parole povere, un problema è detto intrattabile se il tempo necessario per risolvere le istanze del problema cresce esponenzialmente con la dimensione delle istanze. Si noti che la crescita esponenziale significa che anche istanze moderatamente grandi non possono essere risolte in un tempo ragionevole.

La teoria della NP-completezza, proposta da Steven Cook e Richard Karp, fornisce un metodo per riconoscere i problemi intrattabili. Cook e Karp hanno dimostrato l'esistenza di classi di problemi canonici di ricerca e ragionamento combinatorio che sono NP-completi, ovvero intrattabili (quasi sicuramente). Un esempio è il Problema del Commesso Viaggiatore (Traveling Salesman Problem). Esso pone la seguente domanda (apparentemente semplice): "Dato un elenco di città e le distanze tra ogni coppia di città, qual è il percorso più breve possibile che visita ogni città esattamente una volta e ritorna alla città di origine?".

Ne deriva che, nonostante la crescente velocità dei computer, un uso attento delle risorse e soluzioni imperfette (approssimate) ai problemi caratterizzano i sistemi intelligenti.

In parole povere, il mondo è un'istanza estremamente grande di un problema complesso!

La potenza davvero gigantesca delle macchine odierne induce a pensare che si possano aggirare tutte le strategie intelligenti e affidarsi solamente alla forza bruta. Cerchiamo quindi di contrastare questa credenza. Cominciamo con quella che i fisici ritengono essere la velocità massima di un dispositivo di calcolo da 1 kg: circa 105110^{51}operazioni al secondo. Poi proponiamo un compito semplice: enumerare stringhe di parole inglesi, come propose Borges ne La biblioteca di Babele. Borges prevedeva libri di 410 pagine. Sarebbe fattibile? Non proprio. L'English Oxford Dictionary, ad esempio, contiene oltre 600.000=6105600.000 = 6 \cdot 10^5 parole. Ciò significa che il numero di frasi arbitrarie composte da sole 10 parole in lingua Inglese è (6105)10>61071050=61061051(6 \cdot 10^5)^{10} > 6 \cdot 10^7 \cdot 10^{50} = 6 \cdot 10^6 \cdot 10^{51}. Il supercomputer impiegherebbe più di sei milioni di secondi (più di 69 giorni) per enumerare tutte le frasi di sole 10 parole!

Anche con un computer dalla capacità virtualmente illimitata, abbiamo bisogno di ulteriori progressi concettuali nella comprensione dell'intelligenza. In parole povere, senza la teoria giusta, le macchine più veloci danno solo la risposta sbagliata più velocemente.

Economia

  • Come dovremmo prendere le decisioni in modo da massimizzare la ricompensa?

  • Come dovremmo fare quando gli altri potrebbero non essere d'accordo?

La scienza economica è nata nel 1776, quando il filosofo scozzese Adam Smith (1723-1790) pubblicò An Inquiry into the Nature and Causes of the Wealth of Nations. Smith fu il primo a trattarla come una scienza, utilizzando l'idea che le economie possono essere pensate come costituite da individui che massimizzano il proprio benessere economico. Smith, tuttavia, non sosteneva l'avidità finanziaria come posizione morale: il suo libro precedente The Theory of Moral Sentiments inizia sottolineando che avere a cuore il benessere degli altri è una componente essenziale degli interessi di ogni individuo.

La maggior parte delle persone pensa che l'economia riguardi il denaro, ma gli economisti affermano di studiare piuttosto i desideri e le preferenze delle persone. Quando McDonald's offre un hamburger a un dollaro, afferma di preferire il dollaro e spera che i clienti preferiscano il panino.

La teoria dell'utilità in economia è stato formalizzata per la prima volta da Léon Walras (1834-1910) e successivamente da Frank Ramsey. La teoria delle decisioni, che combina la teoria delle probabilità con la teoria dell'utilità, fornisce un quadro formale e completo per le decisioni (economiche o di altro tipo) prese in condizioni di incertezza.

Questa teoria funziona su grandi economie in cui ogni agente non deve prestare attenzione alle azioni degli altri agenti in quanto individui. Per le piccole economie, la situazione è molto più simile a quella di un gioco: le azioni di un giocatore possono influenzare in modo significativo l'utilità di un altro (in modo positivo o negativo). La teoria dei giochi è stata iniziata dal lavoro di John von Neumann e Oskar Morgenstern nel loro libro The Theory of Games and Economic Behavior.

Il pioniere della ricerca sull'intelligenza artificiale Herbert Simon (1916-2001) ha vinto il premio Nobel per l'economia nel 1978 per il suo lavoro iniziale che dimostrava che i modelli basati sul satisficing - prendere decisioni che sono abbastanza buone, piuttosto che calcolare faticosamente una decisione ottimale - fornivano una migliore descrizione del comportamento umano reale. Ad esempio, i clienti spesso scelgono un prodotto sufficientemente buono, piuttosto che perfetto.

Neuroscienze

  • Come elabora l'informazione il cervello?

Le neuroscienze sono lo studio del sistema nervoso, in particolare del cervello.

Una delle funzioni principali del cervello è quella di elaborare le informazioni e l'elemento principale di elaborazione delle informazioni è il neurone, una cellula cerebrale specializzata che combina diversi input per generare un singolo output.

Un tipico neurone è costituito da un corpo cellulare o soma, insieme a una serie di tentacoli sporgenti, chiamati dendriti, che sono canali di ingresso per trasportare i segnali nella cellula. La maggior parte dei neuroni ha una sola uscita, chiamata assone, che di solito è più lungo dei dendriti. Di solito si ramifica vicino alla sua estremità in terminali assonici per consentire all'uscita della cellula di alimentare l'ingresso di molte altre. Tra il terminale e il dendrite c'è un piccolo spazio, chiamato sinapsi, attraverso il quale il segnale di uscita del primo neurone (presinaptico) deve essere trasportato per raggiungere il secondo neurone (postsinaptico).

I segnali che viaggiano all'interno dei neuroni sono di natura elettrochimica. Essi consistono in onde di tensione elettrica create dal movimento di ioni carichi positivamente che entrano ed escono dalla cellula. Queste onde sono chiamate potenziali d'azione. Quando un potenziale d'azione raggiunge una sinapsi, non può attraversare immediatamente lo spazio tra il terminale dell'assone e il dendrite opposto. Il soma del neurone postsinaptico somma gli input provenienti dai suoi dendriti e, di conseguenza, può inviare o meno un segnale di uscita lungo il proprio assone. In questo modo, il neurone aggrega i segnali ai suoi ingressi e si attiva solo quando un numero sufficiente di ingressi è eccitato. Inoltre, gli ingressi possono anche essere inibitori; i segnali ricevuti dagli ingressi inibitori rendono meno probabile l'attivazione del neurone ricevente.

La scienza attuale non è in grado di dirci esattamente come il cervello svolga i compiti cognitivi più sofisticati che permettono agli animali di sopravvivere, ma si sa che il cervello cambia costantemente lo schema di cablaggio tra i neuroni in risposta agli input e all'esperienza, e si presume che questo schema - la rete neurale - contenga gran parte del segreto.

La conclusione davvero sorprendente è che un insieme di semplici cellule può portare al pensiero, all'azione e alla coscienza o, per dirla con le parole di John Searle, il cervello causa la mente.

I cervelli umani e i computer digitali hanno proprietà quantitative diverse. I computer hanno un tempo di ciclo (10910^{-9} sec) che è un milione di volte più veloce di quello del cervello (10310^{-3} sec). Il tempo di ciclo è il tempo necessario per completare un ciclo di controllo durante il quale i segnali dei sensori vengono letti nella memoria, gli algoritmi di controllo vengono eseguiti e i segnali di controllo corrispondenti vengono trasmessi agli attuatori. Il cervello compensa con una quantità di memoria (101110^{11}neuroni) e di interconnessione (101410^{14}sinapsi) di gran lunga superiore a quella di un personal computer di fascia alta, anche se i più grandi supercomputer hanno una capacità simile a quella del cervello. Ma il confronto tra numeri grezzi non è particolarmente istruttivo.

Psicologia

  • Come imparano gli esseri umani?

Le due principali teorie psicologiche che spiegano come gli esseri umani apprendono sono il comportamentismo e il cognitivismo.

La teoria dell'apprendimento comportamentale si concentra solo sul comportamento esterno osservabile, mentre la teoria dell'apprendimento cognitivo si concentra sui processi mentali interni non osservabili.

Nel comportamentismo, l'apprendimento avviene attraverso meccanismi di stimolo-risposta o rinforzo-punizione. L'apprendimento porta a un cambiamento solo nel comportamento esterno (visibile e misurabile) e non nei pensieri, nelle intenzioni e nei processi mentali interni.

Nel cognitivismo, invece, i processi mentali esistono e vengono usati per apprendere. La mente umana acquisisce informazioni dall'ambiente, le elabora, le immagazzina, le recupera quando necessario per generare risposte.

Il cognitivista Kenneth Craik ha specificato le tre fasi chiave di un agente basato sulla conoscenza:

  1. Lo stimolo deve essere tradotto in una rappresentazione interna

  2. la rappresentazione viene manipolata dai processi cognitivi per ricavare nuove rappresentazioni interne

  3. le rappresentazioni interne vengono a loro volta ritradotte in azione

Con il termine scienze cognitive si definisce l'insieme di discipline che hanno come oggetto di studio scientifico e filosofico la cognizione di un sistema pensante, sia esso naturale o artificiale, e che pur operando in campi differenti coniugano i risultati delle loro ricerche al fine ultimo di giungere alla comprensione del funzionamento cognitivo.

E' curioso notare che il campo delle scienze cognitive è iniziato con un workshop nel settembre 1956 al MIT, appena due mesi dopo la conferenza in cui nacque l'IA stessa. Al workshop ci furono tre contributi significativi:

  1. George Miller presentò Magic Number Seven, un lavoro sulla psicologia della memoria

  2. Noam Chomsky presentò Three Models of Language, un lavoro sulla psicologia del linguaggio

  3. Allen Newell e Herbert Simon presentarono The Logic Theory Machine, un lavoro sulla psicologia del pensiero logico

Ingegneria informatica

  • Come possiamo costruire un computer efficiente?

Affinché l'intelligenza artificiale abbia successo, abbiamo bisogno di due cose: intelligenza e un artefatto. Il computer è l'artefatto prescelto.

La prima macchina (meccanica) programmabile fu un telaio, ideato nel 1805 da Joseph Marie Jacquard (1752-1834), che utilizzava schede perforate per memorizzare le istruzioni del disegno da tessere.

A metà del XIX secolo, Charles Babbage (1792-1871) progettò due macchine, nessuna delle quali fu completata:

  1. La Macchina Differenziale (Difference Engine), o , era destinato al calcolo di tabelle matematiche per progetti ingegneristici e scientifici;

  2. La Macchina Analitica (Analytical Engine) era molto più ambizioso: comprendeva una memoria indirizzabile, programmi memorizzati e salti condizionali ed era il primo artefatto in grado di effettuare computazione generica.

Ada Lovelace (1815- 1852), collega di Babbage e figlia del poeta Lord Byron, è stata forse la prima programmatrice al mondo. Scrisse programmi per l'incompiuta macchina analitica e ipotizzò persino che la macchina potesse giocare a scacchi o comporre musica. Ne comprese il potenziale, descrivendola come "una macchina pensante o ragionante", in grado di ragionare su "tutti gli argomenti dell'universo" - qualcosa che oggi è noto come IA forte o generale. Anticipò anche i potenziali rischi dell'IA, scrivendo:

La macchina analitica non ha alcuna pretesa di creare qualcosa. Può fare tutto ciò che sappiamo ordinargli di fare. Può seguire l'analisi, ma non ha il potere di anticipare alcuna relazione o verità. Il suo compito è quello di assisterci nel rendere disponibile ciò che già conosciamo... È auspicabile premunirsi contro la possibilità di idee esagerate che potrebbero sorgere riguardo ai poteri della macchina analitica.

Il moderno computer elettronico digitale è stato inventato da scienziati impegnati nella seconda guerra mondiale, tra cui Alan Turing impegnato nella forzatura della macchina Enigma usata dai nazisti per cifrare e decifrare i messaggi bellici. Da allora, ogni generazione di hardware per computer ha portato a un aumento della velocità e della capacità e a una diminuzione del prezzo, una tendenza che si esprime nella legge di Moore. Le prestazioni sono raddoppiate ogni 18 mesi circa fino a circa il 2005, quando i problemi di dissipazione di energia hanno indotto i produttori a moltiplicare il numero di processori della CPU piuttosto che la velocità del processore. Attualmente si prevede che i futuri aumenti di potenza deriveranno dal parallelismo - ovvero distribuire l'esecuzione di un compito su più macchine che lavorano in parallelo - una curiosa convergenza con le proprietà del cervello.

Le applicazioni di IA utilizzano hardware specifico, come le unità di elaborazione grafica (GPU: Graphics Processing Unit) e le unità di elaborazione tensoriale (TPU: Tensor Processing Unit). Dagli anni '60 fino a circa il 2012, la quantità di potenza di calcolo utilizzata per addestrare le applicazioni di apprendimento automatico di punta ha seguito la legge di Moore. A partire dal 2012, le cose sono cambiate: dal 2012 al 2018 abbiamo assistito a un raddoppio ogni 100 giorni circa (e non 18 mesi). Un modello di apprendimento automatico che richiedeva un'intera giornata di addestramento nel 2014 richiede solo due minuti nel 2018.

Infine, i nuovi progetti hardware per l'IA sono basati anche sull'idea che, nell'affrontare un mondo incerto, non abbiamo bisogno di 64 bit di precisione per i numeri; 16 bit o addirittura 8 bit sono sufficienti, e consentono un calcolo più veloce.

Teoria del controllo e cibernetica

  • Come possono gli artefatti funzionare in modo autonomo?

Ctesibio di Alessandria (250 a.C. circa) costruì la prima macchina autonoma: un orologio ad acqua con un regolatore che manteneva costante la portata. Questa invenzione cambiò la definizione di ciò che un artefatto poteva fare. In precedenza, infatti, solo gli esseri viventi potevano modificare il loro comportamento in risposta ai cambiamenti dell'ambiente.

La teoria del controllo, o automatica, studia metodi per capire, governare e modificare il comportamento di sistemi dinamici naturali o artificiali, al fine di dotarli d'autonomia, cioè della capacità di raggiungere finalità assegnate senza diretta supervisione.

La figura centrale nella teoria del controllo fu Norbert Wiener (1894-1964). Wiener fu un brillante matematico che lavorò, tra gli altri, con Bertrand Russell, prima di sviluppare un interesse per i sistemi di controllo biologici e meccanici e per la loro connessione con la cognizione. Il suo libro Cybernetics (1948) divenne un bestseller e risvegliò il pubblico alla possibilità di macchine artificialmente intelligenti.

Linguistica

  • Come si relaziona il linguaggio con il pensiero?

Nel 1957, B. F. Skinner pubblicò Verbal Behavior. Si trattava di un resoconto completo e dettagliato dell'approccio comportamentista all'apprendimento del linguaggio, scritto dal più grande esperto del settore.

Ma curiosamente, una recensione del libro divenne nota quanto il libro stesso e servì quasi a spegnere l'interesse per il comportamentismo. L'autore della recensione era il linguista Noam Chomsky, che aveva appena pubblicato un libro sulla propria teoria, Syntactic Structures. Chomsky sottolineò che la teoria comportamentista non affrontava la nozione di creatività nel linguaggio: non spiegava come un bambino potesse capire e inventare frasi che non aveva mai sentito prima. La teoria di Chomsky - basata su modelli sintattici che risalgono al linguista indiano Panini (350 a.C. circa) - poteva spiegarlo e, a differenza delle teorie precedenti, era abbastanza formale da poter essere programmata formalmente.

La linguistica moderna e l'IA, quindi, sono nate più o meno nello stesso periodo e sono cresciute insieme, intersecandosi in campi ibridi chiamati linguistica computazionale o elaborazione del linguaggio naturale. Il problema della comprensione del linguaggio si è presto rivelato molto più complesso di quanto sembrasse inizialmente. La comprensione del linguaggio richiede la comprensione dell'argomento e del contesto, non solo la comprensione della struttura delle frasi. Gran parte del lavoro iniziale sulla rappresentazione della conoscenza (lo studio di come mettere la conoscenza in una forma con cui un computer possa ragionare) era legato al linguaggio e informato dalla ricerca in linguistica, che a sua volta era collegata a decenni di lavoro sull'analisi filosofica del linguaggio.

Last updated