Le fondamenta
Dove identifichiamo le discipline che sono alla base dell'IA
Last updated
Was this helpful?
Dove identifichiamo le discipline che sono alla base dell'IA
Last updated
Was this helpful?
L'IA è un argomento veramente interdisciplinare, che fa leva su 10 altre discipline:
Come possiamo utilizzare le regole formali del pensiero per trarre conclusioni valide?
Come emerge la mente a partire da un cervello fisico?
Da dove viene la conoscenza?
Come passiamo dalla conoscenza all'azione?
Aristotele (384-322 a.C.) fu il primo a formulare un insieme preciso di leggi che regolano la parte razionale della mente. Sviluppò un sistema informale di sillogismi per ragionare correttamente, che in linea di principio permetteva di generare conclusioni in modo meccanico, date le premesse iniziali. Se conosciamo la regola "tutti gli uomini sono mortali" e sappiamo che "tutti i Greci sono uomini", possiamo concludere che "tutti i Greci sono mortali".
Cartesio (1596-1650) fornì la prima chiara discussione della distinzione tra mente e materia. Il materialismo ritiene che la mente sia il funzionamento del cervello fisico secondo le leggi della fisica. Un problema con una concezione puramente fisica della mente è che sembra lasciare poco spazio al libero arbitrio: se la mente è governata interamente da leggi fisiche, allora non ha più libero arbitrio di un sasso che decide di cadere verso il centro della terra. Cartesio era un sostenitore del dualismo. Egli sosteneva che esiste una parte della mente umana che è al di fuori della natura, esente dalle leggi fisiche - questo pone la domanda se esistono capacità della mente umana inacessibili ad una macchina.
Il problema successivo è stabilire la fonte della conoscenza. Il movimento dell'empirismo, a partire da Francis Bacon (1561-1626), è caratterizzato da un dettame di John Locke (1632-1704):
Nulla è nell'intelletto, che non sia stato prima nei sensi.
Quindi secondo l'empirismo la conoscenza si acquisisce mediante l'esperienza (i dati, nel caso dell'IA).
L'ultimo elemento del quadro filosofico della mente è la connessione tra conoscenza e azione. Questa domanda è fondamentale per l'IA, perché l'intelligenza richiede l'azione oltre che il ragionamento. Il passaggio da conoscenza ad azione prevede di trovare una giustificazione alle azioni. Aristotele sosteneva che le azioni sono giustificate da una connessione logica tra gli obiettivi e la conoscenza del risultato dell'azione. Un agente intelligente deve quindi essere in grado di capire se le proprie azioni lo portano verso uno stato aderente ai propri obiettivi.
Quali sono le regole formali per trarre conclusioni valide?
Cosa si può calcolare?
Come possiamo ragionare in presenza di informazioni incerte?
I filosofi hanno delineato alcune delle idee fondamentali dell'IA, ma il salto verso una scienza formale ha richiesto il livello di formalizzazione matematica della logica e della probabilità, nonché l'introduzione di una nuova branca della filosofia: l'informatica.
L'idea della logica formale può essere fatta risalire ai filosofi dell'antica Grecia, dell'India e della Cina, ma il suo sviluppo matematico iniziò davvero con il lavoro di George Boole (1815-1864), che elaborò i dettagli della logica proposizionale.
Nel 1879, Gottlob Frege (1848-1925) estese la logica di Boole per includere oggetti e relazioni, creando la logica del primo ordine.
La teoria della probabilità può essere vista come una generalizzazione della logica a situazioni con informazioni incerte, una considerazione di grande importanza per l'IA. La formalizzazione della probabilità, unita alla disponibilità di dati, ha portato alla nascita della statistica. Ronald Fisher (1890-1962) è considerato il primo statistico moderno. Egli riunì le idee di probabilità, progettazione di esperimenti, analisi dei dati e computazione.
Nel 1930, Kurt Gödel (1906-1978) dimostrò che esisteva una procedura efficace per dimostrare qualsiasi affermazione vera nella logica del primo ordine, ma che la logica del primo ordine non era in grado di catturare il principio di induzione matematica necessario per caratterizzare i numeri naturali.
Nel 1931, Gödel dimostrò che esistevano limiti alla deduzione automatica. Il suo teorema di incompletezza dimostrò che in qualsiasi teoria formale forte come l'aritmetica di Peano (la teoria elementare dei numeri naturali), esistono enunciati veri che sono indecidibili, nel senso che non hanno alcuna prova all'interno della teoria.
Questo risultato fondamentale può essere interpretato anche come la dimostrazione che alcune funzioni sui numeri interi non possono essere calcolate da un programma. Ciò ha motivato Alan Turing (1912-1954) a cercare di caratterizzare esattamente quali funzioni sono computabili, ovvero in grado di essere calcolate da una procedura automatica.
La tesi Church-Turing propone di identificare la nozione generale di computabilità con le funzioni calcolate da una macchina di Turing. Una macchina di Turing è un modello matematico astratto di calcolo che manipola simboli su una striscia infinita di nastro secondo una tabella di regole.
Turing dimostrò che esistono alcune funzioni che nessuna macchina di Turing può calcolare. Ad esempio, nessuna macchina è in grado di dire in generale se un dato programma terminerà su un dato input o se continuerà la sua esecuzione all'infinito (problema della terminazione).
Sebbene la decidibilità e la computabilità siano importanti per la comprensione della computazione, la nozione di trattabilità ha avuto un impatto ancora maggiore. In parole povere, un problema è detto intrattabile se il tempo necessario per risolvere le istanze del problema cresce esponenzialmente con la dimensione delle istanze. Si noti che la crescita esponenziale significa che anche istanze moderatamente grandi non possono essere risolte in un tempo ragionevole.
La teoria della NP-completezza, proposta da Steven Cook e Richard Karp, fornisce un metodo per riconoscere i problemi intrattabili. Cook e Karp hanno dimostrato l'esistenza di classi di problemi canonici di ricerca e ragionamento combinatorio che sono NP-completi, ovvero intrattabili (quasi sicuramente). Un esempio è il Problema del Commesso Viaggiatore (Traveling Salesman Problem). Esso pone la seguente domanda (apparentemente semplice): "Dato un elenco di città e le distanze tra ogni coppia di città, qual è il percorso più breve possibile che visita ogni città esattamente una volta e ritorna alla città di origine?".
Ne deriva che, nonostante la crescente velocità dei computer, un uso attento delle risorse e soluzioni euristiche (approssimate) ai problemi caratterizzano i sistemi intelligenti.
In parole povere, il mondo è un'istanza estremamente grande di un problema complesso!
La potenza davvero gigantesca delle macchine odierne induce a pensare che si possano aggirare tutte le strategie intelligenti e affidarsi solamente alla forza bruta. Non è questo il caso. I fisici ritengono che la velocità massima di un dispositivo di calcolo da 1 kg sia circa operazioni al secondo. Supponiamo di voler enumerare stringhe di parole inglesi, come propose Borges ne La biblioteca di Babele. Borges prevedeva libri di 410 pagine. Sarebbe fattibile? Non proprio. L'English Oxford Dictionary, ad esempio, contiene oltre parole. Ciò significa che il numero di frasi arbitrarie composte da sole 10 parole in lingua Inglese è . Il supercomputer impiegherebbe più di sei milioni di secondi (più di 69 giorni) per enumerare tutte le frasi di sole 10 parole!
Anche con un computer dalla capacità virtualmente illimitata, abbiamo bisogno di ulteriori progressi concettuali nella comprensione dell'intelligenza. In parole povere, senza la teoria giusta, le macchine più veloci danno solo la risposta sbagliata più velocemente.
Come dovremmo prendere le decisioni in modo da massimizzare la ricompensa?
Come dovremmo fare quando gli altri potrebbero non essere d'accordo?
La scienza economica è nata nel 1776, quando il filosofo scozzese Adam Smith (1723-1790) pubblicò An Inquiry into the Nature and Causes of the Wealth of Nations. Smith fu il primo a trattarla come una scienza, utilizzando l'idea che le economie possono essere pensate come costituite da individui che massimizzano il proprio benessere economico. Smith, tuttavia, non sosteneva l'avidità finanziaria come posizione morale: il suo libro precedente The Theory of Moral Sentiments inizia sottolineando che avere a cuore il benessere degli altri è una componente essenziale degli interessi di ogni individuo.
La teoria dell'utilità in economia è stato formalizzata per la prima volta da Léon Walras (1834-1910) e successivamente da Frank Ramsey (1903-1930). La teoria delle decisioni, che combina la teoria delle probabilità con la teoria dell'utilità, fornisce un quadro formale e completo per le decisioni (economiche o di altro tipo) prese in condizioni di incertezza.
Questa teoria funziona su grandi economie in cui ogni agente non deve prestare attenzione alle azioni degli altri agenti in quanto individui. Per le piccole economie, la situazione è molto più simile a quella di un gioco: le azioni di un giocatore possono influenzare in modo significativo l'utilità di un altro (in modo positivo o negativo). La teoria dei giochi è stata iniziata dal lavoro di John von Neumann (1903-1957) e Oskar Morgenstern (1902-1977) nel loro libro The Theory of Games and Economic Behavior.
Come elabora l'informazione il cervello?
Le neuroscienze sono lo studio del sistema nervoso, in particolare del cervello.
Una delle funzioni principali del cervello è quella di elaborare le informazioni e l'elemento principale di elaborazione delle informazioni è il neurone, una cellula cerebrale specializzata che combina diversi input per generare un singolo output.
Un tipico neurone è costituito da un corpo cellulare o soma, insieme a una serie di tentacoli sporgenti, chiamati dendriti, che sono canali di ingresso per trasportare i segnali nella cellula. La maggior parte dei neuroni ha una sola uscita, chiamata assone, che di solito è più lungo dei dendriti. Di solito si ramifica vicino alla sua estremità in terminali assonici per consentire all'uscita della cellula di alimentare l'ingresso di molte altre. Tra il terminale e il dendrite c'è un piccolo spazio, chiamato sinapsi, attraverso il quale il segnale di uscita del primo neurone (presinaptico) deve essere trasportato per raggiungere il secondo neurone (postsinaptico).
I segnali che viaggiano all'interno dei neuroni sono di natura elettrochimica. Essi consistono in onde di tensione elettrica create dal movimento di ioni carichi positivamente che entrano ed escono dalla cellula. Queste onde sono chiamate potenziali d'azione. Quando un potenziale d'azione raggiunge una sinapsi, non può attraversare immediatamente lo spazio tra il terminale dell'assone e il dendrite opposto. Il soma del neurone postsinaptico somma gli input provenienti dai suoi dendriti e, di conseguenza, può inviare o meno un segnale di uscita lungo il proprio assone. In questo modo, il neurone aggrega i segnali ai suoi ingressi e si attiva solo quando un numero sufficiente di ingressi è eccitato. Inoltre, gli ingressi possono anche essere inibitori; i segnali ricevuti dagli ingressi inibitori rendono meno probabile l'attivazione del neurone ricevente.
Si sa che il cervello cambia costantemente lo schema di cablaggio tra i neuroni in risposta agli input e all'esperienza e si presume che questo schema - la rete neurale - rappresenti l'informazione alla base del pensiero e dell'azione, ovvero dell'intelligenza.
Come imparano gli esseri umani?
Le due principali teorie psicologiche che spiegano come gli esseri umani apprendono sono il comportamentismo e il cognitivismo.
Il comportamentismo considera l’apprendimento come una modificazione del comportamento causata da stimoli ambientali e rinforzi:
l’apprendimento avviene attraverso l’associazione tra uno stimolo e una risposta osservabile
il comportamento è modellato attraverso rinforzi positivi e negativi. La probabilità di ripetere un comportamento aumenta se c’è un rinforzo positivo e diminuisce con una punizione
come metafora generale, l’uomo è visto come macchina che reagisce agli stimoli, osservabile solo dall'esterno
il reinforcement learning (apprendimento per rinforzo) è una diretta applicazione del comportamentismo nell’IA
Il cognitivismo si sviluppa come reazione al comportamentismo, con l’idea che l’apprendimento non sia solo una risposta a stimoli esterni, ma coinvolga processi mentali interni complessi, come la memoria, la percezione e il ragionamento:
l’apprendimento è il risultato di processi interni di codifica, immagazzinamento e recupero delle informazioni
le persone organizzano la conoscenza in schemi mentali che influenzano la loro capacità di apprendere
come metafora generale, l'uomo è visto come elaboratore di informazioni
il deep learning, basato sulle reti neurali artificiali, trae ispirazione da modelli cognitivi del cervello
In IA, comportamentismo e cognitivismo non sono in contrasto, ma spesso si integrano: i modelli reinforcement learning (comportamentismo) si combinano con reti neurali profonde (cognitivismo), come avviene per esempio in AlphaGo.
Con il termine scienze cognitive si definisce l'insieme di discipline che hanno come oggetto di studio scientifico e filosofico la cognizione di un sistema pensante, sia esso naturale o artificiale. Il campo delle scienze cognitive è iniziato con un workshop nel 1956 (curiosamente, pochi mesi dopo un altro congresso che sancì la nascita dell'IA), dove furono presentati tre contributi significativi:
George Miller presentò Magic Number Seven, un lavoro sulla psicologia della memoria
Noam Chomsky presentò Three Models of Language, un lavoro sulla psicologia del linguaggio
Allen Newell e Herbert Simon presentarono The Logic Theory Machine, un lavoro sulla psicologia del pensiero logico
Come possiamo costruire una macchina pensante efficiente?
Affinché l'intelligenza artificiale abbia successo, abbiamo bisogno di due cose: intelligenza e un artefatto. Il computer è l'artefatto prescelto.
La prima macchina (meccanica) programmabile fu un telaio, ideato nel 1805 da Joseph Marie Jacquard (1752-1834), che utilizzava schede perforate per memorizzare le istruzioni del disegno da tessere.
Charles Babbage (1792-1871) progettò due macchine, nessuna delle quali fu completata:
La Macchina Differenziale (Difference Engine) era destinata a calcoli matematici per progetti ingegneristici e scientifici;
La Macchina Analitica (Analytical Engine) comprendeva una memoria indirizzabile, programmi memorizzati e salti condizionali ed era il primo artefatto in grado di effettuare computazione generica.
Ada Lovelace (1815- 1852), collega di Babbage e figlia del poeta Lord Byron, è stata forse la prima programmatrice al mondo. Scrisse programmi per l'incompiuta macchina analitica e ipotizzò persino che la macchina potesse giocare a scacchi e comporre musica. Ne comprese il potenziale, descrivendola come "una macchina pensante o ragionante", in grado di ragionare su "tutti gli argomenti dell'universo" - qualcosa che oggi è noto come IA forte o generale.
Infine, i nuovi progetti hardware per l'IA sono basati anche sull'idea che, nell'affrontare un mondo incerto, non abbiamo bisogno di 64 bit di precisione per i numeri; 16 bit o addirittura 8 bit sono sufficienti, e consentono un calcolo più veloce.
Come possono gli artefatti funzionare in modo autonomo?
Ctesibio di Alessandria (250 a.C. circa) costruì la prima macchina autonoma: un orologio ad acqua con un regolatore che manteneva costante la portata. Questa invenzione cambiò la definizione di ciò che un artefatto poteva fare. In precedenza, infatti, solo gli esseri viventi potevano modificare il loro comportamento in risposta ai cambiamenti dell'ambiente.
La teoria del controllo, o automatica, studia metodi per capire, governare e modificare il comportamento di sistemi dinamici naturali o artificiali, al fine di dotarli d'autonomia, cioè della capacità di raggiungere finalità assegnate senza diretta supervisione.
La figura centrale nella teoria del controllo fu Norbert Wiener (1894-1964). Wiener fu un brillante matematico che lavorò, tra gli altri, con Bertrand Russell, prima di sviluppare un interesse per i sistemi di controllo biologici e meccanici e per la loro connessione con la cognizione. Il suo libro Cybernetics (1948) risvegliò il pubblico alla possibilità di macchine artificialmente intelligenti.
Come si relaziona il linguaggio con il pensiero?
Nel 1957, B. F. Skinner pubblicò Verbal Behavior. Si trattava di un resoconto completo e dettagliato dell'approccio comportamentista all'apprendimento del linguaggio, scritto dal più grande esperto del settore.
Ma curiosamente, una recensione del libro divenne nota quanto il libro stesso e servì quasi a spegnere l'interesse per il comportamentismo. L'autore della recensione era il linguista Noam Chomsky, che aveva appena pubblicato un libro sulla propria teoria, Syntactic Structures. Chomsky sottolineò che la teoria comportamentista non affrontava la nozione di creatività nel linguaggio: non spiegava come un bambino potesse capire e inventare frasi che non aveva mai sentito prima. La teoria di Chomsky - basata su modelli sintattici che risalgono al linguista indiano Panini (350 a.C. circa) - poteva spiegarlo e, a differenza delle teorie precedenti, era abbastanza formale da poter essere programmata formalmente.
La linguistica moderna e l'IA, quindi, sono nate più o meno nello stesso periodo e sono cresciute insieme, intersecandosi in campi ibridi chiamati linguistica computazionale o elaborazione del linguaggio naturale. Il problema della comprensione del linguaggio si è presto rivelato molto più complesso di quanto sembrasse inizialmente. La comprensione del linguaggio richiede la comprensione dell'argomento e del contesto, non solo la comprensione della struttura delle frasi. Gran parte del lavoro iniziale sulla rappresentazione della conoscenza (lo studio di come mettere la conoscenza in una forma con cui un computer possa ragionare) era legato al linguaggio e informato dalla ricerca in linguistica, che a sua volta era collegata a decenni di lavoro sull'analisi filosofica del linguaggio.
Il pioniere della ricerca sull'intelligenza artificiale Herbert Simon (1916-2001) ha vinto il premio Nobel per l'economia nel 1978 per il suo lavoro iniziale che dimostrava che i modelli basati sul - prendere decisioni che sono abbastanza buone, piuttosto che calcolare faticosamente una decisione ottimale - fornivano una migliore descrizione del comportamento umano reale. Quindi un individuo più che fare scelte ottimali, fa scelte soddisfacenti, sia per i vincoli svolti dalle organizzazioni sia per i limiti imposti dal sistema cognitivo umano.
Il moderno computer elettronico digitale è stato inventato da scienziati impegnati nella seconda guerra mondiale, tra cui Alan Turing impegnato nella forzatura della macchina usata dai nazisti per cifrare e decifrare i messaggi bellici. Da allora, ogni generazione di hardware per computer ha portato a un aumento della velocità e della capacità e a una diminuzione del prezzo, una tendenza che si esprime nella legge di Moore. Le prestazioni sono raddoppiate ogni 18 mesi circa fino a circa il 2005, quando i problemi di dissipazione di energia hanno indotto i produttori a moltiplicare il numero di processori della CPU piuttosto che la velocità del processore. Attualmente si prevede che i futuri aumenti di potenza deriveranno dal parallelismo - ovvero distribuire l'esecuzione di un compito su più macchine che lavorano in parallelo - una curiosa convergenza con le proprietà del cervello.
Le applicazioni di IA utilizzano hardware specifico, come le (GPU: Graphics Processing Unit) e le (TPU: Tensor Processing Unit). Dagli anni '60 fino a circa il 2012, la quantità di potenza di calcolo utilizzata per addestrare le applicazioni di apprendimento automatico di punta ha seguito la legge di Moore. A partire dal 2012, le cose sono cambiate: dal 2012 al 2018 abbiamo assistito a un raddoppio ogni 100 giorni circa (e non 18 mesi). Un modello di apprendimento automatico che richiedeva un'intera giornata di addestramento nel 2014 richiede solo due minuti nel 2018.