Versione PDF di: L’azione banale che resta un Everest per l’Intelligenza Artificiale

Questa è una versione PDF del contenuto. Per la versione completa e aggiornata, visita:

https://blog.tuttosemplice.com/lazione-banale-che-resta-un-everest-per-lintelligenza-artificiale/

Verrai reindirizzato automaticamente...

L’azione banale che resta un Everest per l’Intelligenza Artificiale

Autore: Francesco Zinghinì | Data: 18 Febbraio 2026

Siamo nel 2026. I sistemi di intelligenza artificiale generativa scrivono romanzi che vincono premi letterari, diagnosticano malattie rare con una precisione superiore a quella dei primari ospedalieri e generano video indistinguibili dalla realtà. Eppure, se chiedete al robot umanoide più avanzato del mondo di svuotare la lavastoviglie senza rompere un piatto o di piegare un asciugamano in modo ordinato, assisterete a uno spettacolo imbarazzante: movimenti lenti, esitazioni continue e, molto probabilmente, un fallimento catastrofico. Questo fenomeno, che continua a sconcertare ingegneri e pubblico, ha un nome preciso ed è l’entità principale della nostra analisi odierna: il Paradosso di Moravec.

Per il grande pubblico, abituato a misurare l’intelligenza sulla base della capacità di calcolo o dell’erudizione, questo sembra un controsenso. Come può un’entità capace di superare l’esame di abilitazione forense in pochi secondi non essere in grado di allacciarsi le scarpe? La risposta risiede in un malinteso fondamentale su cosa sia veramente “difficile” dal punto di vista computazionale e biologico. Oggi vi porterò dentro il cervello della macchina per svelare perché l’azione più banale per un bambino di tre anni rappresenta l’Everest per un supercomputer.

L’illusione della difficoltà: Scacchi vs. Giardinaggio

Per comprendere il paradosso, dobbiamo prima smantellare la nostra percezione umana della difficoltà. Noi esseri umani tendiamo a considerare “difficili” le attività che richiedono uno sforzo cosciente intenso: la matematica avanzata, la logica formale, il gioco degli scacchi o la programmazione informatica. Al contrario, consideriamo “facili” le azioni che svolgiamo in automatico: camminare su un terreno sconnesso, riconoscere il volto di un amico in una folla, o afferrare una tazza di caffè senza rovesciarla.

Hans Moravec, insieme a Rodney Brooks e Marvin Minsky, formulò questo paradosso negli anni ’80, e la sua validità rimane ferrea anche nell’era del deep learning e dei LLM (Large Language Models). Il principio è il seguente: è comparativamente facile far sì che i computer mostrino prestazioni di livello adulto nei test di intelligenza o nel gioco della dama, ma è difficile o impossibile dar loro le capacità di un bambino di un anno quando si tratta di percezione e mobilità.

Perché accade questo? La risposta è evolutiva. Le competenze sensomotorie (muoversi, vedere, manipolare oggetti) sono il risultato di miliardi di anni di evoluzione. Sono state ottimizzate a tal punto da diventare inconsce. Il pensiero astratto e logico, invece, è un’acquisizione recente della nostra specie, vecchia di poche migliaia di anni. Per un computer, la logica è la lingua madre; la percezione fisica è una lingua aliena indecifrabile.

Il costo computazionale della realtà fisica

Quando un bambino afferra un giocattolo, il suo cervello sta compiendo un miracolo di calcolo in tempo reale che umilia qualsiasi architettura neurale artificiale. Analizziamo cosa succede in quella frazione di secondo:

  • Percezione visiva: Gli occhi catturano fotoni, il cervello interpreta forme, colori e, soprattutto, la profondità e la texture dell’oggetto.
  • Fisica intuitiva: Il bambino sa istintivamente quanto l’oggetto peserà approssimativamente e quanto attrito è necessario per non farlo scivolare.
  • Feedback aptico: I sensori sulle dita inviano segnali continui. Se l’oggetto è scivoloso, la presa si stringe in millisecondi; se è fragile, si allenta.
  • Propriocezione: Il cervello sa esattamente dove si trova il braccio nello spazio senza doverlo guardare.

Per un sistema di automazione o un robot, replicare questo processo richiede una potenza di calcolo mostruosa. Mentre la matematica segue regole rigide e finite (un algoritmo può esplorare tutte le mosse possibili degli scacchi), il mondo fisico è “rumoroso”, caotico e infinito. Una tazza non è mai illuminata allo stesso modo, non è mai nella stessa identica posizione e non ha mai esattamente lo stesso coefficiente di attrito. L’intelligenza artificiale deve gestire un’incertezza probabilistica enorme per compiere l’azione più banale.

Perché ChatGPT non sa “capire” il mondo

Arriviamo a un punto cruciale che spesso confonde l’utente medio. Oggi interagiamo con sistemi come ChatGPT o i suoi successori del 2026, che sembrano onniscienti. Se chiedete a un LLM come si piega una maglietta, vi fornirà una guida passo-passo impeccabile. Ma se caricate quel software in un robot, il robot fallirà.

Questo accade perché i modelli linguistici possiedono una conoscenza semantica ma non incarnata (embodied). Hanno letto milioni di descrizioni su come piegare una maglietta, ma non hanno mai “sentito” il tessuto, non hanno mai sperimentato la gravità che fa cadere una manica, né la resistenza delle fibre. La loro conoscenza è astratta, statistica, basata sulla probabilità che una parola segua l’altra, non sulla comprensione delle leggi fisiche.

Il progresso tecnologico attuale sta cercando di colmare questo divario attraverso la cosiddetta “Embodied AI” (IA incarnata), dove l’algoritmo impara interagendo con un ambiente fisico simulato o reale, piuttosto che leggendo staticamente dati da internet. Tuttavia, i benchmark attuali mostrano che siamo ancora lontani dalla fluidità di un mammifero, o persino di un insetto.

Il problema del “Senso Comune” fisico

Un altro aspetto del paradosso riguarda il senso comune fisico. Un bambino sa che se lascia andare un bicchiere, questo cadrà. Non ha bisogno di calcolare le equazioni di Newton; lo sa e basta. Un’AI deve essere addestrata specificamente su questo scenario, o deve simularlo.

Immaginate di chiedere a un robot di “pulire il tavolo”. Per un umano, è ovvio che non si deve buttare via il portafoglio appoggiato sopra, ma si devono buttare le briciole. Per un algoritmo, distinguere tra “spazzatura” e “oggetto di valore” in un contesto visivo disordinato è un compito di classificazione estremamente complesso. L’azione banale di distinguere l’utile dall’inutile richiede una comprensione contestuale del mondo che va ben oltre il riconoscimento delle immagini.

Le macchine mancano di quella vasta biblioteca di conoscenze implicite sul mondo che noi accumuliamo semplicemente vivendo. Per insegnare a un’AI a non urtare un vaso, dobbiamo definire il vaso, il concetto di urto, le conseguenze della rottura e il valore sociale dell’oggetto. Per noi, è tutto racchiuso in un’occhiata.

Il futuro: Moravec sarà mai sconfitto?

La ricerca nel campo del machine learning si sta spostando massicciamente verso la risoluzione di questo paradosso. Le nuove frontiere non riguardano più solo chatbot più eloquenti, ma robot capaci di destrezza manuale.

Si stanno sviluppando “pelli elettroniche” per dare ai robot il senso del tatto, essenziale per manipolare oggetti delicati. Si utilizzano ambienti di simulazione iper-realistici (come il “metaverso industriale”) dove i robot possono allenarsi a cadere e rialzarsi milioni di volte in poche ore, accelerando l’evoluzione che per noi ha richiesto ere geologiche.

Tuttavia, il paradosso resiste. Più ci addentriamo nella complessità del mondo reale, più ci rendiamo conto che l’intelligenza non è solo elaborazione di simboli nel vuoto, ma interazione dinamica con la materia. La vera intelligenza artificiale generale (AGI) non nascerà in un server farm, ma nel momento in cui un robot saprà sbucciare una mela con la stessa noncuranza di un essere umano.

Conclusioni

Il Paradosso di Moravec ci insegna una lezione di umiltà tecnologica: ciò che consideriamo “intelligente” è solo la punta dell’iceberg delle nostre capacità cognitive. Mentre celebriamo i trionfi dell’intelligenza artificiale nella generazione di testo e immagini, non dobbiamo dimenticare che, dal punto di vista dell’ingegneria, il sistema biologico che ci permette di allacciarci le scarpe è infinitamente più sofisticato del software che batte il campione del mondo di Go.

La prossima volta che vedrete un video di un robot che fa un salto mortale o versa un drink, non pensate “è tutto qui?”. Pensate invece all’immenso oceano di calcoli invisibili necessari per non farlo cadere. La vera sfida del futuro non è creare una macchina che pensi come Einstein, ma una che si muova con la grazia inconsapevole di un bambino.

Domande frequenti

Cos’è il Paradosso di Moravec nell’intelligenza artificiale?

Il Paradosso di Moravec è un principio formulato negli anni ottanta che evidenzia una contraddizione fondamentale nella robotica e nell’IA: i compiti che gli esseri umani considerano difficili, come la logica avanzata o gli scacchi, sono computazionalmente facili per le macchine. Al contrario, azioni che noi riteniamo banali e automatiche, come camminare o manipolare oggetti, richiedono risorse di calcolo immense e risultano estremamente complesse per i robot.

Perché per i robot è difficile compiere azioni semplici come piegare un asciugamano?

Le azioni quotidiane richiedono una gestione complessa dell’incertezza fisica e sensoriale. Mentre la matematica segue regole rigide, il mondo reale è caotico: variazioni di luce, attrito, peso e posizione richiedono calcoli probabilistici enormi in tempo reale. Un robot deve analizzare feedback visivi e tattili istantanei, un processo che per gli umani è automatico grazie all’evoluzione ma che richiede una potenza di calcolo mostruosa per una macchina.

Perché ChatGPT non riesce a interagire fisicamente con il mondo reale?

I modelli linguistici come ChatGPT possiedono una conoscenza semantica ma non incarnata. Possono descrivere perfettamente come svolgere un’azione passo dopo passo, ma mancano dell’esperienza fisica della gravità, della resistenza dei materiali e della manipolazione. Senza un corpo fisico e sensori tattili che interagiscono con l’ambiente, la loro intelligenza rimane astratta e statistica, priva della comprensione delle leggi fisiche necessarie per agire.

Qual è la differenza tra intelligenza logica e competenze sensomotorie nell’IA?

La disparità nasce dalla storia evolutiva. Il pensiero astratto e logico è un’acquisizione umana recente e relativamente facile da codificare in algoritmi, mentre la percezione e il movimento sono stati ottimizzati per miliardi di anni di evoluzione biologica. Per un computer, la logica è una lingua madre naturale, mentre interpretare i dati sensoriali del mondo fisico rappresenta una lingua aliena quasi indecifrabile e priva di schemi fissi.

In che modo l’Embodied AI cerca di superare i limiti attuali dei robot?

La ricerca sta puntando sulla cosiddetta Embodied AI, ovvero un’intelligenza artificiale incarnata che impara interagendo direttamente con un ambiente fisico o simulato. Si stanno sviluppando pelli elettroniche per fornire ai robot il senso del tatto e si utilizzano simulazioni iper-realistiche dove gli algoritmi possono allenarsi a cadere e rialzarsi milioni di volte, accelerando l’apprendimento motorio che agli esseri viventi ha richiesto ere geologiche.