Versione PDF di: Genio ma cieca: perché l’AI non sa contare le lettere di una parola

Questa è una versione PDF del contenuto. Per la versione completa e aggiornata, visita:

https://blog.tuttosemplice.com/genio-ma-cieca-perche-lai-non-sa-contare-le-lettere-di-una-parola/

Verrai reindirizzato automaticamente...

Genio ma cieca: perché l’AI non sa contare le lettere di una parola

Autore: Francesco Zinghinì | Data: 13 Febbraio 2026

Immaginate di avere di fronte a voi un genio letterario, capace di comporre sonetti in stile shakespeariano in pochi secondi o di riassumere trattati di fisica quantistica con una chiarezza disarmante. Eppure, se chiedete a questo stesso genio di dirvi quante lettere “r” ci sono nella parola “strawberry” (fragola), o di invertire una stringa di testo complessa, spesso inciampa, balbetta o fornisce una risposta palesemente errata. Questo è il grande paradosso dei moderni Large Language Models (LLM), l’entità principale che domina l’attuale panorama del progresso tecnologico. Perché un sistema basato su deep learning e addestrato su interi biblioteche digitali fallisce in compiti che un bambino delle elementari risolverebbe in un attimo? La risposta non risiede in una mancanza di “intelligenza”, ma nel modo fondamentale e alieno in cui queste macchine percepiscono il mondo: non attraverso lettere, ma attraverso i token.

Il segreto invisibile: l’AI non legge come noi

Per comprendere questo fenomeno, dobbiamo prima smantellare l’illusione antropomorfica che proiettiamo sull’intelligenza artificiale. Quando noi leggiamo la parola “gatto”, il nostro cervello processa visivamente le lettere G-A-T-T-O e le assembla in un concetto. Per un algoritmo di machine learning, invece, il testo non è composto da caratteri singoli. Prima che una sola parola venga data in pasto alla rete neurale, passa attraverso un processo chiamato “tokenizzazione”.

In questo stadio, il testo viene fatto a pezzi. Ma non in pezzi logici per un umano (come sillabe o lettere). Viene suddiviso in unità statisticamente frequenti chiamate token. Un token può essere una parola intera (come “il”), una parte di parola (come “ing” in “learning”) o persino uno spazio vuoto. Agli occhi dell’architettura neurale di un modello come ChatGPT, la frase “Il sole splende” non è una sequenza di lettere, ma una sequenza di numeri, ad esempio [1204, 885, 3341], dove ogni numero rappresenta un token specifico nel suo vasto vocabolario.

La matematica dei “pezzetti”: l’algoritmo BPE

La maggior parte degli LLM moderni utilizza una variante di tokenizzazione chiamata Byte Pair Encoding (BPE). Questo sistema è progettato per l’efficienza: cerca di comprimere il testo nel minor numero di token possibile. Le parole comuni diventano un singolo token; le parole rare vengono spezzate in più token.

Qui nasce il problema della “cecità” ai caratteri. Se la parola “Strawberry” è un token unico (assegnato, diciamo, all’ID 5678), il modello vede solo quel blocco monolitico: 5678. Non ha accesso diretto alla struttura interna della parola, cioè alle lettere s-t-r-a-w-b-e-r-r-y. Quando gli chiedete “quante ‘r’ ci sono?”, il modello non sta contando visivamente. Sta cercando di prevedere la risposta basandosi sulle probabilità statistiche apprese durante l’addestramento. Se nei suoi dati di training ha visto spesso che la parola “strawberry” è associata al concetto di “tre r”, risponderà correttamente. Se non ha questa associazione statistica forte, tirerà a indovinare, spesso sbagliando, perché per lui quel blocco è indivisibile.

Perché la matematica è il tallone d’Achille

La tokenizzazione spiega anche perché l’automazione di calcoli matematici complessi tramite LLM puri è stata storicamente problematica. I numeri, per noi, seguono una logica posizionale rigorosa. Per un LLM, i numeri sono spesso tokenizzati in modi arbitrari a seconda della loro frequenza.

Immaginate che il numero “1000” sia un singolo token, ma “1001” venga diviso in due token: “10” e “01”. Questa incoerenza rende difficilissimo per la rete neurale apprendere le regole dell’aritmetica come il riporto o l’incolonnamento, perché la rappresentazione interna dei numeri cambia continuamente formato. È come cercare di imparare la matematica dove a volte i numeri sono scritti in cifre arabe e altre volte in numeri romani, senza preavviso. Sebbene i modelli più recenti abbiano migliorato la gestione dei numeri (spesso tokenizzando ogni cifra singolarmente), questo rimane un esempio lampante di come l’architettura influenzi la capacità cognitiva.

L’impatto multilingue e il costo dell’inefficienza

C’è un aspetto meno noto ma cruciale della tokenizzazione: l’ineguaglianza linguistica. Gli algoritmi di tokenizzazione sono stati addestrati prevalentemente su corpus di testo in inglese. Di conseguenza, l’inglese è estremamente efficiente: una parola corrisponde quasi sempre a un token. In lingue con morfologie diverse o alfabeti non latini, la situazione cambia drasticamente.

In italiano, la corrispondenza è buona, ma non perfetta come in inglese. In lingue come il giapponese o l’hindi, una singola parola può essere frammentata in 3, 4 o 5 token. Poiché i servizi di AI spesso costano in base al numero di token processati (sia in termini di denaro che di potenza computazionale), questo significa che, a parità di contenuto informativo, processare un testo in una lingua “meno ottimizzata” costa di più e richiede più tempo. La tokenizzazione non è solo una curiosità tecnica; è un fattore economico che influenza l’accessibilità globale del progresso tecnologico.

Oltre i token: il futuro dell’architettura neurale

Siamo nel 2026, e la ricerca non si è fermata. Gli scienziati stanno esplorando architetture “token-free” o modelli che lavorano direttamente a livello di byte o addirittura di pixel visivi (nel caso di modelli multimodali nativi). L’obiettivo è creare sistemi che abbiano una comprensione più granulare e umana del linguaggio, superando i limiti imposti dalla compressione BPE.

Tuttavia, l’eredità dei token rimane pervasiva. La maggior parte dei sistemi commerciali che utilizziamo oggi si basa ancora su questo compromesso fondamentale tra efficienza computazionale e granularità della comprensione. Capire questo meccanismo ci aiuta a demistificare l’AI: non è una magia onnisciente, ma uno strumento statistico incredibilmente sofisticato che, a volte, si perde in un bicchiere d’acqua (o in una parola) semplicemente perché non possiede i nostri “occhiali” per leggere la realtà.

Conclusioni

La prossima volta che un’intelligenza artificiale commetterà un errore banale di spelling o di calcolo, non pensate che sia “stupida”. Ricordatevi che sta guardando il mondo attraverso una lente frammentata, dove le parole sono codici numerici e le lettere sono concetti astratti spesso inaccessibili. La tokenizzazione è il motore che permette agli LLM di elaborare biblioteche intere in millisecondi, ma è anche il velo che impedisce loro di vedere la semplicità di una singola lettera. È in questo spazio, tra la potenza di calcolo sovrumana e la cecità ai dettagli elementari, che risiede la vera, affascinante natura delle macchine pensanti.

Domande frequenti

Perché l’intelligenza artificiale non riesce a contare le lettere in una parola?

Il motivo principale risiede nel fatto che i modelli linguistici non leggono il testo lettera per lettera come gli esseri umani, ma lo elaborano tramite blocchi chiamati token. Poiché una parola intera viene spesso convertita in un unico codice numerico indivisibile, l’AI non ha accesso visivo alla sua struttura interna e tenta di indovinare la risposta basandosi su probabilità statistiche, fallendo spesso nel conteggio preciso dei caratteri.

Che cos’è la tokenizzazione e come influisce sugli LLM?

La tokenizzazione è il processo preliminare che suddivide il testo in unità statisticamente frequenti, che possono essere parole intere, parti di parole o spazi, prima di inviarle alla rete neurale. Questo meccanismo, spesso basato sull’algoritmo Byte Pair Encoding, ottimizza l’efficienza computazionale comprimendo il testo, ma crea una sorta di cecità verso i dettagli fini come le singole lettere o la struttura posizionale dei numeri.

Perché i modelli di linguaggio commettono errori nei calcoli matematici?

Gli errori matematici derivano dal modo incoerente in cui i numeri vengono trasformati in token: a volte un numero è un blocco unico, altre volte viene spezzato in cifre separate in base alla frequenza. Questa rappresentazione variabile impedisce alla rete neurale di apprendere regole aritmetiche stabili come l’incolonnamento o il riporto, rendendo difficile l’esecuzione di calcoli che richiedono una logica posizionale rigorosa.

Perché usare l’AI in lingue diverse dall’inglese può costare di più?

Esiste una disuguaglianza tecnica poiché gli algoritmi di tokenizzazione sono ottimizzati principalmente per l’inglese, dove c’è quasi sempre una corrispondenza uno a uno tra parola e token. In lingue con morfologie diverse o alfabeti non latini, una singola parola viene spesso frammentata in molti più token; dato che i costi dei servizi AI si basano sul volume di token processati, elaborare testi in queste lingue risulta economicamente più oneroso e computazionalmente più lento.

Quali sono le prospettive future per superare i limiti dei token nell’AI?

La ricerca scientifica si sta muovendo verso lo sviluppo di architetture token-free o modelli multimodali che lavorano direttamente a livello di byte o pixel. L’obiettivo di queste nuove tecnologie è eliminare la compressione intermedia per permettere alle macchine di acquisire una comprensione più granulare e simile a quella umana, risolvendo così i problemi legati alla manipolazione dei singoli caratteri e alla precisione aritmetica.