Questa è una versione PDF del contenuto. Per la versione completa e aggiornata, visita:
https://blog.tuttosemplice.com/lanomalia-fisica-che-smaschera-le-simulazioni-perfette-dellia/
Verrai reindirizzato automaticamente...
Siamo entrati in un’epoca in cui credere ai propri occhi non è più sufficiente. L’Intelligenza Artificiale Generativa ha raggiunto vette di realismo che fino a pochi anni fa appartenevano esclusivamente al regno della fantascienza. Dai video iper-realistici alle fotografie impossibili da distinguere da scatti d’autore, il confine tra il mondo fisico e la sintesi digitale si è assottigliato fino a diventare quasi impercettibile. Eppure, nonostante la potenza di calcolo smisurata e l’addestramento su miliardi di dati, esiste un confine invisibile, un’inquietante anomalia fisica che il nostro cervello percepisce prima ancora che i nostri occhi riescano a metterla a fuoco. È un difetto sottile, un “glitch” nella matrice che tradisce anche la simulazione più sofisticata, rivelando la natura artificiale dell’immagine o del video che stiamo osservando.
Per comprendere la natura di questa anomalia, dobbiamo prima immergerci nel modo in cui le macchine “vedono” e “creano” il mondo. Non si tratta di un semplice errore di rendering o di una texture a bassa risoluzione, ma di una profonda incomprensione delle leggi fondamentali che governano il nostro universo. Quando osserviamo un contenuto generato artificialmente e proviamo una sottile sensazione di disagio, stiamo sperimentando una reazione istintiva a una violazione delle regole della fisica newtoniana e dell’ottica geometrica.
Il rapido progresso tecnologico nel campo dell’AI ha portato alla creazione di modelli in grado di generare mondi visivi con una fedeltà sbalorditiva. Tecnologie basate sul machine learning e sul deep learning hanno imparato a mappare e riprodurre la realtà analizzando enormi database di immagini e video. Tuttavia, il modo in cui questi sistemi operano è fondamentalmente diverso da come un motore grafico tradizionale o il mondo reale funzionano.
Mentre un videogioco utilizza un motore fisico per calcolare la gravità, la collisione degli oggetti e il percorso dei raggi di luce (ray tracing) in uno spazio tridimensionale, i modelli generativi moderni operano su una logica probabilistica. Funzionano in modo simile a un LLM (Large Language Model) come ChatGPT: così come quest’ultimo prevede la parola successiva più probabile in una frase senza necessariamente “comprendere” il significato filosofico del testo, i modelli di generazione visiva prevedono il pixel successivo (o il frame successivo) basandosi su pattern statistici. L’architettura neurale alla base di questi sistemi è straordinaria nel replicare texture, colori e forme, ma è intrinsecamente priva di un modello del mondo fisico. Non sa cosa sia la massa, non comprende la conservazione dell’energia e, soprattutto, ignora le complesse leggi della propagazione della luce.
È proprio in questa assenza di comprensione fisica che si annida l’inquietante anomalia. Per anni, il grande pubblico si è concentrato su errori macroscopici: mani con sei dita, testi incomprensibili sullo sfondo, o volti asimmetrici. Oggi, l’automazione e l’affinamento degli algoritmi hanno quasi del tutto eliminato questi difetti evidenti. Le mani sono perfette, i volti sono simmetrici, i movimenti sembrano fluidi. Ma la fisica, quella vera, non perdona.
Il segreto dietro l’anomalia che smaschera le simulazioni risiede nella coerenza ottico-spaziale e nella permanenza dell’oggetto. Poiché l’intelligenza artificiale non sta renderizzando una scena 3D, ma sta “dipingendo” una sequenza di pixel bidimensionali, fatica enormemente a mantenere la coerenza delle leggi fisiche nel tempo e nello spazio. Questo si manifesta in modi sottili ma profondamente disturbanti per l’occhio umano, che si è evoluto per milioni di anni per riconoscere le minime variazioni nella luce e nel movimento.
Qual è, dunque, questa anomalia specifica? Si divide in due manifestazioni principali che, una volta notate, rendono impossibile non riconoscere un falso: l’incoerenza dei riflessi speculari (in particolare nei bulbi oculari) e la geometria fluida degli oggetti solidi.
Partiamo dalla luce. Gli occhi umani sono superfici sferiche altamente riflettenti. Nel mondo reale, se una persona si trova in una stanza illuminata da una finestra a sinistra e da una lampada a destra, entrambi gli occhi rifletteranno quelle fonti di luce con una geometria precisa, coerente con la forma della cornea e la posizione della testa. Nelle simulazioni più realistiche, l’intelligenza artificiale genera spesso riflessi corneali (i cosiddetti “catchlights”) che sono fisicamente impossibili. L’occhio destro potrebbe riflettere una finestra quadrata, mentre l’occhio sinistro riflette una fonte di luce diffusa e informe. Oppure, se il soggetto gira la testa in un video, il riflesso nell’occhio non si sposta seguendo la curvatura della cornea, ma rimane incollato alla pupilla come un adesivo bidimensionale. Questa discrepanza ottica, per quanto minuscola, viene captata dal nostro subconscio, generando quella sensazione di “Uncanny Valley” (la valle dell’perturbante) che ci fa percepire il soggetto come non del tutto umano.
La seconda manifestazione dell’anomalia riguarda la materia stessa. Nei video generati dall’AI, gli oggetti solidi tendono a soffrire di una “geometria fluida”. Poiché il modello prevede i pixel frame per frame, un oggetto che passa dietro un altro (ad esempio, una persona che cammina dietro un lampione) spesso riemerge dall’altra parte con proporzioni leggermente alterate, dettagli mancanti o, nei casi più inquietanti, fuso con lo sfondo. Le ombre proiettate dagli oggetti non rispondono a una singola fonte di luce coerente, ma si comportano come entità indipendenti, allungandosi o accorciandosi in violazione delle leggi della trigonometria. I tessuti dei vestiti si muovono senza rispettare l’inerzia o la gravità, fluttuando come se fossero immersi in un liquido invisibile piuttosto che nell’aria.
Per contrastare la disinformazione e riconoscere i deepfake, ricercatori e scienziati forensi hanno sviluppato nuovi benchmark e strumenti di analisi che si basano esattamente su queste anomalie fisiche. Invece di cercare artefatti nei pixel, i nuovi software analizzano la scena come farebbe un fisico.
Tracciano le linee di luce che partono dalle ombre per verificare se convergono verso un’unica fonte di illuminazione. Analizzano i micro-movimenti dei fluidi (come l’acqua in un bicchiere o il fumo di una sigaretta) per vedere se rispettano le equazioni della fluidodinamica di Navier-Stokes. E, soprattutto, zoomano sugli occhi dei soggetti, mappando in 3D i riflessi per verificare se l’ambiente circostante riflesso nelle cornee è topologicamente possibile. Questo nuovo “test di Turing visivo” non si basa più sulla qualità dell’immagine, che ormai è impeccabile, ma sulla sua obbedienza alle leggi ineluttabili dell’universo.
Cosa succede se, o meglio quando, l’intelligenza artificiale imparerà la fisica? I ricercatori stanno già lavorando a modelli ibridi che combinano le reti neurali generative con motori fisici tradizionali. L’obiettivo è creare un’architettura neurale “fisicamente fondata” (physics-informed neural networks), capace di comprendere che un tavolo è un oggetto solido e che la luce viaggia in linea retta. Quando questo traguardo sarà raggiunto, l’anomalia che oggi ci permette di smascherare le simulazioni scomparirà, portandoci in un’era in cui la verifica della realtà richiederà strumenti crittografici e filigrane digitali (watermarking) integrate a livello hardware, poiché l’occhio umano e persino l’analisi fisica forense saranno resi impotenti.
La corsa tra la creazione di simulazioni perfette e la nostra capacità di smascherarle è una delle sfide tecnologiche più affascinanti del nostro tempo. L’inquietante anomalia fisica che oggi tradisce le macchine — quell’incoerenza sottile nella luce riflessa in uno sguardo o nella solidità di un’ombra — è il promemoria che l’intelligenza artificiale, per quanto avanzata, è ancora un formidabile illusionista che non comprende il trucco che sta eseguendo. Imita la realtà senza viverla, dipinge la luce senza conoscerne il calore. Fino a quando i modelli generativi non impareranno a calcolare il mondo in tre dimensioni, obbedendo alle leggi di Newton e Maxwell, il nostro istinto e la nostra comprensione della fisica rimarranno il nostro scudo più efficace contro l’inganno digitale.
Per capire se un contenuto visivo risulta artificiale bisogna osservare i dettagli fisici e ottici. Le intelligenze artificiali faticano a mantenere la coerenza spaziale e temporale, creando difetti sottili come ombre con angolazioni errate o oggetti solidi che sembrano fondersi con lo sfondo. Il nostro cervello percepisce queste violazioni fisiche quasi istintivamente.
I modelli generativi attuali funzionano su base probabilistica e non possiedono una reale comprensione del mondo tridimensionale. Invece di calcolare la gravità o il percorso della luce come farebbe un motore grafico, questi sistemi prevedono semplicemente il pixel successivo basandosi su schemi statistici. Questo porta a inevitabili incongruenze fisiche e geometriche.
Nelle immagini create al computer i riflessi luminosi sulle cornee risultano spesso fisicamente impossibili o asimmetrici. Ad esempio, un occhio potrebbe riflettere una forma diversa rispetto al suo compagno, oppure il riflesso potrebbe non seguire la naturale curvatura oculare durante il movimento. Questa mancanza di coerenza ottica rivela la manipolazione digitale.
La geometria fluida rappresenta un difetto visivo tipico dei video generati artificialmente in cui gli oggetti solidi perdono la loro coerenza strutturale. Quando un elemento passa dietro un ostacolo, tende a riapparire con proporzioni alterate o dettagli mancanti. I tessuti e le ombre si muovono in modo innaturale, ignorando completamente inerzia e gravità.
Quando i futuri modelli neurali integreranno le leggi della fisica e della ottica, i difetti visivi scompariranno rendendo inutile la analisi forense basata sulle immagini. Per distinguere la realtà dalla finzione diventerà indispensabile affidarsi a strumenti di crittografia avanzata e filigrane digitali integrate direttamente a livello hardware nei dispositivi di acquisizione.