Perché il Paper di Apple sull’IA Potrebbe Aver Preso un Abbaglio

Negli ultimi anni, abbiamo assistito all’evoluzione dei Large Language Models (LLM) verso varianti sempre più sofisticate, note come Large Reasoning Models (LRM). Questi modelli, come le serie o1/o3 di OpenAI, DeepSeek-R1, Claude 3.7 Sonnet Thinking e Gemini Thinking, sono stati celebrati per la loro capacità di mostrare processi di “pensiero” attraverso meccanismi come le lunghe Chain-of-Thought (CoT) e l’auto-riflessione, promettendo passi significativi verso capacità di ragionamento più generali. Tuttavia, un recente studio pubblicato da Apple, intitolato “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity“, ha gettato un’ombra su queste capacità, suggerendo che i modelli mostrano più una “illusione del pensare” che un vero ragionamento. Ma è davvero così? Questo articolo intende analizzare le ragioni per cui le conclusioni di Apple potrebbero essere fondamentalmente errate.

Il “Pensiero” di Apple: Metodologia e Limiti Svelati

Il paper di Apple si propone di esplorare in modo sistematico le reali capacità, le proprietà di scalabilità e i limiti degli LRM, ritenendo che le attuali valutazioni, concentrate sulla sola accuratezza della risposta finale, non siano sufficienti e soffrano di “contaminazione dei dati”. Per fare ciò, gli autori hanno utilizzato quattro specifici ambienti di puzzle “controllabili” – la Tower of Hanoi, il Checker Jumping, il River Crossing e il Blocks World – che, a loro dire, avrebbero permesso di manipolare la complessità dei problemi mantenendo una logica consistente, analizzando sia le risposte finali che le tracce di ragionamento interne.

I risultati presentati da Apple sono stati sorprendenti: gli LRM avrebbero mostrato un “collasso completo dell’accuratezza” superando una certa soglia di complessità e, in modo controintuitivo, avrebbero ridotto lo “sforzo di ragionamento” (misurato in token) nonostante l’aumento della difficoltà. Il paper ha identificato tre regimi di performance: a bassa complessità i modelli standard superano gli LRM; a media complessità gli LRM mostrano un vantaggio; ad alta complessità entrambi i tipi di modelli crollano completamente. Vengono inoltre evidenziate limitazioni nell’esecuzione di calcoli esatti e una scarsa capacità di beneficiare di algoritmi espliciti.

Tuttavia, è fondamentale esaminare la metodologia di Apple con occhio critico, poiché numerosi esperti hanno sollevato forti perplessità.

  1. Una Definizione Mancante: Il paper, pur volendo dimostrare che l’IA non ragiona, non fornisce una chiara definizione di cosa si intenda per “ragionamento”. Questo lascia spazio a un dibattito puramente semantico, anziché a una valutazione oggettiva delle capacità.
  2. I Puzzle “Troppo Noti”: Apple ha dichiarato di aver scelto puzzle controllabili per evitare la “contaminazione dei dati”, ovvero che i modelli avessero già visto le soluzioni. Ma i quattro puzzle selezionati sono tra i più celebri, e le loro soluzioni, gli algoritmi e persino i passaggi intermedi sono ampiamente disponibili online. Questa premessa di “non contaminazione” appare quindi debole.
  3. Nessun Accesso agli Strumenti (Tools): Un limite cruciale è che i test sono stati condotti senza che i modelli avessero accesso a “tools” (strumenti) esterni. La vera forza dei moderni LRM risiede spesso nella loro capacità di integrare risorse esterne, come la ricerca online, l’esecuzione di codice o l’analisi di dati. Negare l’accesso a tali strumenti è come chiedere a un matematico di risolvere un problema complesso senza carta e penna o una calcolatrice: l’incapacità non riflette una mancanza di ragionamento, ma una limitazione imposta artificialmente sull’ambiente di test.
  4. Tempo di Inferenza Limitato: I modelli di ragionamento sono spesso progettati per poter “spendere più tempo a pensare” (extended inference time). Questa capacità di dedicare maggiori risorse computazionali al processo di pensiero può migliorare significativamente le prestazioni. La mancata concessione di questo “tempo extra di inferenza” è un’altra grave limitazione metodologica.
  5. Il “Collasso” della Finestra di Contesto: Il “collasso completo dell’accuratezza” osservato da Apple, con un calo delle prestazioni fino a zero, è molto probabilmente attribuibile ai limiti della “finestra di contesto” (context window). Problemi come la Tower of Hanoi con 10 dischi richiedono 1023 mosse. Non è che il modello non sappia trovare la soluzione, ma piuttosto che non ha spazio sufficiente nella sua finestra di output per mostrare l’intera sequenza di mosse. Il modello stesso può rendersi conto che una lista così lunga sarebbe “poco pratica”.
  6. Interpretazione delle Chain-of-Thought (CoT): Il paper ha analizzato le tracce di ragionamento (CoT) per capire “come pensano” gli LRM. Tuttavia, le CoT visibili all’utente sono spesso “riassunti” o versioni “edulcorate” del processo interno del modello. Valutare le capacità di ragionamento basandosi su queste tracce incomplete è fuorviante. In questo contesto, sarebbe indubbiamente interessantissimo e anche auspicabile che la ricerca futura ci permettesse di capire a fondo come i modelli ragionano internamente, andando oltre le sole tracce superficiali che vediamo oggi.

La Prova Pratica: Come i Moderni LRM “Sfidano” Apple

La prova più eloquente delle lacune nel paper di Apple arriva dalla dimostrazione pratica. Le versioni più recenti di modelli come ChatGPT (con O3), Google Gemini 2.5 Pro e Claude (con funzionalità di thinking) sono in grado di risolvere i problemi che Apple dichiara essere al di là delle loro capacità, superando le limitazioni evidenziate nel paper.

  • ChatGPT O3 e la Tower of Hanoi (10 dischi): Di fronte al problema della Tower of Hanoi con 10 dischi (che richiede 1023 mosse), ChatGPT O3, grazie alla sua capacità di accedere agli strumenti e scrivere codice, non solo lo risolve ma genera un file CSV contenente l’intera sequenza corretta di 1023 mosse. Questo dimostra che il modello non solo ragiona, ma trova anche modi eleganti per aggirare le limitazioni di output, come la finestra di contesto.
  • Google Gemini 2.5 Pro e la Tower of Hanoi (10 dischi): Anche Gemini 2.5 Pro, posto di fronte allo stesso problema, riconosce che mostrare 1023 passi sarebbe “impractical”. La sua soluzione? Propone di creare una “web app” interattiva dove l’utente può visualizzare il movimento dei dischi, impostando il numero di dischi e la velocità. Ancora una volta, il modello dimostra ragionamento, problem-solving creativo e integrazione di strumenti (generazione di codice) per presentare la soluzione.
  • Claude e la Tower of Hanoi (5 dischi): L’ultima versione di Claude, di fronte a problemi di complessità crescente (ad esempio, 5 dischi per la Tower of Hanoi, con 31 mosse), compie una scelta di ragionamento. Riconosce che la lista sarebbe troppo lunga e “incomprensibile” e decide autonomamente di scrivere una “web app” più elaborata per visualizzare i passaggi, senza che gli fosse stato chiesto.

Questi esempi mostrano chiaramente che il “collasso” osservato da Apple non è una prova di incapacità di ragionamento, ma piuttosto una conseguenza di un ambiente di test artificialmente limitato e di un’errata interpretazione dei risultati. Il modello, lungi dal non ragionare, ragiona attivamente per trovare soluzioni alternative quando incontra un limite pratico di output.

L’Intelligenza: Un Concetto Vastissimo, non Solo Umano

Una delle premesse implicite nel paper di Apple sembra essere che l’intelligenza debba per forza assomigliare a quella umana. Tuttavia, come sottolineato per esempio da Nello Cristianini nel suo saggio “La Scorciatoia”, l’intelligenza è un concetto molto più ampio e non è una prerogativa esclusiva della nostra specie. Forme di intelligenza esistevano ben prima di noi: le troviamo nei predatori, negli uccelli, nelle colonie di formiche. Queste intelligenze non richiedono linguaggio, coscienza o cervello.

Attribuire alle macchine qualità umane come coscienza, empatia o creatività è un “riflesso antropocentrico” che ci impedisce di riconoscere la “varietà delle intelligenze possibili”. Le intelligenze artificiali non pensano o sentono come noi, ma possono essere straordinariamente efficaci, come dimostrato dagli algoritmi che superano i campioni umani a scacchi o Go.

Intelligenza in Senso Ampio: Efficienza nel Comportamento

In un senso più vasto, l’intelligenza può essere definita come la capacità di un “agente” (qualsiasi sistema in grado di agire nel suo ambiente) di prendere decisioni efficaci utilizzando le informazioni disponibili, al fine di raggiungere i propri obiettivi in un ambiente incerto e mutevole. Questo spostamento del focus dal “come” al “cosa” è fondamentale: non importa la struttura interna dell’agente (sia esso umano, pianta, formicaio, o software), ma la sua abilità di agire in modo appropriato.

L’apprendimento, in questo contesto, è semplicemente la modifica del comportamento basata sull’esperienza. Non esiste un unico modo di essere intelligenti; specie diverse possono ottenere risultati simili con meccanismi completamente differenti. Nel caso dell’IA, la somiglianza nei risultati non implica una somiglianza nei processi interni con quelli umani. Tratti come la coscienza, il linguaggio articolato e l’apprezzamento estetico rimangono, almeno per ora, distintivi della specie umana, ma l’efficacia non ne dipende necessariamente.

Considerazioni Riassuntive: Un’Illusione da Dissipare

Il paper di Apple, pur sollevando questioni importanti, sembra giungere a conclusioni fuorvianti a causa di limiti intrinseci nella sua metodologia. Il presunto “collasso del ragionamento” negli LRM è in realtà una “illusione” creata dalla finestra di contesto dei modelli e dalla restrizione nell’uso degli strumenti. I modelli dimostrano attivamente la loro capacità di ragionamento e di adattamento, cercando vie alternative per presentare soluzioni complesse quando l’output diretto è impraticabile.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *