Fatico a comprendere come ricercatori in Apple abbiano potuto impegnare tempo e attenzione sulla dimostrazione che gli Llm non sono capaci di ragionare. È una cosa che abbiamo visto, messo alla prova e constatato tutti, dal plurilaureato alla terza media. Questa frase sta in un paper:
Nell’aggiungere informazione apparentemente rilevante e effettivamente inutile alla formulazione di un problema, dimostriamo cadute sostanziali delle prestazioni (fino al sessantacinque percento). Questo rivela una falla critica nella capacità dei modelli di discernere l’informazione rilevante per risolvere i problemi, probabilmente perché il loro ragionare non è formale nel senso comune del termine e si basa per lo più sul riconoscimento di schemi.
Certo, c’è tutto l’apparato teorico, la creazione di un benchmark apposito per misurare la capacità di ragionamento di un Llm, vengono verificati tutti i motori più in voga, il linguaggio è rigoroso; ciononostante, nella sostanza non c’è niente che non abbiano già scritto già tutti i commentatori privi di anello al naso.
Oltretutto vedo a pagina due un errore che denota una scarsa correzione di bozze e stona particolarmente nel contesto.
Qual è il senso? Mettere le mani avanti dato che Apple Intelligence saprà essere intelligente, per modo di dire, quanto un Llm ma non più di questo? Sono perplesso.
Aggiornamento: grazie a Sabino che ha segnalato il paper di Apple in un commento dentro questo post.