John D. Cook ha scritto un sintetico post sulle differenze tra token e parole che renderei obbligatorio nelle scuole. O almeno per iscriversi a Facebook.
Le presunte intelligenze artificiali non ragionano per parole (word) ma per frammenti (token). Un token può corrispondere a una parola e, sulle parole comuni, accade molto spesso. Più una parola è rara e maggiore è la possibilità che sia spezzata internamente in tanti più token.
Anche dove un token corrisponde a una parola, corrisponde a un particolare uso di quella parola. Nella frase Hello world!, il token 1917 (nel motore usato da Cook) corrisponde a “ world”. Notare lo spazio. Se all’inizio di un’altra frase world compare all’inizio e quindi è scritto World con la W maiuscola, il token relativo sarà 10343. A una singola parola potrebbero corrispondere numerosi token, uno per ciascun particolare utilizzo.
Nella frase Chuck Mangione plays the flugelhorn., plays è un token singolo e invece flugelhorn è la somma di quattro token, di cui uno è horn. Le parole comuni tendono, come già detto, a essere identificate da un singolo token e le altre vengono spezzate a volontà.
L’articolo contiene varie altre nozioni interessanti e costituisce l’occasione per farsi un’idea ulteriore sul funzionamento interno di questi oggetti, che in base all’addestramento ricevuto scelgono il token quasi migliore da fare seguire a quello precedente. Un token può corrispondere anche a un singolo carattere o a una coppia di lettere.
E c’è gente che dà valore di autorevolezza o di rilevanza a un output nato in questo modo.