Dai Token ai Nodi: Come l’Intelligenza Artificiale Comprende il Linguaggio

Nel cuore dell’Intelligenza Artificiale (IA) e dell’elaborazione del linguaggio naturale (NLP) risiede un processo fondamentale: la trasformazione del testo in una forma che le macchine possano comprendere e manipolare. Questo processo inizia con la tokenizzazione, prosegue con la vettorializzazione e culmina negli embedding, rappresentazioni numeriche che catturano il significato semantico delle parole. Queste tecniche permettono ai modelli linguistici di grandi dimensioni (LLM) di interpretare, analizzare e generare testo in modo sorprendentemente umano.

1. Tokenizzazione

La tokenizzazione è il primo passo nell’elaborazione del linguaggio naturale. Consiste nel suddividere il testo in unità più piccole chiamate token. Questi possono essere parole intere, parti di parole (sottoparole) o persino singoli caratteri, a seconda del metodo utilizzato. Ad esempio, la parola “intelligenza” potrebbe essere suddivisa in token come “intel”, “ligenza”, a seconda del tokenizer impiegato. Questa suddivisione è cruciale perché consente ai modelli di gestire parole sconosciute o rare, facilitando l’analisi e la comprensione del testo. Il token attualmente è l’unità di misura che utilizzano la maggior parte delle aziende che producono AI per la monetizzazione, più token il sistema deve elaborare, più sarà il costo delle chiamate API.

2. Vettorializzazione

Una volta ottenuti i token, è necessario convertirli in una forma numerica che i modelli di IA possano elaborare. Questo processo è noto come vettorializzazione. Ogni token viene rappresentato da un vettore numerico in uno spazio multidimensionale. Inizialmente, questi vettori possono essere assegnati casualmente o tramite tecniche dove ogni token è rappresentato da un vettore con un solo elemento attivo. La vettorializzazione però ha come limite l’incapacità di catturare le relazioni semantiche tra parole. Per superare queste limitazioni, si utilizzano gli embedding.

3. Embedding

Gli embedding sono rappresentazioni dense e continue dei token in uno spazio vettoriale ad alta dimensione. Attraverso l’addestramento su grandi quantità di testo, i modelli apprendono a posizionare parole semanticamente simili in prossimità nello spazio vettoriale. Ad esempio, le parole “re” e “regina” avranno vettori vicini, riflettendo la loro relazione semantica.

Visualizzazione degli Embedding: dalle proiezioni 2D alle 300D

Sebbene gli embedding operino in spazi ad alta dimensione (spesso 300 dimensioni o più), è possibile proiettarli in 2 o 3 dimensioni per visualizzarne le relazioni. Tecniche particolari permettono di ridurre la dimensionalità, rivelando cluster di parole semanticamente simili. Ad esempio, parole legate al cibo potrebbero formare un cluster distinto da parole legate alla tecnologia.

Esempio: relazioni tra le parole: uomo, donna, re, regina

Nel mondo degli embedding, parole con significati simili o correlati vengono rappresentate da vettori vicini o legati da relazioni geometriche coerenti.

1. uomo ↔ donna

Questa relazione rappresenta una differenza di genere su una base comune: l’essere umano adulto.
Nel modello vettoriale, la distanza e direzione tra “uomo” e “donna” descrive un asse maschile-femminile.

2. re ↔ regina

Anche qui troviamo una relazione di genere, ma applicata al concetto di ruolo sociale o regale.
Come nel caso precedente, la direzione tra “re” e “regina” tende ad essere parallela a quella tra “uomo” e “donna”.

3. uomo → re

Questa relazione implica una transizione di ruolo: da individuo comune a figura di autorità maschile.
Nel linguaggio delle reti neurali, potremmo dire che “re” è “uomo” con potere aggiunto.

4. donna → regina

Similmente, “regina” può essere vista come una trasformazione semantica di “donna”, aggiungendo il concetto di leadership, nobiltà o autorità femminile.

In termini di Embedding:

Uno dei più famosi esempi di analogia vettoriale è proprio: re – uomo + donna ≈ regina

Nel modello, se si prende il vettore di “re”, si sottrae quello di “uomo” e si aggiunge quello di “donna”, si ottiene un vettore molto vicino a “regina”.

Questa capacità di codificare concetti e relazioni astratte in forme matematiche è ciò che rende potenti gli LLM.

Elaboriamo i Token con i Nodi

I nodi sono indispensabili in una rete neurale, da non confondere con i token. Definiamo per bene le differenze: Il Token è un’unità di testo (parola, parte di parola, carattere, ecc.) che viene fornita in input al sistema, ad esempio: “re”, “gina”. Il Nodo (o neurone) è una unità computazionale interna alla rete. Riceve input numerici (non parole), applica un’operazione matematica (es. somma pesata + attivazione) e restituisce un valore di output.

Seguite il ragionamento di seguito, l’idea alla base è comprensibile:

1) I token vengono prima trasformati in vettori numerici (embedding).
Questi vettori entrano nella rete come input.

2) Gli input numerici alimentano i nodi (neuroni) del primo strato della rete.
I neuroni, non rappresentano più i token, ma elaborano combinazioni lineari e non lineari di essi.

3) Man mano che i dati attraversano i layer (i vari strati di neuroni), i nodi catturano caratteristiche più astratte del significato, del contesto o della funzione dei token nel testo.

I nodi sono processori che NON conservano i token, ma li combinano, li trasformano, li relazionano per costruire un’interpretazione. I nodi (o unità) nei layer non sono mai “uguali” ai token, ma costruiscono rappresentazioni progressive del significato.

Questo articolo ha volutamente semplificato alcuni concetti tecnici complessi, consapevole del rischio di imprecisioni. L’obiettivo è offrirti una prima mappa mentale, un punto di partenza utile per orientarti meglio nel comprendere come ragiona la tua AI preferita.

Se sei arrivato fino a qui senza che il cervello ti esploda allora sei sulla buona strada per diventare un NERD nel campo dell’intelligenza artificiale!
Se ti fa piacere restare in contatto, ti invito a trovarmi su LinkedIn a https://www.linkedin.com/in/andreatonin/

Tokenizzazione #Token #Vettorializzazione #Embedding #Word2Vec #GloVe #Transformers #tSNE #PCA #RelazioniSemantiche

Andrea Tonin

Nerd per passione e per professione da oltre 30 anni, lavoro nel mondo dell’innovazione tecnologica come CTO e consulente, progettando ecosistemi software complessi e scalabili. Parallelamente mi dedico alla formazione informatica, condividendo esperienze e buone pratiche maturate sul campo.
Scopri di più sulla mia attività di consulenza su lucedigitale.com Mi trovi anche su LinkedIn