Python | Database Tech – PILLS FOR NERDS MAGAZINE

Nel panorama in costante evoluzione della gestione dei dati, il confronto tra database relazionali (SQL), database non relazionali (NoSQL) e database vettoriali per Large Language Models (LLM) rappresenta una delle frontiere più rilevanti per comprendere le esigenze e le sfide dell’intelligenza artificiale moderna.

1. DB SQL: coerenza

I database relazionali (RDBMS) come PostgreSQL, MySQL e Oracle sono stati il fondamento dell’architettura dati per decenni. Basati su tabelle, righe, colonne e relazioni ben definite, offrono:

Schema rigido e integrità referenziale.
Transazioni ACID (Atomicità, Consistenza, Isolamento, Durabilità).
Potente linguaggio di query: SQL, standardizzato e altamente ottimizzato.

Quando usarli?
Ideali per applicazioni aziendali, finanziarie, ERP e CRM, dove la consistenza dei dati e la struttura rigida sono vitali.

2. DB NoSQL: flessibilità e scalabilità

Con l’esplosione dei dati semi-strutturati e non strutturati, sono emersi i database NoSQL, dedicati al document store come il popolare MongoDB. Questi sistemi offrono:

Scalabilità orizzontale nativa.
Schemi flessibili o assenti.
Prestazioni ottimizzate per letture/scritture distribuite.

Quando usarli?
Perfetti per big data, app real-time, contenuti dinamici e ambienti distribuiti dove la velocità e la scalabilità prevalgono sulla rigidità.

3. DB Vettoriali per LLM: dati che pensano

Con l’avvento degli LLM (es: GPT, Claude, Mistral), è nato un nuovo tipo di database ottimizzato per la ricerca semantica e l’interrogazione tramite embedding vettoriali. Questo database è una delle componenti fondamentali che permettono di realizzare il RAG (Retrieval-Augmented Generation). I più noti sono Pinecone, Weaviate, FAISS (Facebook AI Similarity Search), Qdrant, Milvus. Questi database indicizzano e cercano non dati strutturati, ma rappresentazioni matematiche (vettori) del significato di un contenuto. Questa tecnologia offre:

Supporto a Nearest Neighbor e Approximate Nearest Neighbor (ANN).
Integrazione con modelli NLP per l’estrazione di embedding.
Spesso stateless e ottimizzati per cloud-native.

Quando usarli?
Fondamentali in retrieval-augmented generation (RAG), motori di ricerca semantici, chatbot contestuali, sistemi di raccomandazione intelligenti. Vediamo cosa offre il mercato.

Nome	Gratis?	Tipo di software	Note principali
Pinecone	❌ NO	Servizio gestito (closed-source)	Piano gratuito limitato, ma non open-source. Richiede account.
Weaviate	✅ SÌ	Open-source + Cloud	Completamente open-source, con opzione cloud a pagamento.
FAISS	✅ SÌ	Open-source (lib. C++)	Gratis, sviluppato da Meta. Va integrato in app o backend.
Qdrant	✅ SÌ	Open-source + Cloud	Core open-source. Versione gestita disponibile su Qdrant Cloud (freemium).
Milvus	✅ SÌ	Open-source + Cloud	Completamente open-source, con versioni cloud (Zilliz Cloud) a pagamento.

Comparazione tecnica

Caratteristica	SQL	NoSQL	Database Vettoriali
Struttura	Rigidamente relazionale	Flessibile o assente	Basata su vettori numerici
Linguaggio Query	SQL	Varia (MongoQL, CQL, ecc.)	API per similarità semantica
Scalabilità	Verticale (di base)	Orizzontale	Orizzontale e distribuita
Tipo di dati	Tabellari, strutturati	Semi/non strutturati	Vettori numerici ad alta dimensione
Casi d’uso	Finanza, logistica	Web, mobile, IoT	AI, NLP, ricerca semantica
Consistenza	Alta (ACID)	Eventuale o configurabile	Debole, ma ottimizzata per performance
Supporto transazioni	Sì	Limitato o assente	No (di norma)
Obiettivo	Integrità e coerenza	Flessibilità e velocità	Pertinenza semantica

Il mondo dei database non è più diviso semplicemente tra strutturato e non strutturato. Con l’introduzione dei LLM, i dati “pensano” in vettori e la rilevanza semantica diventa centrale. Non si cerca più una “corrispondenza perfetta”, ma una “corrispondenza intelligente”.

Non è più questione di scegliere “il migliore”, ma quello più adatto al contesto:

SQL per la solidità.
NoSQL per l’adattabilità.
Vettoriali per l’intelligenza semantica.

Esempi pratici di query in Python

Per rendere concreto il confronto tra questi database, immaginiamo di voler recuperare informazioni su un prodotto chiamato “Notebook X200” in tre contesti differenti.

MySQL

Python

import mysql.connector  # oppure psycopg2 per PostgreSQL

# Connessione al database
conn = mysql.connector.connect(
    host="localhost",
    user="user",
    password="password",
    database="ecommerce"
)
cursor = conn.cursor(dictionary=True)

# Query SQL classica
# Uso ideale: ricerca esatta su dati strutturati (relazionali).
# Ritorna tutte le righe dalla tabella prodotti dove il nome è esattamente "Notebook X200".
query = "SELECT * FROM prodotti WHERE nome = %s"
cursor.execute(query, ("Notebook X200",))

# Recupero risultati
results = cursor.fetchall()
for prodotto in results:
    print(prodotto)

cursor.close()
conn.close()

import mysql.connector  # oppure psycopg2 per PostgreSQL

# Connessione al database
conn = mysql.connector.connect(
    host="localhost",
    user="user",
    password="password",
    database="ecommerce"
)
cursor = conn.cursor(dictionary=True)

# Query SQL classica
# Uso ideale: ricerca esatta su dati strutturati (relazionali).
# Ritorna tutte le righe dalla tabella prodotti dove il nome è esattamente "Notebook X200".
query = "SELECT * FROM prodotti WHERE nome = %s"
cursor.execute(query, ("Notebook X200",))

# Recupero risultati
results = cursor.fetchall()
for prodotto in results:
    print(prodotto)

cursor.close()
conn.close()

Plaintext

RISULTATO SQL TABELLARE

+----+--------------+----------+--------+
| id | nome         | prezzo   | marca  |
+----+--------------+----------+--------+
| 12 | Notebook X200| 899.99   | Lenovo |
+----+--------------+----------+--------+

RISULTATO SQL TABELLARE

+----+--------------+----------+--------+
| id | nome         | prezzo   | marca  |
+----+--------------+----------+--------+
| 12 | Notebook X200| 899.99   | Lenovo |
+----+--------------+----------+--------+

MongoDB

Python

from pymongo import MongoClient

# Connessione a MongoDB
client = MongoClient("mongodb://localhost:27017/")
db = client["ecommerce"]
collection = db["prodotti"]

# Query MongoDB
# Uso ideale: contenuti dinamici e struttura flessibile (documenti JSON).
# Ritorna tutti i documenti nella collection prodotti dove il campo nome ha esattamente valore "Notebook X200".
query = { "nome": "Notebook X200" }
results = collection.find(query)

# Visualizzazione dei risultati
for prodotto in results:
    print(prodotto)

from pymongo import MongoClient

# Connessione a MongoDB
client = MongoClient("mongodb://localhost:27017/")
db = client["ecommerce"]
collection = db["prodotti"]

# Query MongoDB
# Uso ideale: contenuti dinamici e struttura flessibile (documenti JSON).
# Ritorna tutti i documenti nella collection prodotti dove il campo nome ha esattamente valore "Notebook X200".
query = { "nome": "Notebook X200" }
results = collection.find(query)

# Visualizzazione dei risultati
for prodotto in results:
    print(prodotto)

Plaintext

RISULTATO MONGODB JSON

{
  "_id": ObjectId("..."),
  "nome": "Notebook X200",
  "prezzo": 899.99,
  "marca": "Lenovo",
  "specifiche": {
    "ram": "16GB",
    "cpu": "Intel i7"
  }
}

RISULTATO MONGODB JSON

{
  "_id": ObjectId("..."),
  "nome": "Notebook X200",
  "prezzo": 899.99,
  "marca": "Lenovo",
  "specifiche": {
    "ram": "16GB",
    "cpu": "Intel i7"
  }
}

Pinecone

Python

import openai
import pinecone
import os

# Inizializza OpenAI (embedding)
openai.api_key = os.getenv("OPENAI_API_KEY")

# Vantaggio: Rileva il significato profondo dei contenuti, utile per chatbot, FAQ intelligenti, motori di raccomandazione.
# Ricerca i 3 item più semanticamente simili (top_k=3) alla frase “Cerco un notebook potente e leggero per design grafico”, anche se non contengono esattamente le stesse parole.
query_text = "Cerco un notebook potente e leggero per design grafico."
embedding_response = openai.Embedding.create(
    input=query_text,
    model="text-embedding-3-small"
)
query_vector = embedding_response['data'][0]['embedding']

# Inizializza Pinecone
pinecone.init(api_key=os.getenv("PINECONE_API_KEY"), environment="gcp-starter")
index = pinecone.Index("prodotti-vettoriali")

# Ricerca semantica su Pinecone
response = index.query(
    vector=query_vector,
    top_k=3,
    include_metadata=True
)

# Visualizza risultati
for match in response["matches"]:
    print(f"Score: {match['score']}")
    print(f"Nome prodotto: {match['metadata'].get('nome')}")
    print(f"Descrizione: {match['metadata'].get('descrizione')}")

import openai
import pinecone
import os

# Inizializza OpenAI (embedding)
openai.api_key = os.getenv("OPENAI_API_KEY")

# Vantaggio: Rileva il significato profondo dei contenuti, utile per chatbot, FAQ intelligenti, motori di raccomandazione.
# Ricerca i 3 item più semanticamente simili (top_k=3) alla frase “Cerco un notebook potente e leggero per design grafico”, anche se non contengono esattamente le stesse parole.
query_text = "Cerco un notebook potente e leggero per design grafico."
embedding_response = openai.Embedding.create(
    input=query_text,
    model="text-embedding-3-small"
)
query_vector = embedding_response['data'][0]['embedding']

# Inizializza Pinecone
pinecone.init(api_key=os.getenv("PINECONE_API_KEY"), environment="gcp-starter")
index = pinecone.Index("prodotti-vettoriali")

# Ricerca semantica su Pinecone
response = index.query(
    vector=query_vector,
    top_k=3,
    include_metadata=True
)

# Visualizza risultati
for match in response["matches"]:
    print(f"Score: {match['score']}")
    print(f"Nome prodotto: {match['metadata'].get('nome')}")
    print(f"Descrizione: {match['metadata'].get('descrizione')}")

Plaintext

RISULTATO PINECONE JSON

[
  {
    "score": 0.912,
    "metadata": {
      "nome": "Notebook X200",
      "descrizione": "Laptop ad alte prestazioni con scheda grafica dedicata"
    }
  },
  ...
]

RISULTATO PINECONE JSON

[
  {
    "score": 0.912,
    "metadata": {
      "nome": "Notebook X200",
      "descrizione": "Laptop ad alte prestazioni con scheda grafica dedicata"
    }
  },
  ...
]

Obiettivo	SQL (MySQL)	NoSQL (MongoDB)	Vettoriale (Pinecone)
Cercare un prodotto esatto	`WHERE nome = '...'`	`find({ nome: "..." })`	Non ideale, troppo rigido
Cercare per attributi annidati	Relazione con altre tabelle	Accesso diretto (`doc.field`)	Non gestito nativamente
Cercare per significato simile	Non supportato	Solo con regex o text search	Nativamente supportato (embedding)
Caso d’uso ideale	Dati strutturati e relazioni	Dati dinamici e flessibili	RAG, ricerca semantica, LLM assistiti

Architettura concettuale ibrida

Conoscere e saper progettare un’architettura ibrida, cioè un sistema che integra diversi tipi di database e tecnologie di gestione dei dati, è oggi fondamentale per chi lavora nel mondo dello sviluppo, dell’AI e dei sistemi informativi. Le AI moderne, come i LLM, hanno bisogno di:

Ricerca semantica in tempo reale → database vettoriali

Fonti strutturate per i fatti → SQL

Contesto e cronologia → NoSQL

Ipotizziamo di seguito un’app full stack python.

Lua

              +------------------------+               
              |     Client Web/API     |     ← (Browser, App, Chatbot UI)
              +-----------+------------+               
                          |   HTTP (FastAPI)         
                          v                           
              +------------------------+             
              |    Python Backend App   |    ← (FastAPI / Flask)
              |   (Business Logic + AI) |             
              +-----+------+-----+------+             
                    |      |     |                    
        ┌───────────┘      |     └──────────────┐     
        v                  v                    v     
   +---------+       +-----------+        +--------------+      
   | MySQL   |       |  MongoDB  |        | Pinecone / LLM|      
   | (dati)  |       | (contenuti)|       | (semantic AI) |      
   +----+----+       +-----+-----+        +------+--------+      
        |                  |                     |              
        |                  |         +-----------v----------+    
        |                  |         |  Embedding Generator |    
        +------------------+--------> (OpenAI / SBERT / HF) |    
                                      +----------------------+

              +------------------------+               
              |     Client Web/API     |     ← (Browser, App, Chatbot UI)
              +-----------+------------+               
                          |   HTTP (FastAPI)         
                          v                           
              +------------------------+             
              |    Python Backend App   |    ← (FastAPI / Flask)
              |   (Business Logic + AI) |             
              +-----+------+-----+------+             
                    |      |     |                    
        ┌───────────┘      |     └──────────────┐     
        v                  v                    v     
   +---------+       +-----------+        +--------------+      
   | MySQL   |       |  MongoDB  |        | Pinecone / LLM|      
   | (dati)  |       | (contenuti)|       | (semantic AI) |      
   +----+----+       +-----+-----+        +------+--------+      
        |                  |                     |              
        |                  |         +-----------v----------+    
        |                  |         |  Embedding Generator |    
        +------------------+--------> (OpenAI / SBERT / HF) |    
                                      +----------------------+

Componenti chiave e responsabilità

Quando si progetta o si analizza un sistema, come un’applicazione web, un assistente virtuale o una piattaforma eCommerce intelligente, è fondamentale identificare le componenti principali che lo compongono. Queste componenti vengono chiamate “componenti chiave” perché sono gli elementi portanti dell’intero sistema: senza di esse, l’applicazione non potrebbe funzionare.

Ma non basta sapere cosa c’è dentro il sistema. Bisogna anche sapere a cosa serve ogni componente, cioè quale funzione specifica svolge nel contesto generale. Questo si chiama responsabilità.

🟩 Client Web/API

Può essere una UI minimale (HTML, terminale, chatbot) o solo un consumatore di API.
Invia richieste via HTTP (es: "Consigliami un portatile leggero per video editing").

🟦 Backend Python (FastAPI / Flask)

Riceve richieste REST.
Coordina l’accesso ai tre tipi di database.
Integra logica AI, filtri, ranking e risposta.

🟨 MySQL

Dati strutturati: utenti, ordini, schede prodotto (ID, prezzo, stock).
Accessibile via mysql-connector-python.

🟨 MongoDB

Contenuti flessibili: recensioni, preferenze utente, cronologia, JSON.
Accessibile via pymongo.

🟧 Pinecone / LLM

Ricerca semantica sui prodotti o documenti basata su embedding.
Risponde con ID e similarità.
Accessibile via SDK Pinecone + modelli embedding (openai, sentence-transformers, ecc.).

Nel panorama tecnologico attuale, nessun singolo tipo di database può soddisfare tutte le esigenze di un sistema complesso. I database relazionali (SQL) continuano a rappresentare la spina dorsale dell’integrità e della coerenza dei dati strutturati; i NoSQL si distinguono per la loro flessibilità e capacità di scalare rapidamente in ambienti dinamici; mentre i database vettoriali aprono la strada a una nuova generazione di applicazioni intelligenti, capaci di comprendere e recuperare informazioni in base al significato, non solo alla forma.

Con l’affermazione di tecniche come il Retrieval-Augmented Generation (RAG) e l’integrazione sempre più profonda tra modelli linguistici, contenuti non strutturati e dati transazionali, si sta delineando un approccio sempre più ibrido e modulare. Conoscere le caratteristiche, i punti di forza e le limitazioni di ciascun paradigma non è più un’opzione, ma una competenza essenziale per chi sviluppa applicazioni moderne, scalabili e intelligenti.

In definitiva, non si tratta di scegliere tra SQL, NoSQL o database vettoriali, ma di saperli combinare in modo strategico, in funzione delle esigenze specifiche di progetto. È proprio nell’equilibrio tra struttura, flessibilità e intelligenza semantica che si gioca il futuro dell’architettura dei dati.

Se questo articolo ti è piaciuto, restiamo in contatto su linkedin a: https://www.linkedin.com/in/andreatonin/

Andrea Tonin

Nerd per passione e per professione da oltre 30 anni, lavoro nel mondo dell’innovazione tecnologica come CTO e consulente, progettando ecosistemi software complessi e scalabili. Parallelamente mi dedico alla formazione informatica, condividendo esperienze e buone pratiche maturate sul campo.
Scopri di più sulla mia attività di consulenza su lucedigitale.com Mi trovi anche su LinkedIn