DeepEval: Come un LLM Valuta (e Migliora) un Altro LLM

TL;DR - DeepEval è un framework open source che usa un LLM "giudice" per valutare le risposte di un altro LLM, come un professore che corregge gli esami di uno studente. Ho applicato questo approccio a LidIA, un bot RAG per la consulenza debitoria con 12.600 chunk su ChromaDB, passando dall'84% al 100% di test superati in poche iterazioni. La squadra ideale: DeepEval identifica i fallimenti, Claude Code propone i fix, io supervisiono. Una vera catena di montaggio dove i bot si occupano della crescita di altri bot.

C'è un momento preciso in cui costruire un AI smette di essere solo una questione tecnica e diventa una questione di fiducia. Come fai a sapere che il tuo bot risponde bene? Non "abbastanza bene", ma davvero bene, in modo misurabile, ripetibile, verificabile?

Ho trovato una risposta concreta mentre lavoravo a LidIA, un assistente AI per la consulenza debitoria sviluppato insieme a Tommaso Andrea Smimmo, mio cliente e partner nel percorso Sole24Ore. La soluzione si chiama DeepEval. Il principio è tanto semplice quanto rivoluzionario: mandi un LLM a esaminare un altro LLM.

Perché i Vecchi Unit Test Non Bastano per l'AI

LidIA è un bot RAG (Retrieval Augmented Generation) costruito su LlamaIndex con ChromaDB come vector database. Attinge a 4 collection tematiche di documenti legali: normativa sul sovraindebitamento, giurisprudenza (sentenze e dottrina), FAQ strutturate e materiali pratici come guide e casi studio. In totale, circa 12.600 chunk distribuiti su anni di pratiche reali.

Il bot recupera i 4 chunk più rilevanti per ciascuna collection (16 in totale) e li passa a gpt-4.1-mini con un system prompt strutturato che definisce 5 fasi conversazionali: elicitazione del contesto, risposta dalla knowledge base, risposta con disclaimer quando la KB è incompleta, gestione delle domande out-of-scope e integrazione con l'Agenzia delle Entrate.

Prima di DeepEval, avevo già un sistema di test su due livelli:

Unit test statici (con mock): verificano la struttura del codice senza chiamare API reali
Integration test con keyword: 10 classi di test, circa 60 casi totali, che verificano se le risposte contengono le parole chiave attese

Questi test erano utili. Ma non erano sufficienti. Il problema è strutturale: non puoi testare un LLM come testeresti una funzione matematica. Non esiste un assertEquals("output atteso", risposta_del_bot) che abbia senso per il linguaggio naturale. L'output è sfumato, contestuale, variabile.

Puoi verificare che la risposta contenga "Art. 67 CCII". Non puoi verificare se quella risposta è davvero fedele al documento, pertinente alla domanda, priva di allucinazioni. Per questo ti serve qualcosa di più intelligente.

La Catena di Montaggio: DeepEval e Claude Code Come Squadra

La scoperta più importante non è stata DeepEval in sé. È stata capire come combinarlo con Claude Code per creare una catena di montaggio automatica per il miglioramento del bot.

Funziona così:

DeepEval gira la suite di test e produce un report dettagliato: quali test case sono passati, quali falliti e perché, con le metriche per ogni risposta
Claude Code legge l'output di DeepEval e analizza i pattern di fallimento: capisce se il problema è nel prompt, nella logica di retrieval, nel chunking o nelle soglie di similarità
Claude Code propone i fix direttamente sul codice del bot, che sia il system prompt o la pipeline RAG
Io supervisiono e decido quali fix applicare
DeepEval rigira i test e verifica se i fix hanno migliorato i risultati o introdotto regressioni

È un ciclo continuo. Bot che giudica bot, bot che corregge bot, umano che mantiene il controllo strategico. Una catena di montaggio dove ogni componente fa quello che sa fare meglio.

Come Funziona DeepEval: l'Analogia del Professore e dello Studente

Il meccanismo di DeepEval è intuitivo. Hai uno studente (il tuo bot, nel nostro caso LidIA) e un professore (un secondo LLM chiamato judge) che legge ogni risposta e la valuta su metriche precise.

Le tre metriche principali che ho usato per LidIA:

AnswerRelevancy (soglia: 0.7): la risposta è pertinente alla domanda dell'utente?
FaithfulnessMetric (soglia: 0.7): la risposta è ancorata ai chunk recuperati dal RAG, o il bot sta inventando?
HallucinationMetric (soglia massima: 0.3): il bot introduce informazioni non presenti nei documenti?

Il giudice non è un umano. È gpt-4.1-mini, configurato per ragionare sulla qualità della risposta come farebbe un esperto di diritto del sovraindebitamento. Valuta ogni test case e produce un punteggio numerico con una spiegazione del ragionamento.

Il vantaggio rispetto ai test con keyword è sostanziale: un test con keyword ti dice "la risposta contiene la parola giusta". DeepEval ti dice "la risposta è concettualmente corretta, non contraddice i documenti sorgente e risponde davvero a quello che l'utente stava chiedendo".

Da 84% a 100%: Come Abbiamo Migliorato LidIA con DeepEval

Prima valutazione: 84% di test case superati.

Non era un risultato pessimo, ma non era abbastanza per un bot che aiuta persone in situazioni di difficoltà finanziaria seria. In quel contesto, una risposta sbagliata o fuorviante ha conseguenze reali.

Claude Code ha analizzato l'output di DeepEval e ha identificato i pattern di fallimento principali: alcuni riguardavano il system prompt (istruzioni ambigue su quando citare le fonti, gestione imprecisa dei casi out-of-scope), altri riguardavano il sistema RAG (soglie di retrieval non ottimali, chunking che spezzava paragrafi in punti sbagliati).

Fix al prompt e ottimizzazione della pipeline RAG: 96%.

Seconda iterazione con un nuovo ciclo DeepEval, analisi di Claude Code, altri fix mirati: 100%.

Tre numeri che raccontano un processo strutturato, non casuale. Ogni iterazione era guidata da dati precisi, non da intuizioni.

Cosa Sono le Regressioni e Perché Possono Rovinare il Tuo Bot AI

C'è un rischio specifico nello sviluppo iterativo dei bot AI: quando sistemi un problema, puoi crearne un altro.

Migliori il prompt per gestire meglio le domande sulla rottamazione delle cartelle, e inadvertentemente degradi le risposte sulle procedure OCC. DeepEval lo vede subito: nel report successivo compaiono test case che prima passavano e ora falliscono. Sono le regressioni.

Senza questo controllo, ottimizzi alla cieca. Pensi di stare migliorando il bot mentre in alcune aree stai peggiorando. Con DeepEval ogni iterazione è verificabile: sai esattamente cosa hai guadagnato e cosa hai perso.

È lo stesso principio dei test di regressione nel software classico, applicato al linguaggio naturale. La differenza è che qui il "compilatore" che trova gli errori è un LLM che ragiona sulla semantica, non un parser sintattico.

Serve Adesso alle PMI Italiane?

La tecnologia per farlo esiste già ed è accessibile. Ma ha senso contestualizzarla alla fase di sviluppo del progetto.

Nella fase di prototipazione, i test statici con keyword sono sufficienti per verificare la struttura di base. Quando il bot entra in una fase di produzione o pre-produzione, dove risponde a utenti reali su domande che hanno un impatto concreto, DeepEval diventa necessario. Non opzionale.

I tool stanno evolvendo rapidamente. Tra qualche mese probabilmente ci sarà qualcosa di ancora più accessibile per chi non vuole gestire l'infrastruttura di testing. Nel frattempo, la scelta più sensata è farsi seguire da chi fa questa cosa tutti i giorni e conosce sia i framework di testing che le pipeline RAG su cui applicarli.

Non aspettare di avere problemi per iniziare a testare. Se hai un bot in produzione che risponde a clienti reali, ogni risposta sbagliata ha un costo in termini di fiducia, di relazione e di opportunità.

Il Futuro: Bot che si Occupano della Crescita di Altri Bot

C'è una visione più grande dietro questo approccio. Stiamo andando verso un modello in cui i sistemi AI non vengono solo costruiti dagli umani, ma valutati, corretti e migliorati da altri sistemi AI, con l'umano che mantiene la supervisione strategica.

Non è fantascienza. È quello che ho fatto su LidIA nelle ultime settimane, con strumenti già disponibili e costi contenuti (il judge DeepEval con gpt-4.1-mini costa circa 0.01-0.05 USD per test).

È il passaggio dagli unit test scritti riga per riga a una suite di valutazione che ragiona sul linguaggio naturale. È il passaggio dall'ingegneria del software classica all'ingegneria dei sistemi AI.

Se stai costruendo un bot per la tua azienda (che sia un assistente RAG, un chatbot per il customer care o un agente per processi interni) la domanda non è più "funziona?", ma "come lo sai?".

Vuoi capire se il tuo AI è pronto per la produzione? Inizia da una conversazione.

Contattaci: facciamo insieme una valutazione del tuo sistema AI, dal prompt al RAG, fino alla suite di test.

DeepEval: Come un LLM Valuta (e Migliora) un Altro LLM

DeepEval: Come un LLM Valuta (e Migliora) un Altro LLM

Perché i Vecchi Unit Test Non Bastano per l'AI

La Catena di Montaggio: DeepEval e Claude Code Come Squadra

Come Funziona DeepEval: l'Analogia del Professore e dello Studente

Da 84% a 100%: Come Abbiamo Migliorato LidIA con DeepEval

Cosa Sono le Regressioni e Perché Possono Rovinare il Tuo Bot AI

Serve Adesso alle PMI Italiane?

Il Futuro: Bot che si Occupano della Crescita di Altri Bot

Tags

Condividi

Leggi anche

AI in azienda: come cambia l'efficienza e il lavoro nelle PMI italiane

Modello di Successo per la Consulenza AI | Castaldo Solutions

L'AI Sostituisce i Lavori? I Dati Reali Che Nessuno Ti Dice (e Cosa Fare Adesso)

La tua azienda è pronta per l'AI?