Dati Informazioni Conoscenza

Costruisco sistemi di ML probabilistico e molto altro

Pietrasanta, IT

01Chi sono

Probabilità invece di certezza, end-to-end invece di hand-off.

Lettura assistita

Chi sono

Sono Data Scientist e ML Engineer, con una formazione in statistica. Laurea triennale in Scienze Statistiche a Bologna (110 e lode, 2018), magistrale in Data Science a Milano-Bicocca (108/110, 2022).
L'ordine conta: penso prima in distribuzioni, poi in modelli.

La mia linea di lavoro è ML probabilistico e sistemi ad agenti LLM, ma non mi fermo al modello. Ho portato in produzione prodotti end-to-end — dall'ingestion alla modellazione del warehouse, passando per training e valutazione, fino alla UI su cui clicca davvero un utente. Il motivo è egoistico: un modello che non arriva a un utente è un paper, non un prodotto, e a me i prodotti interessano di più.

In questo momento sono Data Scientist in Menumal: disegno e implemento la data platform aziendale. Ingestione da fonti eterogenee con Airbyte, trasformazioni in dbt, orchestrazione su Temporal.io, record linkage probabilistico con Splink, Postgres sotto, Metabase sopra. Decisioni di produzione documentate, riconciliazione verificata, sicurezza verificata.

Prima di Menumal ho passato quasi tre anni in Tomato AI come Full-Stack Developer e AI Engineer, riscrivendo un SaaS della ristorazione da PHP legacy a Next.js + Django + PostgreSQL in team da tre, migrando clienti attivi sulla nuova piattaforma e costruendo moduli AI per revenue management e monitoraggio prezzi fornitori sulle API OpenAI. Deployment ibrido AWS + Vercel. Dal 2019 faccio anche consulenza indipendente per PMI, su market research, segmentation e modellistica leggera — mi tiene allenato.

In parallelo sto costruendo vague — una libreria Python che rappresenta la memoria di un agente LLM come Gaussian Mixture Model nello spazio degli embedding, invece di una lista di chunk recuperabili. Due primitive testate su LongBench (3 task × 2 modelli). GaussianBelief ha F1 al pari del naive RAG — il valore è strutturale: belief state componibili, aggiornamento incrementale, merge analitico tra agenti come parametri della mixture. SummaryBelief (sperimentale) comprime il contesto iniettato 15–40×: su modelli piccoli/quantizzati (Qwen3-8B-4bit) recupera +30–65% di F1 sulla miglior baseline, su un frontier model (Haiku 4.5) costa −15%. Un trade-off ingegneristico vero, misurato. Integrazioni con Anthropic SDK e LangGraph. Pre-release; i numeri sono reali, l'API non è ancora congelata.

Una linea coerente passa anche dal lavoro accademico — tesi magistrale su un framework per word embedding non distorti, e un progetto separato su classificazione fair adversarial. Responsible AI non è un'etichetta aggiunta dopo: è il modo in cui sono stato formato a pensare.

MSc Data Science
BSc Statistica
4A+ ML in produzione
Open source

02Stack

L'impronta tecnica reale di ciò che uso in produzione.

ML / DL

Modelli probabilistici e profondi.

Python
PyTorch
scikit-learn
Gaussian Mixture Models
ML probabilistico
Embeddings

LLM / Agenti

Sistemi ad agenti, retrieval, valutazione.

Anthropic SDK
OpenAI API
LangGraph
RAG
LongBench
Needle-in-haystack

Data Engineering

Ingestion, modellistica, orchestrazione.

Airbyte
dbt
Temporal.io
Splink
Postgres
SQL
pandas

Web / Infra

Interfaccia, API e infrastruttura.

Next.js
Django
Docker
AWS
Vercel
Railway
Git

Pratiche: deployment in produzione · data quality & reconciliation · security audit documentation

03Contatti

Il modo più rapido per raggiungermi.

Emailchongsu.p@gmail.com LinkedInlinkedin.com/in/lorenzopastore1 GitHubgithub.com/LorenzoPastore