LexATECO — Architettura V2

Documento operativo interno. Non indicizzare.

Obiettivo V2

Passare da una base RAG testuale a una piattaforma evidence-first con qualità dati, explainability e supporto progressivo al grafo.

P0 affidabilità P1 precisione retrieval P2 premium UX

Blueprint (a blocchi)

1) Ingestion & ETL

Ingest fonti normative (Normattiva AKN + altre fonti autorizzate)
Parser versioni/vigenza + normalizzazione URI canoniche
Estrazione obblighi (rule + LLM assistito con validazione)
Output strutturato: norme, versioni, obblighi, citazioni, relazioni

2) Data Quality Gate (nuovo, obbligatorio)

Controlli schema, deduplica, coerenza temporale
Score qualità per record (completeness/consistency/freshness)
Solo record sopra soglia passano in produzione
Audit log completo (chi ha estratto cosa, quando, con quale modello)

3) Storage & Retrieval

PostgreSQL come source of truth
pgvector per ricerca semantica
Relazioni in tabelle graph-ready (citazioni, modifiche, obblighi→funzioni→ATECO)
Fase 2 opzionale: motore grafo dedicato se query multi-hop crescono

4) Ranking ibrido

Score finale = semantico + matching metadata + segnali relazionali + freshness
Riduzione hallucination via evidence set minimo obbligatorio
Output con citazioni verificabili

5) API prodotto

/impacts (obblighi per funzione/ATECO con confidence)
/alerts (novità normative filtrate per profilo impresa)
/newsletter/preview (sintesi con fonti e motivazione impatto)

6) Evaluation & Ops

KPI minimi: Recall@k, nDCG@k, Evidence Coverage, Hallucination Rate
A/B test retriever (solo testo vs ibrido relazionale)
Monitor costi LLM (cache, batching, quote, fail-safe)

Roadmap consigliata

P0 (subito, 3–5 settimane)

ETL stabile + quality gate + retrieval semantico su Postgres/pgvector
Output con citazioni obbligatorie

P1 (5–9 settimane)

Ranking ibrido con segnali relazionali
Mapping robusto obbligo→funzione→ATECO con confidence

P2 (dopo evidenza mercato)

Motore grafo dedicato (se necessario) + explainability avanzata
Cockpit premium / alert proattivi evoluti

Copyright / diritti — impatto per funzionalità

Principio generale: usare metodi noti (ETL, KG, RAG ibrido, ranking, evaluation) è normalmente lecito. Il rischio nasce dal riuso diretto di contenuti protetti dei paper.

OK implementare pipeline ETL, schema dati, ranking e metriche da zero.
OK ispirarsi metodologicamente a paper accademici.
ATTENZIONE non copiare testo, figure, tabelle, grafici o dataset con licenze restrittive.
ATTENZIONE per paper CC BY-NC-ND: no riuso commerciale diretto e no opere derivate del paper.

Conclusione operativa: architettura V2 implementabile commercialmente se il codice e gli artefatti sono originali e non replicano materiale protetto.

Policy interna consigliata (commercial-safe)

No copy/paste di contenuti paper in materiali prodotto.
Riferimenti bibliografici mantenuti in documentazione tecnica.
Controllo licenza su ogni dataset/asset prima di rilascio commerciale.