LexATECO — Architettura V2
Documento operativo interno. Non indicizzare.
Obiettivo V2
Passare da una base RAG testuale a una piattaforma evidence-first con qualità dati, explainability e supporto progressivo al grafo.
P0 affidabilità P1 precisione retrieval P2 premium UX
Blueprint (a blocchi)
1) Ingestion & ETL
- Ingest fonti normative (Normattiva AKN + altre fonti autorizzate)
- Parser versioni/vigenza + normalizzazione URI canoniche
- Estrazione obblighi (rule + LLM assistito con validazione)
- Output strutturato: norme, versioni, obblighi, citazioni, relazioni
2) Data Quality Gate (nuovo, obbligatorio)
- Controlli schema, deduplica, coerenza temporale
- Score qualità per record (completeness/consistency/freshness)
- Solo record sopra soglia passano in produzione
- Audit log completo (chi ha estratto cosa, quando, con quale modello)
3) Storage & Retrieval
- PostgreSQL come source of truth
- pgvector per ricerca semantica
- Relazioni in tabelle graph-ready (citazioni, modifiche, obblighi→funzioni→ATECO)
- Fase 2 opzionale: motore grafo dedicato se query multi-hop crescono
4) Ranking ibrido
- Score finale = semantico + matching metadata + segnali relazionali + freshness
- Riduzione hallucination via evidence set minimo obbligatorio
- Output con citazioni verificabili
5) API prodotto
/impacts (obblighi per funzione/ATECO con confidence)
/alerts (novità normative filtrate per profilo impresa)
/newsletter/preview (sintesi con fonti e motivazione impatto)
6) Evaluation & Ops
- KPI minimi: Recall@k, nDCG@k, Evidence Coverage, Hallucination Rate
- A/B test retriever (solo testo vs ibrido relazionale)
- Monitor costi LLM (cache, batching, quote, fail-safe)
Roadmap consigliata
P0 (subito, 3–5 settimane)
- ETL stabile + quality gate + retrieval semantico su Postgres/pgvector
- Output con citazioni obbligatorie
P1 (5–9 settimane)
- Ranking ibrido con segnali relazionali
- Mapping robusto obbligo→funzione→ATECO con confidence
P2 (dopo evidenza mercato)
- Motore grafo dedicato (se necessario) + explainability avanzata
- Cockpit premium / alert proattivi evoluti
Copyright / diritti — impatto per funzionalità
Principio generale: usare metodi noti (ETL, KG, RAG ibrido, ranking, evaluation) è normalmente lecito. Il rischio nasce dal riuso diretto di contenuti protetti dei paper.
- OK implementare pipeline ETL, schema dati, ranking e metriche da zero.
- OK ispirarsi metodologicamente a paper accademici.
- ATTENZIONE non copiare testo, figure, tabelle, grafici o dataset con licenze restrittive.
- ATTENZIONE per paper CC BY-NC-ND: no riuso commerciale diretto e no opere derivate del paper.
Conclusione operativa: architettura V2 implementabile commercialmente se il codice e gli artefatti sono originali e non replicano materiale protetto.
Policy interna consigliata (commercial-safe)
- No copy/paste di contenuti paper in materiali prodotto.
- Riferimenti bibliografici mantenuti in documentazione tecnica.
- Controllo licenza su ogni dataset/asset prima di rilascio commerciale.