Text and data mining, diritto d’autore e intelligenza artificiale generativa: quali risvolti per l’automazione contrattuale?

Marzo 21, 2025

La nuova disciplina europea in materia di diritto d’autore (nota come Direttiva Copyright) ha per la prima volta disciplinato il c.d. text and data mining (TDM), un processo informatico cruciale per l’addestramento dei sistemi di gen-AI, affrontando le implicazioni del suo utilizzo rispetto alla protezione del diritto d’autore online.

CHE COS’È IL TEXT AND DATA MINING

Il TDM consiste sostanzialmente nell’estrazione automatizzata di informazioni e di dati da grandi quantità di risorse disponibili in rete. Nel contesto di tale attività articoli scientifici, report, testi giuridici ed altri contenuti presenti su internet vengono scansionati da software noti come web scrapers (in italiano, “raschiatori della rete”), che analizzano e scandagliano centinaia di migliaia di siti web al fine di estrapolare i dati utili a “nutrire” i modelli di intelligenza artificiale generativa. Naturalmente, tale attività non può che interferire con i diritti esclusivi esistenti sulle opere e sui database “minati”, e proprio qui entra in gioco la Direttiva.

LE CONDIZIONI DEL TEXT AND DATA MINING

Il legislatore europeo (seguito da quello italiano, in sede di recepimento della direttiva) ha infatti stabilito che le operazioni di TDM siano in linea di principio consentite (arrivando a rappresentare una vera e propria eccezione al copyright sui contenuti estratti), salvo che:

1) il diritto di utilizzare i materiali “minati” sia stato espressamente riservato (ossia sottratto a una qualsiasi utilizzazione non autorizzata) dal loro proprietario – c.d. opt out, che il titolare dei diritti potrà manifestare anche all’interno del sito web ove i contenuti sono ospitati;

2) l’accesso alle opere nel mirino dei “raschiatori” avvenga illegalmente, ad esempio bypassando le misure di protezione informatiche eventualmente erette dai proprietari dei contenuti – come i paywall, che impediscono di accedere ad un certo sito senza sottoscrivere abbonamenti a pagamento.

GLI IMPATTI SULL’ADDESTRAMENTO DEI SISTEMI DI GEN-AI

Affinché l’intelligenza artificiale generativa possa offrire risultati soddisfacenti nel contesto della consulenza giuridica, e in particolare nella redazione di contratti o due diligence report, gli scraper non potranno certo limitarsi a rastrellare online template di basso (se non bassissimo livello). Per scrivere un buon contratto occorre puntare sulla qualità, ma i precedenti migliori (e più in generale le informazioni più affidabili ed aggiornate) sono ospitati su piattaforme disponibili soltanto a pagamento o rispetto alle quali non è difficile immaginare l’esercizio dell’opt out da parte dei relativi titolari.

È proprio per questo che i chatbot non sono ancora in grado di predisporre contratti affidabili (provare per credere!), ed è proprio per questo che i sistemi che privilegiano invece l’approvvigionamento di dati di qualità, come quelli di intelligenza aumentata, rappresentano l’unica alternativa alla gen-AI nell’automazione contrattuale.

GENERA IL TUO CONTRATTO CON LEXMATIC