inizia

La doppia elica sintetica conserva fedelmente i sonetti di Shakespeare


Fonte

Traduzione di Enzo Truppa, Andrea Taeggi e Vincenzo Barbato


File di grandi dimensioni vengono conservati in forma molecolare, con una codifica “priva di errori”
Un team di scienziati ha riprodotto una breve antologia di poesia codificando i 154 sonetti di Shakespeare memorizzati in forma di DNA. I ricercatori riferiscono che il loro metodo si potrebbe facilmente sviluppare in modo da riuscire a immagazzinare tutti i dati del mondo.
Oltre ai sonetti, il team ha codificato una clip audio del famoso discorso “I Have a Dream” di Martin Luther King, una copia del famoso studio di James Watson e Francis Crick sulla struttura del DNA, una foto dell’istituto di ricerca e un file che descrive il modo in cui sono stati convertiti i dati.
I ricercatori riportano il loro lavoro sul sito web di Nature.
Il progetto, guidato da Nick Goldman dell’European Bioinformatics Institute (EBI) di Hinxton, Regno Unito, segna un ulteriore passo verso l’utilizzo di acidi nucleici come un pratico sistema di memorizzazione di dati, un modo molto più solido e duraturo degli attuali supporti multimediali come hard disk o nastri magnetici.
“Penso sia una tappa davvero fondamentale” commenta George Church, genetista molecolare della Harvard Medical School di Boston, Massachusetts, che l’anno scorso ha codificato una bozza del suo ultimo libro sul DNA. “Ora abbiamo davvero un campo di ricerca”.
Il DNA riesce a comprimere le informazioni in uno spazio decisamente inferiore rispetto agli altri supporti. Ad esempio, il CERN, laboratorio Europeo di fisica delle particelle nei pressi di Ginevra, ha attualmente salvato su circa un centinaio di unità a nastri magnetici, circa 90 petabyte di dati. Il metodo di Goldman potrebbe racchiudere tutti questi dati in 41 grammi di DNA.

Queste informazioni, dice Goldman, potrebbero resistere per millenni anche in ambienti freddi, secchi e nell’oscurità, come è evidente dal recupero di DNA leggibile di animali estinti da lungo tempo. “L’esperimento è stato fatto 60.000 anni fa quando un mammuth morì e restò lì, disteso nel ghiaccio” riferisce. “E non si trattava nemmeno di campioni attentamente predisposti”.

Goldman aggiunge che, mentre i supporti attuali come audiocassette e compact disc divengono immediatamente obsoleti nel momento in cui i rispettivi lettori sono rimpiazzati dalle nuove tecnologie, gli scienziati vorranno sempre leggere e studiare il DNA. I sequenziatori potranno cambiare, possiamo però “rinchiudere il DNA in una grotta in Norvegia per mille anni ed essere poi ancora in grado di leggerlo”. Questo farà risparmiare enormi cifre per l’archiviazione, dato che non sarà più necessario continuare a comprare nuove attrezzature per riscrivere tutti gli archivi nell’ultimo formato disponibile.

L’acquisizione dati
Il team di Goldman ha codificato 5.2 milioni di bit di informazioni in DNA, approssimativamente la stessa quantità che aveva codificato il team di Church. Ma il team di Church aveva utilizzato un codice semplice, dove le basi del DNA adenina e citosina rappresentavano gli zeri, mentre guanina e timina gli uno. Questo a volte aveva portato a lunghe sequenze con ripetizioni della stessa lettera, che spesso risultava difficile alla lettura da parte dei sequenziatori, portando così ad errori.
Il gruppo di Goldman ha invece sviluppato un codice più complesso in cui ogni byte – una stringa di cifre, zeri o uno – è rappresentato da una parola di cinque lettere tra A, C, G o T.
Per provare a limitare ulteriori errori, il team ha spezzato il codice di DNA in sequenze sovrapposte, ognuna delle quali lunga 117 lettere e con informazioni indicizzate per riportare alla loro posizione originaria nel codice complessivo.
Il sistema codifica i dati in sequenze parzialmente sovrapposte, secondo un criterio che permette di effettuare per ogni errore un controllo incrociato su altre tre sequenze.
La Agilent Technologies a Santa Clara, California, ha sintetizzato le sequenze e le ha rispedite ai ricercatori, che sono stati in grado di ricostruire tutti i file con un’accuratezza pari al 100%.
Ma la speranza di sviluppare la codifica su DNA è ostacolata dall’alto costo della lettura e scrittura del DNA. Il team dell’EBI ha stimato che siano necessari circa 12.400 $ per codificare un megabyte di data, e 220 $ per leggerlo. In ogni caso, questi costi si stanno esponenzialmente abbassando. Il metodo potrebbe essere utilizzato per archivi che devono essere mantenuti a lungo termine, ma a cui si accede di rado, come i dati del CERN. Se i costi diminuiranno di 100 volte in dieci anni, la tecnica sarebbe economicamente produttiva se si volessero conservare dati per almeno 50 anni. E Church ritiene che queste previsioni siano troppo pessimistiche, dato che “il costo per la lettura e scrittura del DNA è diminuito di un milione di volte negli ultimi nove anni, un evento senza precedenti persino nel campo dell’elettronica”.
Goldman aggiunge che la conservazione di dati su DNA sarebbe a prova di apocalisse. In seguito ad un ipotetico disastro globale, le future generazioni potrebbero infine trovare queste riserve di informazioni ed essere in grado di leggerle. Goldman “Noterebbero immediatamente che si tratta di DNA mai visto prima. Non ci sono ripetizioni, e tutto è della stessa lunghezza. Ovviamente non appartiene a batteri o esseri umani. Forse varrebbe la pena investigare”.

5
Il tuo voto: Nessuno Media: 5 (1 vote)
Condividi contenuti