DNA serves as starting point for the next data storage solution

ENG: Imagine Bach’s “Cello Suite No. 1” played on a strand of DNA. This scenario is not as impossible as it seems. Too small to withstand a rhythmic strum or sliding bowstring, DNA is a powerhouse for storing audio files and all kinds of other media. “DNA is nature’s original data storage system. We can use it to store any kind of data: images, video, music — anything,” said Kasra Tabatabaei, a researcher at the Beckman Institute for Advanced Science and Technology and a coauthor on this study. Expanding DNA’s molecular makeup and developing a precise new sequencing method enabled a multi-institutional team to transform the double helix into a robust, sustainable data storage platform.

 DNA data storage using natural and chemically modified nucleotides. Credit: Beckman Institute

Its longevity rivaled only by durability, DNA is designed to weather Earth’s harshest conditions — sometimes for tens of thousands of years — and remain a viable data source. Scientists can sequence fossilized strands to uncover genetic histories and breathe life into long-lost landscapes. Despite its diminutive stature, DNA is a bit like Dr. Who’s infamous police box: bigger on the inside than it appears. Another important aspect of DNA is its natural abundance and near-infinite renewability, a trait not shared by the most advanced data storage system on the market today: silicon microchips, which often circulate for just decades before an unceremonious burial in a heap of landfilled e-waste.

Envisioning the future of data storage, the interdisciplinary team examined DNA’s millennia-old MO. Then, the researchers added their own 21st-century twist. In nature, every strand of DNA contains four chemicals — adenine, guanine, cytosine, and thymine — often referred to by the initials A, G, C, and T. They arrange and rearrange themselves along the double helix into combinations that scientists can decode, or sequence, to make meaning. The researchers expanded DNA’s already broad capacity for information storage by adding seven synthetic nucleobases to the existing four-letter lineup. Because this team is the first to use chemically modified nucleotides for information storage in DNA, members innovated around a unique challenge: not all current technology is capable of interpreting chemically modified DNA strands. To solve this problem, they combined machine learning and artificial intelligence to develop a first-of-its-kind DNA sequence readout processing method. Their solution can discern modified chemicals from natural ones, and differentiate each of the seven new molecules from one another.

RO: Imaginați-vă “Suita pentru violoncel nr. 1” a lui Bach interpretată pe un fir de ADN. Acest scenariu nu este atât de imposibil pe cât pare. Prea mic pentru a rezista la un acord ritmic sau la o coardă de arcuș care alunecă, ADN-ul este un centru de putere pentru stocarea fișierelor audio și a altor tipuri de medii. “ADN-ul este sistemul original de stocare a datelor din natură. Îl putem folosi pentru a stoca orice tip de date: imagini, videoclipuri, muzică – orice”, a declarat Kasra Tabatabaei, cercetător la Beckman Institute for Advanced Science and Technology și coautor al acestui studiu. Extinderea compoziției moleculare a ADN-ului și dezvoltarea unei noi metode precise de secvențiere au permis unei echipe multi-instituționale să transforme dublul helix într-o platformă de stocare a datelor robustă și durabilă.

Longevitatea sa rivalizând doar cu durabilitatea, ADN-ul este conceput pentru a rezista în cele mai dure condiții de pe Pământ – uneori timp de zeci de mii de ani – și a rămâne o sursă de date viabilă. Oamenii de știință pot secvenția firele fosilizate pentru a descoperi istorii genetice și pentru a da viață unor peisaje demult pierdute. În ciuda dimensiunii sale mici, ADN-ul este un pic ca infama cutie de poliție a lui Dr. Who: mai mare în interior decât pare. Un alt aspect important al ADN-ului este abundența sa naturală și capacitatea sa de reînnoire aproape infinită, o trăsătură pe care nu o împărtășește cel mai avansat sistem de stocare a datelor de pe piață în prezent: microcipurile de siliciu, care circulă adesea doar câteva decenii înainte de a fi îngropate fără ceremonie într-o grămadă de deșeuri electronice depozitate la groapa de gunoi.

Imaginând viitorul stocării datelor, echipa interdisciplinară a examinat modul de operare milenar al ADN-ului. Apoi, cercetătorii au adăugat propria lor particularitate din secolul XXI. În natură, fiecare fir de ADN conține patru substanțe chimice – adenină, guanină, citozină și timină – denumite adesea prin inițialele A, G, C și T. Acestea se aranjează și se rearanjează de-a lungul dublei helixuri în combinații pe care oamenii de știință le pot decoda, sau secvenția, pentru a da sens. Cercetătorii au extins capacitatea deja largă a ADN-ului de stocare a informațiilor prin adăugarea a șapte nucleobaze sintetice la linia existentă de patru litere. Deoarece această echipă este prima care a folosit nucleotide modificate chimic pentru stocarea informațiilor în ADN, membrii ei au inovat în jurul unei provocări unice: nu toată tehnologia actuală este capabilă să interpreteze șirurile de ADN modificate chimic. Pentru a rezolva această problemă, ei au combinat învățarea mecanică și inteligența artificială pentru a dezvolta o metodă de procesare a citirii secvențelor de ADN, prima de acest fel. Soluția lor poate discerne substanțele chimice modificate de cele naturale și poate diferenția fiecare dintre cele șapte molecule noi una de alta.

Source (Beckman Institute, Jenna Kurtzweil, “Expanded alphabet, precise sequencing make DNA the next data storage solution”, 02.03.2022)

Paper: Tabatabaei, S.K., Pham, B., Pan, C., Liu, J., Chandak, S., Shorkey, S.A., Hernandez, A.G., Aksimentiev, A., Chen, M., Schroeder, C.M. and Milenkovic, O., 2021. Expanding the Molecular Alphabet of DNA-Based Data Storage Systems with Neural Network Nanopore Readout Processing. bioRxiv.