DNA pode armazenar todos os dados do mundo em um quarto

Um novo método de armazenamento de dados nas bases nucleotídicas do DNA é o esquema de armazenamento de maior densidade já inventado.

Novi Elisa / Shutterstock

DNA pode armazenar todos os dados do mundo em um quarto

Por Robert F. ServiceMar. 2, 2017, 14:00

A humanidade tem um problema de armazenamento de dados: mais dados foram criados nos últimos 2 anos do que em toda a história anterior. E essa torrente de informações em breve poderá superar a capacidade dos discos rígidos de capturá-las. Agora, os pesquisadores relatam que eles criaram uma nova maneira de codificar dados digitais no DNA para criar o esquema de armazenamento de dados em maior escala e densidade de alta densidade já inventado. Capaz de armazenar 215 petabytes (215 milhões de gigabytes) em um único grama de DNA, o sistema poderia, em princípio, armazenar todos os dados já registrados pelos seres humanos em um contêiner do tamanho e peso de algumas caminhonetes. Mas se a tecnologia decola pode depender de seu custo.

O DNA tem muitas vantagens em armazenar dados digitais. É ultracompacto e pode durar centenas de milhares de anos se mantido em local fresco e seco. E enquanto as sociedades humanas estiverem lendo e escrevendo DNA, elas serão capazes de decodificá-lo. O DNA não se degradará com o tempo, como fitas cassete e CDs, e se tornará obsoleto, diz Yaniv Erlich, cientista da computação da Universidade de Columbia. E, diferentemente de outras abordagens de alta densidade, como a manipulação de átomos individuais em uma superfície, as novas tecnologias podem escrever e ler grandes quantidades de DNA por vez, permitindo que ele seja ampliado.

Os cientistas armazenam dados digitais no DNA desde 2012. Foi quando os geneticistas da Universidade de Harvard George Church, Sri Kosuri e colegas codificaram um livro de 52.000 palavras em milhares de fragmentos de DNA, usando filamentos do alfabeto de quatro letras do DNA. de A, G, T e C para codificar os 0s e 1s do arquivo digitalizado. Seu esquema de codificação específico era relativamente ineficiente, no entanto, e podia armazenar apenas 1, 28 petabytes por grama de DNA. Outras abordagens fizeram melhor. Mas ninguém conseguiu armazenar mais da metade do que os pesquisadores pensam que o DNA pode realmente lidar, cerca de 1, 8 bits de dados por nucleotídeo de DNA. (O número não é de 2 bits devido a erros raros, mas inevitáveis, de gravação e leitura de DNA.)

Erlich pensou que poderia se aproximar desse limite. Então ele e Dina Zielinski, uma cientista associada do New York Genome Center, analisaram os algoritmos que estavam sendo usados ​​para codificar e decodificar os dados. Eles começaram com seis arquivos, incluindo um sistema operacional completo para computadores, um vírus de computador, um filme francês de 1895 chamado Chegada de um trem em La Ciotat e um estudo de 1948 do teórico da informação Claude Shannon. Eles primeiro converteram os arquivos em cadeias binárias de 1s e 0s, compactaram-os em um arquivo mestre e depois dividiram os dados em cadeias curtas de código binário. Eles criaram um algoritmo chamado fonte de DNA, que empacotou as seqüências aleatoriamente em chamadas gotículas, às quais adicionaram tags extras para ajudar a montá-las na ordem correta posteriormente. Ao todo, os pesquisadores geraram uma lista digital de 72.000 fitas de DNA, cada uma com 200 bases.

Eles os enviaram como arquivos de texto para a Twist Bioscience, uma startup de São Francisco, Califórnia, que sintetizou as cadeias de DNA. Duas semanas depois, Erlich e Zielinski receberam pelo correio um frasco com um grão de DNA codificando seus arquivos. Para decodificá-los, o par usou a moderna tecnologia de seqüenciamento de DNA. As seqüências foram alimentadas em um computador, que traduziu o código genético novamente em binário e usou as tags para remontar os seis arquivos originais. A abordagem funcionou tão bem que os novos arquivos não continham erros, relatam hoje na Science. Eles também foram capazes de fazer um número praticamente ilimitado de cópias livres de erros de seus arquivos através da reação em cadeia da polimerase, uma técnica padrão de cópia de DNA. Além disso, diz Erlich, eles foram capazes de codificar 1, 6 bits de dados por nucleotídeo, 60% melhor do que qualquer grupo havia feito antes e 85% do limite teórico.

"Adoro o trabalho", diz Kosuri, que agora é bioquímico na Universidade da Califórnia, em Los Angeles. "Acho que este é essencialmente o estudo definitivo que mostra que você pode [armazenar dados no DNA] em grande escala".

No entanto, Kosuri e Erlich observam que a nova abordagem ainda não está pronta para uso em larga escala. Custou US $ 7000 para sintetizar os 2 megabytes de dados nos arquivos e outros US $ 2000 para lê-los. É provável que o custo caia com o tempo, mas ainda há um longo caminho a percorrer, diz Erlich. E comparado com outras formas de armazenamento de dados, a gravação e a leitura no DNA são relativamente lentas. Portanto, é improvável que a nova abordagem voe se os dados forem necessários instantaneamente, mas seria mais adequado para aplicativos de arquivamento. Então, quem sabe? Talvez esses datacenters gigantes do Facebook e da Amazon sejam substituídos um dia por duas picapes de DNA.