Исследования показывают, что будущее хранения данных — это двойная спираль

Представьте себе «Сюиту для виолончели № 1» Баха, сыгранную на нити ДНК.

Этот сценарий не так невозможен, как кажется. ДНК слишком мала, чтобы выдержать ритмичное бренчание или скользящую тетиву, и является мощной электростанцией для хранения аудиофайлов и всех видов других носителей.

«ДНК — это оригинальная система хранения данных природы. Мы можем использовать ее для хранения любых данных: изображений, видео, музыки — чего угодно», — говорит Касра Табатабаи, исследователь из Института передовых наук и технологий Бекмана и соавтор этой работы. исследование.

Расширение молекулярного состава ДНК и разработка нового точного метода секвенирования позволили межучрежденческой группе преобразовать двойную спираль в надежную и устойчивую платформу для хранения данных.

Статья команды появилась в Nano Letters в феврале 2022 года.

В век цифровой информации любой, кто достаточно смел, чтобы ориентироваться в ежедневных новостях, чувствует, что глобальный архив становится все тяжелее с каждым днем. Бумажные файлы все чаще оцифровываются для экономии места и защиты информации от стихийных бедствий.

От ученых до влиятельных лиц в социальных сетях, любой, у кого есть информация для хранения, может извлечь выгоду из надежного и надежного хранилища данных — и двойная спираль отвечает всем требованиям.

«ДНК — это один из лучших вариантов, если не лучший, особенно для хранения архивных данных», — сказал Чао Пан, аспирант Университета Иллинойса в Урбана-Шампейн и соавтор этого исследования.

С ее долговечностью может соперничать только долговечность, ДНК предназначена для того, чтобы выдерживать самые суровые условия Земли — иногда в течение десятков тысяч лет — и оставаться жизнеспособным источником данных. Ученые могут секвенировать окаменелые нити, чтобы раскрыть генетическую историю и вдохнуть жизнь в давно потерянные ландшафты.

Несмотря на свои миниатюрные размеры, ДНК чем-то напоминает печально известную полицейскую будку из «Доктора Кто»: внутри она больше, чем кажется.

«Каждый день в Интернете генерируются несколько петабайт данных. Для хранения этих данных достаточно всего одного грамма ДНК. Вот насколько плотна ДНК как носитель информации», — сказал Табатабаи, который также является пятым курсом доктора наук. Д. ученик.

Другим важным аспектом ДНК является ее естественное изобилие и почти бесконечная возобновляемость, черта, которой не обладают самые передовые системы хранения данных на рынке сегодня: кремниевые микрочипы, которые часто циркулируют всего несколько десятилетий, прежде чем их бесцеремонно похоронят в куче захороненных электронных устройств. -напрасно тратить.

«В то время, когда мы сталкиваемся с беспрецедентными климатическими проблемами, невозможно переоценить важность устойчивых технологий хранения. Появляются новые, экологически чистые технологии для записи ДНК, которые сделают молекулярное хранение еще более важным в будущем», — сказала Ольгица Миленкович, Франклин. W. Woeltge Профессор электротехники и вычислительной техники и со-PI в исследовании.

Предвидя будущее хранения данных, междисциплинарная группа исследовала МО ДНК тысячелетней давности. Затем исследователи добавили свой собственный поворот 21-го века.

В природе каждая нить ДНК содержит четыре химических вещества — аденин, гуанин, цитозин и тимин, часто обозначаемые буквами A, G, C и T. Они выстраиваются и перестраиваются вдоль двойной спирали в комбинации, которые ученые может декодировать или упорядочивать, чтобы придать смысл.

Исследователи расширили и без того широкие возможности ДНК для хранения информации, добавив семь синтетических азотистых оснований к существующей четырехбуквенной линейке.

«Представьте себе английский алфавит. Если бы у вас было всего четыре буквы, вы могли бы составить только определенное количество слов. Если бы у вас был полный алфавит, вы могли бы создавать неограниченное количество комбинаций слов. То же самое с ДНК. Вместо того, чтобы преобразовывать нули и единицы в A, G, C и T, мы можем преобразовать нули и единицы в A, G, C, T и семь новых букв в алфавите хранения», — сказал Табатабаи.

Поскольку эта команда первой применила химически модифицированные нуклеотиды для хранения информации в ДНК, ее участники разработали новшества в связи с уникальной проблемой: не все современные технологии способны интерпретировать химически модифицированные нити ДНК. Чтобы решить эту проблему, они объединили машинное обучение и искусственный интеллект, чтобы разработать первый в своем роде метод обработки считывания последовательности ДНК.

Их решение может отличить модифицированные химические вещества от природных и отличить каждую из семи новых молекул друг от друга.

«Мы попробовали 77 различных комбинаций 11 нуклеотидов, и наш метод смог идеально дифференцировать каждую из них», — сказал Пан. «Структура глубокого обучения как часть нашего метода идентификации различных нуклеотидов является универсальной, что позволяет обобщать наш подход во многих других приложениях».

Этот безупречный перевод стал возможен благодаря нанопорам: белкам с отверстием посередине, через которое может легко пройти нить ДНК. Примечательно, что команда обнаружила, что нанопоры могут обнаруживать и различать каждую отдельную мономерную единицу вдоль цепи ДНК, независимо от того, имеют ли единицы естественное или химическое происхождение.

«Эта работа представляет собой захватывающую демонстрацию доказательства принципа расширения хранения макромолекулярных данных за счет неестественных химических процессов, которые потенциально могут резко увеличить плотность хранения в нетрадиционных носителях», — сказал Чарльз Шредер, профессор экономики Джеймса. Science and Engineering и со-PI в этом исследовании.

ДНК буквально вошла в историю, храня генетическую информацию. Судя по этому исследованию, будущее хранения данных столь же двоякое.

Дополнительные сотрудники UIUC включают Алексея Аксиментьева, Центр биофизики и количественной биологии; и Альваро Эрнандес, Центр биотехнологии Роя Дж. Карвера. Учреждения-партнеры включают Массачусетский университет в Амхерсте и Стэнфордский университет. Полный список соавторов и их принадлежностей можно найти в опубликованной работе.