DNA 被看作更轻便、保存时间更长的数字信息存储载体,技术进展很快。电影、GIF 动图、文学名著《战争与和平》都被放入到 DNA 上,存储的数据规模也越来越大。
技术层面,在 DNA 上存储、解码数字信息是这样的:研究员需要把数据从 0 和 1 转换成形成 DNA 的碱基:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)、胞嘧啶(C),再通过合成 DNA 存储这部分的数据。当数据需要被取回时,研究员通过对 DNA 进行测序,将数据重新从碱基还原成 0 和 1。
随着数据存储规模的扩大,相应的,确定 DNA 上存储数据的位置,以及还原数据的技术也在跟进。
微软最近和华盛顿大学的分子信息系统实验室(MISL)合作,开发了新的检索 DNA 序列、解码的技术。他们将 35 个文件、总共 200.2 MB 的数据存储到了 1300 万的 DNA 寡核苷酸(只有 20 个以下碱基的短链核苷酸)上,并成功在一个有 1030 万条 DNA 序列的池里找到、解码这些数据,中间没有发生数据丢失。
这些研究员选择存储在 DNA 上的数据包括下列这些:OK Go 乐队的歌曲 This Too Shall Pass 的高清 MV、经典音乐精选集,《世界人权宣言》的 100 种语言版本、CropTrust 存储了斯瓦尔巴全球种子库的数据库等。
存储了 200.2 MB 的数据到 DNA 上
该论文发表在《自然-生物技术(Nature Biotechnology)》期刊上,微软官网也附上了该论文。
他们使用的是一种被称为“随机存取(random access)”的技术。这不是新技术,但微软和 MISL 实验室在使用的数据量和解码准确度上都有所提升。
所谓的 DNA 数据随机存取,类似于电脑、手机在调取照片、歌曲时所用的 RAM 技术。略有差别的地方在于,电脑、手机在调用数据时,这些数据存储的位置不影响调用速度,而且调用速度很快。但在 DNA 上取回数据,暂时只能做到存储位置不影响,解码数据的速度还没能提升。
取回 DNA 上存储数据上的一般流程是这样的,解开 DNA 双螺旋结构、复制存储数据的序列,然后转换这些数据。为了获得所需数据,常常需要对整条 DNA 进行测序。
DNA 上的随机存取技术,通常是引物库(引物指一小段 DNA 或 RNA)配合聚合酶链式反应(PCR)一起使用。加在每个 DNA 序列的两端的引物可以帮助更快确定数据存储的位置,在解码时,研究员不需要对整条 DNA 进行测序,PCR 通过反复复制想读的序列帮助加快解码速度。
DNA 上随机存取的流程
在微软和 MISL 实验室的实验中,研究员设计了新的引物库,解码、还原数据的算法,增加了储存、解码数据时的容错能力,最终在取回数据时没有出现数据丢失。解码器和算法开发这方面上有微软比较多的贡献。
微软和华盛顿大学在 DNA 存储、解码数据的技术上合作了多个项目,微软的研究员 Karin Strauss 也是领导 MISL 实验室的管理者之一。例如 2016 年,两家公司合作,把《战争与和平》等 100 部经典作品塞进了 DNA 内。
这算是微软对未来存储技术看中的方向之一,例如用 DNA 取代数据中心里的硬盘。Karin Strauss 曾说:“公司有兴趣了解,我们是否能创造一种、端到端、自动化、可用于企业存储、基于 DNA 的信息存储系统。”
作为存储介质,DNA 相比硬盘、TF 卡等都要轻便,保持在干燥、较低气温环境下,可以保存很久,这些都是优势。但 DNA 合成成本、花费的时间成本都相当高昂。微软存储 100 部经典作品、总共 200 MB 的数据到 DNA 上,花费了 15 亿个碱基,以 Twist Bioscience 针对企业用户每个碱基卖 0.04 美分计算,也需要 6000 万美元。
加州大学伯克利分校的博士后研究员 Reinhard Heckel 认为,虽然这项技术的成本在持续降低,但能否低于磁带还很难说:“为了让人们真正用起来,你需要把东西存储在比磁带更便宜的载体上,这是很难的。”