重大突破！利用喷泉码让DNA高效地存储数据

chem药物研发2017-03-034.5W+

人类可能很快就会产生过多的数据以至于硬盘或磁带不能够存储得下。为了解决这个问题，科学家们已将注意力转向大自然的一个古老的信息储存方法：DNA。

在一项新的研究中，来自美国哥伦比亚大学和纽约基因组中心的两名研究人员证实一种为手机上的流式视频开发的算法能够通过将更多的信息压缩到DNA的四种碱基上，从而揭示出它的几乎全部的存储潜力。他们证实这种技术也是非常可靠的。相关研究结果发表在2017年3月3日的Science期刊上，论文标题为“DNA Fountain enables a robust and efficient storage architecture”。

DNA是一种理想的存储介质，这是因为它是高度紧凑的，而且如果放置在阴凉和干燥的地方，它能够持续保存几十万年。近期从在西班牙的一个洞穴中发现的一名43万年前的人类祖先的骨头中获得DNA就可证明这一点。

论文通信作者、哥伦比亚大学计算机科学教授、纽约基因组中心核心成员Yaniv Erlich说，“正如盒式磁带和CD光盘那样，DNA不会随着时间的推移发生降解，而且它不会过时，不然的话，我们会有大麻烦。”

Erlich和他的同事Dina Zielinski（纽约基因组中心副研究员）选择6份文件，将它们进行编码到或写入DNA中。这6份文件为一份完整的计算机操作系统程序文件，一份1895年上映的法国电影“火车到达拉西奥塔站（Arrival of a train at La Ciotat）”视频文件，一份价值50美元的亚马逊礼品卡图片文件，一份计算机病毒程序文件，一份先驱者镀金铝板（Pioneer plaque）图片文件，一份由信息理论学家Claude Shannon在1948年发布的研究论文文件。

他们将这些文件压缩成一种主文件（master file），然后将这些数据分割成短的由0和1组成的二进制代码流。他们利用一种被称作喷泉码（fountain code）的容错纠错算法，随机地将这些二进制代码流（好比是喷泉）包装成“水滴（droplet, 即数据包）”，将每个水滴中的0和1映射到DNA的四种碱基（A、G、C和T）上。这种算法删除已知会产生错误的碱基组合，并且加入一种条形码到每个水滴中，从而有助随后重新组装这些文件。

他们总共产生一份由7.2万个DNA片段（每个片段长200个碱基）组成的数字清单，将这份清单以文本文件的形式发送给位于美国加州旧金山市的一家DNA合成创业公司Twist Bioscience。该公司专门将数字数据转化为生物学数据。两周之后，他们接收到一个储存着一些DNA分子的小瓶。

为了找回他们的文件，他们利用现代的测序技术来读取这些DNA片段，随后利用软件将这种遗传密码转化回二进制代码流。这项研究报道，他们零错误地找回到他们的文件。

他们也证实通过利用聚合酶链式反应（PCR）扩增他们的DNA样品，他们的编码技术能够几乎无限制地拷贝这些文件，而且能够从这些拷贝副本，甚至经过多次拷贝的副本中，无差错地找回到这些文件。

最终，这两名研究人员证实他们的编码策略可在1克DNA中包装215拍字节（1拍字节等于1千万亿字节）数据，比哈佛大学研究员George Church和欧洲生物信息研究所研究员Nick Goldman、Ewan Birney开创性地开发的数据存储方法高出100倍。Erlich说，“我们认为这是迄今为止制造出的最高密度数据存储设备。”

DNA数据存储的能力在理论上受限于为每种碱基所对应的2个二进制位，但是DNA本身的生物约束以及为随后重新组装和读取这些DNA片段加入冗余信息的需求使得它的存储能力降低到每种碱基对应1.8个二进制位（也称作1.8比特）。

Erlich和Zielinski的见解就是采用喷泉码技术可使得这种读取和编写过程更加高效。利用他们的DNA喷泉码技术，他们将平均1.6个二进制位包装到每种碱基中。这就比之前发布的方法多存储至少60%的数据，接近于这个1.8比特限制。

成本仍然是一大障碍。Erlich和Zielinski花费了7千美元合成他们用来存储他们的2兆比特数据的DNA，另外还花费了2千美元读取它。美国加州大学洛杉矶分校生物化学学家Sri Kosuri（未参与这项研究）说，尽管DNA测序的成本大幅度下降，但是对DNA合成的需求可能并不那么强烈，因此它的成本仍然过高。他说，“投资者可能并不想要冒着风险投入大量资金降低成本。”

Erlich说，不过，如果合成出较低质量的DNA分子，并且采用DNA喷泉码等编码策略修复DNA分子中的错误，那么DNA合成成本就能够大幅下降。他说，“我们能够将更多的繁重工作交给计算机，从而降低进行比较耗时的分子编码时承受的负担。”

本文地址：https://www.chemrss.com/156.html