想象一下,有这么一家巨型工厂。
首先,它能够制造几十万种不同的机器设备。它的年产量高达4,200万台套。
其次,这家巨型工厂还能在几个小时后自动的复制出具备同样的生产能力的另外一家巨型工厂。这个工厂能在短短的10个月之内复制出200,000亿家相同的工厂。
第三,这20万亿家巨型工厂全部连接在一起,构成一个系统性的整体,而这个工厂的原材料,仅仅是水和世界上的植物和动物。
建造这样的工厂所需要的图纸应该有多少张?需要多少工程师的人年才能把这样一家巨型工厂设计出来?这家工厂的物流系统应该有多复杂?如果用数字化的方式来描述这样的工厂?我们什么时候才能有能力去建立这样的工厂的数字孪生?整个巨型工厂是高度动态的系统,我们如何用数字孪生来表达这个高度动态的系统?
你认为这样的工厂存在吗?这样的工厂其实就是组成我们人类的基本单位—细胞。我们人体的一个细胞就包含了所有这些信息。
这里讲的图纸就是我们人类细胞里面的细胞核里面的染色体里面的DNA,工厂就是我们的细胞器、细胞质,工厂的围墙就是细胞膜和细胞壁,工厂的产品,就是支撑我们人类所有活动的各种蛋白质、脂类以及其他的大分子。
人类DNA分子中,共有3亿碱基对,大概有10万个基因。在人体细胞中,可能会出现多达十种不同的蛋白质可以追溯到一个基因。科学家估计人体细胞中含有80,000 到400,000 种蛋白质。然而,它们并非在任何特定时间都由身体的所有细胞产生。细胞根据其细胞类型具有不同的蛋白质组。
细胞是构成生命的最基本单位,所有生命活动都是由细胞完成的,人体细胞更新周期一般为120-200天(神经组织细胞除外),大约每6-7年就要全部更换成新的细胞。生命也是细胞更新换代不断延续的过程(新陈代谢),当细胞失去生活条件或彻底丧失活性时,生命也就随之消失。
在大部分人的印象里或者认知里面,当我们学到细胞的时候,通常都是以下面这种图示的方式来描述的:
相信大部分人都是被这些图给忽悠了。这些图给人的感觉就像细胞里面,就好像一碗水,里面泡了几个干果那么简单。
一个细胞,如文章开头所描述的,那么复杂的工厂,怎么可能只有这么简单?它一定是高度复杂的。
实际上在一个细胞里面,确实拥有非常复杂的图纸、各种能量转换设备,不断从外界获取不间断的各种零部件供应,有巨大的装配车间,巨大的装配生产线,有非常复杂的高速公路运输系统,甚至有隧道和各种轨道系统。
细胞的组成部分主要有细胞膜、细胞质、细胞骨架、细胞核和细胞器。细胞器主要有:线粒体、内质网、中心体、叶绿体、高尔基体、核糖体等。细胞骨架,包括肌动蛋白丝、微管和中间丝。
1992 年之前,人们普遍认为微管蛋白和肌动蛋白是真核生物独有的。1992年Ray Chaudhuri等才发现原核细胞里的微管蛋白FtsZ和肌动蛋白MreB和微丝CreS,分别对应真核细胞里面的微管蛋白(tubulin)、肌动蛋白丝(actin filament)和中间丝(intermediate filament)。
从那时起,生物信息学、结构数据和先进的细胞成像的结合巩固了细菌和古细菌都具有活跃和动态细胞骨架的观点。
说到这里,你有没有觉得1992年之前研究原核生物的科学家们想的太简单了?
在更高倍数的显微镜下,整个细胞的高速公路系统和轨道系统会呈现出如下的样子:
细胞工厂复杂程度令人咂舌,远远超过目前为止我们人类能够建造出来制造产品的任何工厂。人类能够制造的产品,大到航空母舰、小到芯片,跟细胞工厂相比那也是小巫见大巫,根本就不值得一提。
一个系统的复杂程度如何定义、描述与衡量?复杂系统有多种定义,每个都有优点和缺点。这种复杂系统定义的多样性源于我们没有统一的复杂性理论。
比如,罗斯·阿什比(Ross Ashby) 将必要多样性法则的多样性定义为系统可以假设的状态数。
在统计物理学或信息熵中,存在大量的复杂性度量方式:近似熵、样本熵、排列熵、多尺度熵、Boltzmann & Shannon 熵等。
Horgan 在SciAm提到了至少46 个定义。到今天我们可以给出超过60个复杂度的定义。
在这里我仅仅用系统的组成部分的数量来简单衡量一下细胞工厂的复杂度。
一个典型的制造业的产品,汽车,大概有3万个零件组成;人类建造的最大的单体产品,航空母舰,最大的尼米兹级,由大约10亿个零件组成;人类建造的城市,以纽约为例,有数百万栋建筑;麒麟990的芯片,集成了上百亿的晶体管;而生命的复杂度远远超过这些人造的这些产品,人体是由大约37.2万亿细胞组成,每一个细胞在一个周期要生产4200万蛋白质。
如果来估算一下,单个细胞的复杂程度,可以媲美人类所打造的从芯片到整个物联网、互联网的整体复杂程度。
我们来研究一下这个复杂的工厂是如何有条不紊的运作的。这还只是我们科学家的想象。视频来自SIGGRAPH上由耶鲁大学David Bolinsky、哈佛大学分子与细胞生物学部制作。
看完这个视频,我只想对自己说,你身体里面的每一个细胞都这么努力。你凭什么这么懒惰?
如此复杂的细胞,我们能够完全掌握它的机制吗?当然就目前的技术而言,我们能够造出航母和芯片,但是我们是造不出一粒米来的,甚至造不出来一个完整的细胞。
但并不妨碍我们从零开始一点一点的突破,日积月累,发挥愚公移山精神,我们这一代人造不出来,造一部分,再交给下一代人造更多的部分,子子孙孙,无穷尽也,总有一天我们能够把细胞的秘密完全掌握清楚。
现在科学家们如何描述细胞的复杂机制呢?已经有很多种方式在研究,从系统的角度、从局部的角度等等。从系统的角度研究的主要是系统生物学、蛋白质–蛋白质协同地图、蛋白质组学等。
下面就举几个例子来看看。
【系统生物学】
系统生物学是一个新兴领域,旨在对生物系统进行系统级的理解。随着人类基因组序列计划和其他分子生物学计划的进展,积累了对生物系统分子性质的深入了解,我们现在正处于认真研究以分子级理解为基础的系统级理解的可能性的阶段。与关注分子(例如核苷酸序列和蛋白质)的分子生物学不同,系统生物学关注由分子成分组成的系统。
分子网络模拟软件Cell Designer由位于日本东京的系统生物学研究所(SBI) 开发。采用系统生物学标记语言SBML(Systems Biology Markup Language)。SBML是机器可读的、基于XML的标注语言,用于描述生化反应等网络的计算模型。SBML可以描述代谢网络、细胞信号通路、调节网络、以及在系统生物学研究范畴中的其它系统。
我们来参观一下采用Cell Designer表达的样例。
【发病机制常见分子网络】
Host-Pathogen Map Initiative 的任务是了解宿主细胞如何对侵入性微生物做出反应,并确定病原体阻碍自然免疫的机制。HPMI 将应用系统方法来全面识别构成发病机制的常见分子网络,并将使用这些图谱作为新疗法的关键资源。
我们来参观一下HPMI的表达示例(包括HIV、Ebola埃博拉等的分子网络机制):
【蛋白质连接图】
描述细胞中蛋白质与蛋白质及其它大分子的互动。人体作为一个单一的生物体运作和生长,因为数以万亿计的相互作用帮助各种细胞通过其表面或细胞内部的不同分子相互识别和做出反应。
Liji Thomas 博士2020 年 4 月《自然》杂志绘制 17,500 种人类蛋白质之间的成对相互作用图。
这份详细的地图历时近十年才完成,是一个由来自多个不同国家的80 多名研究人员组成的庞大团队辛勤劳动的成果。包括美国、加拿大、比利时、西班牙、法国和以色列等。被称为人类参考相互作用组(HuRI) 图,它详细说明了8,275 种人类蛋白质相互作用的近52,570 种方式。
【细胞协同图】
借助于3DEXPERIENCE平台上的BIOVIA Biosystems Design,达索系统的科学家们利用数字化的技术来表达人类细胞协同图,逐步建立细胞的虚拟孪生。
【细胞局部数字孪生】
建立整个细胞的高仿真数字孪生目前还不太现实,退而求其次我们可以建立细胞局部的高仿真数字孪生。
60% 的药物靶点是膜蛋白。以前,由于药物与细胞膜的复杂相互作用,准确模拟它们的行为一直是一个挑战。达索系统BIOVIA Discovery Studio 2020 提供了一种改进的显式膜模拟方法,可提高预测准确性并指导治疗研发。
最新的进展还包括蛋白质结构预测。Deep Mind和EMBL(欧洲生物信息学研究所)共同开发了AlphaFold DB。AlphaFold可根据蛋白质的氨基酸序列预测蛋白质的3D 结构,提供对人类蛋白质组和其他20 种关键生物的蛋白质结构预测的开放访问。
在接下来的几个月中,AlphaFold计划扩展数据库以涵盖所有编目蛋白质的大部分,总数超过1亿种。