(1)基因和基因组学
现代生命科学研究的早期,研究人员多从组织水平、细胞水平研究生命现象和生物过程。这些研究多是基于观察而描述生物学现象和过程,对生命现象的本质涉及较少。直到上世纪五十年代 DNA 双螺旋结构被发现,这一里程碑式的研究成果标志着生命科学研究正式迈进分子生物学时代。分子生物学是研究核酸、蛋白质等生物大分子的形态、功能、结构特征及其重要性、规律性的学科,是人类从分子水平揭开生命的奥秘,从被动适应自然界转向主动改造自然界的基础学科。作为分子生物学最重要的奠基性成果之一,“中心法则”揭示了以 DNA 序列为模板,历经转录、翻译最终实现蛋白质表达的全过程。
含有特定遗传信息的一段 DNA 序列是分子生物学研究的主要对象。在现代疾病研究领域,分子生物学最突出的成就是揭示某些疾病与特定基因的异常表达及基因突变密切相关,奠定了疾病的分子生物学基础。早期的分子生物学研究往往聚焦于单个基因或蛋白质分子。
随着研究的深入,人们逐渐认识到生命体是一个复杂的网络系统,仅研究单个生物大分子无法了解生命过程和疾病的发生机理,而只有系统性研究生物大分子才能更深入理解生命现象。
因此,组学的概念应运而生,即对生物体某一类大分子进行集体表征和定量研究,探究系统层面上生命的奥秘。1986 年提出的基因组学主要研究基因组的结构、功能、进化、表达特征以及对生物体的影响。随着基因测序技术的发展和人类基因组的解码,基因组学在过去二十年间积累了大量数据,推动了生命科学深入发展,并在疾病机理研究、疾病诊断、药物开发等方面催生了“精准医学”的概念和产业化发展。
(2)从基因组学到蛋白质组学
经过美国、英国、法国、德国、日本和中国科学家的共同协作,1990 年正式启动的“人类基因组计划”于 2005 年宣告完成,其宗旨在于测定组成人类染色体(指单倍体)中所包含的 30 亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。
虽然基因组测序工作的完成使得人类对自身基因的理解到达新的高度,但是基因仅仅决定了生物具有某个性状的潜能,而生命体最终的性状是由环境和蛋白质的相互作用而体现。紧随“人类基因组计划”的完成,科学家又进一步提出了后基因组计划,即基因功能研究,而蛋白质组学研究是后基因组计划中的一个重要组成部分。
以二代基因测序为代表的分子生物学技术已鉴定多达数亿个人类遗传变异,上述信息虽然有助于科学界加深对生命过程、疾病病理的理解,但是上述遗传变异中的绝大部分并未在蛋白质层次上获得功能上的确认。因此,绝大多数的遗传信息和表型之间仍缺乏联系的桥梁,而这正是蛋白质组学所研究的领域。
为解决上述问题,研究人员需要获得海量的蛋白质组数据,并对上述蛋白质组数据进行深入挖掘和验证,只有这样才能充分了解遗传变异和表型之间的关系,理解其生物学的意义。尽管蛋白质在生命过程中扮演了极为重要的角色,然而相比基因组的研究成熟度而言,蛋白质组目前的研究还不够深入,仍处于早期发展阶段。
(3)蛋白质组学的发展概述
蛋白质组的概念于 1994 年被正式提出,指生物体或生物样本中所有基因表达的蛋白质及其存在方式。蛋白质组学是一门致力于研究生物体在特定条件、特定时间、特定空间内全部蛋白质的种类、表达、相互作用、修饰状态的学科。在生命科学大发展的背景下,蛋白质组学的发展离不开样本分离技术和蛋白质检测技术的快速提升。
在 1994 年,澳大利亚科学家 Marc Wilkins 便提出了蛋白质组这一概念。在2001 年,国际人类蛋白质组组织正式宣告成立,进一步推动蛋白质组学研究领域的发展。
然而在蛋白质组学概念提出后的初期阶段,受到研究手段以及硬件性能的限制,研究发展十分缓慢。随着软电离质谱技术以及高分辨率高通量质谱技术的诞生和运用,高通量蛋白质组学研究开始具备必要条件。因其检测具有高灵敏度、高分辨率和高通量的优点,质谱技术得到迅速发展并成为蛋白质组学领域的核心技术,推动了人类蛋白质组计划的实施。近年来多个人类蛋白质组图谱相继发表,加深了人类对蛋白质组学的理解。
新型蛋白质翻译后修饰类型的发现和确认目前只能依赖于基于生物质谱的蛋白质组分析方法。随着蛋白质翻译后修饰的大规模发现和检测分析技术的进一步发展,在组学水平纳入对蛋白质翻译后修饰的分析逐渐成为趋势。对于多种修饰类型的研究有助于加深对病理、药理的理解,为生物医药企业进行药物筛选和药效评估打下了良好基础。
(4)蛋白质质谱仪及其分类
蛋白质质谱分析是将样品中蛋白质进行离子化后,通过测定蛋白质的分子离子及碎片的质量数,确定样品的相对分子质量的方法。目标蛋白质分子经过不同电离方式带电后,样品分子失去电子或被打碎,变为带正电荷的分子离子和碎片离子,按照质量(m)和电荷(z)的比值大小(即质荷比大小)依次排列并被记录下来,由此生成的谱图被称为质谱图。
基于质谱图,研究者可以获得样本中蛋白质的组成、含量变化以及蛋白质序列等信息。作为分析蛋白质的核心仪器,蛋白质质谱仪的基本组成结构是相似的,都包括进样系统、离子源、质量分析器、检测器和真空系统,其中离子源、质量分析器和检测器是核心部分。
通过将液相色谱和蛋白质质谱仪的进样系统进行串联,可以降低分析样本中蛋白质的复杂程度,极大提高蛋白质质谱仪的性能,使得混合物的蛋白质组分析成为可能,是目前进行蛋白质组学研究的主要方法。
1)进样系统
进样系统的作用是把处于常压状态的样品传输到处于真空状态的离子源处,按照不同的样品导入方法可以分为直接进样法和间接进样法。蛋白质质谱分析普遍采用液相色谱-质谱联用分析技术,将色谱柱分离的组分导入质谱,可以使混合物的直接质谱分析成为可能,极大地拓宽了质谱仪的使用范围。液相色谱是一种针对成分复杂的混合物而开发的有效分离方法。
利用不同物质的物理化学特性差异,选择合适的分离介质,将高度复杂的混合物分离成为若干个成分相对简单的组分,从而实现混合物中各物质的分离。以蛋白质组分析为例,待分析样本中通常可以提取到上万种总蛋白,经过酶的消化处理后得到小分子肽段种类超过数十万,需要先经过液相色谱被分离为数百个组分,大大降低了样本的复杂程度,随后依次进入质谱仪进行分析。
减少在单一时间点进入质谱的肽段数目,尽量避免共洗脱肽段对质谱解析的不利影响,从而实现在一个时间段内持续分析样本中的肽段,充分发挥质谱的分析能力,提高蛋白质的鉴定深度和数据可靠性。
2)离子源
离子源的主要功能是为样本离子化提供能量,通过物理化学方法使待检测物电离后形成具有不同质荷比的离子束。在质谱仪发展的早期阶段,离子源多采用高能量电子轰击而使样本带电,这种离子化方法因而被称之为“硬”电离。
“硬”电离产生的带电离子往往具有较高的能量而不稳定,会进一步断裂并产生众多碎片,很容易破坏有机分子中的共价键,因此不太适合用于蛋白质分析。ESI(电喷雾电离)以及 MALDI(基质辅助激光脱附电离)等“软”电离方法的发明问世使质谱技术应用于生物大分子的高通量质谱分析成为可能,促进了质谱技术在生物学和临床医学研究中的应用和推广。
许多科学家因为开发新型离子源而获得了诺贝尔奖,例如发明 MALDI 的岛津公司田中耕一和发明 ESI 的 John B. Fenn 共同获得 2002 年诺贝尔化学奖。
①ESI 的工作原理:含有待分析物质的溶液进入电喷雾探头,通过高电压、高热的毛细管,随着溶剂蒸发,液滴不断雾化而最后生成带电离子。ESI 离子源可以和液相色谱连用,适合同时鉴定数千蛋白质。
②MALDI 的工作原理:将样品和显著吸收特定光谱的基质分子混合,经过脉冲激光束照射后,样品分子从样品板上脱附而电离。MALDI 离子源不适合分析蛋白混合物,但是适合较纯的样本,可以实现快速分析。
3)质量分析器
生物样品中蛋白质分子经离子源电离后进入质谱仪,并经电场加速后,形成高速离子束,进入质量分析器。质量分析器依照带电离子的质荷比而对其分离并记录各种离子的质量数和丰度,用于后续定性与定量分析。质量分析器有两个主要的技术参数:质量范围和分辨率。质量范围决定了能检测到的离子的范围;分辨率决定了质谱仪获得数据的精密度和对谱图有效解析的能力。现在蛋白质组分析中最常用的四类质量分析器包括离子阱(ion trap)、四极杆(quadrupole)、飞行时间(TOF)以及轨道阱(orbitrap)。每种质量分析器各具特色。
目前蛋白质组学主流在蛋白质组分析时,多将上述质量分析器进行串联以发挥其各自的优点,从而达到协同增效的作用,主要包括以下两类:
①四极杆-轨道阱联用质谱仪,以赛默飞的 Orbitrap 系列质谱仪为代表,常见型号包括 Orbitrap ID-X™ Tribrid™ 质谱仪、Orbitrap Exploris™ 480 质谱仪以及Orbitrap Eclipse™ Tribrid™ 质谱仪等。
②四极杆-飞行时间联用质谱仪,以布鲁克的 tims-TOF 系列质谱仪为代表,常见型号包括 tims-TOF Pro 2 质谱仪、tims-TOF HT 质谱仪等。
4)检测器
经由质量分析器筛选后的目标离子最终到达检测器,检测器的作用是将得到的目标离子转化为电子,再将电子数量通过多个电极呈指数倍数放大,并将相关信息进行记录。质谱仪检测器的种类很多,不同类型的质量分析器会配备不同的检测器,常用的包括电子倍增器、光电倍增器、微通道板检测器等。
5)数据处理系统
所有的质谱仪都需要一台计算机来配合使用:一是用于仪器的控制,二是作为数据的接收、存储和处理,将质荷比信息通过数据分析最终转化为对应蛋白质种类、含量变化等信息。
(5)蛋白质组学的研究方法
目前蛋白质组学的研究方法主要分为两类:以亲和试剂为基础的高通量蛋白检测和以质谱为核心的蛋白质组分析。
1)以亲和试剂为基础的高通量蛋白检测
以亲和试剂为基础的高通量蛋白质检测主要依靠抗体、核酸适配体等亲和试剂对目标蛋白质进行检测和定量。在此基础上行业发展出反向蛋白质阵列(RPPA)、临近延伸分析(PEA)、适配体扫描等蛋白质组检测技术。上述蛋白质组检测技术方法的核心要素依赖于亲和试剂的种类以及质量,亲和试剂的质量体现为对目标蛋白质识别的特异性和亲和力。由于目前亲和试剂的种类数量有限,以亲和试剂为基础的高通量蛋白质检测属于靶向式分析,即可分析的蛋白质范围受限于市场上可供选择的亲和试剂,无法检测到范围之外的蛋白质分子。
2)以生物质谱为核心的蛋白质组分析
以生物质谱为核心的蛋白质组分析兼具靶向式分析和发现式分析的能力,因此被广泛的应用到各类蛋白质组学研究中。常见的以生物质谱仪为基础的蛋白质组分析为“自下而上分析”。
蛋白质的分析、鉴定建立在这样一个基本事实上:大多数含有 6 个氨基酸以上蛋白质多肽序列是唯一的。因此对于较长肽段的鉴定,可以通过肽段序列来匹配蛋白序列数据库从而确定该肽段所对应的蛋白质。常见的蛋白质组学的分析流程:
①蛋白质提取:从生物样本中提取、纯化蛋白质,去除 DNA、碳水化合物、脂类等生物大分子对质谱鉴定的干扰;
②蛋白质酶解:利用特定的酶,将蛋白质大分子降解为分子量较小的肽段,利于后续质谱分析;
③液相色谱分离肽段:生物样本中蛋白质经酶切后,生成种类众多的小分子肽段,通过液相色谱技术将其分离为众多组分,降低样本的复杂程度,有利于后续的质谱分析;
④质谱分析:液相色谱分离出的肽段,进入离子源后,成为带电的肽段离子,质量分析器记录其检测范围中的带电肽段离子的质荷比(分子量/所带电荷数)及其信号强度的信息(一级谱 MS1)。随后通常选择信号强度较高的肽段进行裂解,质谱仪记录肽段裂解后碎片的质荷比和信号强度的信息(二级谱 MS/MS);
⑤数据分析:通过专业的质谱软件分析一级谱以及二级谱的信息,和数据库中的理论肽段库信息进行比对,从而获取肽段的序列以及含量信息。此外可以对不同样本中蛋白质含量变化进行分析,根据蛋白质含量的数据变化,进一步研究不同样本中相似蛋白质的表达模式以及异常生物过程等。
(6)蛋白质组学的研究内容
蛋白质组学的研究内容包括定性研究以及定量研究,具体内容总结归纳如下表所示:
蛋白质表达谱;主要目标是对蛋白质混合物进行分离、鉴定及图谱化,展现待测样品中的蛋白质的表达全貌(全谱)或者样品间蛋白质的表达差异,即蛋白质表达量在不同时间、不同条件下的动态变化
蛋白质修饰谱;翻译后修饰是蛋白质在翻译后的化学修饰,可以调节蛋白质的活性、定位、结构以及蛋白质与大分子间的相互作用。蛋白质修饰组分析用于鉴定翻译后修饰的蛋白质,及其修饰位点,确定修饰的功能以及在细胞功能网络中修饰蛋白的相互作用
蛋白质互作谱;蛋白质互作谱的测定是通过分离蛋白质复合物,系统地研究蛋白质间的相互作用,以建立细胞内信号转导通路的复杂网络图并揭示其功能线索,是蛋白质组研究中的重要环节,也是沟通生物大分子水平到细胞水平的桥梁研究
空间蛋白质组学;蛋白质亚细胞定位受到严格控制,许多蛋白质响应刺激,扰动或疾病而改变定位。基于高通量成像、细胞器分离技术、亲和富集和质谱分析技术,空间蛋白质组学针对细胞内蛋白质的亚细胞定位来研究不同细胞环境对蛋白质功能的影响,有助于更全面了解细胞复杂性
化学蛋白质组学;化学蛋白质组学主要是利用具有生物活性的小分子作为化学分子探针,探测与蛋白质组的相互作用,从而揭示小分子与靶标蛋白结合。其中应用最广的是基于活性的蛋白质组分析技术(activity-based protein profiling, ABPP),利用活性探针共价连接位于靶点蛋白活性中心的某个氨基酸位点,再利用探针中的报告基团进行富集,用质谱分析对富集到的蛋白进行鉴定
药物蛋白质组学;药物蛋白质组学是指在药物干预前后对细胞、组织或器官的蛋白质组进行分析,结合药物敏感数据,鉴定出可以预测药物疗效的蛋白质标签。在精准医学高速发展的大背景下,药物蛋白质组学对于合理用药和个性化医疗有关键的驱动作用
单细胞蛋白质组学;临床样本,特别是肿瘤样本的异质性是组学分析的主要瓶颈之一,按照不同的细胞亚型将临床样本进行细分是精准医学的必然方向。近年来,单细胞蛋白质组学已经成为蛋白质组学最热门的方向之一,在 103 到 104 数量级的细胞水平上对蛋白质组进行有效分析,加深对不同种类细胞之间相互作用的理解
(7)蛋白质组学的数据分析方法
根据数据采集方式的不同,可以将蛋白质组学的分析方法进一步细分为数据依赖性分析(DDA)、靶向蛋白质组分析(PRM)和非数据依赖性分析(DIA)。依托上述蛋白质组分析方法将产生丰富的原始质谱数据。生物信息学的核心任务是基于原始质谱数据进行蛋白质或蛋白质翻译后修饰的定性定量分析,找出其中能够解释生物现象或关联临床表型的关键分子信息。依据所分析项目的不同需求,可分为标准化生物信息分析与个性化数据挖掘等不同分析方法,具体如下:
1)标准化的生物学信息分析
标准化的生物学信息分析可以对队列样本所鉴定的蛋白质表达信号进行差异化分析和不同层次的功能富集分析,包括显著差异表达蛋白质集合在某些功能组和通路上的富集信息。随着分子生物学以及计算机科学的快速交叉发展,标准化分析流程也可拓展至分子分型、蛋白质互作网络、疾病表型关联、修饰位点分析等细分算法。
2)个性化数据挖掘
对于更加复杂的多组学数据或临床大队列项目,生物信息学分析可以根据数据挖掘的需要进行个性化建模,包括宏蛋白质组分析、糖基化蛋白质组分析与磷酸激酶分析、对蛋白质基因组学数据的一致性聚类分析(即分析出在不同的基因突变的情况下蛋白质组的差异表达)、基于药物临床试验数据的生存分析(即筛选可以区分不同生存或疾病发展曲线的关键蛋白标志物)等。更进一步,随着组学数据的不断积累与人工智能领域的快速发展,以机器学习(包含深度学习)为代表的先进算法也在蛋白质组学数据分析中逐渐发挥出其应用优势。
例如基于高通量高质量质谱谱图及肽段的氨基酸序列数据训练的神经网络,通过对提取的图谱的定性定量特征进行预测,可以提高搜索数据库的灵敏度和准确度。另外,依托人工智能中各类机器学习方法对多组学数据(基因、转录、蛋白、代谢及医学影像数据等)及对应表型数据(如生存期、药效、疾病状态等)的充分训练、验证与测试,针对多层次的信息或分子可以有效提取和筛选,最终将更有效率和准确地区分实验组与对照组或不同的子型人群,并鉴定其中关键生物标志物集合以实现精准医学的各项应用需求。