数据营销
当前位置:首页 > 数据营销

网络营销工作总结,从生物大数据到知识发现:十年的进展与展望

时间:2020/2/13 19:21:00   作者:www.tmyxch.com   来源:网络   阅读:47   评论:0
内容摘要:15年前的2001年2月15日,《自然》杂志发表了一篇长达62页的论文《人类基因组的初步测序与分析》,标志着历时十多年、耗资约27亿美元的人类基因组计划初步完成,人类生命科学的探索进入了一个新时代。在人类基因组计划开始之初,有人怀疑花费如此巨大的人力物力获取人类基因组数据是否有价...

15年前的2001年2月15日,《自然》杂志发表了一篇长达62页的论文《人类基因组的初步测序与分析》,标志着历时十多年、耗资约27亿美元的人类基因组计划初步完成,人类生命科学的探索进入了一个新时代。在人类基因组计划开始之初,有人怀疑花费如此巨大的人力物力获取人类基因组数据是否有价值,但这种怀疑很快被打破。以DNA测序、基因芯片、生物信息学算法等为代表的大规模生物数据采集与处理技术迅速步入生命科学的核心阶段,数据成为生命科学基础资源的研究热点。2005年7月,《科学》杂志在创刊125周年之际发表了125篇最具挑战性的科学问题。其中一个重要的问题是,在海量的生物数据中,大图片将如何出现。指出基于海量生物数据的系统生物学研究是全面了解复杂生命系统的必由之路,对生物医学尤其是疾病危险因素的认识具有重要意义。然而,这种数学、工程和生物学交叉性很强的研究,以及计算能力的迅速提高,是否能带来对生命工作机制的深入、高度结构化和全面的理解,目前还不得而知。又过了十年。近十年来,生物数据采集与分析技术取得了长足的进步。我们有必要重新审视最初的挑战,回顾人类为利用数据来理解生命奥秘而采取的步骤。

近十年来,新一代测序技术的快速发展和一系列的应用是生物医药领域的一个显著发展。21世纪初,全球数十个实验室在人类基因组计划上花费了十多年的时间,耗资近30亿美元。2005年以来,以大规模并行测序为特征的第二代测序技术发展迅速,以单分子实时测序为特征的第三代测序技术也迅速崛起。到目前为止,许多测序机构已经能够以不到1000美元的成本完成一个人的全基因组测序。有人大胆预测,测序一个人基因组的成本将降到100美元以下。

新一代测序技术的应用远不止基因组DNA序列的测序,而是通过其他技术的结合,深入到分子生物学和系统生物学的各个方面。RNA反转录测序已迅速成为继基因芯片之后研究转录组的主要技术手段,为研究基因表达、基因选择性剪接和非编码基因提供了有效手段。通过芯片SEQ技术与染色质免疫沉淀技术相结合,可以获得基因组中转录因子和其他DNA结合蛋白的DNA结合位点,为复杂的基因转录调控系统的解释开辟了重要的空白;获得各种组蛋白修饰的全基因组图谱,揭示组蛋白修饰对基因转录、组织特异性表达等调控效应的联合调节。通过捕获RNA结合蛋白,clip-SEQ技术可以获得RNA转录后调控因子与RNA的结合位点,准确揭示RNA的调控。亚硫酸氢钠SEQ可高分辨率检测全基因组DNA甲基化。利用染色质构象捕获技术(3C,Hi-C)及其延伸技术可以获得基因组的三维结构和长程相互作用。其中许多技术的发展是为了能够观察单个细胞或少量细胞。现有的单细胞DNA测序、单细胞RNA测序、单细胞基因组测序和RNA联合测序等单细胞测序技术,为精细研网络营销工作总结究干细胞发育分化、癌症发展等重要过程中的细胞异质性提供了有效的研究手段。同时,以实时单分子测序为特征的第三代测序技术也在不断发展和成熟。通过第三代测序技术,不仅可以直接读取很长的DNA或RNA片段,还可以通过实时合成DNA过程中的动态数据推动DNA修饰,为同时读取基因组序列和表观遗传修饰信息开辟了新途径。

随着这些新技术的发展,各种基因组学、表观基因组学、转录组学和微生物群落宏基因组学的数据迅速增加。2008年启动的千年人类基因组计划已于2015年完成。在最新的数据中,它包含了来自26个物种的2504个个体的全基因组数据。世界各国已经启动了一系列针对数十万至数百万人的全基因组测序项目。在NCBI用于存储开放测序数据的SRA数据库中,到2016年,数据总量已达到5×1015个碱基的数量级。

随着测序流量的增加和测序成本的降低,外显子组测序技术和全基因组测序技术在人类疾病遗传因素研究中得到了广泛的应用。外显子组测序通过捕获和富集外显子区DNA,然后进行高通量测序,检测蛋白质编码区的遗传变异。它具有成本相对较低、灵敏度高、可解释性强等优点。它不仅是鉴定罕见病遗传因素的最有效策略,而且成功地应用于复杂病易感基因的研究和临床诊断。基于外显子组测序技术,已成功检测到多种致病基因变异,导致米勒综合征、儿童孤独症、肌萎缩性侧索硬化症(渐冻人)、精神分裂症、心血管疾病、糖尿病、关节炎等疾病。

除了科学研究和应用外,外显子组测序和全基因组测序作为基因检测的重要手段,近两年来已被应用于基因检测,以辅助临床诊断。

近年来,随着基因组学研究的快速发展,基因编辑技术取得了许多重要突破。人们对基因组信息的研究开始从只读模式向读写模式转变。以tale和CRISPR/CAS为代表的基因组编辑方法极大地改变了人们研究功能基因组尤其是哺乳动物基因功能的方式。例如,CRISPR系统首先被发现是细菌抵抗外来噬菌体病毒的获得性免疫机制。改进的CRISPR/CAS系统在人工合成的特异性sgRNA的指导下,通过RNA与DNA的碱基配对切割基因组DNA,导致靶基因功能失活或外源基因序列插入特定位置。利用这项技术,可以通过编辑胚胎细胞的基因组来修改动物甚至人类的基因组。因此,这项技术受到了科学家和全社会的广泛关注。但事实上,基因编辑技术得到了广泛的应用。例如,人们将此方法与DNA芯片合成和测序技术相结合,开发出一种功能强大的高通量基因功能筛选方法。其基本思想是设计多个能敲除每个基因的sgRNA序列。利用寡核苷酸序列并行合成技术,在微阵列上合成了10万多个不同的DNA序列。每个DNA序列编码一个特定的sgRNA。克隆并构建了携带这些sgRNA序列的质粒库。靶细胞被慢病毒感染。通过调节病毒感染的效率,每个感染细胞平均只能携带一个sgRNA编码序列,即在该细胞中只敲除该sgRNA的相应基因。这样,通过对细胞群中包含的sgRNA编码序列的高通量测序,我们就可以知道该特定基因敲除的细胞在细胞群中所占的比例。通过比较不同药物携带的sgRNA编码序列在细胞群中所占的比例,通过统计模型计算,我们可以知道哪些类型的基因敲除细胞具有相对快(慢)的增殖速率,从而推测这些基因在这类药物的作用下促进(抑制)细胞增殖。该方法可用于特定因素或药物作用下靶基因和功能基因的高通量筛选,大大提高了人们对药物靶基因的筛选能力。

癌症是对人类健康的一大威胁。最新统计显示,中国每年新增癌症病例和死亡人数将分别达到430万和280万。近年来,基于组织化学技术的生物医学大数据极大地推动了肿瘤分子分型、分子标记和药物靶点的研究进展,为揭示肿瘤的分子机制提供了许多新线索。在临床实践中,肿瘤的诊断和治疗主要是在器官和组织层面。随着肿瘤生物学的发展,人们认识到为了更好地诊断和治疗癌症,必须深入细胞、生物分子等多个层面来了解其生物学机制。以癌症基因组Altas(TCGA)为代表的大规模癌症基因组学研究,希望用组织学技术系统地描述多种癌症的分子变异。目前,TCGA已完成对约30种癌症的15000个临床样本的多组分检测,并进行了乳腺癌、结直肠癌、肺癌等常见癌症疾病分子变异图谱(http://cancer.nih.gov/)的系统描述。癌症基因组学的研究还有一个更大的目标,那就是从分子变异的角度对癌症进行重新分类和定义。

肿瘤分子生物学和基因组学研究表明,不同组织来源的肿瘤具有许多共同的生物学基础,如持续增殖、基因组不稳定、免疫逃逸等。提出了泛癌的概念:寻找泛癌的分子变异,可以更好地找到驱动肿瘤发生发展的共同生物学机制,也可以对不同类型的肿瘤提供更系统的认识;从信息的角度,提出了泛癌的分子数据不同类型的癌症共同作用可以显著提高样本数,有利于发现低频分子变异的驱动作用。

基因组学对癌症的临床实践也有重要贡献。近年来,肿瘤靶向药物的迅速发展,使得基于分子变异的肿瘤精确分类成为当前精确医学的核心。例如,针对braf-v600e突变的靶向药物对结肠癌、黑色素瘤等多种癌症类型的突变携带者有很好的作用;近年来,星型药物在免疫检测点作用于PD1/PD-L1通路的抑制剂,对多种新抗原丰富的癌症有显著的抑制作用。一项基于大规模组织学数据的计算分析表明,通过临床试验的靶向药物的潜在受益者可以通过分子分型从5.9%扩大到40.2%。除了靶向药物外,基因组数据对常用化疗药物也有一定的预测作用。

人体的健康不仅取决于人体细胞和基因,而且在人体的许多部位和体表都有大量的微生物。它们是与人体健康密切相关的不可缺少的伙伴,甚至是人体的组成部分。据估计,这些微生物细胞的总数可能比人类细胞总数高出一个数量级,它们所含的遗传物质总量比人类基因组高出两到三个数量级。从这个意义上说,人体不是单一物种的独立个体,而是由人类和许多共生微生物组成的复杂生态系统。

人体各部位的微生物是一个复杂的群落,通常被称为“微生物群”或“微生物群”。一个微生物群落通常包含数百种微生物,其中大多数难以分离和培养。最有效的研究方法是对所有遗传物质的混合DNA进行测序,称为亚基因组测序或亚基因组测序。有人把这个系统中微生物遗传信息的总和称为“第二基因组”。近十年来,随着第二代高通量测序技术的快速发展,宏基因组测序已成为微生物组学研究的主流方法,产生了大量的数据。在此基础上,人们发现了微生物组分与宿主健康状况之间的许多关系,如肥胖与营养性疾病、微生物组分、口腔疾病、消化系统疾病、糖尿病、癌症甚至神经发育疾病的关系以及微生物组分之间的关系等。同时,人们也开始研究微生物群与人体代谢系统、免疫系统的相互作用机制,并试图改变微生物群的组成,作为干预某些疾病的手段。

为了了解微生物群的基本规律,许多国家和地区都制定了许多科学计划,系统地从人体多个部位获取微生物群数据,试图建立人体微生物群的基本图谱。在欧洲EBI亚基因组数据库中,包括了来自全球632个微生物组项目的10418个亚基因组和1025个亚转录组数据样本。这些进展充分说明微生物群在人体健康中的重要作用,同时也揭示了宏基因组数据的高复杂性和现有数据分析方法的局限性和不足之处。2015年底,《科学》和《自然》分别发表评论,呼吁对微生物及其信息学进行更加系统和深入的研究。2016年5月,美国启动了“国家微生物群计划”,对人体、植物、土壤、海洋和大气中的微生物群进行大规模深入研究(https://www.whitehouse.gov/the-press-office/2016/05/12/fact-sheet-announcing-national-microbiome initiative)。

以高通量测序技术为代表的基因组大数据给生物学研究带来了巨大的变化。随着这些技术的进步,将推动新的衍生技术从不同角度、不同层次分析基因表达调控过程。例如,单分子测序和单细胞检测等新技术将使我们能够在前所未有的精细尺度上分析生命过程。随着这些实验费用的迅速下降,今后除了获取更多样本外,另一个重点是获取更多不同时间尺度的观测数据,如跟踪疾病发生发展的全过程。这将为探索复杂生物学现象的全貌和疾病的发病机制提供重要依据。

然而,我们也必须意识到这些数据蕴含着巨大的宝藏,但要有效挖掘这些宝藏,还需要大量艰苦的生物信息学和系统生物学理论、方法和技术研究。人们可以以越来越低的成本获得排序数据,但数据分析的任务越来越艰巨,充满挑战。数据本身不能产生知识。只有对数据进行有效的处理、分析和挖掘,才能发挥数据的价值。令人欣慰的是,近十年来,随着组织学数据的快速发展,以机器学习为代表的人工智能技术和信息科学领域的大数据计算与存储技术取得了长足的进步,有效地结合了统计学,机器学习和大数据计算结合了生物组织学的大数据,为我们探索生命的奥秘开辟了广阔的天地

需要指出的是,以基因组学数据为代表的生物基因组学大数据只是生命大数据的一部分,还有代谢组学、蛋白质组学等许多其他类型的生物大数据,近年来取得了重要进展。从人类医学健康的角度来看,越来越多的常见数据是各种表型、生理和病理数据。随着信息技术在日常医疗卫生领域的日益普及,以电子病历、医学图像数据和各种可穿戴设备记录的日常生理数据为基础的医疗大数据包含了更多的信息。但是,这些信息的收集是在日常的医疗实践和体检过程中积累起来的,存在结构化程度低、噪音大、不同医院甚至不同科室之间技术联系不好等问题,与实验设计的数据相比,数据的来源和分布更加自发和随机。对数据处理和分析提出了新的要求。实现医院内部信息管理系统的互联互通和数据集成,进而从地区乃至全国政府层面深入挖掘海量医院管理数据,在医疗政策领域显示出迫切的需求和巨大的潜在价值,医疗保险管理等,通过大数据技术,我们可以整合各种生物信息学大数据,以及临床表型、影像学、医院管理、公共卫生等医学大数据,然后运用统计分析、自然语言处理、图像分析、深度学习和模式识别等技术,智能搜索推荐等人工智能技术对这些数据进行深度挖掘,将使生物大数据和医学大数据早日做出有利于人们健康的知识大发现,将成为人类医疗卫生事业发展的必由之路。


标签:网络 营销 工作 总结 生物 

特别提醒:本网站内容转载自其他媒体,目的是传递更多信息,但并不意味着本网站同意其观点。其原创性及文中所述文字内容均未经本网站确认。我们对本条款及其全部或部分内容的真实性、完整性和及时性不作任何保证或承诺。请自行核实相关内容。本网站不承担侵权的直接责任和连带责任。如果本网站的任何内容侵犯您的权益,请及时联系,本网站将在24小时内处理完毕。

网友转发请注明出处(http://www.tmyxch.com),谢谢合作!

本站关键词:网络营销策划,网络营销方案,网络营销培训,网络营销课程,网络营销是什么,网络营销技巧,网络营销软件,网络营销推广,网络营销案例,网络营销公司

本类更新

本类推荐

本类排行