docx文档 基于主动分析的基因芯片图像网格定位

专业资料 > 经营营销 > 销售/营销 > 文档预览
12 页 0 下载 117 浏览 0 评论 0 收藏 3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
基于主动分析的基因芯片图像网格定位 第 1 页 基于主动分析的基因芯片图像网格定位 第 2 页 基于主动分析的基因芯片图像网格定位 第 3 页 基于主动分析的基因芯片图像网格定位 第 4 页 基于主动分析的基因芯片图像网格定位 第 5 页
下载文档到电脑,方便使用
还有 7 页可预览,继续阅读

基于主动分析的基因芯片图像网格定位内容摘要:

doi:10.6043/j.issn.0438-0479.201511006 基于主动分析的基因芯片图像网格定位 李铁军 1,孙跃 1,邵桂芳 2,*1,上官亚力 2,吴顺祥 2 (1.重庆大学自动化学院,重庆 400044;2.厦门大学自动化系,福建 厦门 361005) 摘要:基因芯片图像处理对解读成千上万个基因点的杂交信息,建立可信疾病预测具有重 要的意义,其分析的可靠性和准确性将直接影响到芯片的推广与使用。而基因芯片制备过 程复杂,图像种类多样,单一的网格定位方法无法满足各种类型基因芯片图像处理的需求 本文在分析现有网格定位方法的基础上,基于“仿人”思想,将认知科学的主动分析引入到 图像处理中,提出通过自主感知来明确基因芯片图像处理过程中不确定性因素的存在及其 程度,并采取对应方法来降低或消除不确定因素的影响。最后通过 6 个数据集上的 384 幅 网格图像实验,证明本文提出的自动对比度增强和自适应网格定位调整方法具有无需参数 输入和人工干预,能较大程度提供网格定位准确率。 关键词:基因芯片,图像处理,网格定位,形态学,Otsu 中图分类号:TP391.41 文献标识码:A 重大疾病(如癌症)的预防与控制是 因组时代最重要的基因检测工具之一,能 世界各国面临的重大科技难题[1]。例如,全 够有效地应用于基因测序、生物学研究和 球每年大约有 100 万新发大肠癌病例,至 疾病预防与控制[3]。包括 Science 和 Nature 少 50 万患者死亡,而中国大肠癌发病率以 在内的国际权威刊物近年来发表了大量应 4.71%逐年递增 [2]。传统的仪器检测筛查方 用基因芯片进行癌症预防与控制的研究成 法具有介入性、单疾病、费用高和周期长 果。基因芯片分析包含样本采集、芯片制 等诸多缺点。20 世纪 90 年代发展来的基 备、扫描成像、图像处理、数据分析和生 因芯片( cDNA Microarray)以高通量、 物学应用等步骤[4],如图 1 所示。 微型化、自动化及低成本等优点成为后基 1 收稿日期:2015-11-04 录用日期:2016-06-28 基金项目:国家自然科学基金资助项目(61403318),福建省自然科学基金项目(2013J01255) *通信作者:gfshao@xmu.edu.cn 图 1 基因芯片分析流程图 Fig.1 The flowchart for cDNA microarray analysis 基因芯片的图像处理是其中提取基因表 40×40 个或 14×18 个基因点不等),即输 达水平信息的关键步骤,其准确性和可靠 入是两幅基因芯片图像(对应荧光标记 性将直接影响基因表达谱数据的有效性, Cy3 和 Cy5),输出是芯片里每一个基因 并最终决定生物学分析和病理分析的成败。 点的表达值,一次输出结果可能包含 因此,基因芯片图像处理对解读成千上万 23,232 个或 12,096 个基因点不等(与不同 个基因点的杂交信息,建立可信疾病预测 芯片制备公司相关)。由于基因芯片图像 具有重要的意义,其分析的可靠性和准确 处理过程存在众多不确定性,如芯片制作 性将直接影响到芯片的推广与使用。 过程复杂(会带来操作失误或仪器误差) , 基因芯片图像处理包括图像增强、网格 图像质量多变(会出现噪声等级不同、基 定位、基因点分割和信息点提取四个步骤 因点形态各异和基因点分布疏密不一), [5] 图像分析方法多样等,对基因芯片图像处 因与其对应功能的关联,用于后续基因数 理造成巨大挑战。 ,其目的是提取基因表达谱数据,建立基 据分析。基因芯片图像处理是以整个芯片 针对网格定位问题,以完全自动化处 为单位的(每张芯片可能包含 12×4 或 4×4 理为目标,其算法经历了如下发展历程 个子网格,每个子网格又包含 22× 22 个或 (如图 2 所示): 图 2 网格定位方法发展趋势 Fig.2 Development trend of gridding methods 1) Angulo 等(2003)将二维图像处理 (2013)[14-16] 、Ahmad 等,Thamaraimanalan [17-20] 问题转换为一维信号处理,提出一种最简 等 和 Harikiran 等 (2014) 单快速的形态学投影法,但该方法容易受 (2015) [20] 考虑在算法内加入最优阈值搜索 噪声影响[5]; 功能,提出一系列具有自适应调节能力的 2) Katzer 等(2005)提出马尔科夫随 机场法,该方法需要输入网格的行列参数 [6] 、 Belean 等 完全自动处理方法。 虽然不断有各种网格定位方法涌现,但 由于基因芯片图像的复杂不确定性,导致 ; 3) 齐 飞 等 ( 2006 ) 和 Michele 每种方法都无法取得精确结果。因此,本 Ceccarelli 等(2006)通过高斯混合模型和 文在分析基因芯片图像特点的基础上,依 贝叶斯推理方式辨识参数来实现网格定位 , 据近 5 年来从事基因芯片图像处理研究的 但需要有参考模板[7,8]; 经验,分析了影响其结果的原因,并引入 4) Luis Rueda 等(2006)和 Zacharia E “仿人”思想,建立基于主动分析的网格定 等(2008)将网格定位问题转化为优化问 位方法。该方法能基于四阶矩进行图像自 题,提出分别利用爬山法和遗传算法来求 动对比度自动感知与增强,并利用 Otsu 进 解,该类方法比较耗时并且受算法初始参 行阈值的自动获取,初步实现网格定位后 , 数设置影响[9,10]; 依据结果的统计分析进行自调整。在 6 个 [11] 5) Yu Wang 等(2008) 、Bariamis 等 数据集上本文方法通过对比投影法[5]和最大 (2010) [12] 、Luis Rueda 等(2011) [13] 、 类间方差方法 [16] 的网格定位效果,证明了 Deepa J 等 、 Islam A.Fouad 等 和 邵 桂 芳 等 主动分析引入的有效性和必要性。 1. 网格定位方法 实际基因芯片图像质量各异,图 3 展示了 部分具有不同质量的子网格图像和基因点 1.1 基因芯片图像分析 实际上,我们认为基因芯片图像具有 图像。这些质量差异可以从以下三个方面 来看: 一是基因芯片层面,①分布各异,即 显著不同于其他图像处理问题的特点,决 每个芯片图像包含的子网格数不同,每个 定了其处理分析的不确定性。这些特点主 子网格包含的基因点数也不同;②分辨率 要有: 1)全局性,即关注每个基因点区域。 不同于人脸识别和目标检测等问题,由于 基因点相对均匀地分布在图像中的每一个 区域,所以整幅图像都是算法关注的焦点。 各异,即芯片图像和基因点均具有不同的 分辨率,如一幅基因芯片图像大小为 4325×11388,其基因点大概为 25×25(以 像素为单位)。 二是子网格角度,①基因点分布疏密 2)多样性,算法要同时处理多个芯片、 多个网格或多个基因点,但是不同芯片、 不同网格或不同基因点上的图像都存在各 种动态变化的特点。 3)精确性,要求结果完全准确。基因 芯片图像处理,不是根据特征去寻找图像 中的某个目标或区域,而是提取每一个基 因点上的信息,来精确地估计基因表达水 不一,有的基因点排列非常紧凑,网格定 位时容易压到基因点边缘,而有的基因点 分布很稀疏,容易受噪声影响;②噪声等 级不同,有的包含少量噪声,有的包含大 量噪声;③噪声类型也不同,如块状噪声、 彗星尾噪声等,而且噪声有些是和基因点 混在一起的,导致基因点无法分割或影响 其表达值计算;④缺失基因点比例不同; 平。 近五年的研究实践表明[16,21],造成基因 芯片图像处理结果不确定的来源虽然可能 ⑤有时会存在倾斜,整个子网格倾斜或部 分基因点区域倾斜。 三是基因点自身,①基因点形态各异, 是多方面的,但可以分为以下两个层面: 1)数据层面。即图像质量,与实验设 其基本形态可能因基因芯片制备公司的不 备、实验设计及材料等有关,如不同病症 、 同,有圆形、方形和三角形等;②即使基 不同病人群体、采用不同技术不同手段制 本形态固定,也会有峰形、火山形、半月 备的基因芯片。由于芯片制备厂商不同, 形、断裂形和环形等变化;③基因点粘连, 以及芯片制备过程中的取样、标记、杂交 有些基因点可能会连在一起,导致无法分 条件和扫描仪器等带来的误差影响,导致 割。 上述众多不确定因素可能会同时发生 在一次处理过程中,造成基因芯片图像质 低。 量动态变化,导致基因芯片图像处理精度 图 3 子网格及各类基因点示意 Fig.3 Examples of sub-grids and spots 2)方法层面。研究者采用的不同图 芯片图像处理中的不确定性,仅改进或提 像处理算法,具有局限适应性(适用于某 高局部算法的性能是不够的。提高基因芯 类图像或某种处理)等差异,难以适应基 片图像处理精确性的有效办法应该是结合 因芯片图像处理的复杂过程,增加了基因 实际问题的特点,对造成结果不确定的内 芯片图像处理的难度。基因芯片图像处理 在原因进行深入挖掘和分析,有针对性的 具有串行分级特性,即前面步骤是后面的 采取方法进行处理,即不同问题不同对待 , 基础,其误差会向后累积,使得仅采用单 实现从“被动分析”到“主动处理”的转变。 一方法来解决全局处理具有极大的挑战性。 1.2 网格定位的主动分析 同时,已有的图像处理方法在某些方面表 现出独特的优势是值得借鉴的。 与基因芯片数据的复杂性形成鲜明对比 的是,现有的图像处理方法只能针对单个 或若干个问题,尽可能地提升处理过程的 单一目标或者多个目标的准确率,而不适 用于其他问题或其他图像区域。无法满足 基因芯片图像处理的特殊要求。 我们认为,想从根本上防止或降低基因 主动分析网格定位框架如图 4 所示。 经过大量分析,我们发现基因芯片图 子网格图像 像普遍存在对比度较低现象,并且低对比 获取对比度 增强对比度 统计背 景灰度 自动对比度增强 度对网格定位影响较大。为此,我们引入 四阶矩来建立图像对比度自动感应与增强 算法 [21] 。设含有 N 个像素点的基因芯片图 网格定位 像灰度值可用 f ( x, y ) 表示,首先将二维图 调整错误分割 获取网格间距 统计网格误差方差 像信号转换为一维列信号 网格定位结果自动调整 x  f (:) ,再通过 下式得到自动增强后的图像 g ( x

本文档由 sddwt2022-04-08 19:20:48上传分享
给文档打分
您好可以输入 255 个字符
本站的域名是什么?( 答案:sciwk.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言