1.拷贝数变异CNV的码分生物信息学分析(二)
拷贝数变异CNV的生物信息学分析(二)
Control-FREEC是一种用于检测拷贝数变异和等位基因不平衡的生物信息学工具,最初由巴黎居里研究所生物信息学实验室开发。码分它适用于全基因组测序、码分全外显子测序和目标区域捕获测序。码分分析全基因组数据时,码分无需对照样本;而进行全外显子组或靶向测序时,码分新西兰离中国源码必须提供对照样本。码分Control-FREEC能够自动计算、码分归一化、码分片段拷贝数和等位基因频率(BAF),码分并根据这些信息呼叫拷贝数变异和等位基因丢失(LOH)。码分全基因组测序数据分析时,码分程序还可能利用GEM创建的码分最新电影app源码映射性数据。CNA检测输入格式包括对齐的码分单端、成对或配对数据的码分SAM、BAM、SAMtools堆格式,且支持.gz压缩文件。CNA+LOH检测输入有两选项:提供SAMtools堆格式的彩票全种源码对齐读取文件,文件可通过gzip压缩;或提供BAM文件与“makePileup”和“fastfile”选项,用于识别增益、损失和LOH区域、归一化拷贝数和BAF。
输出文件包括:扩增、缺失和LOH区域、微擎抽奖源码归一化拷贝数和BAF文件。Control-FREEC提供了一系列使用指南,包括安装、测试数据、配置文件创建、输出文件阅读、影视站分销源码R脚本计算预测显著性、输出可视化、格式转换以及生成GC含量概览等。软件包含三个子目录:data目录保存配置文件模板,包含WGS和WES模板;script目录包含常用脚本;src目录为软件源代码,其中freec可执行文件位于src目录下。
为了使用Control-FREEC,需要下载并安装miniconda,然后在新建的conda环境中进行安装。在新建的freec文件目录中,有三个主要目录:data目录用于配置文件模板,scripts目录包含常用脚本,src目录包含源代码和freec可执行文件。在使用Control-FREEC之前,需要先安装R、samtools、bedtools和sambamba等软件,或通过conda安装。mappability跟踪文件可用于增加映射信息。此外,如果数据覆盖度高且希望检测等位基因状态,则需要下载SNP文件并将其转换为pileup格式。
最后,下载示例数据集以进行测试。例如,可以从指定网址获取HCC和HCC-BL的数据,或获取用于测试LOH预测的未公开的肿瘤染色体数据。