高通量测序数据分析:RNA-seq

高通量测序数据分析:RNA-seq深度测序相关数据库与数据格式 SRAtoolkit 一 NCBI 和 EBI DDBJ 组成 INSDC 数据内容相同所以找 NCBI 就行

大家好,欢迎来到IT知识分享网。

本文围绕RNA-seq学习路线进行生信入门,主要内容有:

☆ RNA-seq方法原理

在这里插入图片描述
目的是要给mRNA测序,得到样本的基因表达信息。

  • llumina的Truseq RNA建库方法:

☆ RNA-seq的生物信息分析

一、深度测序数据获取

和EBI、DDBJ组成INSDC,数据内容相同所以找NCBI就行。

(一)NCBI常用数据库
(二)测序数据的下载和处理:SRA Toolkit
  1. 测序数据序列格式
    (1)FASTA:表示生物序列的文本格式,基因组和EST序列常常采用
    在这里插入图片描述
    (2)FASTQ格式:表示生物序列及其质量的文本格式
    在这里插入图片描述
    (3)ncbi SRA (Sequence Read Archive) :存储高通量测序原始数据和比对信息,把FASTQ格式文件压缩为SRA格式
    在这里插入图片描述
    绝大多数分析工具不支持SRA,需要使用配套工具包SRA Toolkit先行处理






1. SRA toolkit软件下载

在官网选择适合自己的版本下载。

#我选的ubuntu版本,其他一样,把下载链接修改一下就好了 wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.5/sratoolkit.2.10.5-ubuntu64.tar.gz 

conda install sra-tools失败,只好用wget方法或者手动下载到linux盘符下。把安装包下载后用tar xzvf 解压,再配置完PATH就安装好了。
检查配置:

prefetch -V 
2.用SRAtoolkit下载并处理NCBI数据
prefetch SRRxxxxxxx -O . #-O . 指定到当前路径,否则默认路径难找 

在这里插入图片描述
一个数据下了好久,大概1个多小时。不知道怎么优化。

(2)解压

fastq-dump SRRxxxxxxx.sra #解压后从sra文件变为fastq文件 

在这里插入图片描述

双端测序数据要加–split-files,否则解压后两端的数据不会分开,难以被其他软件读取 如果所用分析软件支持读取gzip,建议加上–gzip,将解压后的数据用gzip压缩,避免占用过多空间

fastq-dump --split-files --gzip xxx.sra 
(三)测序数据质控与过滤: fastp

默认报告文件名 fastp.json 和 fastp.html,处理多个样本时极易互相覆盖,建议改为样本名称

fastp参数设置

 # I/O options 输入输出序列文件 -i <单端-输入文件名> -o <单端-输出文件名> -I <双端-输入文件名> -O <双端-输出文件名> #过滤后的最短序列长度 -l 36 #默认15,建议设为36或40 # reporting options 报告参数 -j <the json format report file name > -h <the html format report file name > -R "report_title" 
二、序列比对:HISAT2
  • 注释格式介绍
    (1)GFF/GTF格式:一般用于基因组和基因注释
    (2)

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/140236.html

(0)
上一篇 2025-05-28 13:10
下一篇 2025-05-28 13:15

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信