귀농귀촌 정보를 검색해보세요!
8. 게놈 주석 genome annotation
8.1. 서문
이 섹션에서는 유전자를 예측하고 Augustus 와 BUSCO를 사용하여 어셈블리를 평가합니다 .
주의
주석 처리 프로세스는 최대 90 분이 소요됩니다. 가능한 한 빨리 시작하십시오.
노트
때때로 To-do 섹션을 만나게됩니다 . 해답과 답을 텍스트 파일에 씁니다.
8.3. 학습 결과
튜토리얼의이 섹션을 읽고 나면 다음을 수행 할 수 있습니다.
- 주석 완성도가 정식어를 사용하여 평가되는 방법을 설명하십시오.
- 생물 정보학 도구를 사용하여 유전자 예측 수행
- 게놈 주석 소프트웨어 및 NGS 데이터 오버레이를 그래픽으로 탐색하려면 게놈보기 소프트웨어 사용
8.4. 시작하기 전에
지금까지의 디렉토리 구조가 어떻게 보이는지 보겠습니다.
cd ~/analysis
ls -1F
assembly/
data/
kraken/
mappings/
SolexaQA/
SolexaQA++
trimmed/
trimmed-fastqc/
trimmed-solexaqa/
variants/
8.5. 소프트웨어 설치하기
# activate the env
conda activate ngs
conda install busco
이것은 모두 설치할 아우 [STANKE2005] 및 BUSCO [SIMAO2015] 우리는 각각의 유전자의 예측 조립 완전성의 평가를 위해 (별도) 사용 소프트웨어.
주석 결과에 대한 디렉토리를 만듭니다.
mkdir annotation
cd annotation
우리는 BUSCO 가 게놈 주석에 orthologue 존재 부재를 평가하는 데 사용할 데이터베이스를 가져와야 합니다. 우리는 이것을 위해 wget을 사용할 것이다.
wget http://busco.ezlab.org/datasets/saccharomycetales_odb9.tar.gz
# unpack the archive
tar -xzvf saccharomycetales_odb9.tar.gz
노트
다운로드가 실패하면 Downloads ( 다운로드)에서 수동으로 다운로드하십시오 .
또한이 프로그램의 구성 파일을 "쓰기"권한이있는 위치에 두어야합니다. 이것을 전체 config 디렉토리에 대해 재귀 적으로 수행하여 현재 주석 디렉토리에 배치하십시오.
cp -r ~/miniconda3/envs/ngs/config/ ./
다음 path
으로이 config 파일 을 지정하여 프로그램이 위치를 변경했음을 이제 알 수 있도록합니다 (아래의 내용은 모두 한 줄임).
export AUGUSTUS_CONFIG_PATH="~/analysis/annotation/config/"n
우리는 실제로 우리가 실제로 바뀌 었는지 확인 path
합니다. 명령에이를 입력하면 파일 위치가 명령 프롬프트의 다음 행에 출력됩니다.
echo $AUGUSTUS_CONFIG_PATH
8.6. 문법 존재 여부에 대한 평가
BUSCO 는 큰 데이터베이스에서 가까운 성냥을 찾는 빠른 방법 인 blastn을 사용하여 정 학원 존재 부재를 평가할 것입니다 (강의에서이 문제를 논의 할 것입니다). 가능한 코딩 순서의 일부를 놓치지 않도록 blastn 을 사용 합니다. 프로그램을 실행하기 위해 우리는 그것을 제공합니다.
- fasta 형식의 입력 파일
- 출력 파일의 이름
- (우리가 위에서 다운로드 한) orthologue 존재 결석을 평가하는 혈통 데이터베이스의 이름.
- 우리가 수행하고있는 주석 유형의 표시 (transcriptomic 또는 이전에 주석이 달린 단백질 파일과 대조적으로 게놈).
busco -i ../assembly/spades-final/scaffolds.fasta -o file_name_of_your_choice -l ./saccharomycetales_odb9 -m geno
노트
이 작업을 실행하는 데 약 90 분이 소요됩니다. 그러는 동안 다음 단계를 수행하십시오.
8.7. 주석
우리는 사용 아우를 유전자 예측을 수행 할 수 있습니다. 이 프로그램은 숨겨진 마르코프 모델 (HMM)을 구현하여 사용자가 만든 어셈블리에서 유전자가 어디에 있는지 추측합니다. 프로그램을 실행하려면 다음과 같이 입력해야합니다.
- 양 가닥 (또는 정방향 또는 역방향 가닥)에서 불리는 유전자를 원한다면,
- HMM 매개 변수를 기반으로 할 수있는 "모델"유기체 (이 경우 우리는 S. cerevisiae를 사용할 것입니다)
- 어셈블리 파일의 위치
- 출력 파일의 이름으로 .gff (일반 기능 형식) 파일입니다.
- 또한 게놈 어셈블리를 진행하면서 진행 막대가 표시되도록 지시합니다.
augustus --progress=true --strand=both --species=saccharomyces_cerevisiae_S288C ../assembly/spades-final/scaffolds.fasta > your_new_fungus.gff
노트
당신의 주석이 실패의 생산 과정, 당신은에서 수동으로 주석을 다운로드 할 수 있습니다해야 다운로드 . 파일의 압축을 해제하십시오.
8.8. 대화 형보기
소프트웨어 IGV 를 사용하여 조립품, 유전자 예측 및 호출 한 변형을 모두 한 창에 표시합니다.
8.9. IGV 설치
우리는 conda를 사용 하여이 소프트웨어를 설치하지 않을 것 입니다. 대신 홈 디렉토리에 "software"라는 새 디렉토리를 만들고이 디렉토리로 변경하십시오. Broad Institute에서 소프트웨어를 다운로드해야합니다.
mkdir software
cd software
wget http://data.broadinstitute.org/igv/projects/downloads/2.4/IGV_2.4.10.zip
# unzip the software:
unzip IGV_2.4.10.zip
# and change into that directory.
cd IGV_2.4.10.zip
# To run the interactive GUI, you will need to run the bash script in that directory:
bash igv.sh
노트
다운로드가 실패하면 Downloads ( 다운로드)에서 수동으로 다운로드하십시오 .
그러면 새 창이 열립니다. 해당 창으로 이동하여 게놈 어셈블리를 엽니 다.
- 게놈 -> 파일에서 게놈로드
- gff 파일이 아니라 어셈블리를로드하십시오.
트랙로드 :
- 파일 -> 파일에서 불러 오기
vcf
지난 주에 파일 로드gff
이번 주부터 파일을 로드하십시오 .
이 시점에서 SNP 또는 다른 유형의 변형이있는 영역을 확대 및 축소 할 수 있어야합니다. 또한 예상되는 유전자를 볼 수 있습니다. 충분히 확대하면 서열 (DNA와 단백질)을 볼 수 있습니다.
시간과 관심이 있다면 순서를 마우스 오른쪽 단추로 클릭하여 복사 할 수 있습니다. 새 브라우저 창을 열고 blastn 홈페이지로 이동하십시오. 거기에서 관심있는 유전자 (GOI)를 폭발시키고 돌연변이가 기능을 부여 할 수 있는지 살펴볼 수 있습니다.
이 실험실의 최종 목표는 흥미있는 변형을 선택하는 것입니다 (예 : 유전자가 가까이 또는 내부에 있기 때문에). 진화하는 효모 개체군에서 돌연변이가 빈번하게 증가했을 가능성이있는 이유를 가정합니다.
8.10. 문법 존재 여부에 대한 평가 (2)
이번에 BUSCO 분석이 끝나기를 바랍니다 . 작성한 출력 디렉토리로 이동하십시오. 거기에 많은 디렉토리와 파일이 발견 된 orthologues에 대한 정보를 포함하지만, 여기에 우리는 단지 하나에 관심이 있습니다 : 요약 통계. 이것은 short_summary*.txt
파일에 있습니다. 이 파일을보십시오. 발견 된 총 정자 수, 예상 수 및 누락 된 수를 기록합니다. 이것은 게놈 완성도를 나타냅니다.
할 것
일부 정자체가 누락 된 경우 어셈블리가 불완전하다는 것은 사실입니까? 그 이유는 무엇?
참고 문헌
[SIMAO2015] | Simao FA, Waterhouse RM, Ioannidis P, Kriventseva EV 및 Zdobnov EM. BUSCO : 단일 복사본 오 톨로그로 게놈 어셈블리 및 주석 완전성 평가. Bioinformatics, 2015, Oct 1; 31 (19) : 3210-2 |
[STANKE2005] | Stanke M and Morgenstern B. AUGUSTUS : 사용자 정의 제약 조건을 허용하는 진핵 생물 유전자 예측 용 웹 서버. Nucleic Acids Res, 2005, 33 (웹 서버 문제) : W465-W467.\ |
'생명과학' 카테고리의 다른 글
장염은 무엇입니까? (0) | 2018.06.17 |
---|---|
논문 평가 동료 평가는 얼마나 오래 걸릴까요? (0) | 2018.05.03 |
아스파탐 대 스테비아 (0) | 2018.03.18 |
초중고 교육 커뮤니티 개설 안내 (0) | 2018.03.15 |
담석의 이해 - 증상 (0) | 2018.02.20 |