생명과학2018. 5. 3. 23:09

귀농귀촌 정보를 검색해보세요!
반응형

8. 게놈 주석 genome annotation


8.1. 서문 

이 섹션에서는 유전자를 예측하고 Augustus 와 BUSCO를 사용하여 어셈블리를 평가합니다 .

주의

주석 처리 프로세스는 최대 90 분이 소요됩니다. 가능한 한 빨리 시작하십시오.

노트

때때로 To-do 섹션을 만나게됩니다 해답과 답을 텍스트 파일에 씁니다.

8.2. 개요 

이 섹션에서 작업 할 워크 플로의 일부는 그림 8.1 에서 볼 수 있습니다 .

../_images/workflow1.png

그림 8.1 이 섹션에서 작업 할 워크 플로 부분은 빨간색으로 표시되어 있습니다.

8.3. 학습 결과 

튜토리얼의이 섹션을 읽고 나면 다음을 수행 할 수 있습니다.

  1. 주석 완성도가 정식어를 사용하여 평가되는 방법을 설명하십시오.
  2. 생물 정보학 도구를 사용하여 유전자 예측 수행
  3. 게놈 주석 소프트웨어 및 NGS 데이터 오버레이를 그래픽으로 탐색하려면 게놈보기 소프트웨어 사용

8.4. 시작하기 전에 

지금까지의 디렉토리 구조가 어떻게 보이는지 보겠습니다.

cd ~/analysis
ls -1F
assembly/
data/
kraken/
mappings/
SolexaQA/
SolexaQA++
trimmed/
trimmed-fastqc/
trimmed-solexaqa/
variants/

8.5. 소프트웨어 설치하기 

# activate the env
conda activate ngs

conda install busco

이것은 모두 설치할 아우 [STANKE2005] 및 BUSCO [SIMAO2015] 우리는 각각의 유전자의 예측 조립 완전성의 평가를 위해 (별도) 사용 소프트웨어.

주석 결과에 대한 디렉토리를 만듭니다.

mkdir annotation
cd annotation

우리는 BUSCO 가 게놈 주석에 orthologue 존재 부재를 평가하는 데 사용할 데이터베이스를 가져와야 합니다. 우리는 이것을 위해 wget을 사용할 것이다.

wget http://busco.ezlab.org/datasets/saccharomycetales_odb9.tar.gz

# unpack the archive
tar -xzvf saccharomycetales_odb9.tar.gz

노트

다운로드가 실패하면 Downloads ( 다운로드)에서 수동으로 다운로드하십시오 .

또한이 프로그램의 구성 파일을 "쓰기"권한이있는 위치에 두어야합니다. 이것을 전체 config 디렉토리에 대해 재귀 적으로 수행하여 현재 주석 디렉토리에 배치하십시오.

cp -r ~/miniconda3/envs/ngs/config/ ./

다음 path으로이 config 파일 을 지정하여 프로그램이 위치를 변경했음을 이제 알 수 있도록합니다 (아래의 내용은 모두 한 줄임).

export AUGUSTUS_CONFIG_PATH="~/analysis/annotation/config/"n

우리는 실제로 우리가 실제로 바뀌 었는지 확인 path합니다. 명령에이를 입력하면 파일 위치가 명령 프롬프트의 다음 행에 출력됩니다.

echo $AUGUSTUS_CONFIG_PATH

8.6. 문법 존재 여부에 대한 평가 

BUSCO 는 큰 데이터베이스에서 가까운 성냥을 찾는 빠른 방법 인 blastn을 사용하여 정 학원 존재 부재를 평가할 것입니다 (강의에서이 문제를 논의 할 것입니다). 가능한 코딩 순서의 일부를 놓치지 않도록 blastn 을 사용 합니다. 프로그램을 실행하기 위해 우리는 그것을 제공합니다.

  • fasta 형식의 입력 파일
  • 출력 파일의 이름
  • (우리가 위에서 다운로드 한) orthologue 존재 결석을 평가하는 혈통 데이터베이스의 이름.
  • 우리가 수행하고있는 주석 유형의 표시 (transcriptomic 또는 이전에 주석이 달린 단백질 파일과 대조적으로 게놈).
busco -i ../assembly/spades-final/scaffolds.fasta -o file_name_of_your_choice -l ./saccharomycetales_odb9 -m geno

노트

이 작업을 실행하는 데 약 90 분이 소요됩니다. 그러는 동안 다음 단계를 수행하십시오.

8.7. 주석 

우리는 사용 아우를 유전자 예측을 수행 할 수 있습니다. 이 프로그램은 숨겨진 마르코프 모델 (HMM)을 구현하여 사용자가 만든 어셈블리에서 유전자가 어디에 있는지 추측합니다. 프로그램을 실행하려면 다음과 같이 입력해야합니다.

  • 양 가닥 (또는 정방향 또는 역방향 가닥)에서 불리는 유전자를 원한다면,
  • HMM 매개 변수를 기반으로 할 수있는 "모델"유기체 (이 경우 우리는 S. cerevisiae를 사용할 것입니다)
  • 어셈블리 파일의 위치
  • 출력 파일의 이름으로 .gff (일반 기능 형식) 파일입니다.
  • 또한 게놈 어셈블리를 진행하면서 진행 막대가 표시되도록 지시합니다.
augustus --progress=true --strand=both --species=saccharomyces_cerevisiae_S288C ../assembly/spades-final/scaffolds.fasta > your_new_fungus.gff

노트

당신의 주석이 실패의 생산 과정, 당신은에서 수동으로 주석을 다운로드 할 수 있습니다해야 다운로드 . 파일의 압축을 해제하십시오.

8.8. 대화 형보기 

소프트웨어 IGV 를 사용하여 조립품, 유전자 예측 및 호출 한 변형을 모두 한 창에 표시합니다.

8.9. IGV 설치 

우리는 conda를 사용 하여이 소프트웨어를 설치하지 않을 것 입니다. 대신 홈 디렉토리에 "software"라는 새 디렉토리를 만들고이 디렉토리로 변경하십시오. Broad Institute에서 소프트웨어를 다운로드해야합니다.

mkdir software
cd software
wget http://data.broadinstitute.org/igv/projects/downloads/2.4/IGV_2.4.10.zip

# unzip the software:
unzip IGV_2.4.10.zip

# and change into that directory.
cd IGV_2.4.10.zip

# To run the interactive GUI, you will need to run the bash script in that directory:
bash igv.sh

노트

다운로드가 실패하면 Downloads ( 다운로드)에서 수동으로 다운로드하십시오 .

그러면 새 창이 열립니다. 해당 창으로 이동하여 게놈 어셈블리를 엽니 다.

  • 게놈 -> 파일에서 게놈로드
  • gff 파일이 아니라 어셈블리를로드하십시오.

트랙로드 :

  • 파일 -> 파일에서 불러 오기
  • vcf지난 주에 파일 로드
  • gff이번 주부터 파일을 로드하십시오 .

이 시점에서 SNP 또는 다른 유형의 변형이있는 영역을 확대 및 축소 할 수 있어야합니다. 또한 예상되는 유전자를 볼 수 있습니다. 충분히 확대하면 서열 (DNA와 단백질)을 볼 수 있습니다.

시간과 관심이 있다면 순서를 마우스 오른쪽 단추로 클릭하여 복사 할 수 있습니다. 새 브라우저 창을 열고 blastn 홈페이지로 이동하십시오. 거기에서 관심있는 유전자 (GOI)를 폭발시키고 돌연변이가 기능을 부여 할 수 있는지 살펴볼 수 있습니다.

이 실험실의 최종 목표는 흥미있는 변형을 선택하는 것입니다 (예 : 유전자가 가까이 또는 내부에 있기 때문에). 진화하는 효모 개체군에서 돌연변이가 빈번하게 증가했을 가능성이있는 이유를 가정합니다.



8.10. 문법 존재 여부에 대한 평가 (2) 

이번에 BUSCO 분석이 끝나기를 바랍니다 작성한 출력 디렉토리로 이동하십시오. 거기에 많은 디렉토리와 파일이 발견 된 orthologues에 대한 정보를 포함하지만, 여기에 우리는 단지 하나에 관심이 있습니다 : 요약 통계. 이것은 short_summary*.txt파일에 있습니다. 이 파일을보십시오. 발견 된 총 정자 수, 예상 수 및 누락 된 수를 기록합니다. 이것은 게놈 완성도를 나타냅니다.

할 것

일부 정자체가 누락 된 경우 어셈블리가 불완전하다는 것은 사실입니까? 그 이유는 무엇?

참고 문헌

[SIMAO2015]Simao FA, Waterhouse RM, Ioannidis P, Kriventseva EV 및 Zdobnov EM. BUSCO : 단일 복사본 오 톨로그로 게놈 어셈블리 및 주석 완전성 평가. Bioinformatics, 2015, Oct 1; 31 (19) : 3210-2
[STANKE2005]Stanke M and Morgenstern B. AUGUSTUS : 사용자 정의 제약 조건을 허용하는 진핵 생물 유전자 예측 용 웹 서버. Nucleic Acids Res, 2005, 33 (웹 서버 문제) : W465-W467.\



반응형


Posted by 교육자의 길