홍보자료2018. 4. 29. 21:54

귀농귀촌 정보를 검색해보세요!
반응형

De novo assembly NGS techanology


새로운 시퀀싱 기술의 발전으로 2008 년과 2012 년 사이에 시퀀싱 비용이 크게 떨어졌습니다. 메가베이스 및 게놈 당 비용은 각각 1 / 100,000 및 1 / 10,000 분의 1로 떨어졌습니다. [1]이 전에, 과학 연구에 대한 광범위한 관심과 유용성을 지닌 생물의 전 사체 만이 염기 서열 화되었다. 그러나, 이들은 새롭게 언제? ] 개발 된 높은 처리량 시퀀싱 (차세대 시퀀싱이라고도 함) 기술은 비용 효과적이고 노동 효율성이 뛰어나며 이러한 방법을 통해 연구 된 유기체 범위가 확대되고 있습니다. [2] Transcriptomes는 chickpea를 위해 연속적으로 창조되었다 [3] 플라나리아 , [4] Parhyale의 hawaiensis , [5] 뿐만 아니라 뇌의 나일 악어 의 옥수수 뱀 의 수염 용 및 적색 귀 슬라이더 몇 이름. [6]

비 모델 생물체를 조사하는 것은 행성 지구에서 풍성한 생명을 가능하게 한 "매력적인 형태 론적 혁신의 다양성"의 기초가되는 메커니즘에 대한 새로운 통찰력을 제공 할 수 있습니다. [7] 동식물에서 공통 모델 유기체에서 검사 할 수없는 "혁신"은 모방 , 상호주의 , 기생 및 무성 생식을 포함한다 . 새소식transcriptome assembly는 비 모델 생물체를 연구하는 데 종종 선호되는 방법입니다. 게놈을 만드는 것보다 저렴하고 쉽기 때문에 기존의 게놈 없이는 레퍼런스 기반의 방법을 사용할 수 없기 때문입니다. 이러한 유기체의 전 사체는 이와 같이 독특한 생물학적 현상에 연루된 새로운 단백질과 그 이소 형을 밝힐 수 있습니다.

De novo 대 참조 기반 어셈블리 편집 ]

조립 된 전사 기록 세트는 초기 유전자 발현 연구를 허용합니다. 트랜스 크립 톰 어셈블리 컴퓨터 프로그램을 개발하기 전에 트랜스 크립 톰 데이터는 주로 참조 게놈에 매핑하여 분석되었습니다. 게놈 정렬은 전사 서열을 특성화하는 강력한 방법이지만,이 방법은 대안적인 스 플라이 싱 (splicing) 과 같은 mRNA 전 사체의 구조적 변화를 설명 할 수 없다는 단점이있다 [8]게놈에는 전 사체에 존재할 수있는 모든 인트론과 엑손의 합계가 포함되어 있기 때문에 게놈을 따라 연속적으로 정렬되지 않는 스 플라이 싱 된 변이 형은 실제 단백질 이소 형으로 할인 될 수 있습니다. 참조 게놈을 사용할 수있는 경우에도 게놈 어셈블리에서 누락 된 게놈 세그먼트에서 전사 된 성적서를 복구 할 수 있으므로 새 어셈블리를 수행해야합니다. [9]

Transcriptome 대 genome assembly 편집 ]

게놈 서열 커버리지 수준 ( DNA의 비 암호화 인트론 영역 에서 반복되는 내용으로 인해 무작위로 변할 수 있음)과는 달리 , 전 사체 시퀀스 커버리지 수준은 유전자 발현 수준을 직접적으로 나타낼 수있다. 이 반복 서열은 또한 게놈 어셈블리에서 콘티 그의 형성에 모호성을 일으키지 만 , 트랜스 전 사체 어셈블리 콘티 그 그램의 모호성은 보통 스 플라이 싱 된 아이소 폼 또는 유전자 가족 구성원 간의 사소한 변형에 해당한다 [8]게놈 어셈블러는 여러 가지 이유로 transcriptome 어셈블리에서 직접 사용할 수 없습니다. 첫째, 게놈 시퀀싱 깊이는 일반적으로 게놈을 통해 동일하지만, 성적의 깊이는 다를 수 있습니다. 둘째, 두 가닥 모두 게놈 시퀀싱에서 시퀀싱되지만 RNA-seq은 가닥 특이 적입니다. 셋째, 동일한 유전자의 전사 체형이 엑손을 공유 할 수 있고 모호하지 않게 해결하기가 어렵 기 때문에 트랜스 크립 텀 어셈블리가 더욱 어려워졌습니다. [9]

방법 편집 ]

RNA-seq 편집 ]

RNA가 세포에서 추출되고 정제되면, 그것은 높은 처리량 시퀀싱 설비로 보내어지며, 처음에는 역전사 되어 cDNA 라이브러리가 생성됩니다. 이 cDNA는 시퀀싱에 사용되는 플랫폼에 따라 다양한 길이로 분열 될 수 있습니다. 다음 플랫폼은 서로 다른 유형의 기술을 사용하여 수백만 건의 짧은 읽기 작업을 처리합니다 : 454 Sequencing , Illumina 및 SOLiD .

조립 알고리즘 편집 ]

또한 List_of_RNA-Seq_bioinformatics_tools를 참조하십시오 .

cDNA 서열 판독은 짧은 판독 증명서 어셈블리 프로그램을 통해 사본으로 조립된다. 대부분 유사하게 다른 전사 단백질 중 일부 아미노산 변이는 다른 단백질 이소 형을 반영합니다. 변이의 정도에 따라 같은 유전자 가족 내에서 다른 유전자를 나타낼 수도 있고, 보존 된 영역 만 공유하는 유전자 일 수도 있습니다.

여러 어셈블리 프로그램을 사용할 수 있습니다 ( 어셈블러 참조 ). 이러한 프로그램은 일반적으로 게놈 조립에 성공했지만, 트랜스 크립 톰 어셈블리는 몇 가지 독특한 도전 과제를 제시합니다. 게놈에 대한 높은 서열 범위는 반복적 인 서열의 존재를 나타낼 수 있고 (따라서 마스킹 될 수 있음), transcriptome의 경우, 그들은 풍부함을 나타낼 수 있습니다. 또한, 게놈 시퀀싱과 달리, 전 사체 시퀀싱은 센스 및 안티센스 전 사물 의 가능성 때문에 가닥 특이적일 수 있습니다 마지막으로 모든 스 플라이 싱 아이소 폼을 재구성하고 애 태우는 것이 어려울 수 있습니다. [9]

짧은 읽기 어셈블러는 일반적으로 오버랩 그래프와 de Bruijn 그래프의 두 가지 기본 알고리즘 중 하나를 사용합니다. [10] Overlap 그래프 는 Sanger 순차 판독을 위해 설계된 대부분의 어셈블러에 사용됩니다 각 읽기 쌍 사이의 겹침이 계산되어 그래프로 컴파일되며 각 노드는 단일 시퀀스 읽기를 나타냅니다. 이 알고리즘은 de Bruijn 그래프보다 계산 집약적이며 중첩 정도가 높은 읽기 수를 줄이는 데 가장 효과적입니다. [10] 드 브루 인 그래프 정렬 K 머콘티를 만들 K-1 시퀀스에 기초하여 보존 (통상 25-50 혈압). de Bruijn 그래프에서 k-mer를 사용하면이 방법의 계산 강도가 감소합니다.[10]

기능 주석 편집 ]

조립 된 전사물의 기능적 주석은 특정 분자 기능, 세포 구성 요소 및 추정 단백질이 관련된 생물학적 과정에 대한 통찰력을 제공합니다. Blast2GO (B2G)는 Gene Ontology 기반의 데이터 마이닝이 아직 GO 주석이없는 시퀀스 데이터에 주석을 달 수 있습니다. 그것은 비 모델 종에 대한 기능 유전체학 연구에 종종 사용되는 연구 도구입니다. [11] 이 작동하여 발파non-redundant protein database (NCBI)와 대조하여 contig를 조립 한 후 서열 유사성에 근거하여 주석을 달았다. GOanna는 유사한 방식으로 작동하는 동물 및 농작물 유전자 제품에 대한 또 다른 GO 주석 프로그램입니다. 그것은 GO 주석 및 분석을위한 선별되고 공개적으로 액세스 할 수있는 일련의 연산 도구 모음 인 AgBase 데이터베이스의 일부입니다. [12] KEGG (Genome and Genomes 교토 백과 사전)는 주석에 이어 transcriptome에 포착 된 대사 경로와 분자 상호 작용 네트워크를 시각화합니다. [13]

GO 용어에 대해 주석을 첨부하는 것 외에도 contigs는 이러한 전 사체에서 유래 된 단백질의 아미노산 서열을 예측하기 위해 ORF ( Open Reading Frame )에 대해 스크리닝 될 수 있습니다 또 다른 접근법은 단백질 도메인에 주석을 달고 특정 유전자가 아닌 유전자 군의 존재를 결정하는 것입니다.

검증 및 품질 관리 편집 ]

참조 게놈을 사용할 수 없으므로, 컴퓨터로 어셈블 된 contigs의 품질은 어셈블 된 서열을 생성하기 위해 사용 된 읽기 (참조없는)와 비교하거나 mRNA 전 사체에서 발견 된 보존 된 유전자 도메인의 서열을 정렬함으로써 검증 할 수 있습니다 밀접한 관련 종의 전 사체 또는 게놈 (참조 기반). Transrate [14] 및 DETONATE [15] 와 같은 툴 은 이러한 방법으로 어셈블리 품질의 통계적 분석을 가능하게합니다. 또 다른 방법은 PCR 을 디자인하는 것입니다.예상되는 전사 물의 프라이머를 만들고 cDNA 라이브러리에서 증폭하려고합니다. 종종 예외적으로 짧은 읽기가 필터링됩니다. 짧은 서열 (<40 아미노산)은 독립적으로 폴드 할 수없고 소수성 코어를 형성 할 수 없으므로 기능성 단백질을 나타낼 수 없습니다. [16]

어셈블러 편집 ]

다음은 전 사체를 생성하는 데 사용 된 어셈블리 소프트웨어의 부분 요약이며 과학 문헌에서도 인용되었습니다.

SeqMan NGen 편집 ]

DNASTAR 의 소프트웨어 파이프 라인의 일부인 SeqMan NGen 에는 작거나 큰 transcriptome 데이터 세트를위한 새로운 transcriptome 어셈블러가 포함되어 있습니다. SeqMan NGen은 RefSeq 을 사용하여 성적서 를 확인하고 병합 하는 특허 알고리즘을 사용하고 DNASTAR의 독점적 인 전 사 주석 도구를 사용하여 수집 된 성적서에 자동으로 주석을 추가하여 알려지고 새로운 유전자를 식별하고 강조 표시합니다. [17]

SOAPdenovo-Trans 편집 ]

SOAPdenovo-Trans는 SOAPdenovo2 프레임 워크에서 상속받은 de novo transcriptome assembler로, 선택적인 접합과 다른 표현 수준으로 transcriptome을 어셈블 할 수 있도록 설계되었습니다. 어셈블러는 SOAPdenovo2와 비교하여 전체 길이의 트랜 스크립트 세트를 구성하는보다 포괄적 인 방법을 제공합니다.

벨벳 / 오아시스 편집 ]

Velvet 알고리즘은 de Bruijn 그래프를 사용하여 스크립트를 어셈블합니다. 시뮬레이션에서 벨벳은 포유류 세균 인공 염색체 (BAC) 에서 원핵 생물 데이터와 3-kb N50을 사용하여 최대 50-kb N50 길이의 컨티그를 생산할 수 있습니다 [18] 이러한 예비 성적서는 오아시스 로 전달 되며 , 쌍을 이루는 최종 읽기 및 긴 읽기 정보를 사용하여 성적서 이소 형을 구축합니다. [19]

트랜스 -ABySS 편집 ]

ABySS 는 병렬 쌍 처리 시퀀스 어셈블러입니다. Trans-ABySS (Assembly By Short Sequences)는 ABySS로 구성된 transcriptome contigs를 분석하기 위해 Python 과 Perl 로 작성된 소프트웨어 파이프 라인입니다 이 파이프 라인은 다양한 k 값에 걸쳐 생성 된 어셈블리에 적용 할 수 있습니다. 먼저 데이터 세트를 비 중복 컨 티그의 작은 세트로 축소하고 엑손 건너 뛰기, 신규 엑슨, 유지 된 인트론, 새로운 인트론 및 대안적인 스 플라이 싱을 포함한 스플 라이스 이벤트를 식별합니다. Trans-ABySS 알고리즘은 또한 유전자 발현 수준을 추정하고 잠재적 인 폴리아 데 닐화 부위와 후보 유전자 융합 사건을 확인할 수 있습니다. [20]

트리니티 편집 ]

Trinity [21]는 먼저 시퀀스 데이터를 다수의 de Bruijn 그래프 로 나눕니다. 각 그래프 는 단일 유전자 또는 궤적에서 전사 변이를 나타냅니다. 그런 다음 전체 길이의 splicing isoform을 추출 하고 각 그래프의 paralogous gene 에서 추출한 transcript를 구분합니다. Trinity는 3 개의 독립적 인 소프트웨어 모듈로 구성되며, 성적표를 생성하기 위해 순차적으로 사용됩니다.

  • Inchworm 은 RNA-Seq 데이터를 전사 서열로 모으고, 종종 지배적 인 isoform을위한 전장 전사를 생성하지만, 택일 적으로 접합 된 전사 물의 유일한 부분만을보고합니다.
  • 번데기 는 Inchworm contigs를 클러스터링하고 각 클러스터에 대해 de Bruijn 그래프를 완성합니다. 각 클러스터는 주어진 유전자 (또는 보존 된 서열을 공유하는 가족 또는 유전자 세트)에 대한 완전한 전사적 복잡성을 나타낸다. 그런 다음 Chrysalis는 이러한 개별 그래프간에 전체 읽기 세트를 분할합니다.
  • Butterfly 는 개별 그래프를 병렬로 처리하고 그래프 내에서 판독 경로를 추적하여 궁극적으로 선택적으로 접합 된 isoform에 대한 전체 길이의 전사 물을보고하고 paralogous 유전자에 해당하는 transcript를 괴롭 히게합니다. [22]

참고 사항 편집 ]



반응형


Posted by 교육자의 길