Nature Genetics (2023)이 기사 인용
측정항목 세부정보
동아시아 농업의 기초 작물인 Setaria italica(조)는 C4 광합성을 위한 모델 식물이며 여러 기후에 걸쳐 적응 육종 방법을 개발하고 있습니다. 여기에서 우리는 전 세계 컬렉션에서 110개의 대표적인 게놈을 모아 Setaria 팬 게놈을 확립했습니다. 범게놈은 73,528개의 유전자군으로 구성되어 있으며, 그 중 각각 23.8%, 42.9%, 29.4% 및 3.9%가 핵심 유전자, 소프트 코어 유전자, 필수 유전자 및 개인 유전자입니다. 202,884개의 중복되지 않는 구조 변형도 발견되었습니다. 범게놈 변이체의 특성화는 366-bp 존재/부재 프로모터 변이체가 유전자 발현 변이를 수반하는 수확량 유전자 SiGW3의 식별에 의해 예시된 바와 같이 여우꼬리 기장의 가축화 및 개선 동안 이들의 중요성을 제시합니다. 우리는 그래프 기반 게놈을 개발하고 13개 환경에서 68개 특성에 대한 대규모 유전 연구를 수행하여 다양한 지리적 위치에서 기장 개선을 위한 잠재적 유전자를 식별했습니다. 이는 다양한 기후 조건에서 작물 개선을 가속화하기 위해 마커 지원 육종, 게놈 선택 및 게놈 편집에 사용될 수 있습니다.
기장(Setaria italica)은 세계에서 가장 오래된 작물 중 하나이며 초기 중국 문명 형성의 기초를 제공한 것으로 간주됩니다. 최근 고고학적 증거에 따르면 이 종은 약 11,000년 전 조상인 녹색 강아지풀(Setaria viridis)1로부터 가축화되었으며, 이는 인류 신석기 사회의 초기 농업 전환기에 보리 및 밀과 동시대에 존재하게 되었습니다. 여우꼬리 기장은 세타리아(Setaria) 속의 유일한 현생 작물 종이며 가뭄이 우수하고 토양 영양 내성이 낮습니다. 기장은 가축화 이후 유라시아와 아프리카, 그리고 최근에는 아메리카 대륙까지 퍼졌으며 온대, 열대 및 건조한 환경에서 자랍니다.
비판적으로 Setaria 종은 C4 광합성을 사용합니다. 기장 외에 옥수수, 수수, 사탕수수, 스위치그래스를 포함하는 C4 식물은 높은 광합성 효율과 환경 적응성을 갖고 있어 전 세계 농업 곡물 및 바이오 연료 생산에 중요한 역할을 유지합니다2,3. 그러나 대부분의 C4 작물 게놈의 복잡성과 이들 종의 고효율 형질전환 시스템의 부족으로 인해 이들 작물에 대한 근본적인 연구와 육종이 방해를 받았습니다. 이와 관련하여 강아지풀 기장과 녹색 강아지풀은 컴팩트한 이배체 게놈(~420Mb), 짧은 수명 주기(~70d) 및 고효율 변환 시스템으로 인해 C4 광합성 작물에 이상적인 모델 시스템입니다4,5. 세계 식량 안보를 보장하는 데 중추적인 역할을 할 수 있는 C4 광합성 모델 작물로서 여우꼬리 기장의 유리한 특징에도 불구하고, 게놈 다양성과 유전적 개선 가능성에 대해서는 상대적으로 덜 알려져 있습니다.
최근 쌀7,8, 대두9, 밀10, 보리11, 토마토12 및 감자13에 대한 범유전체 연구에서는 구조적 변이체(SV)가 작물 재배는 물론 형질 결정14 및 유전적 개선에 중요한 역할을 한다는 사실을 보여줍니다. 현재까지 녹색 강아지풀과 기장의 2개 초안 게놈5,15과 3개의 비교적 고품질 게놈16,17,18이 공개되었습니다. 인구 규모의 짧은 읽기 시퀀싱 데이터와 함께 이전 연구에서는 강아지풀 기장과 녹색 강아지풀의 인구 구조뿐만 아니라 몇 가지 주요 농업적 특성의 유전적 기초가 밝혀졌습니다. 그러나 범게놈 다양성의 역할을 포함하여 세타리아의 가축화와 광범위한 생태학적 적응성의 기초가 되는 유전적 변이의 전체 스펙트럼은 거의 알려지지 않은 상태로 남아 있습니다.
여기에서 우리는 야생 35개, 재래종 40개, 현대 재배 세타리아 종 35개에 대해 110개의 참조 등급 게놈을 새로 조립하고 여우꼬리 기장의 가축화 및 개선의 맥락에서 게놈 진화를 조사했습니다. 기장 팬-게놈을 통합함으로써 우리는 이러한 다중 접근에 걸쳐 세타리아의 첫 번째 그래프 기반 게놈 서열을 구축하고 13개의 서로 다른 환경에 걸쳐 대규모 유전 연구를 수행했습니다. 이는 기장 연구 및 육종의 기초가 될 수 있습니다. 다른 작물의 '설계에 의한 육종'에 대한 예(보조 그림 1).
20 Mb and LTR assembly index (LAI) exceeding 20. Over 99% of Illumina short reads and 97% of embryophyte BUSCO genes could be properly mapped, suggesting high completeness. K-mer-based analysis also showed that all assemblies have high completeness (99.56% ± 0.04%) and quality (40.81 ± 0.52), and low false duplications (0.52 ± 0.13) (Supplementary Table 6)./p> 10), of which 17 reached the ‘gold standard’ level (LAI > 20; Supplementary Table 6)./p>90% of individuals, 100–110 accessions), 29.4% were dispensable genes (present in 2–99 accessions) and 3.9% were private genes (Fig. 3a). We identified an additional 14,283 gene families in the pan-genome that are absent in the Yugu1 reference genome. These genes were enriched in RNA capping, light response and specific metabolic processes, such as cellular aldehyde metabolic and protein metabolic processes (Supplementary Table 7)./p> 9.66, πW/πL > 72.96 and FST > 0.53). DomPAV and favPAV correspond to b and c. b, Scatter plots show PAV frequencies in landrace and wild (P value computed using two-sided Fisher's exact test). c, Frequency pattern of domestication-related PAVs (domPAVs). Lines in orange and blue indicate favPAVs during domestication. d, GO enrichment analysis of favPAV-genes. Color intensity (P value) reflects the significance of enrichment test (computed using two-sided Fisher's exact test). Circle size represents the frequencies of aggregated GO terms. e, Intersection of domestication-related genes across PAV-based and three SNP-based methods. f, Haplotype and selective signature at SvLes1 gene. g, Haplotype and selective signature of sh1 gene. h, Shattering phenotype of NIL with SH1 and sh1insert allele. Scale bar, 1.5 cm. πW/πL, πwild/πlandrace./p> 53.6, FST > 0.644). The vertical dashed line indicates the homologous gene longmi029371 of SiGW3 in broomcorn millet. Data are presented as mean ± s.d. in h–k and m; significance is computed by two-tailed Student's t-test. The number of samples in h and i is 6 and 3, respectively. The number of samples/seeds of WT, OE1, OE2 and OE3 in j and k is all 35./p>0.05 were kept for phylogenetic analysis. SNP-based neighbor-joining phylogenetic tree was inferred using MEGA-CC (v10.1.8)47 and SNPhylo (v2018-09-01)48 with standard settings and 1,000 bootstrap values. SV-based maximum-likelihood phylogenetic tree was constructed based on binary PAV data with 1,000 bootstraps using IQ-TREE (v2.1.2)49. Phylogenetic trees were drawn using ggtree50, an R package. We performed a population structure analysis using the ADMIXTURE (v1.3.0)51 software, initially with k ranging from 2 to 20. Here k = 7 was subsequently chosen because it was the minimal value of k that separated all previously known groups of green foxtail16. We then ran ADMIXTURE ten times with varying random seeds at k = 7./p>0.05, minimum allele frequency <0.05 and genotyping rate <90% using PLINK (v.1.90)52. To reconstruct the evolutionary relationships between domesticated subpopulations C1–C3 and the closest wild population W1, we used Admixtools (v2.0)23 on R v4.13 to construct an admixture graph with no migration edges. We used a maximum absolute f4-statistic z-score (|z-score|) threshold of <3.0 for accepting models and added the remaining wild subpopulations W2–W4 sequentially to explore whether they could be incorporated with no migration edges. Population admixture graphs including all seven subpopulations were also inferred using TreeMix (v1.13)22, with W3 as an outgroup. We used the GRoSS method53 to scan the genome for positive selection along each branch of our four-population admixture graph that comprised W1, C1, C2 and C3./p>100×; Supplementary Table 5) of each accession were subsequently assembled into contigs by CANU (v2.2)24 and HERA (v1.0)25. After polishing with Illumina reads and further correction with BioNano physical maps, we obtained 75, 114 and 103 contigs for Me34V (398,819,634 bp, N50 = 21.1 Mb), Ci846 (412,045,876 bp, N50 = 21.0 Mb) and Yugu18 (409,028,184 bp, N50 = 20.6 Mb), respectively. For the other 107 accessions, we sequenced using Illumina NovaSeq 6000 at >40× short-read data (except Zhaogu1 with 37.5× data) for each accession. We examined genome size and heterozygosity using Jellyfish (v2.3.0)54 and GenomeScope (v2.0)55. Based on examined genome heterozygosity, we generated >50× and >80× long-read data for low heterozygosity (<0.3%) and high heterozygosity (≥0.3%) accessions by the Pacbio Sequel II platforms, respectively (Supplementary Table 5). We subsequently de novo assembled these Setaria genomes using CANU24 and HERA25 pipelines. Self-alignment of whole-genome contig sequences was performed using default parameters of BWA-MEM (v0.7.12-r1039)42, and heterozygous sequences were filtered with Redundans (with -t 10, -identity 0.55, -overlap 0.80, --noscaffolding, and -nogapclosing) and Purge Haplotigs (with default parameters). Overlaps between contig sequences were merged using the results of BWA-MEM self-alignment./p>99% coverage and identity, it was considered present in the corresponding genome. We performed a pan-genome analysis based on a Markov clustering approach77. All-versus-all comparisons were performed using diamond (v0.9.25)78 with an E-value cutoff of 1 × 10−5. Subsequently, all paired genes were clustered using OrthoFinder (v2.3.12)77. Based on their frequency, we classified genes into the following four categories: core (these present in all 111 individuals), soft core (these present in >90% of samples but not all; 100–110 individuals), dispensable (these present in more than one but less than 90%; 2–99 individuals) and private (present in only one accession)./p>