菠萝,凤梨科凤梨属植物,果为聚花果,六月成熟,形同火焰,酸甜可口,香气浓郁,是世界性水果,也是热带地区重要园艺作物之一。目前已有数个菠萝基因组被解析报道,包括F153、MD2,CB5 和 Yugafu 等,为菠萝生物育种提供了重要基础。然而,这些材料仅覆盖了菠萝五大种 (一个食用种与四个其他变种) 中的两个,即食用种 (F153, MD2, Yugafu) 和观赏类品种 CB5 (即“红苞凤梨,作鲜切花用)。
近年,许多菠萝育种人员开始尝试种间杂交,试图将一些优异抗性和观赏性状引入菠萝食用种,进一步创制高抗水心病的食赏两用新品种。在实践过程中,菠萝参考基因组序列缺失、不连续,存在较多的Gap,尤其是着丝粒/端粒附近等序列,此外相应基因结构注释不完善,极大程度限制了菠萝分子辅助育种和基因编辑定向育种的工作进展。
来自中国热带农业科学院热带作物品种资源研究所团队全员参与完成的科研成果:“The Pineapple Reference Genome: Telomere-to-Telomere Assembly, Manually Curated Annotation, and Comparative Analysis” (https://doi.org/10.1111/jipb.13748)。该工作完成了菠萝三个新材料的基因组测定和组装,发布了首个菠萝“端粒到端粒”参考基因组序列组装和“铂金级”菠萝基因结构注释信息,并搭建了菠萝基因组信息数据库,提供资源共享接口。此外,通过比较基因组分析和转录组数据联合分析,筛选鉴定了一个菠萝叶色调控基因。这些成果,为下一步菠萝分子辅助下的远缘杂交育种和高抗食赏两用新品种选育提供给了更为全面和扎实的基础。
工作解析
基于资料查找、演化分析和性状考察,选定三个核心材料进行基因组测序
基于演化分析,菠萝有 5 个种,其中食用菠萝自成一个分支 (包括BL - 中国主栽品种‘巴厘’;F153 - 夏威夷主栽培品种,MD2 - 美国都乐公司团队杂交选育而来的高产优质食用品种,Yugafu - 日本主栽品种) ,而其他种为另一支 (CB5 - 观赏/鲜切花用的红苞凤梨;YLL - 热科院品资所选育而成的,观赏用/极端早花易成花的品种‘玉玲珑’;LY - 立叶凤梨,菠萝中少有的全株红色,纤维含量高,叶片直立,适合密植,观赏/纤维提取用)。 通过对国家热带种质资源库菠萝分库基地栽植的菠萝材料进行全面性状考察,可以发现材料间不同性状指标差异明显。研究团队选定了基因组未被解析的三个材料 (BL、YLL 和 LY) 进行 Pacbio HiFi, Nanopore, 和 HiC 建库测序,并进行对应的逐个基因组组装。
整合比较,构建菠萝 T2T 参考基因组组装版本
研究者分别对三个材料进行基因组组装和组装质量比较分析,选定一套最好的染色体集合,组成每条染色体都有完整着丝粒和端粒的组装集合 (其中 Chr24 未检测到端粒,可能是近端着丝粒导致)。通过各类组装指标的评估,包括BUSCO,QV,LAI,CRAQ 均一致显示当前版本的高度完整性 (详细可参考论文附件)。
为了进一步确定组装完整度,团队对不同染色体序列进行了分析,筛选并鉴定菠萝端粒和着丝粒的复制单元。参考审稿人的建议,设计探针并开展了 FISH 实验。结果图片完整展示了菠萝 25 对染色体 (共50条) 上的端粒位置和着丝粒位置,印证了复制单元序列的可靠性,进一步支持当前的菠萝基因组组装版本达到真正意义上的“T2T”级别,是良好的菠萝生物育种的资料参考。
“铂金级”基因结构注释,提供扎实功能基因组研究基础
伴随长读段测序技术的发展,如 Pacbio HiFi、Nanopore等,高质量基因组序列组装已逐步趋于常规。较多物种已经存在一系列组装优化版本,其中不乏‘T2T’级别组装。但在日常科研工作中,作者发现更多人仍然倾向于使用早期基因组组装版本而非优化后版本,其原因不在组装,而在注释。错误或者不全面的基因结构注释会严重阻碍甚至误导科研方向。功能基因组研究人员,需要高质量基因组序列,但同时也极度需要对应的高质量基因结构注释信息。为此,该团队同步提供了菠萝首个“铂金级”基因结构注释。
在完成这一项目过程中,研究团队同步完善了GSAman软件 (未发表),并基于这一软件,调动团队所有成员,耗时近一个月时间,对菠萝每一个基因进行人工查看、对照和校准,最终完成了菠萝高质量基因结构注释,BUSCO完成度从初始注释的 94.5% 提升到 99.2%。
菠萝基因组基因结构注释中,不同位置的基因存在不同的错误注释问题。得到人工校准的基因,在每条染色体中相对均匀地分布 (多数>100个基因/CDS)。其中新增16个基因,而绝大多数均为电子注释不完善导致,尤其体现在基因结构或者CDS注释区域有误,与功能基因组研究直接关联。
系列基因组组装和注释比较分析,进一步确定‘Ref’为最优菠萝参考基因组
尽管在基因组组装和结构注释的统计指标上,作者得到的参考基因组‘Ref’质量高。但仍然需要做比较分析以确定是否当前质量取得明显提升。为此,研究人员做了BUSCO指标分析。其中发现第一个菠萝组装版本 F153 尽管组装序列未完整,但注释却是在‘Ref’之前的最优版本,这些结果对应了前述说法,也是2015年发布的 F153 组装和注释版本仍然被广泛使用的原因。Ref 的评估结果则已经接近饱和。得益于测序技术的发展和应用以及GSAman软件的开发,在序列完整度和注释完成度上,‘Ref’远超 F153,是目前最优的菠萝参考基因组。
研究团队也进行了与其他菠萝基因组组装版本的比较。
比较基因组联合转录组分析,鉴定 LY 全株红色基因控制位点
品资所菠萝团队长期致力于食赏两用菠萝新品种选育,对菠萝观赏性状尤为关注。当前项目中,LY 为菠萝变种中的特殊材料之一,叶片直立,全株深红,极具观赏性。叶片呈现红色的主要原因在前述发表工作中已经确认为花青素的持续积累。为此,团队通过对不同菠萝组装序列进行比较分析,鉴定存在的基因结构变异 (SV),同步鉴定了菠萝花青素合成通路相关基因,合并早期在菠萝花青素合成调控通路的家族成员鉴定结果,筛选出 30 个在 SV 附近的花青素合成和调控相关基因。通过进一步转录组分析,锚定 MYB528 (Lcfv2_02528) 为获选菠萝叶色调控基因。
在编辑和审稿人的建议下,该团队进一步对该基因相关变异 (~1.9kb) 进行了多基因组比较分析,并明确在 MYB528 附近的 SV 是一个插入而非缺失,该插入仅在LY中存在。这段插入具有明显提升基因表达量的作用。同步,团队也做了 MYB528 的本体超表达植株,从表型和生理指标均可确认该基因可以直接提升菠萝叶片花青素合成量。
搭建首个菠萝多基因组资源数据库,共享工作成果
前述有两个菠萝基因组资源数据库发表 (2005年的菠萝EST数据库 和 2018年的 PGD),为科研工作提供了良好资料参考。但这些数据库均早已无更新,且相关报道所提供链接无法直接访问。为了更好地共享菠萝相关基因组资源,尤其是当前工作获得的菠萝T2T基因组和“铂金级”基因结构注释。该团队从头搭建了一个菠萝基因组资源数据库 (https://ananas.watchbio.cn/)。