
家犬是人类最早驯化的动物之一,在数万年的进化与人工选择过程中形成了极其丰富的形态多样性。从体型、毛发长度到耳型和头骨结构,不同犬种之间表现出显著的形态差异。
长期以来,全基因组关联分析(GWAS)被广泛用于定位家犬性状的遗传基础,并已成功鉴定出一批关键基因。然而,这类研究通常依赖人工测量或专家评分来获取表型数据。传统方法存在明显局限:人工标注成本高、效率低,且预定义性状指标难以全面刻画复杂连续的形态差异,容易遗漏具有生物学意义的细微特征。随着人工智能的发展,深度学习为表型数据获取提供了新途径。通过自动分析图像,深度学习模型能够从像素层面提取高维特征,捕捉传统方法难以量化的复杂视觉信息。在医学影像领域,这类方法已成功用于提取器官结构特征并开展GWAS研究,揭示了新的遗传关联。
近日,中国科学院昆明动物研究所王国栋团队构建了一个融合深度学习与遗传学分析的研究框架,以实现家犬复杂表型的自动提取与基因关联分析。首先,通过网络爬取与人工筛选,建立了一个高质量家犬图像数据集,共包含13,254张图像,涵盖181个犬种。在此基础上,采用两种主流深度学习模型——ResNet和Vision Transformer(ViT)进行训练,并从每张图像中提取256维特征向量,用以表征家犬品种的视觉形态特征。利用UMAP方法对高维特征进行降维处理,将其转化为连续的低维嵌入特征,作为后续GWAS的表型输入。同时,通过t-SNE可视化和相关性分析,验证模型提取特征在不同犬种之间具有良好的区分能力,并能够反映真实的毛发长度、体型等生物学性状差异。
在GWAS结果中,研究共识别出多个已知与家犬形态相关的基因,包括调控毛发长度的关键基因FGF5,以及与毛色、体型等性状相关的多个经典基因。此外,还检测到多个与毛色形成、体型大小、外貌结构等紧密相关的全新遗传位点,验证了该方法的可靠性与发掘潜力。
该研究首次系统地将深度学习图像表征与家犬GWAS相结合,证明了人工智能提取的视觉特征能够作为有效的遗传学表型用于基因发现。随着公开图像资源和基因组数据的不断积累,这一框架有望推广至更多动物物种及复杂性状研究,为揭示表型形成的遗传机制、理解生物多样性演化以及推动智能化表型组学发展提供新的研究思路。
该研究以Image feature embedding with a deep learning framework improves genome-wide association studies on dog endophenotypes为题,发表于Science Advances。云南大学硕士生俄广晓(已毕业)为论文第一作者,昆明动物所研究员王国栋为论文通讯作者。研究得到了云南省重大科技专项计划(202502AU100002),科技创新2030-重大项目(2021ZD0203900),国家自然科学基金(32360122),兵团科技计划(2025AB053),中国科学院战略生物资源计划(KFJ-BRP-004)项目的支持。
文章链接:https://doi.org/10.1126/sciadv.aee1088

图1. 通过微调模型和降维方法获得图像特征嵌入
(A)图像特征嵌入流程图。
(B)t-SNE 降维可视化结果。
(C)ResNet 嵌入特征与 ViT 嵌入特征之间相关性的热图。

图2. 选定嵌入特征的 UMAP 可视化、曼哈顿图及代表性犬种图像
为了构建用于 GWAS 分析的内表型,研究从犬种层面的嵌入特征集合中随机抽取特征值,并赋予对应犬种的个体基因组样本。
(A)嵌入特征 R1 和 V1 的GWAS结果,同时展示AKC提供的犬种毛发长度数据。
(B)嵌入特征 R12 和 V28 的GWAS结果。
