平均准确率达,中山大学重庆大学开发基于ransformer的单细胞注释方法

使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定,可在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极度稀疏性,scATAC-seq 的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上,而没有充分利用底层的基因组序列。

在这里,中山大学与重庆大学的研究人员提出了一种方法 SANGO,通过在 scATAC 数据中的可及性峰周围整合基因组序列来进行准确的单细胞注释。SANGO 在跨样本、平台和组织的 55 个配对 scATAC-seq 数据集上始终优于竞争方法。SANGO 还能够通过图 Transformer 学习到的注意力边缘权重来检测未知的肿瘤细胞。

该研究以「Deciphering cell types by integrating scATAC-seq data with genome sequences」为题,于 2024 年 4 月 10 日发布在《Nature Computational Science》。

单细胞ATAC-seq(scATAC-seq)技术是一种用于探究单个细胞内转座酶可接近性染色质的测序方法,它为理解基因调控机制与表观遗传异质性提供了前所未有的单细胞分辨率。

虽然 scATAC-seq 数据蕴含丰富的生物学信息,但由于其高维度(大量开放染色质峰)和极端稀疏性(每个细胞仅有一小部分峰有读数),使得从这些数据中准确地识别和分类细胞类型面临较大困难。

当前主流的细胞注释方法多聚焦于细胞峰矩阵,但这些方法往往未能充分挖掘和利用与这些峰相关的基因组序列信息。这种忽略可能导致对细胞特异性调控模式的识别不充分,限制了单细胞表型解析的深度与精度。

中山大学与重庆大学的研究人员提出了一种名为 SANGO(Single-cell Annotation by Integrating Genome Sequences around Open Chromatin Peaks)的新方法,旨在克服现有方法的局限性,通过整合 scATAC-seq 数据中的开放染色质峰及其周围基因组序列信息,提升单细胞类型的注释准确性。

SANGO 的核心假设是,基因组序列信息能提供额外的生物物理和调控线索,有助于更准确地识别细胞类型和揭示潜在的调控模式。

SANGO方法主要包括两个关键步骤:

首先,利用深度学习模型(如CA-CNN)从 scATAC-seq 数据中提取低维、信息丰富的细胞表示,这些表示充分考虑了每个开放染色质峰所处的基因组上下文。

其次,通过图 Transformer 网络(graph transformer network)处理这些表示,消除批次效应,传播相似细胞间的共享信息,并依据参考数据中已知细胞类型的标签对模型进行微调,进而用于预测查询数据中的细胞类型。

对内部数据集进行单细胞类型注释的性能

通过对 14 组内部数据集(每对包含已注释参考数据与未注释查询数据)进行评估,SANGO 平均准确率达到 96.4%,明显优于其他竞争方法。SANGO 的优势主要源于其对基因组序列信息的有效利用,当去除序列信息(SANGO-noseq)时,准确率下降 6.4%,进一步证实了序列信息的重要性。

此外,针对粗略细胞类型识别,SANGO 在 EpiAnno 选择的数据集上也表现出色,优于其他五种方法。总体来看,SANGO 在各类内部数据集上的稳健性能证明了其在单细胞类型注释任务上的优越性。

跨平台与跨组织数据集上的单细胞类型注释效果

面对来自不同测序平台(如10x Genomics、snATAC-seq、sciATAC-seq)的 19 对配对数据集,SANGO 取得了最高的平均准确率 77.6%,较次优方法高出约 10%。

UMAP 可视化显示,SANGO 成功分离了原始数据中混杂的内皮细胞和小胶质细胞,而竞争方法则未能将内皮细胞与星形胶质细胞有效区分。

此外,针对跨越七种组织(骨髓、肝脏等)的 22 对跨组织数据集,SANGO 以平均 86.3% 的准确率显著超越所有竞争方法,揭示了其在处理不同来源及组织背景下细胞类型识别任务的强大通用性和准确性。

在使用不同参考数据源进行单细胞类型注释时的性能

当以多源组织(如脑、肠)数据作为参考时,SANGO 在 7 组多参考与查询数据集上的平均准确率为 93.2%。通过分析相关基因(如 TCL1A、FCGR2B、TEX9)周边的峰值信号,SANGO 的标注得到了确认,显示了其在不同参考数据来源下的稳定性和可靠性。

在单细胞ATAC-seq数据细胞类型注释中的优势及潜在应用

首先,SANGO 凭借对基因组序列信息的整合,有效克服了数据高维度与稀疏性难题,显著提升了注释准确性。其次,SANGO 对未知肿瘤细胞的识别能力及对细胞类型特异性开放染色质峰的发现,为揭示肿瘤微环境中的细胞异质性及探索潜在治疗靶点提供了新途径。

SANGO 作为一种高效、可扩展的细胞类型鉴定方法,通过整合 DNA 序列信息解决了 scATAC-seq 数据的复杂性,不仅在多种实验场景中展现卓越性能,还能揭示未知肿瘤细胞并提供细胞类型特异性生物学信号,为 scATAC-seq 数据分析开辟了新路径。

THE END
0.2024—191《大学》原文、注释、译文和读解之一【注释】 (1)大学之道:大学的宗旨。“大学”一词在古代有两种含义:一是“博学”的意思;二是相对于小学而言的“大入之学”。古人八岁小学,学习“洒扫应对进退、礼乐射御书数”等文化基础知识和礼节;十五岁大学,学习伦理、政治、哲学等“穷理正心,修己治人”的学问。所以,后一种含义其实也和前一种含义有相通的jvzquC41yy}/onnrkct/ew476r:i|7
1.阅读下面文段,回答问题。大学之道,在明明德,在亲民,在止于至善大学之道,在明明德,在亲民,在止于至善。——《大学》【注释】①大学:就是治国安邦的学问。②道:就是方法、途径、诀窍等。③明:第1个“明”作动词,为彰显、提倡、推广、发扬、张扬之意。④明:第2个“明”为正大光明、公正开明之意。⑤德:就是德行和德政、社会风尚。⑥亲:亲近、体察、尊重;⑦止于至善:jvzquC41if4iwjyw0eun1}nmw1966?;750nuou
2.《道德经》注释《道德经》注释 第一章 [原文]道可道,非常道。名可名,非常名。无名天地之始。有名万物之母。故常无欲以观其妙。常有欲以观其徼。此两者同出而异名,同谓之玄。玄之又玄,众妙之门。 [译文]“道”可以用语言说明,但它不是我们通常所说的道路;“事物”可以用名称称呼,但它不是指我们周围某一具体事物。jvzq<84|zz/uz0gf{/ew4|z{vu1ƒqz|359;:5f:;;:9:i64e8b:n=e:3?c5@h8;6;/j}r
3.舒国滢:《法学的知识谱系(全三册)》法学院三、博洛尼亚大学的建立与欧洲法学教育的勃兴 (一)伊尔内留斯与博洛尼亚大学 (二)西欧其他地区的大学 第八章 注释法学派:方法与风格 一、博洛尼亚注释法学派的代表人物 (一)伊尔内留斯与“四博士” (二)博洛尼亚注释传统的承继与传播 二、注释法学派的注释活动及方法 (一)博洛尼亚注释法学家们的教学与研究 (二)注释法学派 jvzq<84hz{4dwyq0gf{/ew4kphu039:21388;A3jvo
4.转发《西北政法大学硕士学位论文引证、注释与编排体例》西北政法大学硕士学位论文引证、注释与编排体例 (2016年3月最新修订版) 学位论文是研究生在指导教师指导下独立完成的,合乎严格的写作规范并标志着获得相应学科、专业学位的一篇书面作品。凡提交申请我校博士、硕士学位的学位论文,均应符合以下引证、注释与编排体例。 jvzquC41hcyiwx3pywvm0niw0et0vƒli16;8593jvo
5.10位大牌作家学者推荐的105本童书翻书党澎湃新闻7.《小王子》,圣埃克苏佩里/著,北方文艺出版社2014年3月版 8.《写给儿童的中国历史》,陈卫平/著,新世界出版社2014年2月版- 9.《宝葫芦的秘密》,张天翼/著,南京大学出版社2014年1月版 10.《唐诗三百首》,傅英毅/注释,云南大学出版社2007年5月版jvzquC41yy}/vqjrcrks0ls1pg}tFnycknegq{|ctfe24@>578
6.大学落后于时代了吗?——技术的视角标题注释:本文系国家社科基金教育学国家重大课题“‘双一流’建设背景下高校学科调整与建设研究”(VIA170003)的成果之一。 近代以来,大学的复兴与繁荣一方面得益于资产阶级革命所造就的政治环境,另一方面得益于印刷技术革命所造就的信息环境。“在谷登堡技术的推动下,欧洲进入了进步的技术阶段;在这一阶段,变革本身成为社会jvzquC41yy}/imlo0gjv0ls1m{i049721383:8h532g44B=;1rghg7mvo
7.教育部推荐大学生必读书目100本大学生不读《史记》,就像雄鹰没有飞上蓝天,永远无法懂得那种辽阔与壮美。王伯祥先生从文学名著角度,精选了《史记》中描写生动,故事性强的记叙文20篇,注释集中于每篇正文之后,非常详细,便于诵读自学。 34.《陶渊明集》逮钦立校注,中华书局1979年版 本书从诗人普及选本的角度,选录其诗歌作品,对作品进行题解,且进行jvzq<84nkd4fesyw0gjv0ls1kplp1:5;71829>3jvo
8.注释规范中文注释中,网址末尾用中文句号(。) ④会议论文、学位论文等 例如: 李静如:《中国工人阶级的转型政治》,“全球化与劳工问题国际学术研讨会”论文,清华大学当代中国研究中心,1999年。 童根兴:《北镇家户工:宏观政治经济学逻辑与日常实践逻辑》,清华大学社会学系硕士学位论文,2005年。 jvzquC41kr4tc|x0qtm/ew4|uiy0nrxv0jzn
9.老刘讲《大学》——前言宋朝时,程颐程颢兄弟把《大学》从《礼记》中抽出来,使之独立成篇。朱熹先生在二程的基础上,将《大学》、《中庸》、《论语》、《孟子》合编注释,称为“四书”。 从南宋以后,“四书”成为科举考试的教科书,读书人想求取功名,就必须熟记四书。 《大学》的版本 jvzquC41yy}/fxzdcp4dqv4pqvk0:;>:52:6:8
10.中央美术学院章句集注,出自朱熹的《四书章句集注》,其中《大学》、《中庸》中的注释称为“章句”,《论语》、《孟子》中的注释集合了众人说法,称为“集注”。我们将以章句集注为核心线索,回溯性梳理传统中国思想方法与治学方法,以后结构主义互文本方式激活章句集注方法的当代潜能,针对设计与现代性经典文献,从概念、词源、术语jvzq<84fguohp7hchc4ff~3ep1jfvjnn0jznnHnf?8829<7ch9223662?j5;
11.北京大学中国语言文学系3. 《哈姆雷特:注释与解读》,北京大学出版社,2020年12月 4.《中说解理》,北京大学出版社,2013年12月 5.《比较文学:人文之道》,复旦大学出版社,2013年9月 6.《中说校注》,中华书局,2013年7月 7.《中说译注》,上海古籍出版社,2011年8月 8.《哈姆雷特的问题》,北京大学出版社,2006年11月(此书作废) jvzquC41ejoog|j0rm{/gmz0ep5t|m|1||pt1A>3586gg:jdc67c6A737:jb2;94fhh7h7mvo