相较于单细胞测序本身而言,毕业显然是各位更关注的问题,"单细胞测序做到啥程度能毕业"这个问题总是在我的大脑中挥之不去,既然这样,今天就好好的理一理。首先,Biomamba现在虽说是博三,但是考虑到没有硕士毕业过,严格来说咱还是本科生,所以这事儿我说了也不算,回答这个问题的最好方法,就是去知网翻一番各位硕士的毕业论文。另外,由于我精力有限,只翻了几篇文章,具有一定的偶然性,大家有更多的想法也欢迎在后台或交流群中一起交流。如果想系统性的学习单细胞测序数据分析也可以看这里:单细胞数据基础分析学习手册。
首先,我以“单细胞测序”为关键词在“学位论文”的范围内进行检索,由于毕业论文没有影响因子一说,我们挑了两篇硕士中下载次数最高的毕业论文。
1.png
第一篇
这篇是来自华东师范大学的名为“基于单细胞转录组测序数据深入挖掘脑胶质瘤细胞间相互作用”的文章,下载次数1456次[1]。这本2019年的毕业论文全长67页,掐头去尾58页内容,就目录而言最主要的工作是做了脑胶质瘤的细胞通讯预测。
2.png
详细的看了一下,文章伊始用了七页的篇幅对脑胶质瘤及其在单细胞领域中的研究现状做了简单的总结,恰到好处的让读者了解了此论文的研究背景。紧接着对PCA、tSNE等降维方法进行了简单的描述,并展示了其中的公式(我个人觉得只要算法不是自己写的,其实没必要大张旗鼓的去这么细致的描述计算过程)。
3.png
紧接着作者就执行了上述的降维分析并开始寻找各个细胞亚群的marker,并对其中的巨噬细胞展开了详细的探索。
4.png
5.png
6.png
此后作者对其中存在配受体对进行了预测(显然这个细胞通讯做的是比较简单的,大家可以参考这个教程:单细胞测序数据进阶分析—《细胞通讯》2.2CellChat多组别分析),此后又通过富集分析进行了一些生物学解释。最后来了几个生存分析这篇论文页就完工了。
7.png
8.png
9.png
可能大家觉得这篇毕业论文过于简单(看起来我可以在一周之内搞定),但是考虑到这是一篇2019年的论文,主体工作可能是2018年完成的,考虑到时间因素,其实这是一篇在当时很优秀的文章,毕业论文的下载量是一方面,另一方面这篇毕业论文的主体内容也于2019年发表在<Cell Communication and signaling>上(IF=4.34)[2],所以应当对大家有一定的参考价值。
第二篇
这是下载量排第二的单细胞相关硕士毕业论文,来自C2高校,题为“基于降维与聚类的单细胞RNA测序”[3],读完之后觉得有些一言难尽。值得一提的是这位硕士的专业为应用统计,该篇毕业论文的总长度为46页,掐头去尾不足40页,篇幅确实短了些,不过内容也。。。。
我们先来看一下目录,1-19页,一半的篇幅都在讲算法背景,并且是已有的算法,其中还将每个算法的公式、条件罗列了出来,即使考虑到作者本人是数学系的,我个人也认为这种行为完全没有必要,前三章完全是综述类的内容。
10.png
第四章开始作者终于开始操作了,但也是仅对几种降维聚类方法找了数个数据集进行评估,再完成了细胞注释之后这篇论文也便草草结束。
111.png
12.png
讲道理别人给我提供了参考,我似乎不应该对这位硕士师兄评头论足,但是我这一目十行的看下去,竟发现了些触目惊心的错误。比如下图这个,其声称“第三代测序,又称为单细胞测序”。事实上第三代测序技术是指单分子测序技术。在三代测序中,不需要经过PCR扩增,实现了对每一条DNA分子的单独测序。第三代测序技术也叫从头测序技术,即单分子实时DNA测序[4]。所以第三代测序绝对不能称为单细胞测序,这两者之间甚至没有任何的交集,目前的单细胞测序几乎都是由二代测序完成,甚至超过95%都是在Illumina的二代测序平台下完成的。
13.jpg
下面这个也纯属胡说八道,一代测序是目前准确率最高的测序方式,唯一的缺点就是通量低。
14.png
另外,作者对于单细胞矩阵的描述也存在谬误。通常来说人和小鼠能够通过单细胞测序检测到的基因在两万多、检测到的细胞数约在3000~30000/样本(视具体建库平台与方式而定),但由于单细胞测序表达矩阵的稀疏性,其中包含了大量的零值,不可能所有基因都参与下游的降维、聚类、分群。因此实际计算过程中更常见的作法是选取其中高变的2000个****基因参与计算,也便不存在作者说的“基因数远大于细胞数”的情况,事实上随着单细胞测序数据量的爆炸,现在的研究者动辄就收集数十万、上百万的细胞参与计算。作者的这句话应该反过来说更合理:现在的单细胞测序矩阵通常细胞数远大于基因数。好了,点到为止,这篇咱就说到这。
15.png
显然,前面的这两篇论文由于时效性,表现只能说差强人意,甚至第二篇emm。。。所以我又挑了两篇今年新出锅的论文。
第三篇
这是来自军科院的病理学硕士的毕业论文,题为“基于单细胞转录组测序的放射性肺损伤机制研究”,于今年6月提交。全篇97页,掐头去尾也有92页,从内容上看比前两篇文章饱满了不只一个量级。文章中从动物到分子实验,从单细胞测序到空间转录组,从结果到讨论,完成度均很高。
16.png
本文略有缺失,点击此处查看原文了解更多内容