SEPT9region2septin9基因检测报告怎么看中文医用名称怎么读法?

提示:线上咨询不能代替面诊,医生建议仅供参考!sept9region2阳性 是不是很严重邓智文主治医师普内科银川百度健康互联网医院您好,我是百度健康邓智文医生,非常高兴能够为您提供医疗咨询服务。请问您方便上传一下检查报告吗,方便我为您进行更好的分析。sept9region2阳性,有痔疮。问题严重吗?可以看看检查报告吗?此条记录可能涉及用户隐私,仅咨询者本人可见您这个是一个风险监测有一个阳性提示就是考虑可能有肠道的不良病变可能这个检查阳性就是建议要及时去检查肠镜等看看具体情况的问题大不大?是一定要近期去做肠镜吗?问题要引起重视建议一定是近期检查肠镜不客气,祝您生活愉快。方便时候麻烦在手机的右下角点开“+”,5星好评,之后如有其他医疗问题可以再次上线咨询哦。请您随时关注身体状况,如遇病情变化或感到任何不适,请及时去线下医院检查就诊,祝您生活愉快!}

2022-06-01 00:45
来源:
微生信发布于:上海市
基因名字是我们日常数据分析、阅读文献中最常见的一类术语,以下根据自己工作经验探讨下基因名在生物信息学数据分析中常见的坑!
坑1:一个基因有两种名字
基因的名字分成两种:
一种是给计算机看的,也就是各种数据库中的基因ID,最常用的基因id数据库来源包括:Ensembl,NCBI,UCSC等;
另一种是给人看的,就是我们常见的gene symbol,例如TP53。
所以,根据名字来判断是哪个数据库中的id,是数据分析小伙伴的“职业修养”。
对于human来说,推荐使用Genecards(https://www.genecards.org)网站进行查询。
坑2:基因名字是变化的
基因名不是一成不变的。随着我们对基因更加深入地了解,基因名也会更新。
以这篇M5C regulator-mediated methylation modification patterns and tumor microenvironment infiltration characterization in lung adenocarcinoma(Translational lung cancer research,IF:6.498)为例。
啥?13个m5C修饰相关基因中仅11个有表达。TCGALUAD中有几百例样品,其中有2个基因在这几百例里边都没有表达?不合逻辑啊!
经过查询,我们发现,不是这两个基因没有表达,是人家名字变了。
DNMT2的新名字是TRDMT1;NSUN1的新名字是NOP2。估计是分析人员直接用的旧名字搜索,发现TCGA里边没有这两个名字,所以就认为人家没有表达了。这个坑有点大啊!
因为文献里边的名字一般都是滞后的,当遇见报告里边只给一列gene symobl的时候,你文献里边的基因可能在你数据里边就查不到。
坑3:Excel会改变你的基因名
这个坑影响面很广,很早之前就被期刊报告过。
由于我们一般都是用excel打开数据,所以如果公司给你的不是真正的excel格式的文件,比如txt文件,tsv文件,csv文件,实际为txt格式的xls文件等的时候,这个坑你就要想办法自己填了。直接粘贴到excel里边也不一定行,你需要的是真正的excel格式。
常见被excel改变的基因包括:
2310009E13
FEB2
MAR1
DEC1
2310009E13
OCT4
APR1
SEP2
SEP-1
FEB1–FEB11
MARCH1–MARCH11
SEPT1–SEPT14
小贴士:我们是直接给客户excel格式文件滴,虽然增加了代码量,但是不会让客户踩坑。
坑4:基因名是区分大小写的
对于纯数字id的基因名是无所谓的,但是对于带有字母的基因名来说,字母是区分大小写的,有的是全部大写,有的是首字母大写,有的是全部小写。比如人类的基因名字绝大部分都是大写,但是也有极个别是小写,例如C12orf45。所以在做匹配等的时候,C12orf45和C12ORF45是不一样的。这时需要使用lower或者upper函数将名字全部转成小写或者大写,然后再进行匹配。
坑5:Not Available的基因名
基因名也是很诡异的,比如你见过基因名为NA的基因吗?虽然它现在已经华丽丽地变身成了XK,BUT部分数据库中用的还是NA。例如我们下载的cBioportal网站数据集Stomach Adenocarcinoma (TCGA Firehose Legacy) RNAseq数据中,基因名还是NA。
NA本身没有问题,但是如果你用R来读取的话,坑就出现了:In R (or R Studio), NA stands for Not Available. Each cell of your data that displays NA is a missing value。难怪我读了好多次都读不进去,这个坑也太坑了。
坑6:一个名字两个基因?
这种现象也非常常见,以人类为例,在TCGA最新版的RNAseq数据集中,TMSB15B这个基因,在Ensembl数据库中是两条记录。在数据分析的时候,如果以genesymbol这列作为标识符的话,它就是一个基因,而以Ensembl geneid为标识符的话,它是两个基因。这个坑令人费解啊!所以一般在进行诸如cibersort免疫浸润分析,GSEA分析时,需要先collaspe这些基因名,也就是名字要unique(唯一),不能有重复。
坑7:Affymetrix一个探针集对应多个基因
做GEO芯片分析时,经常看到这种基因sybol被//分割的现象,这种在处理的时候也要注意。例如做GO分析时,我们一般把SUPT20H和DES作为两个基因来处理。
坑8:中文基因名
很遗憾,所有的资料都是英文的,没有中文版的。我们在全国科学技术名词审定委员会事务中心的术语在线(https://www.termonline.cn/)官网查不到,能查到的仅仅是散落在各个期刊里的中文翻译。当然也有老师总结过这些中文基因名,例如昆明医学院张闻老师所著的《人类基因功能手册》,手册对两万多个人类基因的功能注解进行整理和翻译,内容包 括基因的 NCBI 正式符号、中英文名称、细胞成分、分子功能、生命过程、相关疾病、 OMIM 编号和染色体定位等八项内容。但是很可惜,网上能够拿到的版本是2006年的发布的。
坑9:权威 vs官网
NCBI是我们日常工作中用的最多的网站,那么该数据库中的基因名是“官方”的吗?在科研界,committee(委员会)和consensus(共识)很流行,而基因名也是这两者的产物,所以HUGO Gene Nomenclature Committee网站https://www.genenames.org/就是获得认可的人类基因命名资源(The resource for approved human gene nomenclature),即我们说所的official gene symbol。
坑10:到底有多少基因?
要回答这个问题,首先要明确你对基因的定义。如果你认为的“基因”是蛋白质编码基因,那么人类有约2w个基因;如果你认为的“基因”还包括非编码RNA,假基因等等,那么HUGO数据库中有约4w个approved基因名,而Ensembl数据库有约6w个geneid,当然TCGA也是约6w个。
坑11:坑你没商量,坑我也没商量
以上都是坑别人的,当然也有被坑的时候。比如客户给我100个基因名,有新有旧,有全拼还有只言片语,要我在分析结果中标注下,怎么办?这时只能一个一个去genecards上搜索,十分麻烦啊!比如给我这些:cintillo,collagen,Six1/2-2, POU2/3基因,我是不是想吐血呢?所以当你给别人基因的时候,最好给数据库中的ID,而不是你随手写的名字,否则我们做数据分析的小伙伴怎么办?给你查吧,浪费时间,不给你查吧,结果肯定出问题。
总结:
1,基因名区分大小写,且不是固定不变的
2,基因名可能被excel改变
3,基因名没有中文版
4,数据分析时要确定你使用的是哪个版本的注释
So,小小的基因名也有大学问。欢迎大家在后台留言讨论基因名的问题!
最后,附上这两篇文章,有兴趣的同学可以看看:
1,Mistaken identifiers: gene name errors can be introduced inadvertently when using Excel in bioinformatics
2,Gene name errors: Lessons not learned
微生信云平台 注册用户40000 引用447
微生信云平台(http://www.bioinformatics.com.cn)以150多款在线作图、在线数据分析为基本方式,致力于0代码分析科研数据,0代码展示数据结果,帮助生命科学、医学等领域的科研工作者更便捷地分析数据,了解数据,挖掘数据背后的生物医学意义,助力科研,促进知识传播。返回搜狐,查看更多
责任编辑:}

我要回帖

更多关于 septin9基因检测报告怎么看 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信