卖摩尔庄园绝版册在哪号、08年超级绝版、投入大量米币。有兴趣可加QQ775...

&p&首先,天河二号是否彰显国家竞争力?答案是肯定的。&br&那么,为什么它能彰显国家竞争力?这就需要知道这种超级计算机研制的难点在哪里。&br&&br&现在全球投入使用或将要投入使用的超级计算机,几乎全部都是&a href=&/view/800440.htm& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&集群式&i class=&icon-external&&&/i&&/a&计算机。这种计算机简单说就是将大量的微型计算机通过网络系统连接起来,使用专用的操作系统控制来执行大规模的计算任务。搭建超级计算机所使用的节点,通常都使用市场上能买到的工作站/服务器使用的CPU、GPU等芯片。例如天河2使用的就是Intel的Xeon E5 V2处理器和Xeon Phi协处理器(后者类似GPU,负责一些特殊的计算任务),这两种芯片都是在公开市场上销售的。(Xeon E5 V2的正式销售要等到第三季度)类似地,超算的内存、存储单元等一般也是标准化的产品,没什么特殊和神秘的。&br&&br&超级计算机研发的真正难点在于网络系统和软件系统。集群计算机系统在处理单一计算任务时,集群中的各个节点之间的通信是非常复杂的。不仅节点间传输的数据量巨大,延迟要求严格,而且动辄就需要数百数千乃至上万个计算节点之间同时传送计算数据。当网络系统的效率不足时,大量的数据会在网络上发生拥堵,可能会极大地降低整套系统的运算性能。整台超级计算机的运算速度越强,集群内的节点数目越大,对网络系统的要求就越高。因此,网络系统性能是硬件上制约超级计算机运算能力的最主要瓶颈。正因为存在这一瓶颈,厂商不可能通过无限制地堆砌节点数量来增加计算能力——当总的运算能力超过网络系统最高负荷后,继续增加的节点不仅不能提高计算能力,反而会让性能下降。&br&&br&另一方面,控制大量的计算节点执行同一个或少数一些计算任务,对软件系统的要求是和我们日常接触的应用完全不同的。软件系统必须对硬件高度优化才能充分发挥硬件的潜力,否则就会产生瓶颈。此外,由于超算的节点众多,少数节点损坏是家常便饭,软件系统必须做到部分节点损坏时不影响任务的持续。当然,系统更不能频繁出现死机、崩溃等情况,对稳定性的要求远高过一般的家用、商用电脑。满足这些要求的前提下,系统还需要做到尽可能的易于使用,这样才便于执行多种多样的计算任务,处理各行各业的需求。&br&&br&因为以上两大限制的存在,超级计算机的研制事实上是技术含量非常高的。节点的芯片随便可以买得到,但网络系统和软件系统都是超算研发厂商自己的实力所在。&br&&br&再来看看天河2。&br&&br&天河2使用了自主研发的网络系统和操作系统,其中网络系统使用了国防科大自主研发的,基于SPARC指令集的飞腾1500处理器来处理网络数据,操作系统则是自主开发的麒麟。天河2目前有大约13000个计算节点,每个节点使用了两颗Intel的Xeon E5-2692 V2 CPU和三张Xeon Phi 31sp Co-processor。Xeon E5-2692 V2是Intel开发的CPU,尚未上市,每颗CPU有12个核心,主频2.2GHZ;Xeon Phi 31sp则是Intel开发的协处理器,专门用来执行密集浮点运算,其形态为类似显卡那样的PCIe扩展卡,卡上有一颗芯片和8GB高带宽内存,芯片内有57个主频约1GHZ的核心。Xeon Phi的一个特点是浮点运算效率较低,其在运行浮点运算基准测试linpack时,实际性能只相当于理论最大运算性能的60%左右——相比之下,Xeon E5 CPU运行相同测试时的效率在80%以上。但是Xeon Phi的理论最大运算性能较高(每张卡1T Flops,亦即每秒1万亿次浮点运算),大大超过Xeon E5的212G Flops(每秒2120亿次浮点运算),因此一张Xeon Phi的实际运算能力可以达到三颗Xeon E5的水平。&br&&br&天河2的整机理论最大浮点运算性能达到54900TFlops,而实测运算性能达到33860TFlops,效率达到60%左右,这是非常不容易的:这意味着拥有1.3万计算节点的庞大计算集群,效率和单个节点是差不多的水平。这说明天河2的网络系统和软件系统的水平是非常高的,在1.3万节点的水平下几乎没有网络和软件瓶颈的出现。相比之下,一些较小的使用较落后网络系统的超算,几百个节点下的运算效率相比单节点的效率几乎减半,说明瓶颈是非常严重的。现在的天河2只是完成了一期工程,未来通过增加节点和改用更快速的计算卡(后者类似于我们常说的电脑升级)预计可以达到超过5万TFlops的运算能力,这都要感谢国防科大自主研制的高性能网络系统和软件系统。&br&&br&对于现代工业国家来说,超级计算机是增强研发能力、增强工业竞争力的一个重要的环节。一台超算既可以处理少量的超大计算量的任务(比如军事上模拟核试验),也可以处理大量的计算量较小的任务(比如为众多用户同时处理不同的计算需求,如计算产品的流体测试数据、为电影后期进行三维渲染、为学校物理实验提供科学计算支持等),其用途是十分广泛的。国内已经建成的超算中心都有各行各业的大量用户在使用,效益还是很不错的。经过多年发展,中国的超级计算机研发能力已经达到了仅次于美国日本的水平,在世界上属于第一梯队。虽然与美国的差距仍然较大(主要体现在核心芯片与软件系统上),但发展的前景是越来越好的。很多外行不明就里,动辄就说超算就是堆芯片没有技术含量,其实只是在证明自己的无知与自大罢了。&br&&br&补充一下,关于&a class=&member_mention& href=&/people/cf& data-tip=&p$b$cf& data-hash=&cf&&@YuDan&/a&那个“订票系统都做不好”的观点,还是外行在不懂装懂而已。订票系统和超算属于大规模计算应用中的两个范畴,前者的任务是大规模实时整数数据处理,而后者的任务是大规模非实时浮点运算。任务类型的不同决定了两者的系统要求有着巨大的差别:用于订票系统的集群要求有非常高的I/O处理能力,足够快的响应速度和极低的错误率;用于超算的集群则要求非常高的浮点计算能力,不需要实时响应,也不需要那么高的IO处理,对错误率的容忍也更好。用超算系统的技术去做订票系统,前者的高浮点能力毫无用途,却缺乏后者需要的实时性能和IO能力,结果只会一塌糊涂。&/p&&p&======================&/p&&p&再补充点关于12306,网上看来的据称是内部人员的介绍,真假自辨:大卡壳,其后来找到IBM/Oracle和阿里巴巴问谁能解决这个问题。结果因为挑战太大谁都没接下来。最终,12306选择了自己改进一套运行在Linux下的数据库架构,并使用Xeon E7多路系统加超大内存的集群方案取代之前的小型机,用一组13节点,每节点8路Xeon E7/1TB内存的集群承载整个数据库与主要的访问压力,在2013年的抢票战中表现出色。这套系统的浮点计算能力只有十几Tflops,相当于天河系统千分之一,但这类数据库处理能力远超整个天河系统。HPC应用与大规模数据库应用的区别由此可见。&/p&
首先,天河二号是否彰显国家竞争力?答案是肯定的。那么,为什么它能彰显国家竞争力?这就需要知道这种超级计算机研制的难点在哪里。现在全球投入使用或将要投入使用的超级计算机,几乎全部都是计算机。这种计算机简单说就是将大量的微型计算机通过网…
来自子话题:
放在文章之前的p.s. 我批判的那遍文章(自称和这事儿比较近的那篇)在修改之时已经排到第三去了,我也欣慰我的批判起到了一点作用。而修改之时排在一楼的那位“拿天河一号来说”的匿名用户的观点不是我批判的对象。&br&-------------------------------------------------------------------------------------------------------------------------------------------&br&实在是看不下去了,这样一个漏洞百出、什么内行技术都不懂,其身份十分值得怀疑的人的答案,居然排在第一位!我的回答分为两个部分。一是说明高居一楼的那个&b&匿名用户&/b&的答案的错误,二是回答为什么要制造天河二号,天河二号能做什么事。&br&&br&xxxxxxxxxxxxxxxxxxxxx我是叉叉分割线
1. 破xxxxxxxxxxxxxxxxxxxxxxxxxxxxx&br&&blockquote&跟这事儿比较近,匿个名吧。&/blockquote&嗯。一楼作者真的和这事儿比较近吗?下面我会告诉大家,从下文的回复中可以看出,该作者不可能是一个和这事儿比较近的人,我看这纯粹是来灌糊水的。呵呵,选择匿名只是为了告诉大家“我是政府内人士,由于某某某原因,我不能直接站出来说话,但我说的都是真的哦,是可信的哦”吧!&br&&br&&br&&blockquote&作为给天河二找“意义”的工作相关的间接经历者,讲点你们不知道的。&/blockquote&请问什么是给天河二找“意义”?超级计算机制造之前的使用意义就如此明确,还需要你去找吗?我在第二部分会告诉大家天河二号到底有什么意义。&br&&br&&blockquote&先说超算这东西NB不,按说技术指标什么的应该没什么假,最快就是最快,最大就是最大,但是建超级计算机这个东西如同盖摩天大楼,&b&第一造出来也不代表你掌握了核心的技术,第二这东西不是美日不能建,而是建出来除了好看外,没有多大&/b&&b&“&/b&&b&意义” &/b&&b&。&/b&&br&于是问题回到了“意义”上。天河二的意义在哪?很可惜,作为直接接触负责提供“意义”的政府部门的人士,我只能告诉你到现在为止,谁都没想好这货能干嘛。&br&这也是为什么美日欧不搞这玩意的原因。&/blockquote&&br&这段话的“第一”、“第二”不尊重实际、误导性十足,表明作者要么是什么都不懂,要么是故意来知乎上搅浑水。“&b&第一造出来也不代表你掌握了核心的技术&/b&”的意思是:你造出了世界第一的计算机与你有没有掌握核心技术没有太大的关系,你可能掌握了,也可能没有掌握。显然,作者想表达的意思是,你虽然造出了世界第一的计算机,但是你没有掌握核心技术。这难道是说:即使没有掌握核心技术也能够造出世界第一的计算机来吗?这就真不能理解当年曼海姆大学的Hans Meuer教授(现任国际超级计算大会主席)为什么要搞出个&a href=&http://en.wikipedia.org/wiki/TOP500& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&TOP500&i class=&icon-external&&&/i&&/a&榜单并且能够20多年来一直受到国际的重视了!&br&制造并运用一台超级计算机所需的技术包括核心处理器、网络互联、容错性、操作系统、编程平台、制造工艺、应用软件等。第一,如此多的CPU如何一起协同工作,提供高速运算,这是体系结构应当解决的问题。而天河二号中采用的新型异构多态体系结构是继天河一号多阵列可配置协同并行体系结构发展而来。多态异构体系结构技术是中国率先提出并使用的,当今处于国际领先地位。&br&第二,核心处理器也就是通常所说的CPU,但新型异构多态体系结构的天河二号中,它还包括用于加速运算的MIC(可以理解为GPU)等。天河二号采用的CPU是Intel的Xeon和自主生产的FT1500, MIC是Intel的Phi协处理器。Xeon + Phi构成了主要的计算结点,而FT1500组成服务阵列。处理器方面,天河二号采用了国外的CPU,FT1500的性能也是不错的,所以总体结论是中国在处理器的设计制造方面是落后国际先进水平的。&br&第三,多个处理器共同完成一项任务时,需要进行数据的交互,如同一个团队共同干一个活需要交流沟通一样。2个处理器的数据传输可很容易地实现;10个处理器的数据传输也可以轻易实现,但可想而知会略为复杂;当处理器的数目进一步增加,到达100个,100个,1w个,10w个,100w个时,这种复杂度的问题就不是那么容易解决的了。可以想象TCP/IP协议和全世界大大小小的路由节点就是为了解决这种问题而出现的。但超级计算机内部的数据传输与互联网之间的数据交流不同,超级计算机内部每个节点之间都可以进行数据传输,传输的量还很大,因此对带宽有着极高的要求。天河二号采用的光电混合的自主定制高速互连系统,&b&性能是当前国际上最先进的商用互连系统的&/b&&b&2&/b&&b&倍&/b&,继续保持国际领先地位(详见:&a href=&/a/616.htm& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&“天河二号”超级计算机获核心关键技术突破&i class=&icon-external&&&/i&&/a&。我参加过新闻发布会,虽然引用只是QQ新闻,但内容是可靠的)。&br&第四,容错性。同样的一个东西多了,有一个或几个出问题的可能就大了。如何保证在一个或多个部件出问题的条件下,其他部件继续有效地工作,是容错性设计应当解决的问题。这方面的技术我理解不深,从天河二号新闻发布会的情况了解,它也是处理国际先进水平的。&br&第五,操作系统。有了硬件,如何管理硬件来完成给定的任务,是操作系统的工作。平时我们所说的装机就是指装操作系统。家用台式机或笔记本的操作系统管理一个四核或八核的CPU算是很多的了。但超级计算机的操作系统需要管理三百万个处理器核,这个技术难度大家自己去想想吧。天河二号采用的是麒麟操作系统,由国防科大自主研制开发。&br&第六,制造工艺。现在的超级计算机的体积都很大,如何将这么多的处理器组装在一定的空间内,并进行良好的散热,是需要解决的问题。这里看数据:以高密度高精度结构工艺为例,天河二号共170个机柜,占地面积与天河一号基本相同,但性能却是它的11.6倍;与此前排名世界第一的美国“泰坦”系统相比,占地面积是它的85%,性能却是它的近两倍。(详见:&a href=&/a/616.htm& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&“天河二号”超级计算机获核心关键技术突破&i class=&icon-external&&&/i&&/a&)&br&第七,应用软件。应用软件的开发与维护是个长周期的过程,在这方面,一些国外软件具有它的优势。&br&有没有掌握核心技术,各位应该自有定论了吧。&br&“&b&第二这东西不是美日不能建,而是建出来除了好看外,没有多大“&/b&&b&意义”&/b&&b&”,&/b&读完这话,可以看出两层意思:一是超级计算机没有多大的“意义”;二是,因为这个原因所以美日没有造,从而也就没有和中国去抢,所以中国才拿了世界第一。本文第二部分再来讲“意义”,我们先来看看top500的今年6月的统计(详见&a href=&http://www.top500.org/statistics/list/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&List Statistics&i class=&icon-external&&&/i&&/a&):&br&&img src=&/b7fb378fe089b3153c9ba_b.jpg& data-rawwidth=&682& data-rawheight=&335& class=&origin_image zh-lightbox-thumb& width=&682& data-original=&/b7fb378fe089b3153c9ba_r.jpg&&&br&&br&就top500榜单上的超级计算机而言,美国有252台,中国66台,日本30台,英国29台,法国23台,等等。中国拥有的超级计算机数量是世界第二,而第一美国相当于中国的4倍!而近年来世界第一的计算机,2010年6月是美国橡树岭国家实验室的“美洲豹”(Jaguar),制造经费约为1.4亿美元,持续速度1.759 petaFLOPS(每秒…千万亿次);2010年11月是中国天津超算中心的“天河-1A”,制造经费约为6亿元人民币,持续速度2.566 petaFLOPS;2011年6月是日本神户的理化学研究所的“京”(K-Computer),持续速度8.162petaFLOPS;2011年11月仍然是“京”,技续速度10.510petaFLOPS;2012年6月是属于美国能源部和美国国家核安全管理局的“红衫”(Sequoia),持续速度16.325petaFLOPS;2012年11月是美国橡树岭国家实验室的“泰坦”(Titan),持续速度17.59petaFLOPS;2013年6月是中国广州超算中心的“天河二号”,持续速度33.862petaFLOPS。&br&美国252台,日本30台,欧盟约80台,真是不知道“这也是为什么美日欧不搞这玩意的原因。”这样一个结论是怎么来的!一楼作者根本是不知道行情啊。而如果HPC真的没有意义,美日又造这么多台做什么?连这点行情都不了解,笔者真心难以想象,会有人找你去给HPC拉应用。&br&&br&&br&&blockquote&采购这家伙花掉了广州市政府&b&近&/b&&b&30&/b&&b&个亿&/b&,每年的维护费用至少是&b&几个亿&/b&,每年维护这货花的钱甚至可能就接近广州市政府一年的信息化经费总预算!&/blockquote&关于这点,一年的维护费用达到几个亿,除了几千万的电费之外,其他的开销还请一楼作者具体说明一下,或者是给出数据来源。&br&&br&&blockquote&于是广州市到处在给这玩意找“意义”,可惜&b&必须用到超级计算机的行业,基本上一只手就数得过来&/b&,无非是基础物理、天体物理、大气环境、灾难预测之类的国家投入的基础科研,&b&这些整个广东省甚至华南都基本没有&/b&;至于可能用超级计算机的行业,比如生物医药、机械、材料甚至电脑动画之类的,对他们来说用这货的性价比无比之低,用超算几乎不会在这些公司的考虑范围之内。&br&举个例子,某公司用自己的实验室做一个模拟花3天,用超算花10分钟就得,看起来提高了效率,但要用&b&这&/b&&b&10&/b&&b&分钟超算的费用可能就在百万级别&/b&,之前还要有N天到N星期的调试。。。哪个公司会愿意用?&br&至于那些可能用得上的基础研究,很遗憾这项目虽然科技部挂了个名,但是是交给广州市自己搞并自付盈亏的,中央连个面都没兴趣露,不可能帮你找基础研究业务并买单,即便有,&b&中科院能绕过不到&/b&&b&200&/b&&b&公里之外嫡系的深圳超算中心&/b&,去找广州这个?&br&而广东省那几个头牌大学都跟基础研究不沾边,同样爱莫能助;至&b&于给国外科研机构用嘛。。呵呵这可是国防科大建的计算机&/b&。&/blockquote&首先,“&b&广东省那几个头牌大学都跟基础研究不沾边&/b&”,真的是这样吗?就说华南理工大学,它就拥有高分子材料广东省教育厅重点实验室(&a href=&http://www2./s/41/t/18/p/1/c/717/d/738/list.htm& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&广东省重点实验室&i class=&icon-external&&&/i&&/a&),中山大学有广东省海洋资源与近岸工程重点实验室、广东省地质过程与矿产资源探查重点实验室等(&a href=&http://www./2012/cn/kxyj/kxyj02/index.htm& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&中山大学 SUN YAT-SEN UNIVERSITY&i class=&icon-external&&&/i&&/a&)。这里仅仅列出广东省几个头牌大学的基础研究相关的实验室,更多应用超级计算机的研究实验室我就不一一列举了。&br&第二,使用超级计算机的行业,从天津超算中心的官网的给出的应用案例来看,有石油勘探、动漫渲染、生物医药、高端设备制造、航空航天、天气预报、浩洋环境工程、遥感数据处理、大型土木工程应用、基础科学研究等,远不止一楼给出的那四项。&br&第三,“&b&这些整个广东省甚至华南都基本没有&/b&”。退一步说,即使这些项目广东和华南没有,就不能建在广州了?难道一楼作者还认为当今是蒸汽朋克时代,工厂都要建在自家门口么?这种荒谬的距离逻辑还体现在“&b&中科院能绕过不到&/b&&b&200&/b&&b&公里之外嫡系的深圳超算中心&/b&”里。HPC提供的是服务,你给我待处理的初始数据和处理应用程序,我就给你运算,并给出相应的运算结果。整个过程可以通过互联网的远程访问来实现。距离,在信息时代根本不是问题。再者,本文第二部分我会告诉大家,当计算量大了的时候,并非是超级计算机就可以用,而一定要用速度更快的机器。一楼作者在这里暴露了他的无知,笔者再次难以相信他是给HPC找“意义”的。如果说有“找意义”这一工作的话。&br&第四,“&b&10&/b&&b&分钟超算的费用可能就在百万级别&/b&”,关于这点,二楼回复中给出了一个回答,这里不赘述。&br&第五,“至&b&于给国外科研机构用嘛。。呵呵这可是国防科大建的计算机&/b&”,这里作者的逻辑是,因为是作为军校的国防科大造的东西,所以就不能给外国用。这里(&a href=&/tech//c_.htm& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&中国超级计算机天河一号远程服务好莱坞&i class=&icon-external&&&/i&&/a&)是同样为国防科大造的天河一号用于好莱坞大片的渲染的介绍,这里(&a href=&/gundong/detail_/.shtml& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&欧盟超级计算合作项目在津启动 天河一号成主角&i class=&icon-external&&&/i&&/a&)是中国与欧盟超算中心在天河一号的基础上共同开展项目的介绍。&br&&br&&blockquote&于是最大的可能是&b&在年内组装完毕,取得世界记录后就分拆成低级别的计算中心&/b&,降低成本和维护费用(至少可以关一部分省点电,每年空转的耗电量都至少是大千万级的),以期吸引点用户 - 可惜即便如此,也仍然不会有多大用武之地。&/blockquote&“&b&取得世界记录后就分拆成低级别的计算中心&/b&”,这么多么外行的说法啊!前文已经提到,超级计算机与计算机集群相比的优势在于它可以处理节点交互密集型的计算任务。一楼作者认为这是计算机集群呢?仅仅是亚马逊提供云服务的平台呢?看来一楼作者是不知道了,现在拿了世界第一个天河二号还只是整个项目的一半而已,天河二号还要继续扩容,最终规模是现在的两倍左右。“&b&至少可以关一部分省点电,每年空转的耗电量都至少是大千万级的&/b&”表达出作者以为超级计算机一开就必须全开,一关就得全关的想法。这个不多说了。&br&&br&&br&&blockquote&同时国防科大也会在湖南组一套差一点的超算中心,湖南省出钱。一机双卖,国防科大和Intel乐坏了。。。&/blockquote&一机双卖确实是一机双卖,但不知道一楼作者知不知道,卖给国家超算长沙中心的超级计算机是天河1A的一个小型版,那台机器都已经运转了两年了,只是近期才要搬到湖南大学刚修好的超算中心而已。这和天河二号完全是两码事。&br&&br&&br&&blockquote&补充下信息,据说这套系统功率是3万千瓦(此贴新闻说1.7万千瓦,说3万可能是包括精密空调等设备),电费自己算。&/blockquote&第一,据说,是据谁说的?第二,天河二号”峰值功率24MW,即2.4万千瓦,而非3万瓦。这包含了17.6MW的计算机功耗和6.4MW的散热功率。第三,这是峰值功耗,只有满负荷运转时才能达到这个功率,一般待机时可以给待机机柜断电,因此一般会低于这个功耗。当然,少是少了些钱,但这样算起来一年几千万应该还是有的。&br&&br&=======================PART.2
立===========================&br&关于应用,请参考国防科大卢宇彤教授的这篇文章《以天河2号为代表的中国超级计算机之吾问吾答(五问五答)》(原文链接:&a href=&/share/?id=ea4e9e61e42d841f36a11ef79f949914&type=note&from=timeline&isappinstalled=0& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&有道云笔记&i class=&icon-external&&&/i&&/a&):&br&&blockquote&&p&一问:世界各国的超级计算机都是单纯的商业行为吗?&/p&&p&一答:非也。世界各国超级计算发展计划都是由政府主导,像世界排名前列的千万亿次以上的系统如红杉、泰坦和京等顶级系统的研发均由美国和日本政府直接投资,分别由IBM、Cray、富士通等公司联合有关国家科研机构承研,中国超级计算机系统研制也是类似的模式。&b&超级计算机的研发目标是解决涉及国家安全与发展的重大科学问题,增强综合国力,绝非单纯的市场行为和商业利益驱动。&/b&少数别有用心的人把美国、日本的超级计算机研制描述为单纯的市场行为,蓄意误导读者对我国高性能计算机发展策略和计划产生质疑,抹黑中国高性能计算技术发展的成就,我们要擦亮眼睛。&/p&&p&二问:天河2号超级计算机只是理论上最快吗?&/p&&p&二答:非也。国际TOP500排名不是按理论性能,而是以LINPACK应用实测性能为依据。天河2号系统理论峰值为54.9PFlops,以Linpack实测性能33.86PFLOPS三次排名Top500排行榜首位。国际高性能计算500强排名,从1993年诞生之日起就一直沿用LINPACK应用作为基准测试程序,是国际公认的、权威的系统排行标准。近年来由于技术和需求的发展,又衍生出其它一些应用的排行榜,如HPCC、Graph500、HPCG等,是以不同的测试程序代表了不同的应用模式,以衡量超级计算机系统在某些方面的应用性能,同一系统在不同排行榜上的排名上有所变化,是正常现象。例如,TOP500排名第三的美国红杉超级计算机,按HPCG排名并未上榜;TOP500排名第二的泰坦超级计算机,按Graph500排名也未上榜。相比较而言,天河二号在2014年6月德国超算上首次发布的HPCG排行榜上勇夺第一,只用了部分节点(8192)的Graph500测试结果排名第六,且尚有大量优化提升空间。那些宣扬天河2号只是理论上最快的人如若不是对超级计算排行榜太外行,就只能说是别有用心了。&/p&&p&三问:天河二号超级计算机太过耗电,不符合主流发展趋势吗?&/p&&p&三答: 非也。&/p&&p&&b&天河二号超级计算机是一台节能高效的机器,按评价能效的Green500排行标准,天河二号的能效比(1.9GF/W)和世界排名前列的美国泰坦(2.14GF/W,TOP500排名第二)和红杉(2.17GF/W,TOP500排名第三)相当,远远优于日本的京(0.8GF/W,TOP500&/b&&b&排名第四)。&/b&其采用的CPU+加速器的异构体系结构也是公认的未来E级系统主流技术发展方向之一。某些人故意隐瞒了系统的类型差异,蓄意拿一台性能低两个数量级的小系统Eurora(排名467),来和天河二号比能效,并在公开场合夸大天河2号的使用能耗,而不与美国、日本的顶级超级计算机比年耗电量,也是为了危言耸听,博取眼球。&/p&&p&四问:天河二号的应用不行吗?&/p&&p&四答: 非也。&/p&&p&&b&天河二号的应用领域广泛,涵盖气象,能源,航空航天,生物医药,宇宙天体、工业制造等,用户单位涵盖国内外各大研究机构、大学、工业企业、政府行业关键部门等。仅4月份一个月,超过百万核的大规模实际领域应用就有6个之多,基于天河二号平台的大规模地震模拟应用Seissol,已入围国际上高性能计算应用的最高奖项戈登奖(Gordon Bell&/b&&b&)。&/b&某些人蓄意贬低天河二号的应用成果,并夸张地说“‘天河二号’的一些用户甚至需要十年时间来编写必要的代码”,完全是混淆一些领域应用需要很长的开发周期与实际应用在天河2号上很短的移植调试周期,意在把水搅混,哗众取宠。&/p&&br&&p&五问:天河2号的应用开发是系统研发单位一己之任吗?&/p&&p&五答:非也。&/p&&p&天河2号超级计算机系统的研制,是国家科技部审时度势,根据国际超级计算技术发展的趋势和我国的迫切需求立项的,选择了具有高性能计算系统研发悠久历史和成功经验的国防科技大学为承研单位,意在为我国多领域科学研究、技术进步、产业革命提供高性能计算服务,为其抢占优势地位打下坚实的基础。应该说,经过不懈努力,天河团队不辱使命,成功研制出国际上领先的超级计算系统,完成了类似美国IBM、Cray等超级计算厂商所完成的顶级超级计算机研制任务。但高性能应用软件的研发却不是能以国防科大的一己之力所能完成的,是依赖于整个国家的科学技术发展水平,需要领域专家和机构长期投入和创新研究,需要全国各学科领域的协同。“成功是成功之母”,天河2号超级计算机系统的研制成功为我国各领域科学与工程的可能成功打下了坚实的基础,但如何充分发挥系统的应用能力,需要以领域专家为主体的所有人共同努力。&/p&&p&&b&当然,我们作为超级计算机系统研制方,还有很多技术方面需要完善,如研发新型使能技术和体系结构、降低能耗、优化系统软件、加大对应用软件的支持力度。但我们应充分认识到,以天河2号为代表的超级计算机系统只是高性能计算生态环境中的重要一环, 我们还需领域物理模型、大型应用软件、交叉人才的培养等多个环节,才能维持我国高性能计算的生态环境健康有序发展。&u&希望大家都能本着知之为知之,不知为不知的理念,多些沟通,少些曲解;多些理解,少些挑拨;多些实干,少些空谈;多些鼓励,少些拍砖;使我国超级计算之路走向良性发展的轨道。&/u&&/b&&/p&&/blockquote&
放在文章之前的p.s. 我批判的那遍文章(自称和这事儿比较近的那篇)在修改之时已经排到第三去了,我也欣慰我的批判起到了一点作用。而修改之时排在一楼的那位“拿天河一号来说”的匿名用户的观点不是我批判的对象。---------------------------------------…
没想到写点自己经历的东西,招来不少“热血校园党”专门注册帐号来喷,实在是感觉为知乎的推广做了不少贡献,顺便想起自己当年一听到某TV里说“中国又取得了XX第一”就激动不已的单纯的学生时代。为表庆祝在文末再补点料。&br&&br&(不过还是提醒知乎一下,用户低龄化是双刃剑,相较下Quora的活跃用户结构对自身发展更有利。)&br&&br&&u&温馨提示:本文讲的是”&b&【天河二】这台&/b&&/u&&u&广州市区两级财政花钱采购的&b&【全球最快的计算机】&/b&意义何在‘,如果您在大声朗读问题后仍然表示您想看的是&b&’超算的意义'&/b&,对不起本文不提供,请在请教您语文老师后另开题目询问。&/u&&br&&br&以下正文:&br&-------------------------------&br&跟这事儿比较近,匿个名吧。&br&&br&作为给天河二找“意义”的工作相关的间接经历者,讲点你们不知道的。&br&&br&先说超算这东西NB不,按说技术指标什么的应该没什么假,最快就是最快,最大就是最大,但是建超级计算机这个东西如同盖摩天大楼,第一造出来也不代表你掌握了核心的技术,第二这东西不是美日不能建,而是建出来除了好看外,没有多大“意义” 。&br&&br&于是问题回到了“意义”上。天河二的意义在哪?很可惜,作为直接接触负责提供“意义”的政府部门的人士,我只能告诉你&b&到现在为止,谁都没想好这货能干嘛&/b&。&br&&br&这也是为什么美日欧不搞这玩意的原因。&br&&br&采购这家伙花掉了广州市政府&b&近30个亿&/b&,每年的维护费用至少是&b&几个亿&/b&,每年维护这货花的钱甚至可能就接近广州市政府一年的信息化经费总预算!&br&&br&于是广州市到处在给这玩意找“意义”,可惜必须用到超级计算机的行业,基本上一只手就数得过来,无非是基础物理、天体物理、大气环境、灾难预测之类的国家投入的基础科研,这些整个广东省甚至华南都基本没有;至于可能用超级计算机的行业,比如生物医药、机械、材料甚至电脑动画之类的,对他们来说用这货的性价比无比之低,用超算几乎不会在这些公司的考虑范围之内。&br&&br&举个例子,某公司用自己的实验室做一个模拟花3天,用超算花10分钟就得,看起来提高了效率,但要用这10分钟超算的费用可能就在百万级别,之前还要有N天到N星期的调试。。。哪个公司会愿意用?&br&&br&至于那些可能用得上的基础研究,很遗憾这项目虽然科技部挂了个名,但是是交给广州市自己搞并自付盈亏的,中央连个面都没兴趣露,不可能帮你找基础研究业务并买单,即便有,中科院能绕过不到200公里之外嫡系的深圳超算中心,去找广州这个?&br&&br&而广东省那几个头牌大学都跟基础研究不沾边,同样爱莫能助;至于给国外科研机构用嘛。。呵呵这可是国防科大建的计算机。&br&&br&于是最大的可能是在年内组装完毕,取得世界记录后就分拆成低级别的计算中心,降低成本和维护费用(至少可以关一部分省点电,每年空转的耗电量都至少是大千万级的),以期吸引点用户 - 可惜即便如此,也仍然不会有多大用武之地。&br&&br&(吐个槽。。。每回想到那每年几个亿的维护费用,就气不打一处来)&br&&br&--------------------&br&既然竟有两百来人支持,就针对回复再补几句:&br&&br&1. 匿名是因为跟很多直接相关的人熟,不想露脸,信息本身没什么秘密。&br&&br&2. 我说的是“现在没找到意义”,不是说这玩意不会有意义,你能找到或建立需要用到世界顶尖超算能力还花得起钱的公司的话他们会很欢迎的,不过一个商用大电脑研究核武器什么的就算了吧那位孩纸。&br&&br&3. 我在评论中回复的两条稍微修改补进来:&br&&ul&&li&国防科大的超级计算机项目是国家资助的一个科研项目。“天河二”是广州市采购了这个项目的成果,组成了世界最快的超算中心,所以&b&天河二不是科研项目,是商业项目,而且是广州市两级政府自掏腰包,自负盈亏的&/b&。&/li&&li&同时国防科大也会在湖南组一套差一点的超算中心,湖南省出钱。
一机双卖,国防科大和Intel乐坏了。。。&br&&/li&&li&当初为什么上马这个倒也知道些,不过未经过交叉验证无法证实,就不说了,但当初决定要搞这个时的确没想好能干嘛是确定的,这本就不是政府强项。&/li&&li&我此回复仅针对经济意义,政治意义您怎么说都有理。用一次的估价是猜测,是按照能收回运维成本的成本价估算,大家可以自己算一下要收支平衡得是什么成
本价(仅贷款利息一项每年就上亿了),&b&你要赔本卖当然可以要多便宜有多便宜&/b&……
&/li&&/ul&4. 补充下信息,据说这套系统功率是3万千瓦(此贴新闻说1.7万千瓦,说3万可能是包括精密空调等设备),电费自己算。&br&&br&-----------------------&br&以为这个问题不用怎么解释,但是看来很多人还是纠结于收费问题,鉴于大量学生来看此贴,再添两句吧:&br&&br&按照楼下提供的天河一的收费方式:0.4-0.8元/核心每小时来算。天河二的核心数是300万,算你用一半就能达到“全球最快”的速度,请自己算一下你用一次【全球最快计算机天河二号】要花多少钱。&br&&br&------------------------&br&补点料:&br&&br&(可惜要补的是个”负意义“,更让热血青年们失望了)&br&在决定采购此超算后,广州市在2012下半年开始基本停止了所有经费来源是市级财政的政府服务器采购项目,要求各部门的系统需要的计算资源用超算解决,这就是为什么在早期的宣传材料上一直把”政务应用“作为重要用途之一。实际上绝大多数的政府IT系统都是基于最简单的X86服务器,只有很少数后台用到了小型机,跟超算则是完全是不搭界,于是逐渐明白过来后在现在的宣传中”政务应用“也逐渐靠后,但这一年多的时间内政府的IT基础设施升级算是基本停滞了。&br&&br&这也是为什么我说我是”间接相关“的原因,具体就不展开了。
没想到写点自己经历的东西,招来不少“热血校园党”专门注册帐号来喷,实在是感觉为知乎的推广做了不少贡献,顺便想起自己当年一听到某TV里说“中国又取得了XX第一”就激动不已的单纯的学生时代。为表庆祝在文末再补点料。(不过还是提醒知乎一下,用户低龄…
这个问题很简单,目前比特币网络速度为1861 Peta FLOPS。天河二号是33 Peta FLOPS。&br&大约 2% 不到。&br&&br&一小时全网产出大约为150个,每小时天河可以挖大约2个BTC,算200美元吧。&br&其功耗为 24k 千瓦。5毛钱一度电的话,一小时就是 12,000 RMB,或者说两千美元。&br&&br&花2,000美元生成200美元。就是这个效果。(实际折旧成本大概比电费更高)
这个问题很简单,目前比特币网络速度为1861 Peta FLOPS。天河二号是33 Peta FLOPS。大约 2% 不到。一小时全网产出大约为150个,每小时天河可以挖大约2个BTC,算200美元吧。其功耗为 24k 千瓦。5毛钱一度电的话,一小时就是 12,000 RMB,或者说两千美元。花2…
来自子话题:
人脑对运动的识别是一个很大的问题,目前来说没有完整解决。仅仅探究认知上人脑的运动检测功能,或许并不能完整的解释人脑对运动识别的高可靠性。还需要知道人眼的凝视(gaze)能力和该能力的实现的神经基础。而这一点,正是目前我们在计算机的运动追踪中很少被考虑到的。&br&&br&&b&1.视觉通路(Visual Pathway)与视网膜拓扑映射(Retinotopy)&/b&&br&&img src=&/66cf2676000bfc93b843db_b.jpg& data-rawwidth=&607& data-rawheight=&805& class=&origin_image zh-lightbox-thumb& width=&607& data-original=&/66cf2676000bfc93b843db_r.jpg&&上图是横断面的人脑视觉通路[1]示意图。人眼的所有眼各有鼻侧和颞侧视野,在视网膜(Retina)感知光信号之后,左右两侧的视神经将信号向后传递,在视交叉(Optic Chiasma)将各自的鼻侧和颞侧信号分流并继续向后传递,分流之后左侧神经只传递右侧视觉信号(左眼鼻侧视野和右眼颞侧视野),右侧神经质传递左侧视觉信号(左眼颞侧视野和右眼鼻侧视野),分别通过两侧的外侧膝状体(LGN, Lateral Geniculate Nucleus),继续传递到枕叶的初级视皮层(V1, Primary Visual Cortex)和更高级的视皮层. 易于理解的,视网膜感知的物体,通过该通路,会以一定空间关系映射视皮层上[2], 该关系被称为视网膜拓扑映射(Retinotopy)[3].&br&&img src=&/ad2dc4f35d40_b.jpg& data-rawwidth=&1280& data-rawheight=&1138& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&/ad2dc4f35d40_r.jpg&&&img src=&/c5aad600acac26e18fc952fdbdf82863_b.jpg& data-rawwidth=&1280& data-rawheight=&1075& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&/c5aad600acac26e18fc952fdbdf82863_r.jpg&&基于该拓扑关系,人们甚至可以通过搜集视皮层的fMRI信号来重建人眼看到的文字/图象,即所谓Mind Reading[4-7].&br&&img src=&/3ecd97cc3acb_b.jpg& data-rawwidth=&700& data-rawheight=&182& class=&origin_image zh-lightbox-thumb& width=&700& data-original=&/3ecd97cc3acb_r.jpg&&&b&2.视觉皮层的分级结构和并行结构&/b&&br&视觉信号传递到V1之后,会继续向更高级的视觉皮层传递,最早在根据猕猴(Macaque Monkey)视皮层的解剖结果,人们重建了其各个视皮层之间的分级结构[7]:&br&&img src=&/a6f8be1ca453fcd_b.jpg& data-rawwidth=&613& data-rawheight=&613& class=&origin_image zh-lightbox-thumb& width=&613& data-original=&/a6f8be1ca453fcd_r.jpg&&以此为基础,逐渐理解了人的视皮层分级结构:&br&&img src=&/056cdc0ea907ebe1d19ca3b_b.jpg& data-rawwidth=&812& data-rawheight=&1519& class=&origin_image zh-lightbox-thumb& width=&812& data-original=&/056cdc0ea907ebe1d19ca3b_r.jpg&&&br&从初级到更高级的视觉皮层,视觉信息逐级传递。人脑理解的内容越来越复杂化、抽象化,由“模式”变成具体的&物&,再到物的特性和物与物之间的关系。在逐级传到过程中,人们也注意到,其在皮层的传到可以大体分成两个通路,腹侧通路(Ventral Pathway/Stream)和背侧通路(Dorsal Pathway/Stream)[8]。&br&&img src=&/b398ea421ad1_b.jpg& data-rawwidth=&823& data-rawheight=&543& class=&origin_image zh-lightbox-thumb& width=&823& data-original=&/b398ea421ad1_r.jpg&&分别又按照功能,被称作“What”和“Where”通路:&br&&img src=&/d54b3afb7fac698dd7746d3cfda7d508_b.jpg& data-rawwidth=&929& data-rawheight=&449& class=&origin_image zh-lightbox-thumb& width=&929& data-original=&/d54b3afb7fac698dd7746d3cfda7d508_r.jpg&&其中&b&“Where”跟物体的位置和运动处理有关,“When”跟物体的识别有关&/b&[9]。但是该模型仍广受批评。&br&&img src=&/21e0e80dc7ff469c6a354526_b.jpg& data-rawwidth=&361& data-rawheight=&277& class=&content_image& width=&361&&&b&3.识别与跟踪&/b&&br&通过以上对分级结构的了解可以理解,在分级结构中任何一个区域的功能受损,都会影响人脑对运动的识别和跟踪,各种研究也证实了这一点[10-14]。人对运动的感知和理解,并不是局限在某一个脑区或者几个脑区,而是全脑参与的活动[15]。人脑在运动处理上,除了有被动的运动感知,还有主动的运动追踪,即凝视(共轭凝视,conjugate gaze)能力。&br&&br&人有四个系统处理共轭凝视:&br&&b&扫视系统&/b&(saccadic system),最常调用的系统,在人主动的调整凝视方向时使用[16];&br&&b&追踪系统&/b&(pursuit system),追踪运动物体;&br&&b&视动反射系统&/b&(Optokinetic reflex system),物体出现在视野,眼睛会追踪,当物体消失,人眼会反射性的回到凝视物体首次出现的位置;&br&&b&前庭-眼 反射系统&/b&(Vestibulo–ocular reflex system),协调头部的运动以获得稳定的图像,是眼睛的“三轴稳定平台”。&br&&br&因而人眼就像一台高灵敏度、快速聚焦、快速响应、三轴稳定的摄像机,目前人类还造不出在对焦能力上足以和人眼比肩的摄像机,更别说做到跟眼睛同等体积了。人脑在运动识别及追踪处理上,目前区别于计算机运动识别追踪的重要一点是,&b&人脑的识别追踪是实时的,并能反馈控制眼睛的主动追逐。&/b&在该机制下,通过“where”和“what”通路处理的信息,会传递到额叶眼领域(FEF, Frontal eye fields)等眼动控制中心,作出眼球运动响应。该机制因此有如下优点:&br&&ul&&li&能永远让目标处在清晰度最高的视野中间和聚焦点&br&&/li&&li&一次识别和追踪失败,可以回来再看&br&&/li&&li&根据物体之间的相对运动区分物体&/li&&li&能跟记忆关联,帮助物体识别和追踪&/li&&li&运动预判&/li&&/ul&在目前没有能力如此强大的摄像机机的背景下,目前做的计算机运动识别追踪主要是基于被动影像的处理,即不会根据处理结果调整聚焦和镜头方向。在该条件下,对追逐算法引入学习能力,仍然可以大幅提高追踪速度和准确性,如Tracking-Learning-Detection (TLD) [17]方法:&br&&img src=&/9edab0fd2c9d2_b.jpg& data-rawwidth=&575& data-rawheight=&288& class=&origin_image zh-lightbox-thumb& width=&575& data-original=&/9edab0fd2c9d2_r.jpg&&在图象理解方面,人脑的图像理解既有 bottom-up机制,又有top-down机制,两种相互助益。&br&在图象模态方面,可以多模态结合,弥补摄像头没有回看能力的缺陷。&br&在计算方面,分布式计算以提高实时性。&br&如果能将计算结果反馈给摄像头控制,可能大有帮助。&br&&br&以上&br&--------&br&[1] Standring, Susan. &Gray’s anatomy.& &i&The anatomical basis of clinical practice&/i&39 (2008).&br&[2] Tootell R B H, Hadjikhani N K, Vanduffel W, et al. Functional analysis of primary visual cortex (V1) in humans[J]. Proceedings of the National Academy of Sciences, ): 811-817.&br&[3] Engel S A, Glover G H, Wandell B A. Retinotopic organization in human visual cortex and the spatial precision of functional MRI[J]. Cerebral cortex, ): 181-192.&br&[4] Miyawaki, Yoichi, et al. &Visual image reconstruction from human brain activity using a combination of multiscale local image decoders.& &i&Neuron&/i& 60.5 (2008): 915-929.&br&[5] Kay, Kendrick N., and Jack L. Gallant. &I can see what you see.& &i&Nature neuroscience&/i& 12.3 (2009): 245-245.&br&[6] Stanley, Garrett B. &Reading and writing the neural code.& &i&Nature neuroscience&/i&16.3 (2013): 259-263.&br&[7] Van Essen, David C., and John HR Maunsell. &Hierarchical organization and functional streams in the visual cortex.& &i&Trends in neurosciences&/i& 6 (1983): 370-375.&br&[8] Kandel, Eric R., James H. Schwartz, and Thomas M. Jessell, eds. &i&Principles of neural science&/i&. Vol. 4. New York: McGraw-Hill, 2000.&br&[9] Ungerleider, Leslie G., and James V. Haxby. &‘What’and ‘where’in the human brain.& &i&Current opinion in neurobiology&/i& 4.2 (1994): 157-165.&br&[10] Grossman, Emily, et al. &Brain areas involved in perception of biological motion.& &i&Journal of cognitive neuroscience&/i& 12.5 (2000): 711-720.&br&[11] Vaina, Lucia M., et al. &Functional neuroanatomy of biological motion perception in humans.& &i&Proceedings of the National Academy of Sciences&/i& 98.20 (2001): .&br&[12] Grossman, Emily D., and Randolph Blake. &Brain areas active during visual perception of biological motion.& &i&Neuron&/i& 35.6 (2002): .&br&[13] Grezes, Julie, et al. &Does perception of biological motion rely on specific brain regions?.& &i&Neuroimage&/i& 13.5 (2001): 775-785.&br&[14] Saygin, Ayse Pinar. &Superior temporal and premotor brain areas necessary for biological motion perception.& &i&Brain&/i& 130.9 (2007): .&br&[15] Rokszin, Alice, et al. &Visual pathways serving motion detection in the mammalian brain.& &i&Sensors&/i& 10.4 (2010): .&br&[16] Robinson, D. A. &The mechanics of human saccadic eye movement.& &i&The Journal of physiology&/i&174.2 (1964): 245-264.&br&[17] Kalal, Zdenek, Krystian Mikolajczyk, and Jiri Matas. &Tracking-learning-detection.& &i&Pattern Analysis and Machine Intelligence, IEEE Transactions on&/i&34.7 (2012): .
人脑对运动的识别是一个很大的问题,目前来说没有完整解决。仅仅探究认知上人脑的运动检测功能,或许并不能完整的解释人脑对运动识别的高可靠性。还需要知道人眼的凝视(gaze)能力和该能力的实现的神经基础。而这一点,正是目前我们在计算机的运动追踪中很少…
来自子话题:
原本排第一名的答案根本就是外行中的外行…&br&“没有显卡怎么玩游戏”简直…&br&总之这个问题下集合了各种计算机小白可能对此产生的误解。&br&简单来说,在个人计算机上以目前的应用,GPU的工作只不过是处理CPU分派的海量较简单数据处理,比如所有屏幕像素的RGB值中的R值减一这种虽然没什么技术含量但是数据量较大的任务,GPU的众核非常适合做这种事,CPU的核数一般较少,完成几百万次这种工作耗时更长,所以交给GPU去做苦力,但是这不代表CPU不能这么干!&br&而在超算上,核心技术就是并行计算,超高的计算能力就是靠超多的计算节点来的,只要为此编程(虽然实现会非常非常麻烦),现有的图象算法都可以执行。&br&超算没人拿它去玩游戏,但不代表它不能玩游戏,只不过没人去编程,因为太麻烦,而且没人玩,不值得。&br&不要再用现有PC游戏直接拿上去跑的思维来,也从没听说PC游戏不经移植直接拿到主机平台去运行吧?
原本排第一名的答案根本就是外行中的外行…“没有显卡怎么玩游戏”简直…总之这个问题下集合了各种计算机小白可能对此产生的误解。简单来说,在个人计算机上以目前的应用,GPU的工作只不过是处理CPU分派的海量较简单数据处理,比如所有屏幕像素的RGB值中的R…
同意 @太阳 的回答,只是因为比较简短,我还是多说几句吧~&br&&br&此回答作为@余天升 的补充,仅仅就软件部分展开。但是仅讨论硬件实现的话,&a class=&member_mention& data-hash=&f0d43cf0e57f16d4df78e9e0& href=&/people/f0d43cf0e57f16d4df78e9e0& data-tip=&p$b$f0d43cf0e57f16d4df78e9e0&&@罗淇文&/a&的答案才是正解,我们都算「跑偏」 XD&ul&&li&首先这个问题让我想起了一句话:“&b&你可以让1个人用60秒挖一个2米深的坑,但是没有办法让60个人用1秒挖一个2米深的坑。&/b&” &/li&&br&&li&但是如果我们将这句话再改一下: “&b&你可以让1个人用60秒打扫一个60平方米的空地&/b&&b&,同时也可以让60个人用1秒&/b&&b&打扫一个60平方米的空地&/b&&b&。&/b&”
&/li&&/ul&从第一句话可以看出计算速度与工作一样,并不能随计算机数量的增加而线性增加;而从第二句话可以看出,计算速度可以随计算机数量的增加而线性增加, 对比这两句话我们就可以看到一个事实, 就是说存在着两种极端情况,分别是&ol&&li&一个计算工作每一次运算的结果如果都与下一次运算存在因果关系,就像挖坑的时候只能从上往下一步一步挖,此时多线程计算就像一个工人在忙活,其余工人在围观一样,超级计算机也完全派不上用场。&br&&/li&&li&每一个计算工作都是相互独立的,这群工人可以每个人完成自己独自的工作而不受他人的影响,那么此时多线程计算就能完全派上用场。&/li&&/ol&总之,超级计算机不仅存在硬件设计上的困难,在软件设计上也需要重新编排。而其核心思想就是算法并行化设计。最大限度地打破原算法的次序并按照计算平台的特性合理设计算法,保证每个CPU都能干上活。当然这也就意味着&b&即便是超级计算机,其对软件运行的加速效果实际上也是与该软件的算法息息相关的。&/b&为了能够有效利用超级计算机的计算性能,重新设计用来跑在超级计算机上的程序代码是必须的。在大学的图书馆,关于&b&并行计算&/b&的书籍与相关资料都会有,也有一些研究所是专门从事并行计算研究的。&br&&br&而所谓的软件就能管理几百几千个CPU,这样的技术恐怕目前还不知是否有可行性。最简单的例子就是,你所用的intel多核处理器体现的优势仅体现在能让你一边看电影一边打游戏。但是还没有什么软件或者驱动声称能够打通CPU的任督二脉,让你的电脑游戏性能成倍提升。
同意 @太阳 的回答,只是因为比较简短,我还是多说几句吧~此回答作为@余天升 的补充,仅仅就软件部分展开。但是仅讨论硬件实现的话,的答案才是正解,我们都算「跑偏」 XD首先这个问题让我想起了一句话:“你可以让1个人用60秒挖一个2米深的坑,但是…
超级计算机可不是拼谁的CPU多。计算能力也不是能够累加的。超级计算机的建造的难点还是在内部的互联结构,就是那个能够把上万个CPU调度起来协同工作的通信网络,而建造这样的一个互联网络也是需要很多的节点和计算资源的。
&br&&br&以三年前世界第一的超级计算机走鹃(IBM Roadrunner)为例,走鹃使用了12960个PowerXCell 8i作为计算节点,然后每两个Cell需要配上一个双核的Operon专门用来作IO。这三个东西每一个是一个刀片(Blade),在加上一个扩展部分用来放其他东西的一个四个刀片组成一个被称为Triblade的东西。180个Triblade连在一起组成一个CU(Connected Unit),此外,每个CU还有12个用于控制文件系统的IO节点,每个有2个Operon。每个CU合计有720个Cell和360+24个Operon。
&br&&br& 这样的CU一共有18个,共计12960个Cell和个Operon,通过一个2阶互联网络,也就是一堆交换机,连接起来。这一堆交换机一个3456个节点。另外还需带上216个千兆以太网IO节点。合计嘛,自己算吧,反正是好多东西。
&br&&br&从这些数字我们可以看出来,用于通信和互联的节点在整个系统中占有比较大的比例的,所以,互联结构对于超级计算机而言是非常重要的,而且会限制这个超级计算机的规模。如果要增加参与计算的节点数,则有可能会使得互联网络的结构变得异常的复杂,甚至可能要设计新的互联结构来满足需求。所以超级计算机不是单纯的CPU的积累,而是一个非常有技术含量的工作。
&br&&br&以下是一个走鹃的官方资料,希望你通过这个材料自己也能造一个这样的东西。
&br& &a href=&http://www.lanl.gov/orgs/hpc/roadrunner/pdfs/Koch%20-%20Roadrunner%20Overview/RR%20Seminar%20-%20System%20Overview.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&lanl.gov/orgs/hpc/roadr&/span&&span class=&invisible&&unner/pdfs/Koch%20-%20Roadrunner%20Overview/RR%20Seminar%20-%20System%20Overview.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&
超级计算机可不是拼谁的CPU多。计算能力也不是能够累加的。超级计算机的建造的难点还是在内部的互联结构,就是那个能够把上万个CPU调度起来协同工作的通信网络,而建造这样的一个互联网络也是需要很多的节点和计算资源的。 以三年前世界第一的超级计算机走…
前两天刚回答了一个问题&a href=&/question//answer/& class=&internal&&理论上一个超级计算机的 CPU 数量有限制吗?&/a&结论修改几个字仍然适用——&b&中国的超级计算机同中国的经济一样大而不强,效率低下,商用来讲是不划算的&/b&。一个超级计算机的计算能力只受钱和供电能力约束——但是这种效率低下简单粗暴的做法,同中国体育的金牌,同中国的经济的数字一样,可以作为宣传的手段,而缺乏深远的影响力和商用价值。&br&&br&按照前几年天河1,1A的发展步伐来看,平均效率估计仍然在60%左右,单位能耗计算能力估计会维持在200~300Mflops/W——立此存照,希望天河2能让我眼前一亮——更新TOP500的网站已经有结果了,平均效率62%,而单位能耗计算能力则明显提高到到1901.4Mflops/W,后者进步还是相当明显的,同二三名的差距不大了。性能保持领先的同时,单位能耗计算能力进步明显(虽然效率仍然不佳),这&b&进步再加上未来充分商用&/b&可以作为竞争力的象征。&br&&br&我总觉得,&b&一个铁路订票系统都做不好的国家谈超级计算机世界第一第二,一定有哪里出了问题。&/b&这么好的技术没有充分利用起来,第一的名头总有点儿虚。竞争力不仅仅是数字,也需要用这项科学技术进步带来了多少社会效益来衡量——毕竟这是用我们的税做的,我们也希望社会更多人能从中受益.&br&&br&&blockquote&全世界超级计算机有个比较公允的排名TOP500&a href=&http://www.top500.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Home | TOP500 Supercomputer Sites&i class=&icon-external&&&/i&&/a&,每年更新两次,排名的依据就是跑HPL(Highly Parallel Linpack)&a href=&http://www.netlib.org/benchmark/hpl/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&HPL - A Portable Implementation of the High-Performance Linpack Benchmark for Distributed-Memory Computers&i class=&icon-external&&&/i&&/a&,该算法有下面特点&br&&ul&&li&完全并行:在每个CPU使用相同内存使用情况下并行效率是可以不随CPU数目变化的;&br&&/li&&li&足够通用:通过LU分解来解线性方程组,基本上所有超级计算机上跑的问题都离不开;&br&&/li&&li&完全开源: 允许各家超级计算机跑的时候根据自家架构选择最佳问题规模和优化策略;&/li&&/ul&按说这是非常公平的比较了吧?我下载了排名(&a href=&http://www.top500.org/lists/2012/11/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&November 2012&i class=&icon-external&&&/i&&/a&)做了一下分析,刨去那些样本数太少的(小于10),按国家分类。你可以看到象媒体宣传的那样,我们的超级计算机总数72全球第二,特别是天河1A也进入世界第二。&img src=&/079fdbe03c09d47963b50e_b.jpg& data-rawwidth=&807& data-rawheight=&631& class=&origin_image zh-lightbox-thumb& width=&807& data-original=&/079fdbe03c09d47963b50e_r.jpg&&&br&可是真实的情况呢?&b&业内的人士更多看下面这张图的数据&/b&。其中柱状图代表一个国家超级计算机&b&效率&/b&(即HPL最佳成绩 / 理论所有CPU性能总和)的平均值,折线代表这些计算机的&b&单位能耗计算能力&/b&。可以看到中国的计算机在这两个方面还是有相当差距的,&b&是所有造了较多超级计算机的国家中最落后的&/b&——你不能和刚起步早了几个小型超级计算机的国家比,是吧?&br&&img src=&/6acf9bae6b47cfe0e7416f8ebc77b7e2_b.jpg& data-rawwidth=&890& data-rawheight=&635& class=&origin_image zh-lightbox-thumb& width=&890& data-original=&/6acf9bae6b47cfe0e7416f8ebc77b7e2_r.jpg&&&br&——回到问题本身,当大家都用一样的Intel / AMD / IBM处理器搭超级计算机的时候,硬件体系架构特别是&b&CPU之间/CPU和内存之间的通路,以及节点容错能力&/b&,软件方面则是&b&操作系统的任务调度策略和编译器的优化&/b&才是一个超级计算机最核心的技术。这些技术的先进程度&b&决定了一个超级计算机能搭多大才划算&/b&。&/blockquote&
前两天刚回答了一个问题结论修改几个字仍然适用——中国的超级计算机同中国的经济一样大而不强,效率低下,商用来讲是不划算的。一个超级计算机的计算能力只受钱和供电能力约束——但是这种效率低下简单粗暴的做…
回答这个问题必须先澄清几个概念:&br&&br&1. &b&性能:&/b& 如何衡量超算的性能,其实取决于你打算用超算来干嘛?以及你真正为了达到这个目的可以利用起来的运算能力有多少?&br&到了超算这个级别上,基本上运算的主要目标是为了某些用途(例如仿真)大量进行浮点运算,那么主要衡量指标就是浮点运算,神马排序,布尔运算之类的就别拿来说事了,超算的目标一般是不会出现在什么数据库应用,什么文件处理之类的事情上,那些事情,主要瓶颈在I/O,不在运算上,所以XFS这样的事情也不要拿出来扯了。&br&而单纯的每秒浮点运算次数这样的无脑数值,拿出来说事的意义其实也不大。就算你每秒1亿亿亿次的浮点运算能力又怎样?如果这1亿亿亿次运算之间毫无关联,这一亿亿亿次运算将不会产生什么实际价值和意义。因此超算的指标除了性能还有效率也很重要。&br&&br&2. &b&软件/硬件:&/b&软硬件的分界线在什么地方?&br&举个例子,大家知道,我们看视频(例如蓝光)需要有解码的过程,一种方法我们可以通过软件解码,例如PC上最常用的蓝光播放软件powerDVD,其实就是一个实现并包含了一个解码算法的软件。&br&另外一种方式,我们可以用专门的解码芯片,例如著名的sigma 。其实说白了就是把解码算法通过逻辑电路用硬件的方式做出来。&br&那么如果解码算法本身有问题有瓶颈,你说这是硬件问题还是软件问题?&br&为了简化这个讨论,我设定一个前提,那就所谓的硬件问题,就是最终落在物理性能这个底层领域的问题,例如什么电信号转化极限啊,摩尔定律极限等等。算法问题就同意归到软件这个概念范畴了。&br&&br&&b&3. 超算:&/b&超算不是指单CPU/GPU极限,所以讨论什么CPU制程,什么64位寻址空间什么,什么CPU频率极限,没啥意义。现在超算都是靠成千上万的CPU/GPU堆出来的,单unit的极限对于整体瓶颈影响,在目前的阶段来说,不是根本问题。&br&&br&&b&4. 理论局限/实际局限:&/b&一般来说大多领域,理论都是先于现实实际的,超算也不例外。考虑到这个领域是一个实践性非常强的领域,所以理论局限意义不大,目前超算领域,理论局限和实际局限中间的空间还有太大的潜力没有挖掘出来。例如前面有人说什么电通转光通改变局限之类的意义不大。电通的潜力还有大量没有被挖掘出来呢。&br&都知道光通速度快,但是现在20~30G带宽的铜缆通信早就研发出来了,其应用潜力和应用领域都还没有被挖掘出来呢。&br&&br&基于前面的概念基础,其实可以简单给出答案,&b&超算现在的瓶颈主要就在并行处理上,局限在算法和模型,可以归入软件问题&/b&。如新闻中所说,一个专门的超算OS可能是解决问题可能途径之一。&br&&br&只要解决的并行处理问题,运算能力可以靠大量CPU/GPU堆出来。遗憾的是目前任何一种有效可行的模型和算法,都有其适应适用的数量上限和效率瓶颈。不断得突破这些模型及算法,就等于突破运算能力上限和效率瓶颈,就意味着性能可以进一步提高:只要你的CPU/GPU够多。&br&&br&在现实操作的的层面上,这些个算法和模型的瓶颈很多时候有可能落在硬件环节上,例如供电,时钟等。大家可能还注意到,我使用了&b&CPU/GPU&/b&这样的字眼,而不是单纯使用CPU这样的字眼。&br&&br&理论上,从现有市面上的成熟产品来说,GPU的浮点运算能力是强项,是专门为了浮点运算而设计的(显卡刷图形,其实就是疯狂得进行浮点运算,然后得出一个2维点阵的最后显示结果),而CPU更多得是为了处理指令而设计的。&br&遗憾的是,市面上的GPU几乎不会针对并行计算有什么专门的设计,所以目前超算基本还是CPU唱主角。但是已经有不少超算设计方案是CPU/GPU混合模式了。当然也有纯GPU方案的“中算”(相对于超算的简单说法)在商业领域应用了。前不久刚刚见过一个,一个机箱里插了20多块顶级显卡,蔚为壮观(是一个专门做外形设计渲染和仿真的云服务项目)。&br&&br&为了超算专门设计生产为了并行计算而生的GPU?目前貌似类似产品还很少,但是少量此类产品已经开始问世并崭露头角,例如AMD(ATI)的&b&FireStream,NVIDIA Tesla &/b&&b&GPU Server&/b&,我上面所提到的,一个机箱里插了20多块顶级显卡,使用的就是NVIDIA Tesla GPU Server。(在此感谢@张永辉 指正)&br&&br&&b&归根结底,超算性能是一个和性价比紧密相关的事情。&/b&&br&&br&性能比人家快了40%?这有多大意义呢?它的意义在于,别人花100秒算出来的事情,你花了60秒就算出来了,并不是说你算得出来,别人算不出来的差别。你的意义就在于抢出了这40秒。这40秒有多大的价值,你的超算就有多大的价值。&br&&br&在很多时候,其实这40秒并没有那么大的价值。如果还需要为了这40%付出太大的代价,可能就不是一个好的选择。&br&&br&况且,算得更快,可能还不是解决方法的最佳途径,我们还有别的思路解决问题。&br&&br&讲个故事,和运算性能有关。&br&&br&有个NB的软件叫CATIA,专业做设计的童鞋可能知道,这个软件是专门做设计用的,大到鸟巢,飞机小到什么汽车,高端工艺品,都可以用这个工具进行设计。&br&&br&这个软件很NB很专业,在你设计完了以后,它可以直接帮助你算应力承载啊,加工难度啊什么的一堆的工艺和性能(这些个名词我说的可能不专业啊,不要喷啊)。&br&&br&但是渲染外形,做这些的计算,需要耗费大量的运算。专业级的工作站都要算好长时间。以前他们设计师的苦恼就是设计一个方案完成以后,要等它算好几天才能出个结果,才知道这个设计方案的最终效果如何,改一改就要重算,就要再等几天看结果。工作效率很低。&br&&br&当然,解决这个问题,可以用更NB,速度更快的机器(性能的价值貌似体现出来的吧?),例如上超算。但是你搁台超算在那,是可以几分钟出结果,但是你设计成百几千上万个优秀产品出来都未必能把这个超算的钱挣回来,所以没有现实意义。&br&&br&最后这个问题的解决方案是这样的,有一个加拿大还是哪的天才小子,做了一个近似算法。这个算法很简陋,必定会额外产生千分之几到百分之几的误差,比起CATIA里的算法来说差太多,同时也不能用真正用于生成的生产用设计稿以及设计论证,完全达不到要求。&br&但是它胜在速度快,普通PC机几分钟就出结果。后来被广泛用于设计稿的初审和初算。事实上对于设计师来说,在大量变更和改版的设计稿中,最终要生成生产图纸的是极少数,大多时候设计师们只是要看看大概齐这方案和设计行不行,用这哥们的东西足够了。最终几个重点的设计的终稿再用CATIA算好了。前面大量的运算时间都被节省了下来,工作效率大大提高。&br&&br&这哥们后来靠卖这个算法的软件发了大财。&br&&br&所以,有时候,即便我们看起来运算性能处在关键节点上的事情,其实都还有其他的解决途径。&br&&br&&br&&b&因此超算的性能局限这个事情,就现阶段来说,从根本的原因和意义上来说,利益和资源的驱动是决定性的,这也是中国在这方面能走在前列的原因,因为相比之下,中国政府推动力够强。&/b&&br&&br&&br&假如说,2020年,人类要是不研制出达到某个NB运算能力的超算来,全人类就会灭亡。你去试试看?&br&无需什么基础科学突破,无需什么光通,量子通技术引入,无需什么CPU半导体主频和制程的突破,无需生物计算机之类的NB玩意,就目前这点科技,几年内人类资源重点投入,足够制造出比现在超算NB许多许多倍的东东来,你信不信?
回答这个问题必须先澄清几个概念:1. 性能: 如何衡量超算的性能,其实取决于你打算用超算来干嘛?以及你真正为了达到这个目的可以利用起来的运算能力有多少?到了超算这个级别上,基本上运算的主要目标是为了某些用途(例如仿真)大量进行浮点运算,那么主…
不可能,也没必要。&br&&br&计算物理/计算化学中每处理一个体系之前,我们都要问我们想算什么,然后根据我们需要计算的性质来选择合适的工具,这样才能保证用有限的计算资源获得我们想知道的性质。&br&&br&现在一个比较热门的词叫做“多尺度模拟” (multiscale modeling),套用这张图(图片出处:&a href=&http://xqwang.engr.uga.edu& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&xqwang.engr.uga.edu&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&)&br&&img src=&/b5ff1295fbbc64f83838_b.jpg& data-rawwidth=&1338& data-rawheight=&937& class=&origin_image zh-lightbox-thumb& width=&1338& data-original=&/b5ff1295fbbc64f83838_r.jpg&&对于不同的尺度的体系的处理方法,从原子级别一直到宏观级别,所采用的处理方法一般是量子力学(从头计算法, ab initio) - 统计力学(分子动力学模拟, MD) - 流体力学或连续介质力学(有限元,Finite element),等等。不同尺度下所采用不同的方法,所关心的性质都不一样,拿水作为例子来讲:&br&&ul&&li&原子尺度下更关心水分子的波函数,化学键,电子密度,光谱等等,这时就要用量子力学来处理。&/li&&li&纳米尺度下已经是成千上万个水分子了,这时更关心的就是水分子的热力学性质了,这时就要用统计力学处理,为了计算统计力学中的各种均值,我们需要对系统进行采样,所以要用到分子动力学(MD)或者蒙特卡洛(MC)。&/li&&li&微米尺度或更高尺度下,水分子的大小跟系统的尺度大小相比可以忽略不计,所以可以把体系视为连续介质,这时就可以用流体力学来处理,流体力学可以研究的性质也是非常多,比如水溶液中物质的输运,水中的湍流,等等。&/li&&/ul&&br&回到你一开始的问题:“模拟一杯水中每一个原子的行为”。这个目标本身就很含糊,是要在量子力学下描述每个原子的行为,还是要在在把每个原子近似成经典力学下的粒子来描述?如果是量子力学下的粒子,那么根据不确定性原理,你无法同时得到原子在某个时刻的精确位置和动量,而只能得到一个位置和动量的概率分布函数。量子力学的计算量非常大,几千个原子的高精度计算就足以占满一台大型计算机了。&br&&br&如果是把原子视为经典力学下的粒子进行分子动力学模拟,如前面所提到的现在的超级计算机也只能处理百万个原子,这连一滴水的零头都不到。而且,又如 &a data-hash=&24d2f3d2c7ecc6beb5a5& href=&/people/24d2f3d2c7ecc6beb5a5& class=&member_mention& data-tip=&p$b$24d2f3d2c7ecc6beb5a5&&@周杨超&/a&前面所提到的,这是一个多体问题,而经典力学下的多体问题是没有解析解的,是混沌的。分子动力学模拟本身算法是存在误差的,这样随着模拟的不断进行,模拟得到的轨迹是会随时间偏离粒子的真实轨迹越来越远。&br&&br&那么既然无法算准每个原子在每个时刻的位置和动量,那是否极大影响我们获得水的物理性质呢?答案是否定的。对于分子动力学模拟和流体力学计算,我们根本就不关心某个原子在某个时刻的位置,也不关心某个原子在某一段时间内走过的轨迹, We don't give a shit about that. 分子动力学只关心是否所有的原子在指定的相空间区域里能够历经各态(ergodic),然后对所有原子求平均就可以得到我们想要的热力学性质。流体力学就更不care这些了,它所做的不过是在解各种复杂初始和边界条件的Navior-Stokes方程(在我们化学狗看来)。 &br&&br&补充一句,如果只是想算水的热力学性质,不需要对一杯水进行分子动力学模拟,现在上万个水分子的分子动力学模拟已经能够比较好的给出水的热力学性质了。
不可能,也没必要。计算物理/计算化学中每处理一个体系之前,我们都要问我们想算什么,然后根据我们需要计算的性质来选择合适的工具,这样才能保证用有限的计算资源获得我们想知道的性质。现在一个比较热门的词叫做“多尺度模拟” (multiscale modeling),…
我们学校的超算前两年能排进世界前五,年初学校贴出一张公告:请学生不要上传挖矿程序...
我们学校的超算前两年能排进世界前五,年初学校贴出一张公告:请学生不要上传挖矿程序...
不会向这方面发展了,摩尔定律简单是说每隔1年半载计算机运算能力将提高一倍,细节体现是cpu制程技术的提高,芯片内集成的晶体管数量上升。但现在已经进入后摩尔时代了,现在的晶体管、硅晶集成线路和制程已经进入了瓶颈,单个cpu核心的频率难以再提高、所以衍生出了双核cpu甚至8核心cpu,其实这玩意和八星八箭没什么区别,核心的堆砌并没有带来性能的成倍上升。而且民用计算机受到电力、空间、散热、噪音的影响,注定了计算能力不会有大的变化,远远达不到超级计算机的水平,永远不可企及。&br&&br&在将来,随着ipv6的普及,和网络通信技术的长足发展,pc和手机、平板电脑将没有区别,界限会模糊起来,也仅是一个终端而已,只是平时不怎么移动他,上面仅集成输入/输出设备(I/O)和传感器,而一系列计算将在云端完成,实现资源的整合和再分配,此时的计算机才更回归本质, 抛开性能去考虑UI、人机交互、信息的处理,如果需要,一个终端获得超级计算机的处理能力也很平稳
不会向这方面发展了,摩尔定律简单是说每隔1年半载计算机运算能力将提高一倍,细节体现是cpu制程技术的提高,芯片内集成的晶体管数量上升。但现在已经进入后摩尔时代了,现在的晶体管、硅晶集成线路和制程已经进入了瓶颈,单个cpu核心的频率难以再提高、所…
不会,C++标准规定,计算的时候全都提升成int,算完如果你是short,再cast回去。所以只会更慢。
不会,C++标准规定,计算的时候全都提升成int,算完如果你是short,再cast回去。所以只会更慢。
用于防火墙啊!!!&br&曙光4000L纯粹为了防火墙而生。&br&另附猜测&blockquote&GreatFW(北京)拥有16套曙光4000L,每套384节点,其中24个服务和数据库节点,360个计算节点。每套价格约两千万到三千万,占005工程经费的主要部分。有3套(将)用于虚拟计算环境实验床,计千余节点。13套用于骨干网络过滤。总计6144节点,12288CPU,12288GB内存,峰值计算速度48万亿次(定义不明,GreatFW不做浮点运算,2003年top500排名榜首地球模拟器5120个CPU)。&/blockquote&悲哀
用于防火墙啊!!!曙光4000L纯粹为了防火墙而生。另附猜测GreatFW(北京)拥有16套曙光4000L,每套384节点,其中24个服务和数据库节点,360个计算节点。每套价格约两千万到三千万,占005工程经费的主要部分。有3套(将)用于虚拟计算环境实验床,计千余节…
来自子话题:
超级计算机其实也是分布式集群架构,和普通集群很类似,编程模型都是MPI、Mapreduce那一套。稍有不同的是:&br&1.超级计算机用infiniband背板提高各节点间的网络IO,常规分布式集群一般都是千兆、万兆网卡。&br&2.超级计算机一般会配高档的磁盘阵列,而GFS+Mapreduce方案底层基于挂在各节点上的普通硬盘。&br&2.超级计算机会使用更先进的CPU和GPU,更多内存。&br&3.由于发热强劲,很多超级计算机采用水冷。&br&&br&从这些细节可以看出:&br&1.超级计算机更适合计算密集型作业,如果你是用MPI算核物理、天体物理、蛋白质折叠、渲染《阿凡达》、求解普通PC上需要几千万年的迭代方程,那么就应该用超级计算机。反过来,分布式集群Mapreduce适合IO密集型的作业,加上成本低,可以把集群规模搞得很大,因此最适合扫描过滤海量的数据,例如互联网行业的经典应用:为搜索引擎创建全网Web页面的索引。&br&2.超级计算机造价更昂贵,维护成本也高,甚至每小时电费就得上万元。记得我以前做蛋白质搜索引擎的时候,在国内最大的超级计算机之一跑过一个80分钟的job,花了老板5000多块上机费(因为我们有项目合作,人家已经给我们打了很低的折扣了)。不过这些作业用MapReduce在普通分布式集群上跑,跑了好几天。&br&&br&云计算是建立在廉价分布式硬件+牛B的软件系统设计上,在商业上越来越成功。所以正在抢占传统超级计算机的用户市场。例如阿里云刚刚和国内的动画公司合作渲染出来的《昆塔》,计算量是阿凡达的四倍。不过就我所知,各大传统超算中心其实依然是排队、忙不过来的。随着国内经济的升级,很多造船、石油、材料、生物、天体物理、军事领域的计算需求都很强烈,这一类计算密集型任务,性能和时间往往比成本更重要。&br&&br&最后是广告时间(求不折叠)。我们团队在招人,云计算、大数据、分布式计算人才很合适,欢迎投简历,具体信息参考 &a href=&/joinus/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GeneDock&i class=&icon-external&&&/i&&/a& 也欢迎推荐,成功入职后奖励推荐人iPhone或DJI大疆无人机。
超级计算机其实也是分布式集群架构,和普通集群很类似,编程模型都是MPI、Mapreduce那一套。稍有不同的是:1.超级计算机用infiniband背板提高各节点间的网络IO,常规分布式集群一般都是千兆、万兆网卡。2.超级计算机一般会配高档的磁盘阵列,而GFS+Mapreduc…
iPad 2 的性能和四核心的 Cray-2 超级计算机相仿,这个过程用了 26 年,况且 iPad2 不能严格算是民用计算机。&br&&br&今日最强悍的桌面级计算机之一的 SGI Octane III,目前能提供最大 120 核的计算能力,如果推出支持 Xeon E7 处理器的版本,将支持 200 核,400 线程的计算能力。E7-4870 的单处理器的浮点运算性能大约是 Xeon X7460 的 4 倍(取英特尔网站的均值),X7460 的理论 64 位浮点计算能力是每秒 63.86GFLOP,所以 E7-4870 的理论浮点计算能力大约是 250GFLOPS,这个速度大约是 AMD 5870 显卡的一半。Octane III 中若能装入的 20 个 E7-4870 ,理论上整台机器的浮点计算能力大约是 5000GFLOPS(5TFLOPS),去 Top500 网站查询,Top500 计算机整体达到 5TFLOPS 计算能力是在 2007 年,Top1 达到 5TFLOPS 大约是在 2000 年。
iPad 2 的性能和四核心的 Cray-2 超级计算机相仿,这个过程用了 26 年,况且 iPad2 不能严格算是民用计算机。今日最强悍的桌面级计算机之一的 SGI Octane III,目前能提供最大 120 核的计算能力,如果推出支持 Xeon E7 处理器的版本,将支持 200 核,400 线…
首先要定义什么是“真实物理光照渲染”,如果是指和真实自然渲染相同的话,那么答案是不但没有实时渲染,甚至没有任何算法可以做到。图形学研究者认为自然中光线遵循“&a href=&http://zh.wikipedia.org/wiki/%E6%B8%B2%E6%9F%93%E6%96%B9%E7%A8%8B& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&渲染方程&i class=&icon-external&&&/i&&/a&&,而所有目前的算法(光线跟踪,Radiosity)以及光照模型(Phong Shading, Blinn-Phong Shading)都是渲染方程的近似,目前并没有(理论上也无法)算法能完全模拟完整的渲染方程。&br&&br&接下来,目前被认为比较真实的一些渲染算法,包括光线跟踪、Radiosity等也都有各自的局限性。光线跟踪难以实现软阴影,Radiosity能够很好地实现软阴影,但又难以实现点光源,方向性光源和镜面反射,而二者都难以实现&a href=&http://en.wikipedia.org/wiki/Caustic_(optics)& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Caustic (optics)&i class=&icon-external&&&/i&&/a&特效,针对Caustic又有Photon Mapping技术。结合所有这些渲染后,已经可以实现非常逼真的渲染了,但代价是运算时间和内存消耗的极度攀升。以目前的研究成果而言,使用上述技术渲染一幅分辨率尚可的画面,尚难以做到实时(这里的实时也是相对帧率而言,但一般至少要满足24fps才能称之为实时)。&br&&br&如果我们稍加简化,只考虑光线跟踪(其实渲染效果也很不错),那么现有的技术已经足以实现实时渲染,但需要高度并行和高效的处理器(CPU或GPU)。Intel曾在2008年发行了著名游戏Quake的光线跟踪版&a href=&http://en.wikipedia.org/wiki/Quake_Wars:_Ray_Traced& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Quake Wars: Ray Traced&i class=&icon-external&&&/i&&/a&,在16核Xeon处理器上能够实现14-29fps的渲染效率。另一个致力于高效光线跟踪的开源框架是OpenRT,使用了大量的优化技术。更多的内容可以参见&a href=&http://en.wikipedia.org/wiki/Ray_tracing_(graphics)#In_real_time& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Ray tracing (graphics)&i class=&icon-external&&&/i&&/a&这里。&br&&br&另一个重要的结果是&a href=&/v_show/id_XMzQ4Nzg2MjY0.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&下一代原子级3D实时渲染技术——无限细节&i class=&icon-external&&&/i&&/a&,这个来自澳大利亚的公司宣称实现了”无限精度“的实时渲染,由于该公司是商业公司,关于他们的渲染技术并没有更多的细节,但普遍认为是&a href=&http://en.wikipedia.org/wiki/Volume_rendering& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Volume rendering&i class=&icon-external&&&/i&&/a&的类似方法。不过,该方法仍然不是完美的渲染,因为Volume Rendering也有很多需要解决的光学问题。&br&&br&但是拥有了更大规模的计算资源之后,高帧率的光线跟踪事实上已经变得可能,加入其他渲染技术的实时渲染也即将到来。虽然个人很难拥有这样的计算资源,但可以借助于云计算。事实上,Autodesk Cloud已经提供了Rendering服务。可以预见在未来,当普通用户的网络传输速度和服务器计算资源进一步得到大规模提升,3D游戏的实时云渲染将变得触手可及。只不过,这仍然不是“真实物理渲染”。
首先要定义什么是“真实物理光照渲染”,如果是指和真实自然渲染相同的话,那么答案是不但没有实时渲染,甚至没有任何算法可以做到。图形学研究者认为自然中光线遵循“",而所有目前的算法(光线跟踪,Radiosity)以及光照模型(Phong Shading, Bli…
来自子话题:
首先告诉大家一点:图灵测试是由十几个人类裁判来评定的,大部分时间人类裁判都是能够判断出谁是机器的。在仅有的几次机器通过图灵测试的例子中,相应的人类裁判都有放水的嫌疑...有一次貌似有个裁判还承认了他对机器人放水....&br&&br&然后说正题。Watson设计初衷是为了回答问题。也就是说,给出一个问题,Watson会尝试在自己的知识库中找到唯一正确的答案。在这一点上,他在图灵测试中的表现通常会比另一个人类选手杰出多了。(除非另一个是Ken Jennings。FYI,DeepQA的研发小组曾经专门针对Ken Jennings做过统计分析,他实在是人类中的一朵奇葩...褒义的。无论是答题数量还是正确率,都远超其他Jeopardy!的冠军选手。)当然如果人类裁判认为答题正确率高的一定是Watson那也可以...嗯。&br&&br&作为图灵测试本身,并没有限制人类裁判的提问范围。所以对于一些完全无意义的问题,Watson的表现不见得会比其他AI聊天机器人要好。(Elbot是迄今为止所有AI聊天机器人中表现最好的,他在08年曾经骗过3个裁判,以至于拿了当年勒布纳奖的铜奖。我没事儿的时候会去跟他闲扯几句。)此外,Watson对于双关语之类的东西把握得还不是很好,所以问这一类的问题也能让丈二Watson摸不着头脑。&br&&br&BTW,Watson能够对各种各样不同类型的问题做出正确率颇高的回答,靠的是一百多种不同的分析方法以及一个合理的加权评分机制。&b&你可以理解为Watson里住着一百多个小妖精,每一个小妖精都对Watson接到的问题做出自己的回答,最终让妖精长老会判断哪个答案最靠谱,然后告诉Watson这个答案。这些小妖精以及妖精长老会就是DeepQA问答系统。&/b&&br&&br&关于能使Watson回答问题的系统:DeepQA问答系统的具体架构,可以看我写的&b&《Watson之心–DeepQA系统近距离观察》&/b& &a href=&/?p=116& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/?&/span&&span class=&invisible&&p=116&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&这篇是我根据DeepQA研发小组在AI Magazine上发表的论文编译的,并非完全原创。
首先告诉大家一点:图灵测试是由十几个人类裁判来评定的,大部分时间人类裁判都是能够判断出谁是机器的。在仅有的几次机器通过图灵测试的例子中,相应的人类裁判都有放水的嫌疑...有一次貌似有个裁判还承认了他对机器人放水....然后说正题。Watson设计初衷…
来自子话题:
你别说,在早期根本就没有3D硬件加速技术(那时候对什么是3D也没定义,主流的多边形还是方形而不是三角,Z缓冲更没几个人认),所以大家都是只追求速度的,用小型机搞即时演算的大有人在。&br&&br&NAMCO是最早采用3D技术的厂商之一,他们在1990年为游戏厅引进过美国的图形工作站,在上面开发了王牌空战的原型,画面介于AC3和AC4之间,贴图很精细,特效也有。&br&&br&SEGA也喜欢买技术,MODEL3找的洛克希德马丁旗下的实验室,成功把工作站小型化。在那个3D技术飞速发展的年代,还能领先其他厂商3年,相当吓人了。&br&&br&找到了,作品叫&i&Namco Magic Edge Hornet Simulator (1993)&/i&&br&&img data-rawheight=&240& data-rawwidth=&320& src=&/2d15ac7e6b6e56d383fc37beadf0ded5_b.jpg& class=&content_image& width=&320&&&br&同年SEGA的是VITRUA FIGHTER 1&br&&img data-rawheight=&384& data-rawwidth=&496& src=&/9d1ef4a4fdbbfb_b.jpg& class=&origin_image zh-lightbox-thumb& width=&496& data-original=&/9d1ef4a4fdbbfb_r.jpg&&
你别说,在早期根本就没有3D硬件加速技术(那时候对什么是3D也没定义,主流的多边形还是方形而不是三角,Z缓冲更没几个人认),所以大家都是只追求速度的,用小型机搞即时演算的大有人在。NAMCO是最早采用3D技术的厂商之一,他们在1990年为游戏厅引进过美国…}

我要回帖

更多关于 摩尔庄园绝版册在哪 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信