阿里云怎么构建一个安全隔离的网络环境?

云原生趋势下,应用容器化比例正在快速增长,Kubernetes 也已成为云原生时代新的基础设施。

据 Forrester 预测,到 2022 年, 全球企业及组织在生产环境运行容器化应用。观察今天的容器和 Kubernetes 的应用现状,我们可以看到两个普遍的现象。首先,在云上托管 Kubernetes 已经成为企业上云及运行容器的优先选择。另外,用户使用容器的方式也在改变,从无状态应用 到 核心企业应用 到 数据智能应用,越来越多的企业使用容器来部署生产级别、复杂度高和高性能计算的有状态应用。比如 Web 服务、内容资料库、数据库,甚至 DevOps、AI/大数据应用等。

云原生时代,我们如何解决海量容器的编排和存储?又该如何提升容器存储的性能和稳定性?

容器应用趋势下的存储能力演变

随着基础设施从物理机到虚拟机,到以 Kubernetes 为代表的容器环境,甚至到 Serverless 的逐渐演进,今天的计算和应用正在面临巨大的变化,最明显的就是从过去应用在虚拟机里边去独占一个 CPU 内存分区,到今天在 Serverless 里演变成在函数层面去为用户提供服务。

在这样的技术体系下,存储的能力同样需要随之改变,主要体现在以下几个方面:

虚拟机时代,一个虚拟机就对应一个完整的存储空间,可以用其去存储单个应用所需要的所有数据相关的访问和存储需求。但今天在 K8s 在 serverless 环境里的存储是共享的,一个容器需要去访问的是一个巨大的存储资源池,带来的代价就是存储的密度是非常大的,同时访问同一个存储能力的要求也变得更高。

当我们创建一个物理机或者虚拟机时,常会在一个比较稳定的周期之内访问和使用存储介质。但今天在容器环境里,前端计算服务的弹性伸缩变化是非常快的,可能需要瞬间从数十台到几百台,因此也需要非常高的弹性存储能力。

在 K8s 和 Serverless 里,很难做到内存和存储资源的独占,因为容器环境下存储资源、计算资源,甚至于操作系统以及一些依赖的基础包都是共享的。那这个时候就需要在基础架构层面实现一种安全的隔离,同样在上层的应用层面,也需要通过完善的安全策略和手段去实现数据隔离,这同样是非常大的变化和挑战。

容器环境下,企业需要怎样的存储能力?

块存储、文件存储、对象存储是现在比较常见的容器存储解决方案,那么在容器环境下,企业需要怎样的文件存储能力呢?

我们很难快速让企业整体的应用方式发生转变。很多场景下,企业使用存储的方式会是共享或者分布式存储集群。这时,存储对于应用的兼容能力就非常重要,能不能在容器环境和非容器环境下保持一致,让应用的改造尽可能变得更少,甚至于不需要改造,这是一个迫切重要满足的诉求。

容器部署的一大特点需要随着业务的峰值和波谷,满足快速的弹性需求。而当上层的计算发生弹性之后,底下的存储也需要有能力快速跟进,而不是用耗费大量时间去做底层数据的同步。

在大数据、高性能计算等场景下,应用的数据集是非常庞大的,量级动辄就是 TB、十几个 TB 的级别,有些场景甚至可以达到上百 TB。这种规格的数据如果无法共享,而是需要去在弹性的容器环境下通过拷贝传输完同步,这对于成本的压力、对于时效性的损失,都是很难保障的。

不管底层的基础架构如何改变,是物理机、虚拟机、K8s 的容器还是 Serverless,无论怎么去抽象,业务应用最根本的诉求一定是安全,应用间不能相互污染。因此存储就必须在数据共享能力之上,为数据安全提供保障。

企业对于成本优化的追求,在所有的应用场景里几乎都是孜孜不倦的。即使是在最核心的应用场景里,我们依然需要去控制成本。因为今天业务的增长和变化是非常迅速的,数据的增速也是飞快的。怎么在数据快速增长的同时里兼顾成本的优化,也是对存储非常大的一个挑战。

阿里云容器网络文件系统 CNFS

针对容器中使用文件存储的优势和挑战,阿里云推出了容器网络文件系统 CNFS,内置在阿里云托管的 Kubernetes 服务 ACK 中。CNFS 通过将阿里云的文件存储抽象为一个 K8s 对象(CRD)进行独立管理,包括创建、删除、描述、挂载,监控及扩容等运维操作,使用户可以在享受容器使用文件存储带来的便捷的同时,提高文件存储的性能和数据安全,并提供容器一致的声明式管理。

CNFS 在弹性伸缩、性能优化、可访问性、可观测性、数据保护、声明式等方面针对容器存储进行了深度优化,使其与同类方案相比具有以下明显优势:

1.在存储类型方面,CNFS支持文件存储和对象存储,目前支持阿里云的NAS、CPFS、OSS云产品
2.支持 Kubernetes 兼容的声明式生命周期管理,可以一站式管理容器和存储
3.支持 PV 的在线扩容、自动扩容,针对容器弹性伸缩特性优化
4.支持更好的和 Kubernetes 结合的数据保护,包括PV快照、回收站、删除保护、数据加密、数据灾备等
5.支持应用级别的应用一致性快照,自动分析应用配置和存储依赖,一键备份、一键还原
7.支持更好的访问控制,提高共享文件系统的权限安全,包括目录级 Quota、ACL
8.提供性能优化,针对文件存储的小文件读写,提供微秒级性能优化
9.成本优化,提供低频介质及转换策略,降低存储成本

典型使用场景及最佳实践

1. 极致弹性的容器应用场景

以互联网和大型金融服务类突发应用为例,这种场景下具有需要在短时间内弹性扩容大量的容器,对资源弹性伸缩有较高的能力要求的特点,因此容器存储需具备通用的弹性和快速伸缩能力。这类场景典型的应用包括:媒体/娱乐/直播、Web 服务/内容管理、金融服务、游戏、持续集成、机器学习、高性能计算等。

在这个场景中,Pod 需要灵活的挂载和卸载存储 PV,存储的挂载需要匹配容器快速启动,并且存在大量文件I/O;当海量的持久化数据快速增长,存储成本压力也会比较大。建议使用 ACK+CNFS+NAS 的组合,结合CNFS 可以做到以下优化:

内置文件存储类,在短时间内可启动数千个容器,并毫秒级挂载文件存储 PV
内置文件系统 NAS,可以为海量容器提供共享读写能力,快速实现容器应用/数据高可用
针对低时延和小文件的优化,实现微秒级读写性能,解决容器高并发访问对文件存储性能的要求
提供文件存储生命周期管理,自动冷热分级,降低存储成本

现在有越来越多的 AI 业务在容器中进行训练和推理,云上海量的基础设施和 IDC 结合的方式也为 AI 提供了更灵活的算力调度。当 AI 业务在云上进行训练和推理时,应用的数据集是非常庞大的。比如在自动驾驶领域,数据集可以达到 10个 PB 甚至于超百 PB 的规模,在如庞大的数据量下做 AI 训练,又需要保证训练的时效性,使容器 AI 主要面临以下挑战:

AI 的数据流复杂,存在存储系统的 IO 瓶颈;
AI 训练、推理需要高性能的计算和存储;
AI 算力协同,云和 IDC 资源/应用 需要统一调度

针对这个场景,建议使用 ACK 纳管集群+CNFS+文件存储 NAS/CPFS 的组合,主要可以获得以下优化:

优化的文件存储 NAS 读写性能,提供高性能共享存储,与 AI 场景完美匹配,支持海量小文件访问,加速 AI 训练、推理性能
适配了容器环境的 GPU 云服务器、裸金属服务器(神龙)等计算集群,提供超高吞吐和超高 IOPS 能力;CPFS 还可支持云上/云下混合部署
ACK 纳管集群,支持 ACK 纳管 IDC 自建的 Kubernetes 集群,云上/云下形成统一的资源池,异构资源/应用统一调度,最大化的利用云上海量基础设施的计算优势

3. 基因计算应用场景

现在基因检测技术已经逐渐走向成熟,并且在很多医院里慢慢被引入,通过对患者基因的测量更加精准、快速地解决复杂病症。对于我们每一个,基因的采样数据者是非常庞大的,动辙都是几十个 GB。而在进行某类定向的基因分析时,只有个人的样本是远远不够的,可能需要采集十万甚至百万个样本,这对容器存储会带来非常大的挑战,包括:

大规模样本的数据挖掘需要海量计算资源和存储资源,数据增长快,存储费用高,管理困难。
海量数据需要快速、安全的分发到国内多地,多数据中心需要共享访问
批量样本处理时间长,性能需求高,资源需求峰谷明显,难以规划

针对基因计算的场景,建议使用 ACK+AGS+CNFS+文件存储 NAS+OSS 的组合,来解决以下问题:

NFS 内置的文件存储类,可以快速搭建极速、低成本、高精度的基因计算容器环境,满足基因测序计算和数据共享需求
CNFS 支持对象存储 OSS 类型的 PV,可以保存下机数据和组装后数据以及分析结果数据,用于数据的分发、归档、交付,保证 海量用户同时上传、下载数据,提高数据交付效率。同时提供海量存储空间,同时通过生命周期管理,将冷数据归档存储,降低存储成本
AGS 针对基因计算的热点数据进行 GPU 加速计算,性能相比传统模式提高 100 倍,快速降低基因测序的时间和成本

当然,除上以上三种典型代表,CNFS 在很多场景下都可以为业务提供容器和存储结合使用的深度优化方案。欢迎大家通过文档了解:

案例:使用 CNFS 和文件存储构建现代化企业应用

通过与 CNFS的 深度集成,阿里云文件存储 NAS 已经成为容器存储最理想的解决方案。下面通过几个真实的客户案例,帮助大家更直接地了解如何使用阿里云容器服务 ACK 和文件存储构建现代化企业应用。

百家云是全国领先的一站式视频服务提供商。疫情期间,百家云流量暴涨,业务量短时间内增长了数十倍,如此迅速扩容需要在客户无感知的情况下完成;另外,百家云业务场景大量读写需求,同时计算集群水平扩容4个集群,在录制转码的过程当中,原有存储系统遇到 IO 瓶颈,对于百家云大流量、高并发的处理能力是个严峻考验。

这里对存储提出的要求包括快速适配容器应用的弹性伸,以及缩之后需要快速的数据访问。最终,通过阿里云容器服务 ACK 和文件存储 NAS 的结合,优化容器集群架构,实现了在 3 天内弹性扩容 10 倍资源。

文件存储 NAS 按需弹性扩展,基于容器服务 ACK 自动化定时伸缩,短时间内启动数千个容器,可以完美适配容器应用的弹性。采用文件存储 NAS,提供标准的访问接口兼容主流转码软件,轻松挂载编辑视频工作站。百家云的 K8s 集群对性能要求极高,通过高性能 NAS 服务,能供提供最高 10GB 大吞吐,解决了 IO 瓶颈,完美应对百家云大流量、高并发的场景,保障疫情期间直播录制业务顺利上线。

第二个案例是汽车行业的典型客户,该客户是中国领先的智能汽车制造商,也是融合互联网和人工智能前沿创新的科技公司,其产品搭载了多项人工智能技术的服务 ,如语音助手、自动驾驶等。

该企业面临的问题是在自动驾驶场景下,训练素材通常是上亿的 100KB 的小图片,总量高达上百 TB,训练过程中,GPU 通常需要反复随机访问训练集中的一部分图片,需要文件系统提供高 IOPS 的文件访问能力,从而加速训练过程;大规模存储系统稳定性以及性能无法随规模进行线性扩展;并且随着存储资源急剧增长,也带来了成本高、运维管理复杂等问题。

通过采用阿里云文件存储,完美支撑了该客户的智能驾驶的高性能计算平台,最终随机访问小文件训练速度提高了 60%;文件存储在集群中的多个数据节点,多个客户端同时访问,支持并行扩展;并且阿里云文件存储支持多级存储数据流动,大大简化了自动驾驶数据采集、传输、存储的流程。

最后是来自基因计算场景的案例,该客户是全球领先的生命科学前沿机构。客户面临的问题:数据增长快,当前存储无法满足容量和性能线性扩展需求,基因计算性能遇到 IO 瓶颈;大规模样本数据存储费用高,管理困难。

通过使用容器集群挂载文件存储 NAS 高性能计算基因数据分析中的共享存储,保存下机数据和组装后的数据,以及过程中的中间数据,为该机构提供了低延时、高 IOPS 的容器存储能力,存储性能由 1GB/s 提升至 10GB/s,实现数据 12 小时端到端处理完成,包括数据上云,结果下云分发。

文件存储 NAS 提供弹性扩展和高吞吐量的带宽,根据每次业务规模不同,NAS 按需分配容量并且提供与之匹配的带宽,既满足了业务弹性的需求,又节省 TCO;文件存储 NAS 通过统一的流程、统一的资源调度云上和云下的异构计算资源,低成本且高效地完成基因计算任务。

}

当前,数字经济已经成为全球发展的关键引擎,云计算作为数字经济的重要基础设施,正在源源不断地为社会提供像 " 水电 " 一样的基础的算力资源。为了向全球用户提供随时随地的云计算服务,阿里云建立了覆盖全球的算力基础设施:在四大洲的 27 个国家和地区、84 个可用区、2800 个网络节点,运营着上百万台服务器。

阿里云智能总裁张建锋指出,这几年,我们看到云计算进入了一个新的发展阶段,我们越来越接近于下一个时代,需要定义一个全新的技术体系。所以,今年我们最重要的策略是 B2B,就是 Back to Basic,回到云计算的本质,云计算的核心竞争力是技术,坚持在技术的长征路上,不断取得新的突破。

云计算也是一种公共服务,产业数字化的发展推动着云计算规模成倍增长,人工智能、大数据、物联网等新技术要求云的形态也同时不断演进。云计算进入了一个关键的突破期,如果我们定义好下一代技术,中国云计算就有超车机会。

张建锋表示,云计算的发展历程经历两个阶段,第一阶段是分布式架构。这个阶段互联网企业高速成长,单一业务的算力要求就能超过万台规模的服务器,由此催生了一些分布式和虚拟化代表的云计算技术,特别是分布式和虚拟化技术。这个阶段在互联网企业的推动下,快速地完成了从传统的大机向分布式系统的迁移。这个过程当中也发展出了非常多的一些新的技术、发生了新的生态,其中最重要的生态是开源的生态。

第二阶段诞生了资源池化的技术。企业不断提高着对算力可用性和可靠性的要求,在以 CPU 为中心的分布式架构下,云计算公司通过软件定义的方法,将计算、存储资源池化,构建计算存储分离的架构,对资源统一的调度编排,提供给我们的客户,以云原生方式重新设计的整个架构跟软件。

通过软件定义的方法,基于传统的、以 CPU 为中心的计算体系架构去做优化,已经触及瓶颈。云上客户的需求发生了很大变化,数据密集型的计算越来越多,不断地提高了对云计算提供的低时延、高带宽的需求,这些需求很难通过传统体系结构的优化去满足。

在张建锋看来,如今的云计算面临着几大挑战:

第一是计算和网络传输的时延大。以前可能不明显,但是随着我们的体系结构越来越分布式了之后,一个大型的应用会分散在多个子系统去部署,这些系统之间需要高速地去互联、需要非常低的延时;

第二,随着大数据应用的不断的增长,使得 IDC 内部的东西向流量(数据中心内部交互流量)带来越来越大,所以我们需要来满足流量增大之后网络的一些新的要求;

第三,现在的系统规模越来越大、越来越复杂,需要解决超大规模基础设施的复杂管理问题,也需要解决云内部的超大应用的管理问题。

随着数据密集型计算越来越多,传统以 CPU 为中心的计算体系架构无法适应这一趋势:

第一,以 CPU 为中心的架构导致了计算和网络传输的时延大;

第二,大数据应用增多,导致数据中心内部数据迁移量增多,以 CPU 为中心的架构无法提供高带宽;

第三,管理的基础设施规模越来越大,阿里云在全球 27 个国家和地区、84 个可用区管理着超过上百万台服务器,基于 CPU 为中心的架构无法解决超大规模的复杂管理问题。

阿里云技术产品负责人蒋江伟对 TechWeb 表示,以 CPU 为中心的体系架构主要承担计算与控制两个任务,对于云计算来说,它需要管理的服务器规模非常大,以阿里云为例,有上百万台服务器的量。在这个体量下,飞天云操作系统需要把它的控制和计算的逻辑进行重新的定义,单一 CPU 的控制能力是做不到的。

为了解决以上问题,需要对数据中心内部的云计算体系架构进行改革创新,从以 CPU 为中心的体系架构进入以飞天操作系统 +CIPU 为中心的体系架构。

今日,阿里云发布一个下一代的云计算体系架构,它的核心是 CIPU。云基础设施处理器 CIPU(Cloud infrastructure Processing Units ),是阿里云为新型云数据中心设计的专用处理器,用于加速和管控计算资源,将替代 CPU 成为云时代 IDC 的处理核心。在这个全新体系架构下,CIPU 向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,管控阿里云全球上百万台服务器。把云计算的操作系统和新的硬件体系结构做完美的融合,既有高效性,又有灵活性。

根据官方的数据,CIPU 拥有三大特性:

网络:对高带宽物理网络进行硬件加速,通过建设大规模的 eRDMA 分布式高性能网络,实现 RDMA 技术的普惠化;

存储:对存算分离架构的块存储接入进行硬件加速,提供超高性能的云盘;

计算:快速接入不同类型资源的神龙计算平台,带来算力的 "0" 损耗,以及硬件级安全的加固隔离。

据悉,阿里云已经成为全球支持 CPU 种类最多的云厂商,可兼容兼容 X86、ARM、RISC-V 等多种架构芯片,飞腾、鲲鹏 AMD、Ampere 等多种品牌 CPU。

正如张建锋所言,阿里云今年最重要策略是 "B2B",也就是 "Back to Basic",回到云计算的本质,坚持在技术的长征路上,不断取得新的突破。他认为,云计算进入了一个关键的突破期," 如果我们定义好下一代的云,中国云计算就有超车机会。"

}

深技大成立集成电路与光电芯片学院

2 021年,深圳技术大学(Shenzhen Technology University,SZTU)与企业合作,联合兴办粤港澳大湾区第一所集成电路学院,致力培养湾区产业发展急需的半导体和集成电路高端人才。
6月7日,根据深圳技术大学官方最新公布的消息,该学院易名为“集成电路与光电芯片学院”,同时升格为学校的一级学院,并将在今年9月迎来首批新生 ,首任院长由世界纳米激光及半导体器件领域的领军人之一、白光激光的发明者宁存政教授担任。
“深圳技术大学”介绍称,集成电路与光电芯片学院从集成电路和集成光电子领域的科技前沿和产业发展需求出发,以解决当今和未来光电融合面临的材料、物理原理、器件设计和加工工艺等环节的关键技术和基础工程问题为重要使命,最终实现光电融合集成的目标。
学院将打造集成电路与光电芯片领域行业协同与国际合作的创新平台、与本地区相关产业展开深入有效的合作,解决产业人才短缺和技术瓶颈的制约,为高水平技术大学在光电融合集成方面的科研和人才培养探索新途径。 学院主要设立微电子科学与工程专业和集成电路设计与集成系统专业。
据深圳技术大学官网介绍,学校将在集成电路和光电芯片方面打造一个集“微纳加工平台”、“光电子集成工程中心”、“集成电路与光电学院”为一体的电-光融合生态系统,并以此为依托在产业开发、人才培养及高水平技术研究等方面着重发力。
免责声明: 本文系网络转载,版权归原作者所有。 但因转载众多,或无法确认真正原始作者,故仅标明转载来源,如涉及作品版权问题,请与我们联系,我们将在第一时间协商版权问题或删除内容! 内容为作者个人观点,并不代表本公众号赞同其观点和对其真实性负责。

}

我要回帖

更多关于 怎么打通阿里云跟自己的内网 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信