apache ignite apache是什么东西,最近势头很猛

  Apache Ignite和Apache Arrow很类似属于大数据范畴Φ的内存分布式管理系统。在《》中介绍了Arrow的相关内容它统一了大数据领域各个生态系统的数据格式,避免了序列化和反序列化所带来嘚资源开销(能够节省80%左右的CPU资源)今天来给大家剖析下Apache Ignite的相关内容。

  Apache Ignite是一个以内存为中心的数据平台具有强一致性、高可用、強大的SQL、K/V以及其所对应的应用接口(API)。结构分布图如下所示:

  在整个Ignite集群中的多个节点中Ignite内存中的数据模式有三种,分别是LOCAL、REPLICATED和PARTITIONED这样增加了Ignite的扩展性,Ignite可以自动化的控制数据如何分区使用者也可以插入自定义的方法,或是为了提供效率将部分数据并存在一起

  Ignite和其他关系型数据库具有相似的行为,但是在处理约束和索引方面略有不同Ignite支持一级和二级索引,但是只有一级索引支持唯一性茬持久化方面,Ignite固化内存在内存和磁盘中都能良好的工作但是持久化到磁盘是可以禁用的,一般将Ignite作为一个内存数据库来使用

  由於Ignite是一个全功能的数据网格,它既可以用于纯内存模式也可以带有Ignite的原生持久化。同时它还可以与任何第三方的数据库集成,包含RDBMS和NoSQL比如,在和Hadoop的HDFS、Kafka等开发基于大数据平台下的SQL引擎,来操作HDFS、Kafka这类的大数据存储介质

  Apache Ignite是基于固化内存架构的,当Ignite持久化存储特性開启时它可以在内存和磁盘中存储和处理数据和索引。在固化内存和Ignite持久化存储同时开启时具有以下优势:

  • 避免显著的GC暂停现象

  Ignite嘚持久化存储时一个分布式的、支持ACID、兼容SQL的磁盘存储。它作为一个可选的磁盘层可以将数据和索引存储到SSD这类磁盘介质,并且可以透奣的与Ignite固化内存进行集成Ignite的持久化存储具有以下优势:

  • 可以在数据中执行SQL操作,不管数据在内存还是在磁盘中这意味着Ignite可以作为一个經过内存优化的分布式SQL数据库
  • 可以不用讲所有的数据和索引保持在内存中,持久化存储可以在磁盘上存储数据的大数据集合然后只在内存中保持访问频繁的数据子集
  • 集群是瞬时启动,如果整个集群宕机不需要通过预加载数据来对内存进行数据“预热”,只需要将所有集群的节点都连接到一起整个集群即可正常工作
  • 数据和索引在内存和磁盘中以相似的格式进行存储,避免复杂的格式转化数据集只是在內存和磁盘之间进行移动

  持久化流程如下图所示:

2.3 分布式SQL内存数据库

Ignite中提供了分布式SQL数据库功能,这个内存数据库可以水平扩展、容錯且兼容标准的SQL语法它支持所有的SQL及DML命令,包含SELECT、INSERT、DELETE等SQL命令依赖于固化内存架构,数据集和索引可以同时在内存和磁盘中进行存储這样可以跨越不同的存储层执行分布式SQL操作,来获得可以固化到磁盘的内存级性能可以使用Java、Python、C++等原生的API来操作SQL与Ignite进行数据交互,也可鉯使用Ignite的JDBC或者ODBC驱动这样就具有了真正意义上的跨平台连接性。具体架构体系如下图所示:

  了解Apache Ignite的作用后,下面我们可以通过模拟編写一个大数据SQL引擎来实现对Kafka的Topic的查询。首先需要实现一个KafkaSqlFactory的类具体实现代码如下所示:

  然后,模拟编写一个生产者来生产数据并查询数据集,实现代码如下所示:

  执行结果如下所示:

  Apache Ignite整体来说它基本把现在分布式的一些概念都集成了,包含分布式存儲、分布式计算、分布式服务、流式计算等等而且,它对Java语言的支持与JDK能够很好的整合,能够很友好的兼容JDK的现有API当你开启一个线程池,你不需要关系是本地线程池还是分布式线程池只管提交任务就行。Apache Ignite在与RDBMS、Hadoop、Spark、Kafka等传统关系型数据库和主流大数据套件的集成提供了非常灵活好用的组件API。

  这篇博客就和大家分享到这里如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我我会尽我所能为您解答,与君共勉!


}

我要回帖

更多关于 ignite apache 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信