apache kyuubi + dremio 集成试用

2021年11月23日 阅读数:1
这篇文章主要向大家介绍apache kyuubi + dremio 集成试用,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

主要是一个玩法的集成,使用apache kyuubi 简化spark 的使用,并且若是咱们集成数据库存储格式也是很方便的(感谢网易作出的贡献)html

参考图

 

 

简单说明:
咱们直接基于apache kyuubi 进行delta lake 的操做,数据存储到minio s3 中,而后使用dremio 强大的能力(数据加速,数据集成能力)方便的进行数据查询分析git

环境准备

  • 下载安装apache kyuubi (使用了最近的版本)
    参考链接,注意新版本是没有直接集成spark的须要本身下载,同时delta lake 的包也是须要本身配置的
    https://kyuubi.apache.org/releases.html
  • 下载spark
    能够使用apache kyuubi 1.2 github 上提供的直接解压就放到externals 目录下
  • delta lake 以及s3 集成

须要本身下载软件包,我已经提供好了一个,能够直接使用,参考github ,这些软件包能够直接放到spark 的jars 目录
https://github.com/rongfengliang/delta-lake-s3-jars
github

 

 

  • delta lake 配置
    conf/kyuubi-defaults.conf 文件
 
kyuubi.frontend.bind.host       0.0.0.0
kyuubi.frontend.bind.port       10019
#  minio s3 集成,
spark.hadoop.fs.s3a.access.key=minio
spark.hadoop.fs.s3a.secret.key=minio123
spark.hadoop.fs.s3a.endpoint=localhost:9000
spark.hadoop.fs.s3a.path.style.access=true
spark.hadoop.fs.s3a.connection.ssl.enabled=false
spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension
spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog
spark.databricks.delta.retentionDurationCheck.enabled=false
  • dremio s3 部署
version: "3"
services:
  s3:
    image: minio/minio
    environment:
      - "MINIO_ACCESS_KEY=minio"
      - "MINIO_SECRET_KEY=minio123"
    command: server /data --console-address ":9001"
    ports:
      - "9000:9000"
      - "9001:9001"
  app:
    image: dremio/dremio-oss:19.0
    ports:
    - "9047:9047"
    - "31010:31010"

启动&集成试用

  • 启动
    启动以后还须要建立s3 bucket (delta-lake),否则基于apache kyuubi 建立表会提示bucket 不存在的
 
./bin/kyuubi run 
docker-compose up -d
  • 建立table
CREATE TABLE events9 (
  eventId STRING,
  eventType STRING,
  data STRING)
USING DELTA
LOCATION   's3a://delta-lake/firstdemo'  //  指定s3 路径
insert into events9 values('1111','11111','11111') // 写入数据
  • dremio 集成

配置数据源
sql

 

 


数据查询
docker

 

 

说明

以上是基于apache kyuubi 集成dremio 的一个玩法,咱们基于spark 的能力加上dremio 强大的查询能力,进行数据分析是很灵活的,apache kyuubi 是一个好东西数据库

参考资料

https://github.com/rongfengliang/delta-lake-s3-jars
https://kyuubi.apache.org/releases.html
https://docs.delta.io/latest/delta-storage.html#amazon-s3
https://www.cnblogs.com/rongfengliang/p/14928505.html
https://docs.dremio.com/deployment/dist-store-config/apache