gongdear

gongdear的技术博客

欢迎大家参观我的博客
  menu
90 文章
89355 浏览
2 当前访客
ღゝ◡╹)ノ❤️

关于StreamSets ETL工具的docker方式部署和使用

Streamsets是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有:

  • 可视化界面操作,不写代码完成数据的采集和流转
  • 内置监控,可是实时查看数据流传输的基本信息和数据的质量
  • 强大的整合力,对现有常用组件全力支持,包括50种数据源、44种数据操作、46种目的地。

对于Streamsets来说,最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)。创建一个Pipelines管道配置也基本是这三个方面。

常见的Origins有Kafka、HTTP、UDP、JDBC、HDFS等;Processors可以实现对每个字段的过滤、更改、编码、聚合等操作;Destinations跟Origins差不多,可以写入Kafka、Flume、JDBC、HDFS、Redis等。

https://github.com/streamsets/datacollector-docker

使用docker部署:

https://hub.docker.com/r/streamsets/datacollector

下载

docker pull streamsets/datacollector

启动

docker run --restart=always -p 18630:18630 -d --name streamsets-dc streamsets/datacollector

访问
要访问Data Collector UI,请在浏览器的地址栏中输入以下URL:

http://ip:18630/

登录默认用户密码为:admin/admin

宝剑锋从磨砺出,梅花香自苦寒来.