ETL com Apache Airflow, Web Scraping, AWS S3, Apache Spark e Redshift | Parte 1

This page summarizes the projects mentioned and recommended in the original post on dev.to

InfluxDB - Power Real-Time Data Analytics at Scale
Get real-time insights from all types of time series data with InfluxDB. Ingest, query, and analyze billions of data points in real-time with unbounded cardinality.
www.influxdata.com
featured
SaaSHub - Software Alternatives and Reviews
SaaSHub helps you find the best software and product alternatives
www.saashub.com
featured
  • movie_review_pipeline_airflow

    Este é um projeto de estudo que visa realizar a implementação de um processo ETL utilizando Airflow, AWS S3, Web Scraping, Apache Spark e Redshift.

  • O código do projeto está disponível aqui.

  • Airflow

    Apache Airflow - A platform to programmatically author, schedule, and monitor workflows

  • Foi um projeto desenvolvido internamente pela equipe de desenvolvimento da empresa Aibnb, surgiu como uma ferramenta para solucionar o problema que o setor encontrava com a crescente complexidade no ambiente de dados da empresa. O Airflow surgiu no final de 2014 e foi apresentado no blog da Airbnb em 2015, e desde então se tornou popular no meio da comunidade de engenharia de dados. Por fim, depois de algum tempo o projeto foi cedida para o Apache que hoje é o responsável por mantér o projeto, hoje o projeto se chama Apache Airflow.

  • InfluxDB

    Power Real-Time Data Analytics at Scale. Get real-time insights from all types of time series data with InfluxDB. Ingest, query, and analyze billions of data points in real-time with unbounded cardinality.

    InfluxDB logo
  • docker-airflow

    Docker Apache Airflow

  • A imagem do docker utilizada foi a puckel/docker-airflow onde acrescentei o BeautifulSoup como dependência para criação da imagem em minha máquina.

NOTE: The number of mentions on this list indicates mentions on common posts plus user suggested alternatives. Hence, a higher number means a more popular project.

Suggest a related project

Related posts

  • Amount of effort to stand up, integrate and manage a small airflow implementation

    2 projects | /r/dataengineering | 20 Feb 2022
  • Kubernetes deployment read-only filesystem error

    1 project | /r/codehunter | 5 Sep 2022
  • How to use virtual environment in airflow DAGS?

    1 project | /r/apache_airflow | 23 May 2022
  • Airflow v1 to v2 - Recommendations / RoX

    1 project | /r/dataengineering | 9 Feb 2022
  • Can someone help me understand the difference between the the docker-compose files?

    1 project | /r/dataengineering | 9 Sep 2021