-
movie_review_pipeline_airflow
Este é um projeto de estudo que visa realizar a implementação de um processo ETL utilizando Airflow, AWS S3, Web Scraping, Apache Spark e Redshift.
-
InfluxDB
Power Real-Time Data Analytics at Scale. Get real-time insights from all types of time series data with InfluxDB. Ingest, query, and analyze billions of data points in real-time with unbounded cardinality.
O código do projeto está disponível aqui.
Foi um projeto desenvolvido internamente pela equipe de desenvolvimento da empresa Aibnb, surgiu como uma ferramenta para solucionar o problema que o setor encontrava com a crescente complexidade no ambiente de dados da empresa. O Airflow surgiu no final de 2014 e foi apresentado no blog da Airbnb em 2015, e desde então se tornou popular no meio da comunidade de engenharia de dados. Por fim, depois de algum tempo o projeto foi cedida para o Apache que hoje é o responsável por mantér o projeto, hoje o projeto se chama Apache Airflow.
A imagem do docker utilizada foi a puckel/docker-airflow onde acrescentei o BeautifulSoup como dependência para criação da imagem em minha máquina.
Related posts
-
Amount of effort to stand up, integrate and manage a small airflow implementation
-
Kubernetes deployment read-only filesystem error
-
How to use virtual environment in airflow DAGS?
-
Airflow v1 to v2 - Recommendations / RoX
-
Can someone help me understand the difference between the the docker-compose files?