Name: Happy Coder
Telephone: +

Pytania techniczne na rozmowie rekrutacyjnej

September 13, 2024 Data engineering, HR, SQL/noSQL

Ostatnio dokonałem rekonesansu w kwestii pytań na "technicznej" części rozmowy rekrutacyjnej na stanowisko DE, DS, DA i ogólnie innych ról powiązanych z Big Data. Zaskoczeniem był fakt, że na rozmowach w polsce i za granicą mozemy zostać zapytani bardzo czesto o to samo! Naprawdę wiele pytań się powtarza i różnią się tylko treśćią samego pytania Read More »

Własne operatory w Airflow

September 10, 2024 Coding, Data engineering

Tworzenie własnych operatorów (custom operators) w Apache Airflow to zaawansowana funkcjonalność, która umożliwia dostosowanie przepływów pracy do indywidualnych potrzeb i specyficznych wymagań. Operatorzy to podstawowe elementy przepływów danych w Airflow, które reprezentują poszczególne zadania (tasks). Choć Airflow dostarcza wiele gotowych operatorów, takich jak BashOperator, PythonOperator, czy HttpOperator, zdarzają się sytuacje, gdy standardowe rozwiązania nie wystarczą. Read More »

Cloud Foundry: Prosty przewodnik po konfiguracji i uruchamianiu środowiska

November 16, 2023 Coding, Data engineering

Wstęp Ostatnio zapoznałem się nieco bliżej z usługą Cloud Foundry. Poniższy artykuł to absolutne podstawy tego ciekawego i prostego systemu. Dodatkowo stanowi dla mnie swego rodzaju cheat-sheet, bo zdecydowanie zamierzam częściej po niego siegać. Z tego powodu w najblizszej przyszłosci zamierzam rozbudowywać ten wpis. W dobie cyfryzacji, szybkość i elastyczność wdrażania aplikacji stały się kluczowe Read More »

Część I. Efektywne Przetwarzanie Dużych Zbiorów Danych w PySpark: Praktyczne Techniki Partycjonowania

November 16, 2023 Coding, Data engineering

Ten artykuł to piersza część cyklu publikacji dotyczącego zaawansowanych aspektów PySpark. Miłego czytania! Wstęp W świecie Big Data, efektywne przetwarzanie i analiza dużych zbiorów danych jest kluczowa. Apache Spark, z jego Pythonowym interfejsem PySpark, oferuje potężne narzędzia do takiego przetwarzania. Jednym z kluczowych aspektów jest partycjonowanie danych. Poprawne partycjonowanie może znacznie zwiększyć wydajność przetwarzania danych. Read More »

OAuth – Wykorzystanie w Kontekście Inżynierii Danych

November 14, 2023 Coding, Data engineering

Wstęp W dobie cyfryzacji i rosnącej roli danych w każdym aspekcie naszego życia, bezpieczny i efektywny dostęp do tych danych stał się kluczowy. W tym kontekście OAuth, jako protokół autoryzacji, odgrywa niezastąpioną rolę. Protokół ten, wywodzący się z potrzeby zapewnienia bezpieczeństwa w dostępie do informacji, znajduje zastosowanie w wielu obszarach - od zabezpieczania danych osobowych, Read More »

Exploring Advanced and Lesser-Known Data Cleaning Techniques in Data Science

October 30, 2023 Coding, Data engineering

Introduction Clean data forms the foundation of any analysis in the field of data science, serving as the bedrock upon which meaningful insights and reliable conclusions are built. Despite its fundamental role, the process of data cleaning is often overlooked or underestimated, which can lead to significant compromises in the quality of analysis outcomes. Although Read More »

Mastering Advanced Concepts in Python-based WebHDFS

October 1, 2023 Coding, Data engineering

Introduction (continuous post) The Hadoop Distributed File System (HDFS) is an indispensable component of big data ecosystems, designed to store and manage vast amounts of data across multiple nodes in a distributed fashion. WebHDFS is an HTTP REST server that provides HDFS access through a standard HTTP protocol, making it possible to interact with HDFS Read More »

Simple *.xlsx translation

August 2, 2023 Data engineering

Most people working with data believe that the entire data workflow originates from data extraction. It might be so, but I believe that the first and most crucial step is understanding the data. Quite literally. While numerical values represent the universal language of mathematics, what should we do when textual values are expressed in a Read More »

Mastering Hyperparameter Tuning: The Key to Superior Machine Learning Models

July 14, 2023 Coding, Data engineering, Machine learning

As machine learning practitioners, we often find ourselves in the pursuit of that elusive "perfect model", the one that achieves the highest accuracy, the lowest error, or the best performance on your preferred metric. While a significant part of a model's performance lies in the features and the data itself, hyperparameters - those predefined values Read More »

Building a Simple Data Pipeline from Facebook to AWS

July 9, 2023 Data engineering

Hello everyone! Today, we're going to look at how to build a simple data pipeline from Facebook to Amazon Web Services (AWS), using the Facebook Graph API and Amazon RDS. The Facebook Graph API is a powerful tool for gathering data from the Facebook platform, while Amazon RDS (Relational Database Service) is a service that Read More »

1 2 Next »

Menu

Data engineering