Własne operatory w Airflow

Tworzenie własnych operatorów (custom operators) w Apache Airflow to zaawansowana funkcjonalność, która umożliwia dostosowanie przepływów pracy do indywidualnych potrzeb i specyficznych wymagań. Operatorzy to podstawowe elementy przepływów danych w Airflow, które reprezentują poszczególne zadania (tasks). Choć Airflow dostarcza wiele gotowych operatorów, takich jak BashOperator, PythonOperator, czy HttpOperator, zdarzają się sytuacje, gdy standardowe rozwiązania nie wystarczą. Read More »

Cloud Foundry: Prosty przewodnik po konfiguracji i uruchamianiu środowiska

Wstęp Ostatnio zapoznałem się nieco bliżej z usługą Cloud Foundry. Poniższy artykuł to absolutne podstawy tego ciekawego i prostego systemu. Dodatkowo stanowi dla mnie swego rodzaju cheat-sheet, bo zdecydowanie zamierzam częściej po niego siegać. Z tego powodu w najblizszej przyszłosci zamierzam rozbudowywać ten wpis. W dobie cyfryzacji, szybkość i elastyczność wdrażania aplikacji stały się kluczowe Read More »

Część I. Efektywne Przetwarzanie Dużych Zbiorów Danych w PySpark: Praktyczne Techniki Partycjonowania

Ten artykuł to piersza część cyklu publikacji dotyczącego zaawansowanych aspektów PySpark. Miłego czytania! Wstęp W świecie Big Data, efektywne przetwarzanie i analiza dużych zbiorów danych jest kluczowa. Apache Spark, z jego Pythonowym interfejsem PySpark, oferuje potężne narzędzia do takiego przetwarzania. Jednym z kluczowych aspektów jest partycjonowanie danych. Poprawne partycjonowanie może znacznie zwiększyć wydajność przetwarzania danych. Read More »

OAuth – Wykorzystanie w Kontekście Inżynierii Danych

Wstęp W dobie cyfryzacji i rosnącej roli danych w każdym aspekcie naszego życia, bezpieczny i efektywny dostęp do tych danych stał się kluczowy. W tym kontekście OAuth, jako protokół autoryzacji, odgrywa niezastąpioną rolę. Protokół ten, wywodzący się z potrzeby zapewnienia bezpieczeństwa w dostępie do informacji, znajduje zastosowanie w wielu obszarach - od zabezpieczania danych osobowych, Read More »

Simple *.xlsx translation

Most people working with data believe that the entire data workflow originates from data extraction. It might be so, but I believe that the first and most crucial step is understanding the data. Quite literally. While numerical values represent the universal language of mathematics, what should we do when textual values are expressed in a Read More »

Mastering Hyperparameter Tuning: The Key to Superior Machine Learning Models

As machine learning practitioners, we often find ourselves in the pursuit of that elusive "perfect model", the one that achieves the highest accuracy, the lowest error, or the best performance on your preferred metric. While a significant part of a model's performance lies in the features and the data itself, hyperparameters - those predefined values Read More »