19 października 2018 r. organizowałem #21 spotkanie Data Visualization & BI Meetup. Licznie przybyła na warszawską SGH publika mogła posłuchać nt. zastosowań wizualizacji danych w projektach humanitarnych i porównać Power Query (Excel i Power BI) z Tableau Prep. Okazuje się, że pojawienie się tego drugiego narzędzia przyspieszyło zmiany po stronie Power Query, o czym piszę na końcu.
Wizualizacja danych a światowe problemy
W pierwszej części spotkania Michał Łazowik, Full Stack Developer z QED, zaprezentował przykłady wykorzystania wizualizacji danych w projektach prowadzonych przez fundacje humanitarne w krajach trzeciego świata. Jak dowodził Michał, poprawa wydajności rolnictwa w krajach Afryki subsaharyjskiej czy Azji Wschodniej nie jest możliwa bez zbierania i przetwarzania dużej ilości danych, także z wykorzystaniem uczenia maszynowego. Jednak dopiero ich odpowiednia wizualizacja, m.in. na mapach, pozwala rozwiązywać realne problemy i szybciej reagować na zagrożenia – w przypadku upraw są to np. działania szkodników.
Tu możesz pobrać prezentację z komentarzem Michała: QED – Data Visualization – The Missing Link Between Science and Humanity
Power Query vs Tableau Prep
Drugą część stanowiło porównanie Power Query z Tableau Prep – analogicznym narzędziem ETL od Tableau. Prezentacji Tableau Prep podjął się Michał Mokwiński, prowadzący warszawską grupę Tableau User Group. Michał pokazał kilka ciekawych funkcji realizowanych w Prep metodą drag & drop:
- Dopasowanie niezłączonych („niezmaczowanych”) kluczy w operacji join
- Ujednolicenie tekstu na podstawie wymowy
- Budowa graficznego przepływu procesu, nazywanego w Prep „Flow”
- Wizualna dystrybucja danych
Dla porównania pokazywałem analogiczne przykłady dla Power Query w Power BI, udowadniając (przynajmniej wg mnie 😉 ), że jest to na ten moment wiodące narzędzie. Głównym wyróżnikiem Power Query okazały się:
- Cena
- Operacje na wierszach
- Zaawansowane operacje na tabelach i listach
- Kolumna z przykładów
- Język M
- Liczba connectorów
Oto pełne porównanie obu narzędzi: Power Query vs Tableau Prep
Nowości w Power Query jako pochodna Tableau Prep
Ciekawym wnioskiem ze spotkania jest to, że wprowadzenie wizualnego narzędzia ETL przez Tableau przyspieszyło rozwój analogicznych funkcji w Power Query. W październiku 2018 ukazały się w Power BI 2 nowe opcje na karcie Widok.
Rozkład kolumn w Power Query
Graficzna analiza liczby unikatowych wpisów w kolumnie oraz ich rozkładu jest możliwa w Power Query dzięki opcji Rozkład kolumn. Funkcję należy aktywować na karcie Widok. Dostaniemy też informację, ile rekordów (z podglądu pierwszego 1000 wierszy) jest:
- Odrębna (czyli, ile różnych wartości pojawia się w kolumnie)
- Unikatowa (czyli, ile wartości pojawia się tylko 1 raz i nie ma duplikatów)
Jakość kolumn w Power Query
Funkcja pozwala na sprawdzenie błędów w kolumnach, sygnalizując stan zielonym paskiem. Jeśli pojawi się na nim czerwony fragment, oznacza to, że dane mają wartości puste lub błędne.
Po włączeniu opcji Jakość kolumn na karcie Widok otrzymamy podsumowanie procentowe od razu pod nagłówkiem.
Fuzzy merge
Pojawiło się też scalanie rozmyte (fuzzy merge), o którym wkrótce napiszę w kolejnym wpisie.