Wakacje zbliżają się ku końcowi, więc pora zakasać rękawy i przygotować ofertę produktową dla swoich klientów. Komu ją wyślesz? Co zaprezentujesz, by sprzedaż i zyski były najwyższe? Załóżmy, że największe zyski czerpiesz ze sprzedaży urządzeń technicznych. Czy w każdym województwie największy zysk osiągasz właśnie z tego? A może to kwestia marży? Na te i wiele innych pytań pomoże Ci odpowiedzieć analiza rozkładu danych dla różnych kategorii – lipcowa nowość od Microsoft dla Power BI.
Wiele filtrów automatycznie
Najnowsza aktualizacja Power BI Analizuj > Znajdź różnice w tej dystrybucji wygląda bardzo obiecująco. Dlaczego? Program korzysta z uczenia maszynowego (ML – machine learning), by znaleźć takie filtry, które najsilniej wpływają na różnicę rozkładu np. zysku w zależności od kategorii produktów. Chociaż nie wszystkie propozycje muszą być trafne, parę może naprowadzić Cię na trop, gdzie szukać kolejnych klientów lub jak zaprojektować kampanię marketingową. Zobacz przykład!
Znajdź różnice w dystrybucji zysku ze sprzedaży
Tradycyjnie posługuję się przykładem z wykorzystaniem danych sprzedażowych. Przygotowałem dashboard z wizualizacją zysku i sprzedaży według kategorii, daty zamówienia i regionu.
Kolor słupka na wykresie zysku ze względu na kategorię produktu zależy od wysokości sprzedaży: sprzedaż urządzeń technicznych i mebli jest identyczna, ale poziom zysku diametralnie różny.
Co z tym zyskiem? Zapytajmy Power BI! Kliknij prawym przyciskiem myszy na wykres i wybierz Analizuj > Znajdź różnice w tej dystrybucji, by włączyć lipcową (2018) nowość.
Power BI wykorzystuje uczenie maszynowe, by przejrzeć wszystkie kategorie w Twoich danych i znaleźć najlepsze, które mogą odpowiadać za różnice dystrybucji zysku w 3 kategoriach. Do tej pory można to było robić ręcznie – ustawiać różne filtry i patrzeć, czy wykresy się różnią. Bardziej zaawansowaną metodą byłoby zrobienie modelu. Od teraz czasochłonną pracę możesz wykonać automatycznie w parę sekund. Zobaczmy rezultaty!
Machine learning w akcji, czyli jak czytać raport z analizy różnic w dystrybucji rozkładu
Korzystanie z metod uczenia maszynowego od razu staje się prostsze, gdy można je wykonać jednym kliknięciem. Wynikiem analizy różnicy w rozkładach jest okno z wieloma wykresami dla kilku kategorii.
Jedną z analizowanych kategorii jest województwo. W raporcie z analizy różnic w dystrybucji Power BI wskaże najwyżej 3 elementy danej kategorii. Zobacz, że województw mamy 16, a Power BI pokazuje tylko 3, które uważa, że najbardziej wpływają na rozkład zysku.
Zobaczmy, co się wyświetla. W komunikacie nad wykresem Power BI wskazuje, jaki odsetek w całej bazie osób mieszka w trzech wskazanych województwach.
Co to oznacza? Jeśli próba jest mała, a odsetek obserwacji niewielki, znaleziony wpływ cechy na dystrybucję może być przypadkowy. W tym przypadku mieszkańców województwa lubelskiego jest 7,5%, podlaskiego 4,6%, a wielkopolskiego 9%. Nie są to najgorsze udziały zwłaszcza, że województw mamy 16.
Następnie przechodzimy do wykresu.
Pojawiają się tak naprawdę 2 wykresy: szary jest taki sam jak na dashboardzie, a zielony jest przefiltrowany po danej cesze – w tym przykładzie pokazuje zysk dla województwa lubelskiego. Jeśli wciśniesz Ctrl, możesz zaznaczyć więcej niż jeden filtr.
Power BI udostępnia dwie opcje porównywania wartości. Pierwsza, automatycznie włączona, to możliwość porównania proporcji. Na naszym wykresie pojawiają się dwie skale – po lewej dla filtrowanych województw, a po prawej ogólna. Pozwala ona zauważyć różnice kształtów i wysokości słupków, gdy różnica między ogólnymi wielkościami a filtrowanymi jest duża. Druga opcja to porównywanie wartości bezwzględnych; wtedy skala jest jedna.
Pozwala to zobrazować, czy potencjalnie różnicujące cechy faktycznie stanowią znaczny wkład w całość.
Raport… i co dalej?
Jak czytamy na stronie Power BI, funkcja analizy różnic w dystrybucji jest na razie w fazie testowej i może być jeszcze zmieniana. Potencjał ku temu już ma! Wróćmy do prawego górnego rogu wykresu dla województw. Znajdują się tu ikony kciuków oraz plus.
Możemy poczuć się jak w mediach społecznościowych i ocenić analizę kciukami – podoba się, jest trafna lub nie. Plusik natomiast służy do dodania wykresu do dashboardu. Uważasz, że trop znaleziony przez Power BI jest słuszny? Chcesz go pokazać? Umieść go w swoim raporcie!
Modelowanie bez modelowania
Lipcowa aktualizacja Power BI wprowadza bardzo ciekawe rozwiązanie – jednym kliknięciem analizujesz, skąd bierze się różnica rozkładu cechy wśród różnych kategorii. Dzięki temu znalezienie odpowiedzi na pytania dlaczego staje się łatwiejsze. Pamiętaj jednak, że nie zawsze automatyczne analizy będą bezbłędne – na ich jakość ma wpływ wielkość Twojej bazy danych oraz liczba osób posiadających daną cechę. Analiza różnic dystrybucji ma jednak spory potencjał, więc już teraz warto się nią zainteresować, poznać możliwości i testować. Powodzenia!