Spotkaj nas w Düsseldorfie · 22–26 lut. · Hala 7, B14
Your Store Already Knows — Context-Aware Store Intelligence

Rozpoznawanie obrazu półek w FMCG – jak AI kontroluje ekspozycję i eliminuje braki

Rozpoznawanie obrazu półek w FMCG zamienia zdjęcie regału w uszeregowaną listę uzupełnień powiązaną z ruchem klientów. Zamknij lukę między widocznością a działaniem.

A retail professional walks through a modern supermarket aisle as AI image recognition technology overlays green bounding boxes on FMCG products to identify and analyze shelf inventory

Częstsze audyty nie rozwiążą problemu braków na półce. Regał nie jest źle mierzony dlatego, że nikt nie przeszedł korytarzem w tym tygodniu — problem leży w tym, że dane zbierane przez zespoły terenowe docierają zbyt późno, ze zbyt małą próbą i zbyt niespójnie, by można było reagować, gdy kupujący są jeszcze w sklepie. Rozpoznawanie obrazu półek w FMCG zmienia zasady gry. Zamiast zastępować notes nieco szybszym notesem, zamienia zdjęcie regału w rankingowaną listę uzupełnień — powiązaną z rzeczywistym ruchem klientów na sali.

Dlaczego 70% braków na półce to problem operacji sklepowych, nie łańcucha dostaw

Większość out-of-stocków (OOS) powstaje — i musi być likwidowana — w obrębie własnego sklepu. Światowy średni wskaźnik OOS wynosi 8,3%, co po raz pierwszy wykazało badanie Gruen, Corsten i Bharadwaj z 2002 roku, potwierdzone następnie przez FMI. Dwie dekady później dane pokazują, że niemal się nie zmienił.

Warto przyjrzeć się przyczynom. Około 47% braków wynika z niewystarczającego zamawiania i prognozowania na poziomie sklepu. Kolejne 25% — ze złego zarządzania ekspozycją. To 70–75% problemów generowanych na poziomie retailowym, nie gdzieś w łańcuchu dostaw. ERP wie dokładnie, co opuściło magazyn. Gubi ślad na krawędzi regału. Te ostatnie 50 metrów — od zaplecza do rąk kupującego — nadal mierzy się wyrywkowymi kontrolami raz w tygodniu.

Koszty lądują bezpośrednio w rachunku wyników. Typowy retailer traci około 4% sprzedaży, gdy klienci nie mogą znaleźć szukanego produktu. Gdy brakuje kluczowego artykułu, 31% kupujących idzie do konkurencji, a 26% przechodzi na inną markę. Co więcej, 39% klientów porzuca cały koszyk. Popyt stał w alejce. To straty operacyjne, które można odrobić.

Właśnie tę lukę — między pewnością na zapleczu a rzeczywistością na półce — zamyka AI do analizy półek sklepowych w FMCG.

Co dokładnie mierzy AI do analizy półek sklepowych w FMCG

System przetwarza pojedyncze zdjęcie regału na ustrukturyzowany zestaw operacyjnych KPI-ów: dostępność na półce (OSA), wskaźnik OOS, zgodność z planogramem, udział w ekspozycji (share-of-shelf), liczbę facingów oraz zgodność cen i promocji. Jedno zdjęcie na wejściu — liczby gotowe do działania na wyjściu.

To trudniejsze, niż brzmi. Rozróżnienie dwóch produktów tej samej marki, różniących się jedynie smakiem lub subtelnym akcentem kolorystycznym, wymaga precyzyjnego rozpoznania — a do tego model musi radzić sobie z odblaskami, zasłoniętymi produktami i stromymi kątami kamery. Same dane z kasy (POS) nie wystarczą z innego powodu — POS nie odróżnia „brak towaru" od „wolna rotacja" i żadna z tych metod nie wykrywa phantom inventory, czyli sytuacji gdy system pokazuje stany magazynowe, a półka jest pusta. Połączenie wizji z POS wyraźnie poprawia sygnał: 24–48 godzin zerowej sprzedaży przy wysokorotującym SKU ze zdrowym stanem w systemie to z około 90% prawdopodobieństwem właśnie phantom inventory.

Pięć KPI-ów, które kamery rejestrują, a ręczne audyty zawodzą

  • Dostępność na półce (OSA) — odsetek SKU-ów z asortymentu fizycznie obecnych na regale. Wskaźnik OOS jest jego dopełnieniem.
  • Zgodność z planogramem — czy właściwe SKU-e stoją na właściwych pozycjach z właściwą liczbą facingów, oceniana względem specyfikacji.
  • Udział w ekspozycji (share-of-shelf) — facingi marki podzielone przez łączną liczbę facingów w kategorii.
  • Liczba facingów — jednostki widoczne od frontu dla danego SKU, będące podstawą udziału w ekspozycji i weryfikacji minimalnych zobowiązań facingowych.
  • Zgodność cen i promocji — etykiety przy półce odczytywane przez OCR i porównywane z cennikiem oraz planem promocyjnym.

Ręczny audyt jednej alejki kategorii — liczenie facingów, sprawdzanie planogramu, wprowadzanie danych — zajmuje od 15 do 30 minut na sklep. Jest żmudny, a dwóch audytorów poda dwie różne liczby facingów dla tego samego regału. System automatyczny zwraca te same KPI-e w kilka sekund z jednego zdjęcia. Czas ma znaczenie szczególnie podczas kampanii: promowane SKU-e notują OOS na poziomie około 10–15%, znacznie powyżej bazowego 8,3%, więc kontrole cen i promocji przynoszą największy zwrot dokładnie wtedy, gdy brak towaru kosztuje najwięcej.

Jak system przetwarza zdjęcie na ocenę ekspozycji gotową do działania

  1. Rejestracja — zdjęcie wykonane telefonem, stałą kamerą lub wózkiem skanującym.
  2. Wstępne przetwarzanie — korekta odblasków, kąta i dystorsji obiektywu, by model otrzymał czysty obraz.
  3. Detekcja obiektów — obrysowanie każdego produktu i etykiety cenowej ramką detekcyjną.
  4. Klasyfikacja SKU — dopasowanie każdej ramki do danych masterowych za pomocą embeddingów wizualnych i OCR tekstu na opakowaniu.
  5. Rekonstrukcja półki — zliczenie facingów, wykrycie luk i powiązanie cen z sąsiednimi produktami.
  6. Obliczenie KPI-ów — ocena regału i kierowanie alertów do właściwych osób.

Wybór metody rejestracji to decyzja operacyjna. Rejestracja mobilna wpasowuje się w istniejące rutyny przedstawicieli terenowych przy niskich kosztach. Stałe kamery zapewniają ciągły monitoring w ciągu dnia. Autonomiczne roboty działają w niektórych dużych sklepach wielkopowierzchniowych, choć kilka głośnych programów zostało ograniczonych ze względu na koszty i wymagania operacyjne — tę opcję warto dokładnie rozważyć w kontekście własnej sieci sklepów.

Należy mieć realistyczne oczekiwania co do dokładności. Komercyjne rozpoznawanie SKU-ów osiąga zazwyczaj 90–98% w typowych warunkach, a pilotaże detekcji OOS — około 85–95% w odniesieniu do manualnego audytu. Dokładność spada w działach świeżych i chłodniczych — skroplona para i odbicia od szyb są wyjątkowo trudne — oraz po każdym przeprojektowaniu opakowania, do czasu ponownego douczenia modelu.

Od migawki półki do decyzji o uzupełnieniu: łączenie danych wizyjnych z ruchem klientów

Alert OOS o 9:00 i ten sam alert w szczycie sprzedaży to dwa różne problemy. Pierwszy ma jeszcze wiele godzin rezerwy. Drugi krwawi sprzedaż w tej chwili. Nałożenie danych o ruchu klientów i map cieplnych na wyniki analizy wizyjnej zmienia płaski wskaźnik zgodności w priorytetową kolejkę dostosowaną do popytu — pracownicy uzupełniają najpierw braki, na które trafi najwięcej kupujących.

Istnieje duże prawdopodobieństwo, że połowa tych danych jest już dostępna w organizacji. Dane o ruchu i czasie przebywania, zbierane na potrzeby zarządzania kolejkami i planowania obsady, można bezpośrednio podłączyć do wyników analizy wizyjnej półek. Ta integracja odróżnia naprawdę użyteczne wdrożenie od izolowanego narzędzia produkującego kolejny pulpit, którego nikt nie otwiera. Makroskala potwierdza zasadność inwestycji z obu stron: globalne zakłócenia inwentaryzacyjne sięgnęły w 2023 roku około 1,77 bln USD — z czego około 1,2 bln USD to straty z OOS i 562 mld USD z nadmiernych zapasów (IHL Group). Lepsza widoczność półki działa na obie bolączki jednocześnie.

Uzupełnienia ważone ruchem: likwiduj braki, które kosztują najwięcej

Schemat działania jest prosty. Bieżący pulpit OSA sygnalizuje, które SKU-e zbliżają się do zera facingów. Nałożenie danych o ruchu w sklepie pozwala uszeregować zadania uzupełnień według przewidywanego wpływu na sprzedaż. Prawie pusta pozycja podstawowa w alejce o dużym ruchu awansuje przed wolno rotujący produkt w spokojnym zakątku sklepu.

Najlepsza praktyka na sali: inicjuj kontrole fotograficzne półek w godzinach szczytu, nie tylko podczas porannego obchodu. Połącz to z prognozowaniem popytu w czasie rzeczywistym na podstawie danych POS, by wychwycić phantom inventory zanim przyniesie straty. Przy 26% klientów zmieniających markę i 31% odchodzących do konkurencji w momencie braku towaru, okno na reakcję jest krótsze, niż pozwala jakikolwiek tygodniowy cykl audytu.

Standaryzacja egzekucji w różnych formatach sklepów bez zwiększania zatrudnienia

Flagship store wypada dobrze w zgodności z planogramem. Sklepy regionalne i małoformatowe dryfują. Scoring oparty na wizji rozwiązuje ten problem, bo silnik AI traktuje każde zdjęcie identycznie — ten sam standard planogramu stosowany w każdym sklepie, każdego dnia, niezależnie od formatu i tego, kto akurat pracuje na zmianie. Menedżerowie regionalni mogą reagować na dane zdalnie, bez czekania na kolejną wizytę w terenie.

Narracja o pracy jest często błędnie odczytywana. Raportowane redukcje czasu pracy zespołów terenowych na zbieranie danych wynoszą od 30% do 70% (dane dostawców i wewnętrzne — traktować orientacyjnie). Chodzi nie o mniejszą liczbę osób, lecz o to, by ludzie spędzali swój czas na uzupełnianiu półek, a nie liczeniu facingów.

Tryby awarii, które warto zaplanować przed wdrożeniem

Wdrożenia, które się nie udają, rzadko zawodzą na dokładności modelu. Zawodzą na integracji — KPI-e nigdy nie trafiają do systemu zarządzania zadaniami. Zawodzą na jakości danych — zdjęcia wykonane pod złym kątem lub przy słabym oświetleniu. I zawodzą na zarządzaniu zmianą — pracownicy traktują aplikację jak narzędzie inwigilacji, a nie wsparcie przy uzupełnianiu. Warto zaplanować wszystkie trzy aspekty przed zdefiniowaniem zakresu wdrożenia.

Ograniczenia techniczne, o których warto poinformować partnerów IT i wdrożeniowych: okluzja oznacza, że kamera nie widzi towaru za pierwszym rzędem, więc głębokość zapasu pozostaje ślepą plamą. Odblaski niszczą rozpoznawanie metalicznych i szklanych opakowań. Przeprojektowania opakowań i nowe SKU-e mylą model do czasu ponownego douczenia. Strome kąty na górnych i dolnych półkach spłaszczają fronty produktów do postaci, której model nie potrafi odczytać.

Zróżnicowane sieci sklepów niosą cichsze ryzyko. Dane treningowe nadreprezentujące nowoczesne sklepy miejskie słabiej działają w starszych formatach regionalnych — dokładnie tam, gdzie zgodność z planogramem już i tak dryfuje. Należy uwzględnić w budżecie ciągłe douczanie modelu. To nie jest instalacja jednorazowa — model wymaga regularnego zasilania w miarę zmian asortymentu i opakowań.

Listę zamykają zasady zarządzania danymi. Kamery przy półkach będą przypadkowo rejestrować kupujących i pracowników, więc zgodność z RODO wymaga rozmywania twarzy w procesie przetwarzania obrazu, krótkiego przechowywania surowych zdjęć i czytelnych informacji w sklepie. Jeszcze jedna pułapka: fałszywie pozytywne alerty OOS włączone do ocen pracowniczych generują niesprawiedliwe wyniki i po cichu niszczą zaufanie do całego systemu. Dane służą do naprawiania półek, nie do kontrolowania ludzi.

Sztuczna inteligencja do kontroli ekspozycji i planogramu — gdzie zmierza rynek

Szacunki analityków wyceniają rynek AI do rozpoznawania obrazu półek na 2,3 mld USD w 2026 roku, ze wzrostem do 5,86 mld USD do 2030 roku przy CAGR około 26,3% (Research and Markets). Oddzielna analiza automatycznego monitoringu półek wskazuje na 1,91 mld USD w 2025 roku i 6,27 mld USD do 2034 roku (Dataintelo). Metodologie się różnią, więc dokładne liczby należy traktować orientacyjnie — kierunek jest jednak spójny we wszystkich źródłach.

Około 40–50% dużych retailerów uruchomiło już co najmniej jeden system inwentaryzacji lub merchandisingu oparty na computer vision w środowisku produkcyjnym (stan na lata 2025–2026), a computer vision ma stanowić około 43% metod pozyskiwania danych w platformach monitoringu sklepu w czasie rzeczywistym do 2026 roku (Datature). Większość tych wdrożeń zaczęła jako pilotaże. Stają się standardową infrastrukturą operacyjną.

Warto obserwować przesunięcie w stronę przetwarzania brzegowego. Wnioskowanie bezpośrednio na urządzeniu daje pracownikom natychmiastowy feedback po wykonaniu zdjęcia w alejce, redukuje koszty przepustowości i zatrzymuje obrazy w sklepie — co jest realną zaletą z perspektywy RODO. Prognozuje się, że ponad połowa nowych wdrożeń enterprise computer vision będzie działać na sprzęcie brzegowym w 2026 roku, wobec około 30% w 2023 roku.

Generatywna AI uzupełnia wyspecjalizowane detektory, a nie je zastępuje. Modele vision-language są wykorzystywane do generowania syntetycznych obrazów treningowych dla rzadkich i nowych SKU-ów, co skraca problem braku danych startowych. Umożliwiają też odpytywanie danych o półkach w języku naturalnym — „które z 10 kluczowych SKU-ów jest niedostępnych w moich kluczowych klientach w tym tygodniu?" — bez eksportowania surowych wyników modelu do oddzielnego zespołu analitycznego.

Model operacyjny przesuwa się od „mierz raz w tygodniu i naprawiaj przy kolejnej wizycie" do „mierz ciągle i naprawiaj dziś". Dla kogoś, kto jest rozliczany ze sprzedaży na metr kwadratowy i dostępności na półce, tam właśnie tkwią zyski.

Źródła

Ready to see it in action?

Talk to our team and discover how Pygmalios can help you make better decisions with real-time data from your physical spaces.

Get in touch