Table of Contents
Ich hab ihn letzter Zeit viel zu viele rantige, übellaunige Blog-Beiträge in den Äther gepustet. Also dachte ich mir, es wird mal wieder Zeit, für eine spannende Daten-Analyse.
Also, hingesetzt und den Kopf aufgesperrt - jetzt gibts was auf die Glupscher!
Diesmal geht es um Supermärkte und die Frage: “Wo veläuft die ALDI Grenze?” Also, ALDI-Nord und ALDI-Süd. Wissen schon. Zumindest ich hab mich das schon immer gefragt! Zur Antwort kommen wir gleich. Erstmal zu den Daten:
Ich nutze einen Datensatz, der “so ziemlich” alle Supermärkte in Deutschland enthält. Dazu je Supermarkt die Ortsangabe mit Latitude und Longitude (wer des Lateinischen nicht mächtig ist: Breitengrad und Längengrad). Lat komm vom lateinischen “Latus” - Breit. Musculus latissimus dorsi - der breiteste Rückenmuskel, schon mal gehört? Keine Ahnung warum der so heißt, bei mir ist der jedenfalls nicht breit. Daneben enthält der Datenatz auch die Anzahl der Rezensionen auf Google Maps sowie die von Google berechnete Durchschnittsbewertung. Das ist nicht sonderlich breit, aber dafür mit knapp 70.000 Einträgen sehr lang! Nice.
(˵ ͡° ͜ʖ ͡°˵)
Datenqualität und methodische Hinweise
Der Datensatz stammt von Google Maps. Es gibt da draußen einen Haufen Anbieter, bei denen man solche Daten erwerben kann. Ein kurzer Überblick zeigt, dass die Zahlen vermutlich nicht vollständig sind - um das zu verifizieren habe ich ChatGPT gefragt (Kinder, bitte nicht zu Hause nachmachen oder wenigstens immer explizit nach Quellen fragen!).
Sind die die Zahlen zu niedrig, kann das mehrere Gründe haben: Vielleicht hat nicht jede Filiale einen Eintrag auf Google Maps hat - ungewöhnlich, aber denkbar. Auch ist es möglich, dass Google Maps eine Filiale bei dem Filter “Supermarkt” nicht anzeigt. Auch das eher ungewöhnlich, da Google den Filter eher weit interpretiert, so sind z.B. auch “Tropical Islands” oder “Autogrill Raststätte Pratteln” enthalten. Zwar klar gekennzeichnet als “Raststätte” oder “Freizeitpark”, aber eben doch im Datensatz. Ein Grund für zu hohe Zahlen ist, dass der Datensatz auch Grenzregionen enthält. Bei “Spar” wird zum Beispiel deutlich, dass sehr viele Filialen in Österreich und der Schweiz liegen. Ich habe mir eine Bereinigung für nur deutsche Datenpunkte gespart. Warum? Weil es für die Auswertung nicht wichtig ist und ich faul bin. Das ist natürlich Quatsch, das hätte sowieso die KI übernommen. OK, dann bin ich ja erst recht faul. Egal, weiter im Text!
| Kette | Ist | Soll (?) |
|---|---|---|
| Aldi | 3.540 | Aldi Nord ≈ 2.236 + Aldi Süd ≈ 2.034 → ≈ 4.270 Filialen in Deutschland (2024) Quelle |
| Edeka | 4.529 | ≈ 6.234 Filialen Quelle |
| Rewe | 4.546 | ≈ 3.800 Filialen Quelle |
| Lidl | 3.447 | ≈ 3.250 Filialen Quelle |
| Netto (Edeka) | 3.364 | ≈ 4.400 Filialen Quelle |
| Netto (DK) | 558 | ≈ 344 Filialen Quelle: Wikipedia |
| Norma | 1.178 | ≈ 1.450 Filialen Quelle |
| Penny | 1.827 | ≈ 2.130 Filialen Quelle |
| Spar | 1.315 | ≈ < 100 Quelle |
Explorative Grobanalyse
Schauen wir erstmal ganz grob in die Daten rein - wie es sich für einen ausgewachsenen Data-Analysten gehört, nutzen wir dazu Excel und Pivot. Ich liebe es. Wer hier zu Python greift, ist kein Analyst, sondern ein Poser. (Ich will ehrlich sein: Bei 70k Datensätzen und einem halben Dutzend Spalten mit Formeln geht Excel dann doch in die Knie…(。◕‿◕。))
Der Datensatz enthält eine Menge Noise; neben Supermärkten z.B. auch “Tropical Islands” - mit stolzen über 59.000 Rezensionen! Wow. Oder etwa die “Autogrill Raststätte Pratteln” mit einem durchschnittlichen Rating von 3,9 von 5 bei etwa 10.000 Rezensionen. Ziemlich mies, geht aber auch mieser: Ein “Postpartner 4673” irgendwo in Österreich kommt auf 1 Stern und 13 Bewertungen. Autsch. Und es gibt auch anders: “AHO.bio” - ein kleiner Laden südlich von Hannover, mitten auf dem Land, kommt 5 Sterne bei fast 1.000 Bewertungen. Respekt.
Eine Gegenüberstellung von Rating und Anzahl der Bewertung zeigt etwas, das in Studien schon bestätigt wurde - allerdings für Online-Bewertungen von Produkten: Der durchschnittliche Rating-Wert tendiert zu einem Bereich von 4,2 bis 4,5 (der Wert schwankt branchenabhängig, aber ich denke ihr wisst, was ich meine).
Wenn wir schon dabei sind, schauen wir uns noch die Histogramme für die Anzahl der Bewertungen und die durchschnittliche Bewertung an:
Die meisten Filialen bringen es auf 300 - 400 Bewertungen; knapp 400 haben gar keine Rezension. Auch das gibt es (und demnach auch keine Sterne).
Die Verteilung der durchschnittlichen Bewertungen zeigt noch einmal, wie sehr sich die Mehrzahl der Bewertungen um den Wert 4 gruppiert. Die meisten Bewertungen haben 4,2 Sterne. Und es gibt 259 Ausreißer mit 5 Sternen.
Explorative Feinanalyse
OK, so viel zur Einleitung. Wir wissen nun, was möglich ist. Aber wir sind ja wegen den Supermärkten und ihren Derivaten hier - wie sieht es denn damit aus und vor allem - wo verläuft denn nun die Grenze zwischen ALDI-Nord und ALDI-Süd?
Ganz klar: Im Westen geht es einmal quer durch das Ruhrgebiet und dann etwas nördlich von Frankfurt fast horizontal nach Osten.
Aber nicht nur bei Aldi gibt es Klärungsbedarf. Wusstest du, dass es zwei unterschiedliche Ketten mit einem ähnlichen Namen gibt? Netto mit Hund und Netto ohne Hund (vulgo Netto Marken-Discount). Netto mit Hund gehört zur dänischen Salling-Group. Netto ohne Hund ist Teil der Edeka-Gruppe. In Frankreich gibt es übrigens auch einen Discounter namens “Netto”, der sich übrigens selber “Soft-Discounter” nennt, und zur Les Mousquetaires gehört. Ganz schön kompliziert. Und so sieht das auf der Karte aus:
{{ < img src=“netto-grenze.png” alt=“Die Netto Grenze” width=“500” class=“center” caption=“Die Grenze zwischen Netto mit Hund und Netto ohne Hund direkt nebeneinander - what a time to be alive!” >}}
Der Netto-Markendiscount, also ohne Hund, von Edeka, ist deutlich öfter vertreten als der Zwilling aus Dänemark. Netto mit Hund findet man vor allem im Nord-Osten der Republik. Und manchmal liegen beide auch direkt gegenüber, wie z.B in Burg auf Fehmarn:
Aber es gibt ja nicht nur ALDI und Netto. Die folgenden Karten zeigen, wie es mit der restlichen Konkurrenz steht. Der Datensatz enthält weitaus mehr Ketten, ich betrachte hier aber die - aus meiner Sicht - bekanntesten und das sind neben ALDI: Edeka, Lidl, Rewe, Kaufland, Norma, Penny, Spar und Plus. (Ja, ich weiß: Discounter, Supermarkt, Verbrauchermarkt, Warenhaus und so weiter. Das sind doch bürgerliche Kategorien, nich’ wah’?)
ALDI und Edeka sind in etwa gleich gut über das Land verteilt. Erstaunlich ist die auffällige Rewe- und Lidl-Dichte im Westen. Kaufland ist kein klassischer Supermarkt sondern wohl eher Warenhaus und damit natürlich seltener vertreten. Norma konzentriert sich stark auf den Süden. Penny lässt Mitteldeutschland aus. Spar ist vor allem in den westlichen und südlichen Grenz-Regionen zu finden. Plus gibt es hierzulande nur noch selten und die beiden Nettos ist die einzge Marke, die halbwegs gleichmäßig über das Land verteilt ist.
Das folgende Chart soll noch einmal einen ungefähren Überblick über die Verhältnisse geben - unter dem oben erwähnten Vorbehalt, dass die Zahlen nicht exakt sind (und das erwähne ich jetzt zum letzten Mal, es gilt aber auch für die weiteren Analysen - die Zahlen sind nur “grob richtig”, die Tendenz stimmt aber - diese Wort aus dem Munde eines Datenanalysten… wisst ihr Bescheid!):
Bewertungen und Rezensionen
Das interessanteste an dem Datensatz sind natürlich die Rezensionen selber! Welche Kette schließt hier am besten ab? Wo gibt es die meisten Bewertungen? (Eine Bewertung steht entweder für eine Rezension mit ohne die Vergabe von Sternen!)
Nicht nur in absoluten Zahlen, auch im Durchschnitt kann Lidl die meisten Bewertungen einsammeln! Beeindruckend! Die im Schnitt wenigsten Rezensionen gibt es für Spar. Hier kan die vergleichsweise kleine Stichprobe aber das Ergebnis verzerren.
Bei den Sterne-Bewertungen liegt das gesamte Feld relativ nahe beeinander, wenngleich die beiden Netto-Ketten etwas abgeschlagen nur auf knapp 3,9 Sterne kommen. Lidl glänzt mit 4,24 Sternen. Ich habe hier auch das gewichtet Mittel berechnet, um grobe Abweichungen zu erkennen. Die Differenzen sind aber nicht erwähnenswert.
Kurzer Realitätsabgleich; der Datensatz enthält ja weitaus mehr Unternehmen als nur Supermärkte. Mit rund 4 Sternen spielen die Supermärkte durchaus in der oberen Liga mit. Der Europa-Park Salzburg und das Tuincentrum Leurs mit 4,5 und 4,6 sind nicht weit entfernt.
Wie sieht es mit den “lokalen Helden” aus - sprich: Welche Filiale der jeweiligen Kette sticht in Punkte Beliebtheit hervor? Dazu habe ich je Kette die Märkte herausgesucht, die am meisten Bewertungen gesammelt haben. Die folgende Grafik zeigt diese und die durchschnittliche Bewertung an. (An all die Excel-Hater, auch das ist mit der MAXWENNS-Funktion simpel umgesetzt, schreibts in die Kommentare, wenn ihr wollt, dass ich das mal erkläre!)
Spannend ist, wie sehr sich das Feld hier auseinander zieht! Eine dänische Netto-Filiale wird mit 2.044 Rezensionen und nur 3,4 Sternen nahezu abgestraft! Es handelt sich dabei um eine Filiale in Koserov auf Usedom:
Der absolute Kundenliebling ist die Edeka-Filiale “Zurheide Feine Kost - EDEKA Frischecenter” in Düsseldorf! 4,5 Sterne bei über 5.000 Bewertungen - herzlichen Glückwunsch!
Die lieben Lebensmittel offenbar wirklich! ⊂(◉‿◉)つ
Geografische Analyse
Was haben wir denn noch? Latitude und Longitude! Wenn es bis jetzt nicht spannend war - dann wird es das nun! Wir wissen ja schon, wie sich die einzelnen Ketten geografisch verteilen. Aber gibt es regionale Auffälligkeiten bei den Bewertungen? Der Datensatz enthält außerdem, mutmaßlich vollständig, die Information, ob die Filialen rollstuhlgerecht sind. Wie sieht es da aus?
Zwar gibt es hier und da einige rote Punkte - also schlecht bewertete Filialen - aber wie wir oben schon gesehen haben, gibt es eine recht stabile Konzentration um 4 Sterne herum.
Werfen wir noch einen Blick auf die Anzahl der Bewertungen. Die Darstellung findet hier auf einer logarithmischen Skala statt, um die Spannweite etwas besser zu erfassen.
So richtig lässt sich hier trotzdem kein Muster erkennen. Weder urbane Zentren noch ländliche Regionen stechen hervor. Wie kann das sein? Nun, auch hier zeigt sich, was oben die Betrachtung der Häufigkeiten gezeigt hat: Es gibt eine klare Tendenz und demnach zeigt auch die geografische Auswertung keine Überraschungen.
Barrierefreiheit
Zu guter letzt noch ein Blick auf die Barrierefreiheit - diese Darstellung ist aber mit Vorsicht zu genießen, da sie - meine Vermutung - nicht auf offiziellen Daten beruht, sondern auf Nutzerangaben oder dem Willen des jeweiligen Unternehmens, die Daten zu pflegen.
Ein Blick auf die Verteilung je Kette lohnt sich indes:
Laut den Daten hat Penny die meisten Filialen ohne rollstuhlgerechten Zugang. Norma und Netto-Edeka glänzen mit einer fast vollständigen Abdeckung! Wirkt sich das vielleicht auch auf die Bewertungen aus?
Nicht wirklich! Barrierefreiheit scheint kein Bewertungskriterium zu sein.
Wortwolken
Zum Abschluss noch ein Blick auf die Rezensionen. Diese können wir nicht komplett erfassen; der Datensatz enthält jeweils nur die letzte Bewertung (damit ist übrigens auch eine Auswertung der Wörter und der Sentiments sinnfrei).
Auch hier erwartet uns keine große Überraschung. Es lässt sich deutlich erkennen, dass neben dem Sortiment auch das Personal eine wichtige Rolle spielen.
Fazit
Genug gelunzt! Ich würde sagen, wir haben alles gesehen, oder? Viel mehr gibt der Datensatz leider nicht her. Am spannensten ist aus meiner Sicht noch die Verteilung der Fialien über das Land. Wenig überraschend konzentrieren sich die Supermärkte in den Großstädten. Berlin, Hamburg, Dresden, München und so weiter. Im Osten Deutschlands gibt es sehr viele weiße Flecken - vor allem in Mecklenburg Vorpommern - wohingegen ein dichtes Band vom Rührgebiet über den Rhein-Neckar-Kreis bis nach Süd-Ost-Deutschland zieht.
Zusammenfassung
In diesem Blog-Beitrag wird die geografische Verteilung der Supermarktketten in Deutschland analysiert, mit besonderem Fokus auf die Grenze zwischen ALDI-Nord und ALDI-Süd. Es werden Daten von Google Maps verwendet, um die Anzahl der Filialen, Bewertungen und Barrierefreiheit zu untersuchen.
Hauptthemen: supermärkte datenanalyse geodaten rezensionen aldi barrierefreiheit discounter filialnetz
Schwierigkeitsgrad: mittel
Lesezeit: ca. 7 Minuten