Likert-Skalen: Alles, was Sie darüber wissen wollten – und nie zu fragen wagten


In diesem Artikel behandeln wir die wichtigsten allgemeinen Überlegungen zur Konstruktion von Likert-Skalen. Wenn Sie jedoch direkt nach konkreten Beispielen und Formulierungsvorschlägen suchen, finden Sie in unserem anderen Blog-Artikel eine umfassende Übersicht populärer Likert-Skalen.

 

 

Über Likert-Skalen

Benannt nach ihrem Entwickler Rensis Likert (1903–1981), ist die Likert-Skala eine weit verbreitete Ratingskala, bei der Befragte angeben, inwieweit sie einer Aussage zustimmen oder nicht zustimmen.

Typischerweise erfolgt dies über eine 5- oder 7-stufige Skala, die von einem Extrem zum anderen reicht – zum Beispiel von „stimme überhaupt nicht zu“ bis „stimme voll und ganz zu“.

Likert-Skalen sind deshalb so beliebt, weil sie leicht verständlich, einfach zu erstellen, intuitiv zu beantworten und gut auszuwerten sind. Genau diese Eigenschaften machen sie zu einem Standardinstrument in der heutigen Umfrageforschung – nicht nur zur Messung von Einstellungen, sondern auch von Meinungen, Wahrnehmungen, Verhaltensweisen und vielem mehr.

Likert-Skalen wirken auf den ersten Blick simpel – und genau das macht sie so beliebt. Doch hinter dieser Einfachheit steckt ein gewisses Maß an konzeptioneller Sorgfalt. Wer mit Likert-Skalen arbeitet, sollte einige Grundprinzipien kennen, um verlässliche und aussagekräftige Ergebnisse zu erzielen.

Im Folgenden gehen wir auf die wichtigsten Aspekte ein, die bei der Gestaltung von Likert-Skalen zu berücksichtigen sind:

 

Anzahl der Antwortkategorien

Traditionell werden Likert-Skalen mit 5 bis 7 Antwortkategorien eingesetzt. In der Praxis kommen gelegentlich aber auch Skalen mit nur zwei oder bis zu elf Skalenpunkten zum Einsatz. Wie viele Skalenpunkte im konkreten Fall verwendet werden sollten, hängt von verschiedenen Überlegungen ab:

Grundsätzlich gilt: Je höher die Anzahl der Antwortkategorien, desto feinere Unterschiede können mit der Skala erfasst werden. Andererseits können Befragte nur mit einer begrenzten Anzahl an Antwortoptionen sinnvoll umgehen. Um diesen Trade-off in Ihrem konkreten Fall aufzulösen, können Sie folgende Aspekte berücksichtigen:

Involvement und Wissen der Befragten

Je mehr Ihre Befragten über den untersuchten Sachverhalt wissen oder je stärker sie sich dafür interessieren, desto besser können sie feine Unterschiede erkennen und auch benennen.

Beispiel: In einer Umfrage unter Weinkennern zur Bewertung verschiedener Weine können fein abgestufte Geschmacksnoten präzise eingeordnet werden – hier ist der Einsatz einer Skala mit vielen Antwortpunkten sinnvoll.

Andererseits: Wenn Ihre Zielgruppe nur ein oberflächliches Verständnis des Themas hat – etwa, weil die Befragten keine Weinkenner sind, oder weil die Umfrage allgemeine Einschätzungen zu einem kaum bekannten politischen Sachverhalt erhebt –, fehlt häufig die nötige Differenzierungskompetenz.

In einem solchen Fall würde eine Skala mit vielen Antwortpunkten zwar scheinbar feinere Unterschiede registrieren, diese wären jedoch nicht aussagekräftig – sondern lediglich Zufall oder Rauschen. Das beeinträchtigt die Datenqualität und erschwert die Analyse.

Verwenden Sie in solchen Fällen lieber kürzere Skalen – sie liefern verlässlichere und robustere Ergebnisse.

Natur von Objekten

Manchmal hängt die Entscheidung für eine bestimmte Skalenlänge auch von der Beschaffenheit der bewerteten Objekte oder Konzepte ab. Einige Objekte zeichnen sich von Natur aus durch feine Unterschiede aus – etwa bei der Bewertung des Komforts von Hotelzimmern oder der Klangqualität von Lautsprechern. Bei anderen Sachverhalten – beispielsweise bei einfachen Alltagsprodukten wie Taschentüchern oder Batterien – sind hingegen fein abgestufte Bewertungen weniger sinnvoll, da sie keine differenzierte Wahrnehmung widerspiegeln.

Modus der Datenerhebung

Auch die Art der Durchführung Ihrer Umfrage kann Einfluss auf die Wahl der geeigneten Skalenlänge haben. Werden beispielsweise die Fragen von einem Interviewer vorgelesen – etwa bei Befragungen auf Messen, an Verkaufspunkten oder in Telefoninterviews –, so sollte berücksichtigt werden, dass die meisten Befragten nur wenige Alternativen akustisch wahrnehmen und im Gedächtnis behalten können. In solchen Fällen empfiehlt sich eine kürzere Skala mit maximal 5 Antwortkategorien.

Auch bei Online-Umfragen, insbesondere wenn die Befragten diese auf einem Smartphone ausfüllen, sollte darauf geachtet werden, dass die gesamte Skala ohne Scrollen auf den Bildschirm passt. Andernfalls entstehen zwangsläufig unerwünschte Antwortverzerrungen.

Datenanalyse

Wie planen Sie Ihre Daten auszuwerten? Für welchen Zweck möchten Sie die Umfrageergebnisse nutzen? Auch das spielt eine entscheidende Rolle bei der Wahl der passenden Skalenlänge.

Wenn Sie die Daten lediglich aggregiert auswerten, beispielsweise Mittelwerte bilden, allgemeine Aussagen treffen oder Gruppen miteinander vergleichen wollen, lohnt sich eine längere Skala meist nicht. In diesem Fall ist es besser, kürzere Skalen zu verwenden.

Falls Sie jedoch Wirkungszusammenhänge untersuchen oder anspruchsvollere statistische Analysen durchführen möchten, sind längere Skalen vorteilhaft. Beispielsweise wird der Korrelationskoeffizient – eine häufig verwendete Maßzahl für den Zusammenhang zwischen Variablen – maßgeblich von der Anzahl der Antwortkategorien beeinflusst. Je weniger Antwortkategorien Ihre Skala umfasst, desto geringer fällt tendenziell auch der Korrelationskoeffizient aus. Dies wirkt sich direkt auf alle Analysen aus, die auf Korrelationen basieren, insbesondere auch auf Regressionsmodelle.

 

Gerade oder ungerade Anzahl von Antwortoptionen

Eine Skala mit ungerader Anzahl von Antwortkategorien besitzt einen klaren Mittelpunkt, der eine neutrale Bewertung ermöglicht. Diese neutrale Kategorie erlaubt es den Befragten, auszudrücken, dass sie zu einem Sachverhalt oder Objekt keine klare Meinung haben – oder sich von einer eindeutigen Stellungnahme „wegzudrücken“, ohne sich inhaltlich näher mit der Frage beschäftigen zu müssen.

Es gilt deshalb abzuwägen, ob Sie in Ihrer Skala eine neutrale mittlere Kategorie anbieten oder lieber eine Skala mit gerader Anzahl von Antwortoptionen ohne Mitte verwenden möchten. Diese Entscheidung hängt von mehreren Faktoren ab:

Wissen der Befragten und Sensibilität des Themas

Wenn davon auszugehen ist, dass zumindest ein Teil Ihrer Befragten keine eindeutige Meinung hat – etwa weil ihnen nötige Informationen fehlen oder das Thema zu spezifisch ist (z. B.: „Wie beurteilen Sie die neuen EU-Richtlinien zum Datenschutz?“) –, empfiehlt sich eine Skala mit ungerader Anzahl von Antwortkategorien. Fehlt diese neutrale Option, zwingt man Befragte zu einer Stellungnahme, die möglicherweise nicht ihrer tatsächlichen Haltung entspricht. Das kann zentrale Tendenz und Varianz der Ergebnisse erheblich verzerren.

Besonders bei sensiblen Themen – etwa bei Fragen nach politischen Überzeugungen oder ethischen Einstellungen („Wie stehen Sie zur Sterbehilfe?“) – sollten Befragte die Möglichkeit haben, eine neutrale Antwort zu wählen. Ohne diese Möglichkeit steigt das Risiko, dass sie sich unwohl fühlen, was wiederum die weiteren Antworten beeinflussen oder sogar zu Abbrüchen führen könnte.

Ein möglicher Kompromiss, um diesen Trade-off aufzulösen, ist es, zusätzlich zur Skala eine Option wie „weiß nicht“ oder „keine Angabe“ anzubieten. Dadurch erhalten Sie klare, kontrastreiche Antworten von denjenigen, die eine Meinung haben, und bieten gleichzeitig denjenigen, die sich unwohl fühlen oder tatsächlich keine Meinung besitzen, eine passende Alternative an.

Forschungsziele

In anderen Situationen kann es dagegen ausdrücklich gewünscht sein, klare Positionierungen und kontrastreiche Meinungen zu erhalten. Dies ist insbesondere dann sinnvoll, wenn aus den Ergebnissen konkrete Entscheidungen abgeleitet werden sollen, etwa ob eine bestimmte Maßnahme eingeführt oder abgelehnt wird („Soll in der Kantine ausschließlich vegetarisches Essen angeboten werden?“). In solchen Fällen haben neutrale Antworten keinen Mehrwert. Hier empfiehlt sich eine gerade Anzahl von Antwortkategorien ohne Mitte, um eindeutige Ergebnisse zu erhalten.

Allgemeine Empfehlung

Die Wahl einer geraden oder ungeraden Anzahl von Antwortoptionen kann die Ergebnisse und die daraus gezogenen Schlüsse maßgeblich beeinflussen. Generell gilt: Die meisten Befragten haben zu Themen, die ihnen bekannt sind, durchaus eine Meinung. Sie sollten daher sicherstellen, dass Ihre Zielgruppe genügend Informationen besitzt, um eine ehrliche und fundierte Einschätzung abgeben zu können.

 

Beschriftung der Skalenpunkte

Soll jeder Skalenpunkt beschriftet werden, oder reichen nur einige Punkte aus?

Es gibt keine eindeutige Evidenz dafür, dass eine Beschriftung aller Skalenpunkte besser ist als die Beschriftung nur einiger ausgewählter Punkte. Forschungsergebnisse zeigen vielmehr, dass es keinen wesentlichen Unterschied macht, ob jeder einzelne Punkt oder lediglich ausgewählte Skalenpunkte beschriftet sind.

Im Gegenteil: Zu viele Wörter und zu differenzierte Beschriftungen können Befragte sogar verwirren – etwa dann, wenn sich die Begriffe kaum noch klar voneinander abgrenzen lassen (z. B. „eher positiv“ vs. „ziemlich positiv“).

Viel entscheidender ist, Ambivalenz und Mehrdeutigkeit bei der Beschriftung zu vermeiden. Es muss für die Befragten jederzeit klar sein, welches Kontinuum die Skala abbildet. Dies wird am besten dadurch erreicht, dass die beiden Pole der Skala eindeutig bezeichnet sind und bei einer ungeraden Anzahl von Antwortoptionen auch die Mitte eindeutig markiert wird.

Eine reduzierte Beschriftung ist besonders sinnvoll, wenn wenig Platz zur Verfügung steht – etwa beim Einsatz von Schiebereglern oder in Matrix-Fragen, bei denen die vollständige Beschriftung aller Skalenpunkte schnell unübersichtlich wirken kann.

Skalenbeschriftung

Spitze vs. Flache Antwortverteilung

Ein weiterer wichtiger Aspekt betrifft die Formulierung der Skalenpole – also wie extrem die Endpunkte der Skala sprachlich gestaltet sind.

flache vs spitze Skalenpolen

  • Extrem formulierte Pole (z. B. „äußerst zufrieden“ vs. „überhaupt nicht zufrieden“) erzeugen meist eine spitzere Antwortverteilung, da Befragte seltener die extremen Antwortoptionen wählen und sich ihre Antworten verstärkt in der Mitte konzentrieren.
  • Moderater formulierte Pole (z. B. „zufrieden“ vs. „unzufrieden“) führen hingegen zu einer flacheren Antwortverteilung, da Befragte weniger Hemmungen haben, die äußersten Skalenpunkte zu nutzen. Dies ermöglicht eine differenziertere Verteilung der Antworten entlang der gesamten Skala.

Welche Variante Sie wählen, hängt von Ihrem Forschungsziel ab:

  • Möchten Sie klare Meinungsdifferenzen sichtbar machen und möglichst eindeutige Stellungnahmen provozieren, empfehlen sich moderate Pole (flachere Verteilung).
  • Möchten Sie hingegen extreme Meinungen klar abgrenzen und nur eindeutige, starke Positionen sichtbar machen, sollten Sie extreme Pole wählen (spitzere Verteilung).

Wägen Sie daher genau ab, welche Verteilung zu Ihren Befragungszielen passt.

 

Kuriose Geschichte der Likert-Skalen

Ursprünglich wurde die Likert-Skala zur Messung von Einstellungen entwickelt. In den 1930er-Jahren begannen Psychologinnen und Psychologen, sich mit der Frage zu beschäftigen, wie man abstrakte Konstrukte wie Einstellungen überhaupt messen könnte.

Das zentrale Problem dabei: Einstellungen sind unsichtbar und nicht direkt beobachtbar. Menschen können ganz unterschiedliche Gründe dafür haben, warum sie ein Objekt mögen oder ablehnen – etwa den Geschmack, das Aussehen oder persönliche Erfahrungen. Um diese individuellen Einschätzungen vergleichbar zu machen, war ein systematisches Vorgehen notwendig.

Genau hier setzte der amerikanische Psychologe Rensis Likert mit einer ebenso einfachen wie genialen Idee an:
Er schlug vor, die Einstellung zu einem Objekt in mehrere Einzelaspekte oder sogenannte Dimensionen aufzuteilen. Für jede dieser Dimensionen formulierte er eine Aussage. Die Befragten sollten anschließend angeben, inwieweit sie diesen Aussagen zustimmten – typischerweise mithilfe einer fünf- oder siebenstufigen Skala.

Die einzelnen Antworten wurden anschließend zu einem Gesamtwert aggregiert, der eine einheitliche und somit vergleichbare Kennzahl für die Einstellung einer Person ergab – unabhängig davon, welche Dimensionen bei einer bestimmten Person besonders stark gewichtet wurden.

Ein einfaches Beispiel:
Die Einstellung zu einem Apfel könnte sich zusammensetzen aus Dimensionen wie Geschmack, Aussehen, Geruch, Saftigkeit, Farbe, Sorte, Form oder Größe. All diese Aspekte bilden gemeinsam das sogenannte latente Konstrukt „Einstellung zum Apfel“.

Likerts großer Verdienst war dabei also nicht etwa die Entwicklung einer Ratingskala an sich – solche Skalen existierten bereits lange vor ihm –, sondern die Idee, Einstellungen über mehrere Aussagen zu verschiedenen Facetten eines Objekts zu messen und zu aggregieren. Die zentrale Herausforderung bei diesem Ansatz war (und ist bis heute), aus der Vielzahl möglicher Aussagen genau diejenigen auszuwählen, die am besten geeignet sind, das latente Konstrukt tatsächlich zu erfassen. Dieser Prozess wird als Skalenbildung und -validierung bezeichnet.

Likert hat damit eigentlich den Weg zur Messung latenter Konstrukte mit sogenannten Multi-Item-Skalen eröffnet. Er löste eine wahre Welle an neuen Messverfahren aus, mit denen Forschende die unterschiedlichsten latenten Konstrukte zu messen begannen – von Arbeitszufriedenheit über Markenimage, Vertrauen, Loyalität und Engagement bis hin zu Persönlichkeitsmerkmalen oder gesellschaftlichen Einstellungen.

Mit der Zeit wurden zudem nicht mehr ausschließlich Zustimmungsskalen verwendet, sondern auch Ratings wie Wichtigkeit, Wahrscheinlichkeit, Präferenz oder Häufigkeit etablierten sich.

Kurioserweise hat sich dabei der Begriff „Likert-Skala“ im allgemeinen Sprachgebrauch von Likerts ursprünglicher Idee – nämlich der Multi-Item-Messung mit Zustimmungsskala – gelöst und bezeichnet heute vor allem die Rating-Skala selbst, also das Antwortformat.

So leben wir heute mit der eigenartigen Tatsache, dass das, was wir üblicherweise Likert-Skala nennen, gar nicht das ist, was ursprünglich damit gemeint war.

Übrigens, Likerts ursprüngliche Arbeit erschien 1932:
Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology.

 

Datum: 10.04.2025
Autor: Dr. Paul Marx
Dieser Text ist urheberrechtlich geschützt. Alle Rechte vorbehalten.

 

Das könnte Sie auch interessieren: