Im Internet gibt es viele Bewertungssysteme. Die zwei bekanntesten sind die 5-Sterne bei Amazon und der Like-Knopf bei Facebook neben diversen Abwandlungen wie einem Danke-Knopf oder einer 10-Punkte-Bewertung. Bei YouTube gibt es eine Daumen-Hoch-Oder-Runter-Bewertung und bei Matrix kann auf eine Nachricht mit einem beliebigen Emoticon reagiert werden.

(Miss-)Funktionen von Bewertungen

Bei vielen dieser Systeme habe ich mich gefragt, was der Sinn ist und ob sie überhaupt noch ihren Nutzen erfüllen. Dabei denke ich, dass mit der Umsetzung gewisser Bewertungssysteme Fehler gemacht wurden.

Trennung von individueller und allgemeiner Bewertung

Einer dieser Fehler ist meiner Meinung nach die Vermischung der zwei Fragen: »Interessiert Dich das?« und »Würdest Du es weiterempfehlen?« Bei YouTube ist mir dieses Problem als erstes bewusst geworden, weil dort in den Kommentaren die Leute beschimpft werden, die das Video mit Daumen-nach-unten bewerten. Wenn mir ein Video nicht gefällt und ich keine gleichartigen Empfehlungen bekommen will, dann drücke ich Daumen nach unten. Aber im gleichen Moment will ich keine allgemeine Wertung über dieses Video aussprechen. Dann gibt es aber wiederum Videos, bei denen der Ton schlecht ist oder die einfach keinen Inhalt haben. Von diesen würde ich dann gern abraten oder Videos, die empfehlenswert sind, würde ich gern als diese Kennzeichnen.

Im Bewertungssystem von YouTube hat man aber beide Fragen vermischt, sodass gar keine richtige Aussage aus den Zahlen ablesbar ist. Für eine ordentliche Bewertung sollten die Fragen nach individueller und allgemeiner Bedeutung getrennt werden.

Komplexität der Bewertung

Bei Amazon wird in einigen Kommentaren erläutert, weshalb es Punktabzug gab, was aber darauf hindeutet, dass die Gewichtung der Sterne völlig unklar ist. Mancher vergibt wegen einer schlechten Verpackung nur zwei Sterne, andere geben trotz mangelhafter Artikel vier Sterne.

Bei Facebook wiederum kann man nur Ja sagen oder schweigen. Es gibt keine Möglichkeit, einen Beitrag als Schlecht zu bewerten, womit ein Gegengewicht bei den Bewertungen fehlt. Abgesehen davon, dass auch Facebook die zwei Fragen nach individueller und allgemeiner Bewertung vermischt, ist diese Form der Bewertung aber zu einfach.

Meiner Meinung nach sind zu viele Abstufungen zu kompliziert und es sollte nur die zwei Bewertungen geben: interessiert mich/nicht bzw. Empfehlung/Missbilligung. Falls eine Bewertung notwendig seien sollte, sollte es eine dritte Bewertung egal geben.

Die Reaktionen bei Matrix bieten zwar wesentlich weitgehendere Funktionalitäten als reine Bewertungen, aber dort ist die Uneindeutigkeit durch die Vielfalt am stärksten zu erleben.

Sichtbarkeit der Bewertungen

Als drittes Problem mit den Bewertungen sind mir vor kurzem zwei Fällen begegnet: Bei nebenan.de ist zu erkennen, wer den Danke-Knopf gedrückt hat, während der Kommentator bei Xing nur eine Benachrichtigung bekommen, wenn jemand einen Kommentar für gut bewertet.

Bei nebenan und auch anderen Plattformen fällte auf, dass sich die Lager gegenseitig bestärken. Im Verlauf von einigen Diskussionen ist mir aufgefallen, dass sich Gruppen bei den Reaktionen auf Nachrichten bilden und am Ende die Leute aus ihren Lagern sich gegenseitig Bestätigungen geben. Die Bewertungen verkommen dann zu einem Applausinstrument, das zu Echokammern führt.

Abgesehen davon, dass die persönliche Einstufung immer privat seien sollte, ist die Frage, ob es nicht auch besser wäre, wenn die allgemeine Bewertung auch nicht öffentlich ist und einfach nur intern verarbeitet wird.

Anwendbarkeit der Ergebnisse

Die vielen öffentlichen Bewertungen aller möglichen Dinge sollen uns Sicherheit im Umgang mit unbekannten Dingen verschaffen. Die Idee, durch viele Abstimmungen den Erwartungswert durch den Durchschnitt zu approximieren, ist allgemein gut und wird ja auch bei Umfragen und Wahlprognosen verwendet. Aber in der digitalen Welt hat sich die Anfälligkeit für Manipulation durch gekaufte Abstimmungen gezeigt, was die Ergebnisse fragwürdig erscheinen lässt.

Für die Qualität einer Umfrage ist die Auswahl der Befragten sehr wichtig. Die Teilmenge der Befragten muss die Gesamtmenge repräsentieren, sonst ist die Extrapolation nicht zulässig. Umgekehrt stellt auch die Frage, was denn die Gesamtmenge ist, wenn jeder mitmachen kann. Nur weil eine Million Leute ein Video bei YouTube gut finden, muss es mich noch lange nicht interessieren. Die Bewertung hilft also nicht mir als Nutzer, sondern viel mehr den Algorithmen im Hintergrund, wenn sie Interessensgruppen bilden und Beziehungen herstellen.

Auch die Sternebewertung bei Amazon finde ich am Ende nichtssagend. Am meisten hilft es mir, anhand der Bewertungen die Empfehlungen und Missbilligungen zu finden und diese Texte zu lesen, um mir der beiden Pole zu machen.

Der Nutzen der reinen Bewertung für eine individuelle Entscheidung ist nicht gegeben und somit ist dieses Werkzeug für den Nutzer unbrauchbar.

Vertrauensnetzwerk

Dennoch bleibt die große Frage der Einstufung fremder Dinge; seien es Informationen, Programme oder Geräte. Im realen Leben berufen wir uns für Entscheidungen viel auf die Meinungen bekannter Entscheider: sei es der TÜV oder Stiftung Warentest oder bekannte Personen. Dieser Satz beschreibt schon das Konzept des Vertrauensnetzwerks (Web-of-trust). Dieses Konzept müsste auch irgendwie in der digitalen Welt umgesetzt werden und am besten automatisiert, damit man für die vielen Bewertungen, die man (theoretisch) ständig vornimmt, nicht immer eine Person behelligen muss.

Jeder Mensch könnte in seiner privaten Datenbank seine Einschätzung (gut/schlecht) aller möglichen Dinge, die mit einer URI repräsentierbar sind, hinterlegen. Diese Datenbank könnte mit entsprechenden Berechtigungen (bis hin zu einsehbar für alle) von den Nutzern abgefragt werden, sodass eine Bewertung als Mittelwert aller gewichteten Bewertungen der Datenbankabfragen entsteht. Auf das reale Leben übertragen bedeutet dies: Wenn man sich für etwas interessiert, konsultiert (befragt) man Fachmagazine und Bekannte und bildet aus deren Einschätzung mithilfe der persönlichen Einschätzung der Kompetenz der Befragten eine Gesamtbewertung.

Weiteres

Debatte: Der Sinn von Dislike-Buttons – das sagt die Wissenschaft