Technik: Was ist wichtig?

Relevanz-Berechnung

Die Relevanzberechnung und dementsprechend die Sortierung der Suchergebnisse basiert auf den MySQL-eigenen Methoden.

Dazu die Dokumentation von MySQL (http://dev.mysql.com/doc/refman/5.1/de/fulltext-search.html):

Die verwendete MySQL-Volltextsuche gewichtet die ermittelten Suchergebnisse automatisch nach Ihrer Relevanz. Ausschlaggebende Kriterien für Ermittlung der Relevanz sind die Anzahl an gefundenen Wörtern, die Anzahl der Wörter im Datensatz und die Anzahl der durchsuchten Datensätze. Dies führt dazu dass ein Wort, dass in vielen Dokumenten vorhanden ist, niedriger gewichtet wird als ein Wort, dass nur in wenigen Dokumenten vorkommt.

Wörter, die in mehr als 50% der Index-Datensätze vorkommen, erhalten eine Null-Relevanz, das bedeutet dass sie für die Suche als nicht relevant behandelt und somit bei der Ermittlung der Ergebnisse ignoriert werden.

Jedes korrekte Wort in der Sammlung und in der Abfrage wird entsprechend seiner Bedeutung in der Sammlung oder Abfrage gewichtet. Hieraus ergibt sich, dass ein Wort, dass in vielen Dokumenten vorhanden ist, ein niedrigeres Gewicht (oder sogar ein Nullgewicht) hat, weil sein semantischer Wert in dieser speziellen Sammlung geringer ist. Umgekehrt erhält ein Wort, das selten vorkommt, ein höheres Gewicht. Die Gewichtungen der Wörter werden zusammengefasst, und auf dieser Basis wird die Relevanz des Datensatzes berechnet.

Eine solche Methode funktioniert am besten mit großen Sammlungen (und sie wurde auch speziell auf diesen Zweck hin sorgfältig optimiert). Bei sehr kleinen Tabellen spiegelt die Wortverteilung ihren jeweiligen semantischen Wert nicht adäquat wider.

 

kesearch verwenden

 
laedt
Eingaben löschen

Fragen? Antworten!

www.kennziffer.com GmbH

Magnus Schubert
schubert(at)kennziffer.com
0 22 0 4/ 842 662

Kontaktformular