Term of the Month:
Yandex, das russische Google - und andere Suchmaschinen
Yandex ist einer der führenden Interrnetdienstleister in Russland und Osteuropa. Neben der Internetsuche bietet Yandex auch Internetwerbung, den Yandex.Browser, einen Online-Übersetzer, einen Kartendienst (Yandex.Maps), E-Mail-Postfächer, Clouddienste und sogar einen AppStore für Android an. Die Suchmaschine von Yandex ist derzeit die viertgrößte Suchmaschine der Welt nach Google, Baidu und Yahoo (laut Wikipedia).
Ein Ziel von Suchmaschinen ist, Suchanfragen möglichst in natürlicher Sprache zu verstehen. Folglich ist Yandex auf ihren Heimatmarkt und somit die russische Sprache optimiert. Sie ging 1997 als erste kyrillische Suchmaschine online, ein Jahr vor Google. Mittlerweile ist Yandex Marktführer in der Websuche im russischen Internet (noch vor Google) und mit einer internationalen Version weltweit verfügbar (https://www.yandex.com/).
Such"maschinen" waren früher Rechner, auf denen Such-Programme liefen, mit denen Datenbanken oder Dokumente auf dem lokalen oder auf verbundenen Rechnern nach bestimmten Suchkriterien durchsucht werden konnten. Dabei konnten die Suchbegriffe mittels Boolscher Operatoren (UND, ODER und NICHT) und Platzhalter ("Wildcards") kombiniert werden, um so die Treffer zu präzisieren. Um die Suche zu beschleunigen, wird nicht jedesmal der gesamte Datenbestand durchsucht, sondern nur ein zuvor generierter Index aus Schlüsselwörtern. Werden diese Schlüsselwörter einer Dokumentationssprache (zum Beispiel einem Thesaurus) entnommen, so spricht man von terminologischer Kontrolle.
Die wesentlichen Aufgaben einer Suchmaschine umfassen
(a) die Indexierung der Dokumente oder Datensätze,
(b) das Suchen, Finden/Beschaffen und Ordnen der gesuchten Informationen und
(c) die Darstellung der gesuchten Informationen (z.B. als Trefferliste).
Kennt man die Anzahl der relevanten Einträge in einer Datenbank oder einem Katalog und jene im Suchergebnis, so kann man die Qualität einer Suchmaschine anhand von zwei Kennzahlen beschreiben:
(a) Precision: Prozentsatz der relevanten Treffer an der Gesamtzahl der erhaltenen Treffer ("Sind alle gefundenen Dokumente relevant?")
(b) Recall: Prozentsatz der relevanten Treffer an der Gesamtzahl der relevanten Einträge ("Werden alle relevanten Dokumente gefunden?")
Ein Webcrawler ist laut Wikipedia "ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen zur Indexierung von Webseiten eingesetzt".
Die Websuche von Suchmaschinen beruht somit entweder auf einem automatisch erzeugten Index oder aber auf einem manuell erzeugten Webkatalog, also einer Sammlung von Adressen von Webseiten im World Wide Web, ähnlich einem Bibliothekskatalog für die Printmedien in den Bibliotheken. Die intellektuell erstellten Kataloge weisen in der Regel eine deutlich bessere Qualität auf, sind jedoch auch wesentlich aufwendiger in der Erstellung und Wartung. Sie beschränken sich daher oft auf ein bestimmtes Sachgebiet. Sie bieten darüber hinaus Zusatzfunktionen wie Querverweise, thematische Kategorien und Kurzbeschreibungen an.
Automatisch erstellte Verzeichnisse sind zwar umfangreicher und aktueller, erreichen aber noch nicht die hohe Relevanz manuell-redaktionell erstellter Kataloge. Dieses Manko versucht man mit automatischen Bewertungen ("Ranking") zu reduzieren. Automatische Rankings hängen wiederum von dem zugrunde liegenden Algorithmus ab und können entsprechend (zum Beispiel gegen Bezahlung) vom Betreiber der Suchmaschine beeinflusst werden.
Für die Suchmaschinenoptimierung (search engine optimization, kurz: SEO) wird versucht, die Webseiten so zu optimieren, dass sie im Relevanz-Ranking möglichst weit vorne gelistet werden.
Umgekehrt gilt, dass ein Großteil des Internets von Webcrawlern bzw. öffentlichen Suchmaschinen gar nicht erfasst werden kann. Dazu gehören alle Inhalte, die nur über Suchmasken oder mittels Login zugänglich sind. Sie befinden sich in den Tiefen des Internet, dem sogenannten "Deep Web". Es können auch Seiten bestimmter Betreiber oder Inhalte wie solche, die als jugendgefährdend eingestuft wurden, von Suchmaschinen ausgeschlossen werden.
Quellen:
https://de.wikipedia.org/wiki/Suchmaschine
https://de.wikipedia.org/wiki/Yandex