#118 Wie funktioniert eine moderne Suche? Von Indexierung bis Ranking
Listen now
Description
Explain my like i am five: Die Grundlagen moderner Suchen Wir, als User, erwarten heutzutage ziemlich viel von einer Suchmaschine. Es soll “magisch” verstehen, was wir eigentlich finden möchten. Egal ob wir das richtige Wort dafür nutzen (aka Synonym-Suche) oder ob der Begriff einen Tippfehler hat (aka “Meinten Sie …?”). Oft werden Tools wie Elastic- oder OpenSearch, Solr, Algolia und Co. für sowas eingesetzt, denn eine einfache Volltext-Suche mittels eines Wildcard-SQL-SELECT Statement reicht dafür nicht mehr aus. Doch was steckt eigentlich dahinter? Wie funktionieren all diese modernen Suchen eigentlich im Inneren? In dieser Episode geht es um die Grundlagen moderner Suchmaschinen. Wir schmeißen mit Begriffen wie Stemming, Homonyme, BERT, Stopwords, Inverted Index, Suffixbäume, N-Grams, Term Frequency-Inverse Document Frequency, Vector Space Model und Co um uns und erklären das ganze im “Explain me Like I am five”-Stil. Bonus: Wie Konzepte des Information Retrieval mit Bälle-Bädern erklärt werden. **** Diese Episode wird von der HANDELSBLATT MEDIA GROUP gesponsert. Wirtschaft ist nicht immer einfach. Deswegen lautet die Mission der HANDELSBLATT MEDIA GROUP: „Wir möchten Menschen befähigen, die Wirtschaft zu verstehen.“ Mit ihren Kernprodukten, dem Handelsblatt und der WirtschaftsWoche, sowie 160.000 Abonnements, 15 Millionen Besuchern und 3 Milliarden Anfragen in einem Monat leisten sie einen wichtigen Beitrag zur Orientierung und Meinungsbildung in den Bereichen Wirtschaft und Politik und machen damit einen ausgezeichneten Job. Wenn du Teil dieser Mission sein möchtest, schau auf https://engineeringkiosk.dev/handelsblatt vorbei und werde ein Teil der HANDELSBLATT MEDIA GROUP. ******** Das schnelle Feedback zur Episode: 👍 (top) 👎 (geht so) Feedback EngKiosk Community: https://engineeringkiosk.dev/join-discord Email: [email protected]: https://www.linkedin.com/company/engineering-kiosk/Mastodon: https://podcasts.social/@engkioskTwitter: https://twitter.com/EngKiosk Gerne behandeln wir auch euer Audio Feedback in einer der nächsten Episoden, einfach die Audiodatei per Email an [email protected]. Linksr/explainlikeimfive: https://www.reddit.com/r/explainlikeimfive/Engineering Kiosk Episode #28 O(1), O(log n), O(n^2) - Ist die Komplexität von Algorithmen im Entwickler-Alltag relevant?: https://engineeringkiosk.dev/podcast/episode/28-o1-olog-n-on2-ist-die-komplexit%C3%A4t-von-algorithmen-im-entwickler-alltag-relevant/ElasticSearch: https://www.elastic.co/de/elasticsearchOpenSearch: https://opensearch.org/Apache Lucene: https://lucene.apache.org/Apache Solr: https://solr.apache.org/meilisearch: https://www.meilisearch.com/Alogolia: https://www.algolia.com/dHackerNews indexiert von Algolia: https://hn.algolia.com/Term Frequency-Inverse Document Frequency: https://de.wikipedia.org/wiki/Tf-idf-Ma%C3%9FBidirectional Encoder Representations from Transformers (BERT): https://en.wikipedia.org/wiki/BERT_(language_model)Engineering Kiosk Episode #116 KI unterstützte Software Entwicklung: Ein Reality Check mit Birgitta Böckeler von Thoughtworks: https://engineeringkiosk.dev/podcast/episode/116-ki-unterst%C3%BCtzte-software-entwicklung-ein-reality-check-mit-birgitta-b%C3%B6ckeler-von-thoughtworks/Learning to Rank: https://en.wikipedia.org/wiki/Learning_to_rankVector Space Model: https://en.wikipedia.org/wiki/Vector_space_modelInverted Index: https://en.wikipedia.org/wiki/Inverted_indexN-Gramm: https://de.wikipedia.org/wiki/N-GrammSuffixbaum: https://de.wikipedia.org/wiki/SuffixbaumTrie (Präfixbaum): https://de.wikipedia.org/wiki/Trie Sprungmarken(00:00:00) Buzzword-Bingo bei modernen Suchen (00:04:40) Die Komplexität moderner Such-Systeme (00:05:55) Die Handelsblatt Media Group (Werbung) (00:07:00) Die Komplexität moderner Such-Systeme (00:09:58) Wie funktioniert High-Level eine Suchmaschine? (00:11:04) Verarbeitung der Such-Daten durch Tokens: Sprach
More Episodes
Mit Hilfe von Spatial Index-Strukturen einen schnellen Zugriff auf Geodaten gewährleisten Die Welt ist groß und wird weiter digitalisiert. Um alles Auffindbar und durchsuchbar zu machen, werden Geodaten von alles und jedem festgehalten: Nicht nur Längen- und Breitengrade (wenn es sich um die Erde...
Published 11/26/24
Published 11/26/24
Thinkpad von IBM/Lenovo: Das wohl bekannteste Business-Notebook der Welt? Wenn wir uns bei den verwendeten Laptops von Tech-Worker*Innen so umschauen, fallen besonders zwei Firmen bzw. Modelle auf. Das eine sind MacBooks von Apple. Das andere Thinkpad von IBM bzw. Lenovo. Besonders unter Software...
Published 11/19/24