Czy LSI keywords istnieją i dlaczego nie

LSI keywords swoją nazwę wzięły od procesu przetwarzania języka naturalnego: Latent Semantic Indexing. W Polsce znane są jako semantyczne słowa kluczowe. Google twierdzi, że słowa kluczowe LSI to mit – my się z tym zgadzamy i zaraz wytłumaczymy dlaczego.

 

Czym są LSI keywords? O Latent Semantic Indexing słów kilka

Latent Semantic Indexing (LSI) tzw. ukryte indeksowanie semantyczne to proces przetwarzania języka naturalnego (NLP), za którym stoi czysta matematyka. Ta metoda została wynaleziona pod koniec lat 80. ubiegłego wieku, więc nie należy do najnowszych odkryć.

LSI wykorzystuje operacje matematyczne do analizowania ciągu wyrazów w zdaniu. Algorytm wykorzystuje relacje między słowami, aby lepiej zrozumieć ich sens lub kontekst. Warto podkreślić, że synonimy to nie są semantyczne słowa kluczowe LSI. Wręcz przeciwnie – to te inne wyrażenia łączące się z daną frazą.

W przypadku wyrazu o wielu znaczeniach właśnie one pomagają określić, o czym jest mowa, np.

Zamek – zapięcie w ubraniach lub torebkach

Zamek – zabezpieczenie

Kurtka, YKK

Drzwi, furtka, szafka, yeti

 

Słowa kluczowe LSI a SEO w Google

Pojawiły się oficjalne wypowiedzi pracowników Google, m.in. Johna Muellera, który potwierdził, iż LSI keywords nie istnieją. Nie wszyscy jednak w to wierzą, no bo z Googlem różnie bywa. Co więc wiemy?

 

https://twitter.com/JohnMu/status/1156293862681468929

 

LSI to stara technologia

LSI zostało opracowane przed wynalezieniem sieci WWW w celu indeksowania zawartości znanego zbioru dokumentów. Zbiór ten niespecjalnie się zmienia w przeciwieństwie do zawartości Internetu. Wyszukiwanie informacji komputerowych przy użyciu ukrytej struktury semantycznej zostało opatentowane w USA w 1989 roku przez firmę Bell Communications Research, Inc[1]. Termin ważności patentu upłynął w 2008 roku i dożywotnio wygasł. Warto podkreślić, że twórcy technologii w opisie patentu nie wspominają o czymś takim jak LSI keywords.

 

Algorytmy Google a LSI

RankBrain to algorytm wykorzystujący metodę uczenia maszynowego (a od 2018 technologię AI i sieć neuronową) do lepszego rozumienia intencji w zapytaniach użytkowników. RankBrain ma wpływ na ustalanie pozycji stron internetowych w wynikach wyszukiwania.

W 2019 roku w wyszukiwarce (czyli 30 lat od wydania patentu dla LSI i 11 po jego wygaśnięciu) pojawił się dodatkowo tzw. BERT – rodzina modeli językowych, którą stworzył Google.

Zarówno BERT, jak i LSI, są powiązane z przetwarzaniem języka naturalnego. Różni je jednak działanie:

  • LSI ze zdania usuwa niepotrzebne słowa, np. spójniki, zaimki czy pospolite czasowniki. A takie usuwanie słów może znacząco zmienić intencję zapytania.
  • BERT natomiast ocenia, co znajduje się po lewej i prawej stronie od słowa kluczowego i na tej podstawie określa kontekst. Jest w stanie przewidzieć znaczenie nieznanego słowa na podstawie otaczających go zrozumiałych wyrazów. Może też przewidzieć, jakie słowa pojawią się obok danej frazy.

To bardzo ważne, bo wyszukiwarka codziennie otrzymuje nowe zapytania, z którymi spotyka się pierwszy raz (to około 15% zapytań[2]). Dzięki nowym rozwiązaniom Google lepiej dopasowuje wyniki nawet wtedy, gdy spotyka się z wyrazem, którego nie zna.

BERT to pierwszy taki kontekstowy i dwukierunkowy model językowy w Google, a jego działanie dobrze opisuje ten cytat:

For example, in the sentence “I accessed the bank account,” a unidirectional contextual model would represent “bank” based on “I accessed the” but not “account.” However, BERT represents “bank” using both its previous and next context — “I accessed the ... account” — starting from the very bottom of a deep neural network, making it deeply bidirectional[3].

 

Wnioski

Czy istnieją słowa kluczowe LSI? Nie.

Jednak nie dlatego, że semantyka i kontekst nie mają znaczenia dla Google. Po prostu niepotrzebnie nazwano je skrótem od konkretnego (i mocno przestarzałego) procesu przetwarzania języka naturalnego.

Dzięki temu Google może stanowczo zaprzeczyć, by tego typu słowa istniały. Możliwe, że gdyby w nazwie skrót LSI zastąpić słowem „semantic” lub innym bardziej odpowiednim, to John Mueller nie mógłby już negować ich istnienia.

 

Co zamiast semantycznych fraz „LSI”?

W sumie to… nic. Bez powiązanych fraz nie da się napisać wyczerpującej i dobrej treści. Tekst zaczyna wyglądać nienaturalnie i dużo łatwiej go przeoptymalizować przez zbyt dużą liczbę powtórzeń. Brakuje w nim wątków, które powinny zostać wyjaśnione, by dostarczyć czytelnikowi jak najlepszą odpowiedź. Warto tu więc wspomnieć o sygnale rankingowym helpful content. Google po jego wprowadzeniu zaczął skupiać się jeszcze bardziej na ocenie jakości treści i wyłapywaniu powielonych oraz nieprzydatnych tekstów na stronach WWW. Co istotne – teraz spadki może wyłapać nie tylko podstrona, ale cała witryna. 

Używanie fraz semantycznie powiązanych ze słowem kluczowym ma więc sens pod kątem SEO i jest istotne dla Google. Świadczą o tym np. zasady tworzenia przydatnych treści oraz E-E-A-T, w których podkreślano zgodność tematyczną serwisu z publikacjami.

No a jak wykazać taki związek, jeśli nie przez kontekstowo powiązane słowa kluczowe?

Przykładowo sklep sprzedający olejki eteryczne powinien tworzyć treści dotyczące aromaterapii. Ba, powinien iść o krok dalej i wykorzystać wyrażenia ze słowem relaks czy stres w swoich tekstach na blogu.

Google świetnie też sobie radzi z wyrazami bliskoznacznymi i nic nie stoi na przeszkodzie, by z nich korzystać w swoich treściach. Nie używając ich, tracisz potencjalnych klientów, którzy wybrali inne frazy do zapytania.

Wyszukiwarka wie nawet, że premier i prezes Rady Ministrów to jedna i ta sama osoba (czyli szef rządu). Oczywiście podaje automatycznie taką odpowiedź dla Polski, bo urząd premiera nie istnieje np. w USA.

 

Przykładowe podpowiedzi od Google na frazę „szef rządu”: nie ma tu ani jednej podpowiedzi zawierającej słowo szef lub rząd.

 

W SEMSTORM daleko nam do twierdzenia, że frazy semantyczne nie istnieją. W naszym edytorze SEO mamy przecież całą sekcję o nazwie „Proponowane słowa”, gdzie znajdziesz często wykorzystywane słowa kluczowe przez 20 topowych konkurentów.

Jeśli wpisuję do Asystenta Contentu „LSI keywords” jako moją główną frazę, to po analizie treści konkurencji otrzymuję w podpowiedziach nie tylko „semantyczne słowa kluczowe”, ale też takie wyrazy jak „pozycjonowanie”, „seo”, „optymalizacja” czy „narzędzia”. Jedno, że o tym piszą konkurenci. Drugie, że są to wyrażenia bezpośrednio powiązane z tematem tego artykułu.

 

Przykładowo fraza „semantyczne słowa kluczowe” jest proponowana do nagłówka H2 a „pozycjonowanie” do nagłówka niższego rzędu.

 

 

Semantyczne słowa kluczowe a optymalizacja treści – podsumowanie

Wygląda na to, że semantyczne frazy pomagają wyszukiwarce Google zrozumieć temat danej witryny i znaczenie głównych słów kluczowych (jeśli to wyrazy polisemiczne[4] lub homonimy[5]). Jednak sam Latent Semantic Indexing to tylko jeden z wielu modeli językowych opartych na semantyce. Utworzony był w celu indeksowania zbiorów dokumentów w relacji człowiek-komputer, a nie w ramach sieci.

Możliwe, że Google używał kiedyś tej technologii. Możliwe też, że na jej podstawie opracował własne mechanizmy rozumienia języka naturalnego. Wątpliwe jednak, by nadal korzystał z LSI, gdy posiada RankBrain czy BERT-a, uczenie maszynowe, algorytmy AI, sieci neuronowe. Te przeróżne rozwiązania lepiej sobie radzą z dużymi zasobami, a takim bezsprzecznie jest Internet.

Same LSI keywords nie istnieją więc z prostej przyczyny – przez złą nazwę, odnoszącą się do starej, najwyraźniej nieużywanej już technologii. Semantyczne słowa kluczowe jako koncepcja to nie błąd. To naturalny efekt, gdy planujemy content z użyciem klastrów tematycznych.

_____________

[1] https://patents.google.com/patent/US4839853A/en

[2] https://blog.google/products/search/our-latest-quality-improvements-search/

[3] https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html

[4] https://encyklopedia.pwn.pl/haslo/polisemia;3959548.html

[5] https://encyklopedia.pwn.pl/haslo/homonim;3912542.html

Autor

Katarzyna Żołna's picture

Katarzyna Żołna

Zajmuje się tworzeniem treści w SEMSTORM. Swoje doświadczenie związane z content marketingiem zdobywała podczas pracy jako specjalista, a następnie koordynator zespołu e-commerce w jednym ze sklepów z branży wyposażenia wnętrz.

Przeczytaj także

Komentarze