검색엔진 최적화 (SEO)

LSI 키워드란? 상위노출을 위한 콘텐츠 작성법 – 1탄

LSI 키워드란 무엇인가?

LSI, 검색엔진 최적화(SEO)에 관심이 있다면 한 번쯤은 들어보셨을 용어인데요. LSI (Latent Semantic Indexing)는 ‘잠재 의미 분석’을 뜻합니다. 단어의 의미를 이용해서 분석한다는 뜻이죠.

LSI 기술이 나오게 된 이유

LSI는 문서 분석에 있어 발생하는 여러 가지 문제를 해결하기 위해 나온 자연어 처리 기법입니다. LSI를 만든 개발자들이 이 기술을 만든 이유를, “검색자가 사용하는 단어는, 정보에서 색인 된 단어와 동일하지 않은 경우가 종종 있습니다.”라고 했는데…

여기서 말하는 ‘동일하지 않은 경우’는 크게 두 가지, 동의어와 다의어로 나뉩니다.

동의어

동의어는 비슷한 뜻을 가진 다른 단어를 의미합니다. 학생/제자, 목마름/갈증, 음식점/레스토랑 등을 예시로 들 수 있는데요. LSI 기술 특허에, ‘사람들은 각기 다른 언어 습관이 있어서, 같은 내용을 다른 용어를 사용하여 설명한다’라고 적혀있습니다.

쉽게 예를 들어보자면, 각기 다른 두 개의 글에서 음식점에 대한 내용을 다룬다고 합시다. 두 글은 동일한 글이지만, 한 글에서는 ‘음식점’이라는 단어 대신 모두 ‘레스토랑’이라는 단어를 사용하는 겁니다.

만약, 검색엔진이 의미를 파악하지 못하고 각 페이지에서 단어, 문장만을 수집한다면, ‘음식점’이라 검색했을 때, 동일한 의미인 ‘레스토랑’에 대한 글들은 모두 관련 없는 글이라 여겨 실제로 의미는 같아도 모두 제외합니다. ‘동의어’라는 개념을 이해하지 못하니까요.

다의어

‘다의어’는 하나의 단어가 여러 개의 뜻을 가지는 낱말을 말합니다. 눈(eyes)과 눈(snow), 그리고 다리(bridge)와 다리(leg)를 예로 들 수 있겠네요.

만약, 다의어를 이해 하지 못하는 검색엔진이라면 ‘애플 컴퓨터’를 검색했을 때, 맥북이나 아이맥 대신, 과일 사과 또는 컴퓨터에 대한 문서를 검색 결과에 띄워주게 됩니다. 하지만, 다의어의 개념을 이해한다면 ‘애플 컴퓨터’라고 검색했을 때, 이것의 의미를 파악하고 맥북과 아이맥에 대한 문서를 보여주겠죠.

따라서, 개발자들은 이러한 문제들을 해결 할 수 있는 기술을 만들어냅니다.

LSI의 원리

컴퓨터는 사람과는 달라 스스로는 단어의 관계를 이해 하지 못합니다. 사람이 컴퓨터에 단어의 의미론적인 관계를 일일이 학습시켜야 하는데, 엄청난 시간과 비용이 들게되죠.

따라서, 이러한 문제들은 LSI 같은 기술을 적용해 해결할 수 있는데요. 복잡한 수학 공식들을 사용해서 문서 내의 단어와 문장의 관계를 스스로 파악하게 됩니다.

예) 한 문서의 메인 키워드가 ‘눈’이라면, 여기서 나오는 ‘눈’이라는 것이 어떤 의미인지(snow인지 eye인지) 애매한데요. 여기에 ‘눈’이라는 단어 외에도, ‘시력’, ‘안구’, ‘백내장’ 등의 키워드가 있다면, 컴퓨터는 이 글을 눈(eye)과 관련도가 높은 것으로 파악합니다. 또한, 이 단어들의 관계성까지도 파악하게 되죠.

따라서, 이러한 기술이 적용된 검색엔진은 검색어 그 자체에 대한 문서는 물론이고 의미론적으로 관계있는 문서도 함께 보여줍니다.

잘못 알려진 정보

흔히, 구글이 LSI 기술을 사용한다고 말하는데요. 결론부터 말하자면, 맞기도 하고 틀리기도 합니다. 왜냐면, 구글은 LSI 기술을 사용하지는 않지만, 훨씬 더 좋은 기술을 사용하고 있거든요.

LSI는 웹이 생기기 이전인 1980년대에 벨 커뮤니케이션에서 개발한 기술입니다. 따라서, 웹에 존재하는 수많은 문서를 커버할 수 있는 기술도 아니며, 2008년까지 벨 커뮤니케이션에서 특허를 가지고 있었기 때문에 구글에서 사용할 수도 없었죠.

이에 대해서는 구글의 존 뮬러(John Muller)가 한 번 언급한 적도 있습니다. “LSI 키워드라는 건 존재하지 않습니다. 누군가가 이와 다른 얘길 한다면, 그 사람이 틀린거에요.”

어떻게 보면 단순한 말장난처럼 느껴질 수도 있습니다. LSI 기술을 쓰지 않는다뿐이지 비슷한 개념의 훨씬 발전된 기술을 사용하고 있으니까요.

마치며

지금까지 그 어떤 검색엔진도 LSI 키워드라는 것을 사용한 적은 없지만, ‘의미론적으로 관련된 단어, 문장 등’을 분석할 수 있는 더 좋은 기술을 사용하고 있다는 것은 확실합니다. 또한, 이 기술을 조금이라도 이해하고 블로그 콘텐츠를 작성할 때 응용한다면, 검색엔진에서의 내 문서 위치는 분명 달라질 수 있습니다.

사실, 여기에 ‘좋은 콘텐츠 작성 > 검색엔진에서의 순위 상승’에 대한 내용까지 포함하려고 했는데, 이건 2탄으로 남겨두려고 여기서 끊습니다. 하지만, 위의 내용만 참고하셔도 이를 어떻게 응용할지는 충분히 파악하셨을 거에요.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다