내 사이트 구글 검색결과에 나오게 하는 방법

4

인터넷 비지니스에 대한 전문가라도 구글페이지랭크라는 기술로 순위를 메긴다고 알고 있을 겁니다. 현재 구글은 80억개가 넘는 페이지들을 인덱싱하고 있으며, 약 30일을 기준으로 모든 페이지들을 다시 인덱싱(소위 구글댄스라 불리우는)하고 있습니다.

SEO를 전문으로 하는 서치 컨설턴트들은 아쉽게도 한국에는 있을 수가 없고, 효과도 크지 않습니다. 그 이유는 한국에서 검색엔진으로 시작한 네이버, 야후코리아, 엠파스, 드림위즈 등이 검색엔진을 사실상 포기하고 개발을 하지 않기 때문입니다. 검색엔진 기술은 1990년도 후반부터 미국의 각 연구실에서 활발하게 연구된 분야이고, 여러가지 테스트를 거쳐 구글에 까지 왔습니다만, 한국의 검색엔진들은 1980년대 후반에나 나올 알타비스타식 검색에 자연어검색을 넣어서 결과를 표시하지만, 서치 스팸이나 서치 폭탄같은 검색엔진을 속이는 기술에 전혀 대응하지 못하며, 심지어 유니코드로 만들어진 웹페이지를 크롤링 못하는 검색엔진들도 있습니다.

때문에, 검색엔진에 대한 글은 구글과 야후닷컴, 그리고 MSN에 한정지을 수 밖에 없고, 그나마 한국에서 쓰임새가 많아지는 구글을 염두에 둘 수 밖에 없습니다.

과거 크롤링이라고 하면 검색로봇이 웹페이지들을 앵커태그(a태그)를 쫒아가면서 인덱싱을 하는 프로그램의 행위를 말하는 것인데, 2000년 들어와서 크롤링의 최적화라는 측면에서 많은 연구가 이루어 졌습니다. 가장 활발한 연구는 구글의 모체가 되었던 스텐포드대학입니다.

실제 예를 들면서 설명을 해 보겠습니다.

웹사이트를 만들었습니다. 그런데 구글에선 첫페이지만을 인덱싱 해가고 있네요. 어떻게 하면 하위 페이지들까지 검색결과에 포함시킬 수 있을까요?

이 문제는 외국에선 많은 논의가 있던 이슈입니다. 구글이 크롤링을 가리지 않고 하는 것이 아니었나? 구글이 크롤링 기술을 100% 공개하는 것은 아니지만, 스텐포트 대학의 연구논문을 보면 알고리즘을 역추적할 수 있습니다. 이후의 내용은 확실한 사실은 아니고 추정된 글입니다.

포커스 크롤링

크롤링은 예전과는 틀리게 포커스 크롤링이라는 형태로 발전되어 왔습니다. 모든 문서를 크롤링하는 것이 아니라 핵심적인 문서를 먼저 크롤링한다는 것인데, 웹문서의 양이 엄청난 속도로 늘어나기 때문에 생긴 알고리즘입니다.

구글은 두개의 크롤러와 한개의 스파이더로 구성되어 있는데, 그 이름은 BestFirst crawler, PageRank crawler 그리고 InfoSpiders 입니다. BestFirst 크롤러는 최고로 중요한 페이지(보통 첫페이지)를 크롤링하는 놈이고, 페이지랭크 크롤러는 페이지랭크 순위를 계산하는 놈, 마지막의 인포스파이더는 신경망 알고리즘을 사용해서 링크를 쫓아가면서 문서를 모으는 놈입니다.

즉, 구글 웹서치에 인덱싱이 되기 위해서는 인포스파이더에 큐로 쌓여야 가능한 것인데, 어떻게 하면 웨이팅리스트에 올라갈 수 있는지 많은 논의가 있었습니다.

인포스파이더가 웹페이지들을 찾아오게 만들기 위해서는 웹사이트의 페이지랭크를 3단계까지 올려야 합니다. 구글은 각 링크들의 벡터 스페이스를 계산하는 알고리즘도 들어있는데, 1단계에는 첫페이지, 2단계는 depth 2까지, 3단계부터는 거의 모든 페이지들을 인덱싱합니다.

페이지랭크

그럼 페이지랭크 3단계까지 올려야 하는데 페이지랭크는 어떻게 계산이 될까요?

페이지랭크는 아주 단순한 산수식을 사용합니다.(엄청난 페이지를 계산하기 때문에 복잡할래야 복잡할 수가 없죠.) 어떤 페이지의 랭크값은 그 페이지를 링크하고 있는 페이지들의 랭크값의 합입니다. 따라서, 페이지랭크가 높은 페이지에 자신의 사이트가 링크되어 있으면 됩니다.

결과적으로 다음의 순서대로 하는 것이 현명합니다.

  1. 웹사이트를 만들고, 구글 크롤러에 알린다.
  2. 페이지랭크를 높이기 위해서 자신의 다른 사이트가 있다면 링크를 하고, 없다면 링크를 부탁하거나 페이지랭크가 높은 사이트에 스폰을 해서 링크를 걸어놓는다. 디렉토리 엔진(야후나 네이버, 다음 등)에 등록하는 것도 좋다.
  3. 페이지랭크 3단계까지 자신의 사이트가 올라가면 구글 사이트맵을 만들어서 주기적으로 업데이트 시킨다.

SEO에서 한가지 오해는 페이지랭크가 검색순위에 영향을 미친다는 말인데, 과거에는 그럴지 몰라도 현재의 페이지랭크는 크롤러에 주로 관여하고 검색결과의 순위에는 거의 영향을 미치지 않습니다.

About Author

구글 전문 블로그 "팔글-인사이드 구글"을 2003년 부터 운영했으며, 애드센스와 유사한 애드얼라이언스의 기획&개발에 참여한 바 있다. IT 기업들의 생태계에 대해 관심이 많으며, 광고, 디지털 콘텐츠 판매 등 여러가지 실험을 진행하고 있다.

4 Comments

  1. 페이지랭크 알고리즘으로 인해 구글 검색 결과의 순위가 결정난다고 알고 있었는데 그게 오해인가요? 실제로 링크가 많이된 사이트가 앞 페이지에 나오는 것 같던데 실제론 어떻게 결정되는지 궁금하군요. 다만 구글 검색을 쓰다보면 최근 화제가 되는 사이트나 글은 앞 페이지에 나오는 경우가 있었습니다.

  2. 현재는 페이지랭크로 순위가 결정된다고 볼 수가 없습니다. 몇번 검색해 보시면 알겠지만, 유명한 사이트가 상위에 올라가는 경우는 흔하지 않습니다. 구글은 100가지의 알고리즘으로 순위가 결정된다고 하는데, 페이지랭크의 기여도는 점점 줄어드는 상황입니다.

하나의 댓글은 블로그를 풍성하게 만들 수 있습니다 :)