Hướng dẫn về Google bot

Googlebot là gì?

  • Googlebot là con bọ (webcrawler) của Google.
  • Nhiệm vụ là tìm và thu thập các trang web (webpages).
  • Thông tin thu thập được dùng để cập nhật chỉ mục của Google index.

Googlebot

Googlebot ghé thăm hàng tỷ trang web liên tục mỗi ngày trên toàn thế giới web.

Con bọ webcrawler là gì?

Web crawlers (hay còn gọi là bots, robots hoặc spiders) là một loại phần mềm được thiết kế để đi theo link, thu thập thông tin và báo cáo thông tin thu thập được.

Googlebot làm gì?

Googlebot scanning for and listing links

  • Googlebot thu thập nội dung của trang web (từ ngữ, code, nguồn file).
  • Nếu nội dung có chứa link dẫn đi nơi khác, nó note lại.
  • Rồi gửi thông tin cho Google.

Googlebot và website của bạn

Thông tin mà Googlebot thu thập được dùng để cập nhật chỉ mục Google index.

Google index là nơi so sánh và đánh giá thứ hạng các websites.

  • Để các trang web của bạn xuất hiện trên Google, đầu tiên Googlebot phải thấy chúng đã.
  • Để các trang web của bạn xếp hạng cao, Googlebot phải truy cập được tất cả các thành phần của trang web đã.

Googlebot và Google index khác nhau gì?

Googlebot and Google servers

Googlebot

  • Googlebot thu thập nội dung trang web.
  • Googlebot không xếp hạng nội dung trang web, chỉ thu thập thuần túy thôi.
  • Googlebot chỉ quan tâm “Mình có truy cập được nội dung này không?” và “Có nội dung nào khác mà mình có thể truy cập không?”

Google index

  • Google index lấy nội dung mà nó nhận từ Googlebot và dùng để xếp thứ hạng các trang web

Vậy bước đầu tiên để được Google xếp hạng thì bạn phải được Googlebot ghé thăm cái đã.

Hãy đảm bảo là Googlebot có thể thấy trang web của bạn

Như đã nói ở trên, câu hỏi mà webmaster bọn mình nên đặt ra là:

  1. Googlebot có “thấy” trang web của mình không?
  2. Googlebot có thể truy cập tất cả nội dung và link của trang web không?
  3. Googlebot có thể truy cập tất cả resource (css, javascript…) của trang web không?

Bắt đầu nhé…

1. Googlebot có “thấy” trang web của mình không?

Googlebot looking at a webpage

Kiểm tra xem Google có “thấy” trang web của bạn không bằng cách search…

site:tenmiencuaban.com

Đây là cách bạn yêu cầu Google liệt kê tất cả các webpage nó thấy được từ tenmiencuaban.com.

Nếu thấy kết quả tìm kiếm hơi ít thì có lẽ nên kiểm tra xem file robots.txt của bạn có đang chặn Google bot không.

2. Googlebot có thể truy cập tất cả nội dung và link của trang web không?

Googlebot confused by webpage

Googlebot thấy trang web của bạn và thấy được đầy đủ nội dung trang web của bạn là 2 chuyện rất khác nhau.

Googlebot looking at webpage

Google bot không thấy trang web theo cách mà con người thấy. Ở trên là một trang web với 1 hình ảnh trong đó. Bọn mình có thể thấy hình ảnh nhưng Googlebot thì thấy đoạn code như sau.

<img src="https://tenmiencuaban.com/images/googlebot-access-1.png" />

Google có thể truy cập webpage (file html). Nhưng có thể nó không truy cập được file ảnh ở trên. Ví dụ bạn lỡ chặn truy cập file png trong robots.txt

Trong trường hợp đó Google index không thể lấy file ảnh, và nó không thể “thấy” trang web của bạn một cách đầy đủ.

Googlebot “thấy” trang web như thế nào

Googlebot không thấy trang web như bọn mình, nó thấy những thành phần tạo nên trang web.

Googlebot looking at files

Lỡ mà Googlebot không truy cập được bất kỳ thành phần nào ở trên, nó không thể gửi thông tin đến Google index. Ở ví dụ trên, nó có thể thấy html và css nhưng không thể thấy file png.

Googlebot can not access all resources

Không chỉ là hình ảnh. Có hàng ngàn thành phần khác cấu tạo nên trang web. Để có thể xếp hạng chuẩn xác nhất, Google cần phải thấy toàn bộ.

Có hàng đống lý do để Google không thể thấy hết các thành phần của trang web. Dưới đây là những lý do thường gặp nhất.

  • Thành phần bị chặn bởi robots.txt
  • Link bị sai hoặc không đọc được
  • Định dạng Flash, công nghệ lạ mà con bọ không đọc được
  • Lỗi html, lỗi code
  • Link động quá phức tạp

Sử dụng “Fetch and render” trong Google search console để kiểm tra.

3. Googlebot có thể truy cập tất cả resource của trang web không?

Googlebot blocked from resource files

Nếu file CSS và javascript bị chặn thì sự lệch lạc mà Google thấy trang web còn tệ hơn nhiều.

Có thể điều khiển Googlebot không?

Có.

Các cách thường dùng để điều khiển Googlebot…

  • Dùng file robots.txt
  • Điều hướng bằng thẻ metadata
  • Dùng sitemap
  • Dùng Google search console

Cách dễ và phổ biến nhất vẫn là dùng file robots.txt

robots.txt là gì?

Googlebot and robots.txt file

robots.txt là file text, hướng dẫn Googlebot nơi nào được truy cập và nơi nào không được truy cập trong trang web.

Có bao nhiêu loại Googlebot?

Có 9 loại.

Nine different Googlebots

  • Googlebot (Google Web search)
  • Google Smartphone
  • Google Mobile (Feature phone)
  • Googlebot Images
  • Googlebot Video
  • Googlebot News
  • Google Adsense
  • Google Mobile Adsense
  • Google Adsbot (landing page quality check)

Nguồn – Patrick Sexton – https://varvy.com/googlebot.html

Posted in: SEO

Leave a Reply

Your email address will not be published. Required fields are marked *