Dành cho bạn quản trị web, marketer nên bài hướng dẫn này rất nặng tính kỹ thuật. Nhằm hiểu đúng và toàn diện về webcrawler nói chung và Googlebot nói riêng. Bài viết lược dịch từ Patrick Sexton – https://varvy.com/googlebot.html
Thời gian: 15 phút. Cấp độ: Cao cấp
Bạn sẽ học được:
- Google bot là gì và làm gì web của bạn
- Cách thức Google thu thập thông tin từ web của bạn và xếp hạng chúng
- Cách làm website của bạn thân thiện hơn với Google
Googlebot là gì?
- Googlebot là con bọ (webcrawler) của Google.
- Nhiệm vụ là tìm và thu thập các trang web (webpages).
- Thông tin thu thập được dùng để cập nhật chỉ mục của Google index.
Googlebot ghé thăm hàng tỷ trang web liên tục mỗi ngày trên toàn thế giới web.
Con bọ webcrawler là gì?
Web crawlers (hay còn gọi là bots, robots hoặc spiders) là một loại phần mềm được thiết kế để đi theo link, thu thập thông tin và báo cáo thông tin thu thập được.
Googlebot làm gì?
- Googlebot thu thập nội dung của trang web (từ ngữ, code, nguồn file).
- Nếu nội dung có chứa link dẫn đi nơi khác, nó note lại.
- Rồi gửi thông tin cho Google.
Googlebot và website của bạn
Thông tin mà Googlebot thu thập được dùng để cập nhật chỉ mục Google index.
Google index là nơi so sánh và đánh giá thứ hạng các websites.
- Để các trang web của bạn xuất hiện trên Google, đầu tiên Googlebot phải thấy chúng đã.
- Để các trang web của bạn xếp hạng cao, Googlebot phải truy cập được tất cả các thành phần của trang web đã.
Googlebot và Google index khác nhau gì?
Googlebot
- Googlebot thu thập nội dung trang web.
- Googlebot không xếp hạng nội dung trang web, chỉ thu thập thuần túy thôi.
- Googlebot chỉ quan tâm “Mình có truy cập được nội dung này không?” và “Có nội dung nào khác mà mình có thể truy cập không?”
Google index
- Google index lấy nội dung mà nó nhận từ Googlebot và dùng để xếp thứ hạng các trang web
Vậy bước đầu tiên để được Google xếp hạng thì bạn phải được Googlebot ghé thăm cái đã.
Hãy đảm bảo là Googlebot có thể thấy trang web của bạn
Như đã nói ở trên, câu hỏi mà webmaster bọn mình nên đặt ra là:
- Googlebot có “thấy” trang web của mình không?
- Googlebot có thể truy cập tất cả nội dung và link của trang web không?
- Googlebot có thể truy cập tất cả resource (css, javascript…) của trang web không?
Bắt đầu nhé…
1. Googlebot có “thấy” trang web của mình không?
Kiểm tra xem Google có “thấy” trang web của bạn không bằng cách search…
site:tenmiencuaban.com
Đây là cách bạn yêu cầu Google liệt kê tất cả các webpage nó thấy được từ tenmiencuaban.com.
Nếu thấy kết quả tìm kiếm hơi ít thì có lẽ nên kiểm tra xem file robots.txt của bạn có đang chặn Google bot không.
2. Googlebot có thể truy cập tất cả nội dung và link của trang web không?
Googlebot thấy trang web của bạn và thấy được đầy đủ nội dung trang web của bạn là 2 chuyện rất khác nhau.
Google bot không thấy trang web theo cách mà con người thấy. Ở trên là một trang web với 1 hình ảnh trong đó. Bọn mình có thể thấy hình ảnh nhưng Googlebot thì thấy đoạn code như sau.
<img src="https://tenmiencuaban.com/images/googlebot-access-1.png" />
Google có thể truy cập webpage (file html). Nhưng có thể nó không truy cập được file ảnh ở trên. Ví dụ bạn lỡ chặn truy cập file png trong robots.txt
Trong trường hợp đó Google index không thể lấy file ảnh, và nó không thể “thấy” trang web của bạn một cách đầy đủ.
Googlebot “thấy” trang web như thế nào
Googlebot không thấy trang web như bọn mình, nó thấy những thành phần tạo nên trang web.
Lỡ mà Googlebot không truy cập được bất kỳ thành phần nào ở trên, nó không thể gửi thông tin đến Google index. Ở ví dụ trên, nó có thể thấy html và css nhưng không thể thấy file png.
Không chỉ là hình ảnh. Có hàng ngàn thành phần khác cấu tạo nên trang web. Để có thể xếp hạng chuẩn xác nhất, Google cần phải thấy toàn bộ.
Có hàng đống lý do để Google không thể thấy hết các thành phần của trang web. Dưới đây là những lý do thường gặp nhất.
- Thành phần bị chặn bởi robots.txt
- Link bị sai hoặc không đọc được
- Định dạng Flash, công nghệ lạ mà con bọ không đọc được
- Lỗi html, lỗi code
- Link động quá phức tạp
Sử dụng “Fetch and render” trong Google search console để kiểm tra.
3. Googlebot có thể truy cập tất cả resource của trang web không?
Nếu file CSS và javascript bị chặn thì sự lệch lạc mà Google thấy trang web còn tệ hơn nhiều.
Có thể điều khiển Googlebot không?
Có.
Các cách thường dùng để điều khiển Googlebot…
- Dùng file robots.txt
- Điều hướng bằng thẻ metadata
- Dùng sitemap
- Dùng Google search console
Cách dễ và phổ biến nhất vẫn là dùng file robots.txt
robots.txt là gì?
robots.txt là file text, hướng dẫn Googlebot nơi nào được truy cập và nơi nào không được truy cập trong trang web.
Có bao nhiêu loại Googlebot?
Có 9 loại.
- Googlebot (Google Web search)
- Google Smartphone
- Google Mobile (Feature phone)
- Googlebot Images
- Googlebot Video
- Googlebot News
- Google Adsense
- Google Mobile Adsense
- Google Adsbot (landing page quality check)
397 bình luận cho “Hướng dẫn về Google bot”
Bình luận đã bị tắt.