Googlebot và Robots.txt : Allow, Disallow
Ứng dụng tệp tin loại trừ robots.txt trong trường hợp đặc biệt với Googlebot.
Từ khóa: googlebot, robots.txt, allow, disallow, quang ba web, Crawler, Spider, robots, metadata,meta
Bài viết này chúng ta sẽ tìm hiểu cụ thể các thức áp dụng tệp tin robots.txt này cho máy tìm kiếm Google mà cụ thể là các User Agent của Google.
Đây là bài viết thứ ba trong một loạt series bốn bài viết về Robots Exclusion Protocol (REP) :
- Robots.txt disallows Web Robot, User-agent
- Bài viết giới thiệu về Robots Exclusion Protocol với tệp tin robots.txt và cú pháp, cách sử dụng đúng và danh sách các User Agent Names.
- Robots, HTML Meta và Google, Yahoo, Microsoft
- Giới thiệu về Robots Exclusion Protocol (REP), qui ước chung của Google, Yahoo và Microsoft : Qui ước robots.txt và qui ước HTML META Tags.
- Googlebot và Robots.txt : Allow, Disallow
- Cách ứng dụng Robots Exclusion Protocol (REP) bằng việc sử dụng tệp tin robots.txt đối với máy tìm kiếm Google. Cách biên dịch đặc biệt tệp tin robots.txt của spider GoogleBot.
- Robots META Tag - Metadata Elements
- Ứng dụng Robots Exclusion Protocol (REP) thông qua sử dụng thẻ Metadata Robots cho các trang đơn lẻ.
Các User Agent của Google
Google có vài user-agent chính. Bạn có thể ngăn chúng bằng cách thêm tên của bọ tìm kiếm tương ứng và trong dòng User-agent tương ứng trong bảng ghi robots.txt. Nếu bạn chặn Googlebot thì có nghĩa là bạn chặn tất cả các bọ tìm kiếm với từ khóa “Googlebot”.
- Googlebot
- Đánh chỉ số từ các chỉ mục cũ và mới của Google.
- Googlebot-Mobile
- Đánh chỉ số cho các thiết bị cầm tay hoặc di động.
- Googlebot-Image
- Đánh chỉ số các tệp tin ảnh.
- Mediapartners-Google
- Xuất hiện trong các trang dăng quảng cáo của Google Adsense.
- Adsbot-Google
- Đánh chỉ số các trang được nhà quảng cáo sử dụng giới thiệu sản phẩm hay dịch vụ thông qua Google Adwords. Nó cho phép đánh giá chất lượng của trang dùng dịch vụ Adwords.
Chặn Googlebot
Để chặn toàn bộ Googlebot thì bạn thêm cú pháp sau vào file robots loại trừ :
User-agent: Googlebot Disallow: /
Cho phép Googlebot
Trong trường hợp bạn muốn chặn tất cả các bọ tìm kiếm khác trừ một robot, Googlebot chẳng hạn, thì bạn có thể sử dụng cú pháp sau. Tuy nhiên nếu bạn không muốn trang liên quan biến mất khỏi kết quả tìm kiếm của các máy tìm kiếm như Yahoo, MSN Live hay Ask thì bạn không nên làm như thế.
User-agent: * Disallow: / User-agent: Googlebot Disallow:
Cho phép mở rộng
Google hỗ trợ cú pháp mở rộng “Allow” trong tệp tin robots.txt. Có nhiều máy tìm kiếm không hỗ trợ phần mở rộng này, vì thế bạn nên tham khảo kỹ. Dòng lệnh “Allow” hoạt động cũng giống như “Disallow” chỉ khác là nó liệt kê các thư mục hay trang bạn cho phép đánh chỉ số.
Bạn có thể sử dụng đồng thời “Allow” và “Disallow” cùng nhau. Chẳng hạn để cấm tất cả các trang trong một thư mục “seoblog” chẳng hạn, trừ tệp tin “quang-ba-web.html”, bạn hãy làm như sau :
User-agent: Googlebot Disallow: /seoblog/ Allow: /seoblog/quang-ba-web.html
Còn trong trường hợp bạn muốn chặn Googlebot và sau đó lại vẫn muốn cho các bot khác của Google (Googlebot-Mobile) chẳng hạn, bạn có thể sử dụng lệnh Allow như sau :
User-agent: Googlebot Disallow: / User-agent: Googlebot-Mobile Allow: /
Sử dụng mẫu tổ hợp
Đặc biệt hữu ích trong trường hợp bạn không muốn phải liệt kê tất cả các trang mà bạn muốn chặn. Đây là phần đuôi mở rộng mà GoogleBot hỗ trợ. Chú ý là các máy tìm kiếm khác chưa chắc đã hỗ trợ tính năng này.
Mẫu tổ hợp chuỗi các ký tự sử dụng dấu sao (*)
Bạn có thể sử dụng dấu sao (*) để liệt kê tổ hợp chuỗi các lkys tự. Ví dụ bạn có thể chặn một loạt các thư mục con bắt đầu bằng chữ wp (ví dụ wp-admin, wp-content cho blog WordPress) như sau :
User-agent: Googlebot Disallow: /wp*/
Để chặn tất cả đường dẫn URL mà chứa ký tự (?) chứa tham biến (trong ngôn ngữ PHP), bạn hãy làm như sau :
User-agent: * Disallow: /*?
Kiểm tra phần kết của chuỗi ký tự URL bằng $
Bạn cũng có thể sử dụng dấu dollard ($) để liệt kê các URL có phần kết tương ứng. Ví dụ để chặn tất cả các đường dẫn URL kết thúc với pdf (phiên bản pdf trên website để tránh trùng nội dung chẳng hạn) :
User-agent: Googlebot Disallow: /*.pdf$
Bạn cũng có thể sử dụng tổ hợp kết này với lệnh Allow. Ví dụ nếu như có dấu hỏi ? tương ứng với một session ID, bạn có thể loại trừ chúng để tránh cho GoogleBot phải đánh chỉ số một nội dung trùng lặp. Thế nhưng các URLs kết thúc bởi dấu hỏi ? lại là một phiên bản trang mà bạn muốn thêm vào. Trong trường hợp này, hãy đặt tệp tin robots.txt của bạn như sau :
User-agent: * Allow: /*?$ Disallow: /*?
Dòng lệnh Disallow:/ *? sẽ chặn tất cả các URL có chứa ký tự ? (Cụ thể là nó sẽ chặn tất cả các URL bắt đầu bằng tên miền, tiếp theo các ký tự, tiếp theo là dấu hỏi ?, tiếp theo bởi bất kể ký tự nào khác)
Dòng lệnh Allow: /*?$ sẽ cho phép bất kể đường dẫn nào kết thúc bởi dấu hỏi ? (Cụ thể là với bất kể URL nào bắt đầu bằng tên miên, theo bởi chuỗi ký tự, theo tiêp bởi dấu hỏi ?, không có ký tự nào nằm sau dấu hỏi này).
Hoài Nam - Quảng bá Web.
Bài viết cùng chủ đề liên quan
- Robots.txt disallows Web Robot, User-agent
Phân tích và hướng dẫn chi tiết cách sử dụng file robots.txt để điều khiển, phân quyền cho bọ tìm kiếm. - Robots, HTML Meta và Google, Yahoo, Microsoft
Hướng dẫn ứng dụng chuẩn Robots Exclusion Protocol (REP) thông qua tệp tin robots.txt và thẻ META tags cho các máy tìm kiếm Google, Yahoo và Microsofts. - Bọ tìm kiếm Web crawler, spider, web robot, googlebot, slurp
Web crawler, web spider hay web robot là một chương trình tự động tìm kiếm trên Internet được thiết kết để thu thập tài nguyên Internet - Robots META Tag - Metadata Elements
Hướng dẫn sử dụng thẻ Robots META Tag chỉ định việc đánh chỉ số trang Web, truy vấn đường dẫn và các dịch vụ của máy tìm kiếm.
Bình luận của bạn

June 23rd, 2008 at 8:53
Khi muốn thay đổi từ khóa đã submit vào http://www.google.com/addurl/ thì thẻ Robots.txt có cấu trúc thế nào cho đúng hả bạn ? và sau bao lâu có thể submit lại đó ?
June 23rd, 2008 at 23:13
Cái từ khóa trong Google addUrl không có quan trọng, mình nghĩ nó cũng không tính đến nhiều đâu, thuật toán của Google đủ thông minh để hiểu trang Web của bạn nói về vấn đề gì.
Ngoài ra cái việc submit trên không liên quan gì tới tệp tin loại trừ Robots.txt nếu không nói đến dòng lệnh Sitemap giúp cho bọ tìm kiếm xác định nhanh chóng sitemap XML hay RSS.
Ngoài ra, việc submit như thế chỉ áp dụng cho các website mới, không thể xây dựng hệ thống liên kết ban đầu. Còn nếu khi bạn đã có trong tay một vài website mà Google ghé thăm thường xuyên (hoặc bạn có thể post bài trên Website đó và Website đó không ẩn link với khách hoặc bọ tìm kiếm), thì bạn chỉ việc để link tới Website mới này, thì Google sẽ tự lần theo đường dẫn URL đó mà index trang của bạn. Cách này là nhanh và hiệu quả nhất.
Chúc bạn thành công. Quảng bá Web, dịch vụ SEO, thủ thuật SEO.
October 12th, 2008 at 22:26
Cậu cho tớ hỏi
http://www.vietseo.net/robots.txt
########
User-agent: ia_archiver
Disallow: /
# Digg mirror
User-agent: duggmirror
Disallow: /
# Disallow: */trackback*
# Disallow: /wp-*
# Disallow: */feed*
# Disallow: /20*
User-agent: *
Disallow: */?mobi
Disallow: /page/
Disallow: */?dl_id*
Disallow: */?dl_cat*
Allow: /
#####
Có thể sử dụng nhiều lệnh User-agent: &Disallow: cơ à …
Sử dụng nhiều & ít có gì khác nhau
duggmirror & ia_archiver <- là công cụ search nào vậy bạn
October 13th, 2008 at 1:06
Tất nhiên là cậu có thể sử dụng nhiều User-agent và disallow rồi, mỗi cái ứng với tưng bọ tìm kiếm đến từ máy tìm kiếm tương ứng.
ia_archiver là User-agent của Alexa.com Web crawler
duggmirrorl à User-agent của Digg.com
Cậu không nhất thiết phải cấm hai trang này, bản thân tớ có lý do riêng, tương tự dòng lệnh cấm phía trên các thư mục.