Googlebot và Robots.txt : Allow, Disallow

Chủ nhật, ngày 15 tháng 6, năm 2008 Thêm ý kiến

Ứng dụng tệp tin loại trừ robots.txt trong trường hợp đặc biệt với Googlebot.

Bài viết này chúng ta sẽ tìm hiểu cụ thể các thức áp dụng tệp tin robots.txt này cho máy tìm kiếm Google mà cụ thể là các User Agent của Google.

Đây là bài viết thứ ba trong một loạt series bốn bài viết về Robots Exclusion Protocol (REP) :

Robots.txt disallows Web Robot, User-agent
Bài viết giới thiệu về Robots Exclusion Protocol với tệp tin robots.txt và cú pháp, cách sử dụng đúng và danh sách các User Agent Names.
Robots, HTML Meta và Google, Yahoo, Microsoft
Giới thiệu về Robots Exclusion Protocol (REP), qui ước chung của Google, Yahoo và Microsoft : Qui ước robots.txt và qui ước HTML META Tags.
Googlebot và Robots.txt : Allow, Disallow
Cách ứng dụng Robots Exclusion Protocol (REP) bằng việc sử dụng tệp tin robots.txt đối với máy tìm kiếm Google. Cách biên dịch đặc biệt tệp tin robots.txt của spider GoogleBot.
Robots META Tag – Metadata Elements
Ứng dụng Robots Exclusion Protocol (REP) thông qua sử dụng thẻ Metadata Robots cho các trang đơn lẻ.

Các User Agent của Google

Google có vài user-agent chính. Bạn có thể ngăn chúng bằng cách thêm tên của bọ tìm kiếm tương ứng và trong dòng User-agent tương ứng trong bảng ghi robots.txt. Nếu bạn chặn Googlebot thì có nghĩa là bạn chặn tất cả các bọ tìm kiếm với từ khóa “Googlebot”.

Googlebot
Đánh chỉ số từ các chỉ mục cũ và mới của Google.
Googlebot-Mobile
Đánh chỉ số cho các thiết bị cầm tay hoặc di động.
Googlebot-Image
Đánh chỉ số các tệp tin ảnh.
Mediapartners-Google
Xuất hiện trong các trang dăng quảng cáo của Google Adsense.
Adsbot-Google
Đánh chỉ số các trang được nhà quảng cáo sử dụng giới thiệu sản phẩm hay dịch vụ thông qua Google Adwords. Nó cho phép đánh giá chất lượng của trang dùng dịch vụ Adwords.

Chặn Googlebot

Để chặn toàn bộ Googlebot thì bạn thêm cú pháp sau vào file robots loại trừ :

User-agent: Googlebot
Disallow: /

Cho phép Googlebot

Trong trường hợp bạn muốn chặn tất cả các bọ tìm kiếm khác trừ một robot, Googlebot chẳng hạn, thì bạn có thể sử dụng cú pháp sau. Tuy nhiên nếu bạn không muốn trang liên quan biến mất khỏi kết quả tìm kiếm của các máy tìm kiếm như Yahoo, MSN Live hay Ask thì bạn không nên làm như thế.

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Cho phép mở rộng

Google hỗ trợ cú pháp mở rộng “Allow” trong tệp tin robots.txt. Có nhiều máy tìm kiếm không hỗ trợ phần mở rộng này, vì thế bạn nên tham khảo kỹ. Dòng lệnh “Allow” hoạt động cũng giống như “Disallow” chỉ khác là nó liệt kê các thư mục hay trang bạn cho phép đánh chỉ số.

Bạn có thể sử dụng đồng thời “Allow” và “Disallow” cùng nhau. Chẳng hạn để cấm tất cả các trang trong một thư mục “seoblog” chẳng hạn, trừ tệp tin “quang-ba-web.html”, bạn hãy làm như sau :

User-agent: Googlebot
Disallow: /seoblog/
Allow: /seoblog/quang-ba-web.html

Còn trong trường hợp bạn muốn chặn Googlebot và sau đó lại vẫn muốn cho các bot khác của Google (Googlebot-Mobile) chẳng hạn, bạn có thể sử dụng lệnh Allow như sau :

User-agent: Googlebot
Disallow: /

User-agent: Googlebot-Mobile
Allow: /

Sử dụng mẫu tổ hợp

Đặc biệt hữu ích trong trường hợp bạn không muốn phải liệt kê tất cả các trang mà bạn muốn chặn. Đây là phần đuôi mở rộng mà GoogleBot hỗ trợ. Chú ý là các máy tìm kiếm khác chưa chắc đã hỗ trợ tính năng này.

Mẫu tổ hợp chuỗi các ký tự sử dụng dấu sao (*)

Bạn có thể sử dụng dấu sao (*) để liệt kê tổ hợp chuỗi các lkys tự. Ví dụ bạn có thể chặn một loạt các thư mục con bắt đầu bằng chữ wp (ví dụ wp-admin, wp-content cho blog WordPress) như sau :

User-agent: Googlebot
Disallow: /wp*/

Để chặn tất cả đường dẫn URL mà chứa ký tự (?) chứa tham biến (trong ngôn ngữ PHP), bạn hãy làm như sau :

User-agent: *
Disallow: /*?

Kiểm tra phần kết của chuỗi ký tự URL bằng $

Bạn cũng có thể sử dụng dấu dollard ($) để liệt kê các URL có phần kết tương ứng. Ví dụ để chặn tất cả các đường dẫn URL kết thúc với pdf (phiên bản pdf trên website để tránh trùng nội dung chẳng hạn) :

User-agent: Googlebot
Disallow: /*.pdf$

Bạn cũng có thể sử dụng tổ hợp kết này với lệnh Allow. Ví dụ nếu như có dấu hỏi ? tương ứng với một session ID, bạn có thể loại trừ chúng để tránh cho GoogleBot phải đánh chỉ số một nội dung trùng lặp. Thế nhưng các URLs kết thúc bởi dấu hỏi ? lại là một phiên bản trang mà bạn muốn thêm vào. Trong trường hợp này, hãy đặt tệp tin robots.txt của bạn như sau :

User-agent: *
Allow: /*?$
Disallow: /*?

Dòng lệnh Disallow:/ *? sẽ chặn tất cả các URL có chứa ký tự ? (Cụ thể là nó sẽ chặn tất cả các URL bắt đầu bằng tên miền, tiếp theo các ký tự, tiếp theo là dấu hỏi ?, tiếp theo bởi bất kể ký tự nào khác)

Dòng lệnh Allow: /*?$ sẽ cho phép bất kể đường dẫn nào kết thúc bởi dấu hỏi ? (Cụ thể là với bất kể URL nào bắt đầu bằng tên miên, theo bởi chuỗi ký tự, theo tiêp bởi dấu hỏi ?, không có ký tự nào nằm sau dấu hỏi này).

Hoài NamQuảng bá Web.

Bài viết cùng chủ đề liên quan

  1. Robots.txt disallows Web Robot, User-agent
    Phân tích và hướng dẫn chi tiết cách sử dụng file robots.txt để điều khiển, phân quyền cho bọ tìm kiếm.
  2. Robots, HTML Meta và Google, Yahoo, Microsoft
    Hướng dẫn ứng dụng chuẩn Robots Exclusion Protocol (REP) thông qua tệp tin robots.txt và thẻ META tags cho các máy tìm kiếm Google, Yahoo và Microsofts.
  3. Bọ tìm kiếm Web crawler, spider, web robot, googlebot, slurp
    Web crawler, web spider hay web robot là một chương trình tự động tìm kiếm trên Internet được thiết kết để thu thập tài nguyên Internet
  4. Robots META Tag – Metadata Elements
    Hướng dẫn sử dụng thẻ Robots META Tag chỉ định việc đánh chỉ số trang Web, truy vấn đường dẫn và các dịch vụ của máy tìm kiếm.

Tags : allow, disallow, googlebot, Máy tìm kiếm Google, meta tags, quang ba web, robots.txt

6 lời bình cho “Googlebot và Robots.txt : Allow, Disallow”
  1. 0988338837 :

    Khi muốn thay đổi từ khóa đã submit vào http://www.google.com/addurl/ thì thẻ Robots.txt có cấu trúc thế nào cho đúng hả bạn ? và sau bao lâu có thể submit lại đó ?

  2. quang ba Web :

    Cái từ khóa trong Google addUrl không có quan trọng, mình nghĩ nó cũng không tính đến nhiều đâu, thuật toán của Google đủ thông minh để hiểu trang Web của bạn nói về vấn đề gì.

    Ngoài ra cái việc submit trên không liên quan gì tới tệp tin loại trừ Robots.txt nếu không nói đến dòng lệnh Sitemap giúp cho bọ tìm kiếm xác định nhanh chóng sitemap XML hay RSS.

    Ngoài ra, việc submit như thế chỉ áp dụng cho các website mới, không thể xây dựng hệ thống liên kết ban đầu. Còn nếu khi bạn đã có trong tay một vài website mà Google ghé thăm thường xuyên (hoặc bạn có thể post bài trên Website đó và Website đó không ẩn link với khách hoặc bọ tìm kiếm), thì bạn chỉ việc để link tới Website mới này, thì Google sẽ tự lần theo đường dẫn URL đó mà index trang của bạn. Cách này là nhanh và hiệu quả nhất.

    Chúc bạn thành công. Quảng bá Web, dịch vụ SEO, thủ thuật SEO.

  3. www.vnghiit.com :

    Cậu cho tớ hỏi

    http://www.vietseo.net/robots.txt

    ########
    User-agent: ia_archiver
    Disallow: /

    # Digg mirror
    User-agent: duggmirror
    Disallow: /

    # Disallow: */trackback*
    # Disallow: /wp-*
    # Disallow: */feed*
    # Disallow: /20*
    User-agent: *
    Disallow: */?mobi
    Disallow: /page/
    Disallow: */?dl_id*
    Disallow: */?dl_cat*
    Allow: /
    #####

    Có thể sử dụng nhiều lệnh User-agent: &Disallow: cơ à …

    Sử dụng nhiều & ít có gì khác nhau
    duggmirror & ia_archiver <- là công cụ search nào vậy bạn

  4. quang ba Web :

    Tất nhiên là cậu có thể sử dụng nhiều User-agent và disallow rồi, mỗi cái ứng với tưng bọ tìm kiếm đến từ máy tìm kiếm tương ứng.
    ia_archiver là User-agent của Alexa.com Web crawler
    duggmirrorl à User-agent của Digg.com
    Cậu không nhất thiết phải cấm hai trang này, bản thân tớ có lý do riêng, tương tự dòng lệnh cấm phía trên các thư mục.

  5. quangtam :

    cảm ơn nhiều! bài viết rất hữu ích!
    Bạn có thể chỉ giúp tôi tại sao yahoo, ping không thể index được trang web của tôi khi sử dụng công cụ của google! có phải robot.txt đã chặn bọ tìm kiếm của yahoo, và các công cụ tìm kiếm khác! có thể khác phục được tình trạng này không ?
    Thanks…

Bình luận của bạn