Robots.txt disallows Web Robot, User-agent

Chủ nhật, ngày 18 tháng 5, năm 2008 Thêm ý kiến

Phân tích và hướng dẫn chi tiết cách sử dụng file robots.txt để điều khiển, phân quyền cho bọ tìm kiếm.

Như các bạn đã biết, để đánh chỉ số một trang Web thì các máy tìm kiếm thường gửi các bọ tìm kiếm tới viếng thăm trang Web cần được chỉ số hóa. Ngoài việc sử dụng thẻ Meta Tag Robots, thì bạn có thể ứng dụng một file text đặc biệt đặt tại thư mục gốc của tên miền để điều chỉnh ứng xử của bọ tìm kiếm (trường hợp ứng dụng cho Google xem Google Robots). Bài viết này vietSEO và các bạn sẽ cùng phân tích ứng dụng của file robots.txt này.

Giới thiệu Robots.txt

Như đã viết ở trên, khi đánh chỉ số một trang Web thì các bọ tìm kiếm sẽ kiểm tra nội dung một tệp tin đặc biệt đặt tại thư mục gốc tên là robots.txt. Tệp tin này chứa hoàn toàn nội dung văn bản text (không phải HTML). Robots.txt được hiểu với nghĩa là “Robots Exclusion Protocol”; nó cho phép người quản trị Web (Webmaster) định ra các thành phần với quyền hạn riêng biệt cho từng bọ tìm kiếm. Nói cách khác thông qua tệp tin này, Webmaster sẽ giao tiếp với bọ tìm kiếm để điều khiển tác vụ của các bọ tìm kiếm nói trên.

Cú pháp trong Robots.txt

Cú pháp dùng trong tệp tin này thường dùng để cấm robots (bọ tìm kiếm) quét các trang mà đường dẫn URL được chỉ ra. Mỗi đoạn văn bản thường gồm có tên của bọ tìm kiếm (user agent hay robot) và đường dẫn mà nó không được quét. Và thường là bạn không thể chỉ định ra thư mục nhất định hay là các loại tệp tin mà bọ tìm kiếm có thể đánh chỉ số. Nên nhớ rằng, ngầm định, các robots có thể truy cập bất kể thư mục nào theo đường dẫn URL không được cấm trong tệp tin robots.txt. Tất cả mọi tài nguyên không bị cấm thì đều có thể được truy cập.

Bạn có thể hiển thị file robots.txt chỉ đơn giản bằng trình duyệt ( http://vietseo.net/robots.txt ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu.

Xin nói thêm rằng Google gần đây có hỗ trợ cú pháp Sitemap trong robots.txt cho phép chỉ định sơ đồ Web (Sitemap XML) trong robots.txt

Ví dụ phần cú pháp Sitemap được chỉ định trong fie robots.txt trên vietSEO như sau :

[source:html]
#BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.vietseo.net/sitemaps.xml.gz
#END XML-SITEMAP-PLUGIN
[/source]

Ứng dụng robots.txt

Đây là toàn bộ tài liệu liên quan tới chuẩn loại trừ Robot, mà theo lý thuyết thì tất cả các robots đề phải tuân theo các chỉ định trong file robots.txt.

Sử dụng file robots.txt
Cú pháp Ghi chú cho Webmaster
User-agent: *
Disallow:
Dấu (*) có nghĩa là áp dụng cho mọi robots. Nhưng vì không có tài nguyên nào bị cấm nên thành ra tất cả mọi thư mục đề được cho phép.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Tất cả mọi robots đều có quyền truy cập tất cả các thư mục trừ ba thư mục được trích dẫn phía sau.
User-agent: SpamBot
Disallow: /
Trường hợp này robot SpamBot bị cấm truy cập tất cả thư mục. Dấu gạch chéo “/” có nghĩa là tất cả các thư mục.User-Agent có thể là ký tự đơn và các robots không phần biệt chữ hoa và chữ thường.
User-agent: SpamBot
Disallow: /

User-agent: *
Disallow: /private/
Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các robots khác được được truy cập tất cả trừ thư mục “private”.
User-agent: SpamBot
Disallow: /tmp/
Disallow: /private/
Disallow: /tailieu/canhan.html

User-agent: *
Disallow: /tmp/
Disallow: /private/
Không cho phép SpamBot dò các thư mục được liệt kê phía sau : thư mục “tmp”, “private” và tệp tin “canhan.html” trong thư mục “tailieu”.
Các bọ tìm kiếm các được dò mọi thứ trừ hai thư mục “tmp” và “private”.
Sử dụng sai – Phản ví dụ
Các cách dùng sai syntax và file robots.txt
User-agent: *
Disallow /
KHÔNG ! Đây là cách dùng sai vì thiếu dấu hai chấm “:” sau disallow.
User-agent: *
Disallow: *
KHÔNG ! Nếu muốn cấm toàn bộ mọi thứ thì hãy sử dụng ký tự gạch ngang “/” (chỉ định thư mục gốc)
User-agent: sidewiner
Disallow: /tmp/
KHÔNG ! Robots sẽ bỏ qua các tên sai của User Agent. Hãy xem file logs trên server hoặc xem thêm danh sách User Agent names.
User-agent: *
Disallow: /tmp/

User-agent: SpamBot
Disallow: /tailieu/canhan.html
Disallow: /tmp/
KHÔNG ! Robots đọc theo thứ tự từ trên xuống dưới và nó sẽ dùng lại khi tìm thấy phần văn bản liên quan tới nó. Bởi vậy “SpamBot” sẽ dừng ngay tại bảng ghi đầu tiên với dấu sao “*” mà không cần đến bảng ghi tiếp theo dành riêng cho nó.

Ngoài ra, bạn có thể ưng dụng file robots.txt trong việc ngăn ngừa phần nào các robots có hại, mang tính chất spam, email extractor hay nhằm giảm nội dung trùng lặp, loại bỏ đường dẫn URL đã bị đánh chỉ số. Chúng ta sẽ trở lại vấn đề này trong các bài viết với từng chủ đề liên quan.

Danh sách User Agent Names

Các User Agent của Google

Google thường sử dụng vài User Agent cho từng dịch vụ riêng của mình. Bạn có thể chỉ định từng dòng User Agent riêng rẽ. Trong trường hợp bạn chặn (disallow) Googlebot thị bạn sẽ chặn tất cả các User Agent bắt đầu bằng “Goooglebot”

  • Googlebot: Đánh chỉ số các trang Web và cập nhật các trang mới trong cơ sở dữ liệ của Google
  • Googlebot-Mobile: Đánh chỉ số các trang cho dịch vụ mobile (các thiết bị di động, cầm tay)
  • Googlebot-Image: Đánh chỉ số các trang cho tìm kiếm file ảnh.
  • Mediapartners-Google: Đánh chỉ số trang để xác định nội dung cho Google Adsense. Bọ tìm kiếm này chỉ xuất hiện trên các trang sử dụng dịch vụ quảng cáo trực tuêysn Google Adsense.
  • Adsbot-Google: Đánh chỉ số các trang để xác định chất lượng của các trang AdWords. Bọ này chỉ được sử dụng nếu trang của bạn sử dụng dịch vụ quảng cáo Adwords dành cho các nhà quảng cáo sản phẩm dịch vụ của họ..

Các User Agent khác

Đây là một số danh sách các User-Agent mà bạn có thể tham khảo như đã viết ở trên :

  1. Web Robots Database : Chứa tòan bộ các robots active;
  2. Search Engine Robots : Danh sách chứa tât cả máy tìm kiếm, bọ tìm kiếm và thông tin về đường dẫn, cập nhập.

Hoài Nam – quảng bá Web.

Bài viết cùng chủ đề liên quan

  1. Googlebot và Robots.txt : Allow, Disallow
    Ứng dụng tệp tin loại trừ robots.txt trong trường hợp đặc biệt với Googlebot.
  2. Robots, HTML Meta và Google, Yahoo, Microsoft
    Hướng dẫn ứng dụng chuẩn Robots Exclusion Protocol (REP) thông qua tệp tin robots.txt và thẻ META tags cho các máy tìm kiếm Google, Yahoo và Microsofts.
  3. Robots META Tag – Metadata Elements
    Hướng dẫn sử dụng thẻ Robots META Tag chỉ định việc đánh chỉ số trang Web, truy vấn đường dẫn và các dịch vụ của máy tìm kiếm.
  4. Bọ tìm kiếm Web crawler, spider, web robot, googlebot, slurp
    Web crawler, web spider hay web robot là một chương trình tự động tìm kiếm trên Internet được thiết kết để thu thập tài nguyên Internet

Tags : meta tags, quang ba web, user agent, web spider

8 lời bình cho “Robots.txt disallows Web Robot, User-agent”
  1. Phong Cách Trẻ :

    Anh có thể giải thích về file robot.txt của vietseo đựơc không ạ ?
    Khúc đầu em đọc bài này thì em có thể hiểu, còn khúc sau thì không hiểu ý nghĩa là gì
    # Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*

    # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*

    # Internet Archiver Wayback Machine
    User-agent: ia_archiver
    Disallow: /

    # digg mirror
    User-agent: duggmirror
    Disallow: /

    # BEGIN XML-SITEMAP-PLUGIN
    Sitemap: http://www.vietseo.net/sitemaps.xml.gz
    # END XML-SITEMAP-PLUGIN

  2. quang ba Web :

    Cám ơn Phong cách trẻ đã quan tâm tới vấn đề robots.

    Quay trở lại câu hỏi của bạn, thì đúng là khi làm robots.txt mình cũng không xem rõ các bản ghi (record) cho bọ tìm kiếm nên có bị trùng lặp.

    Về nghĩa thì như sau : Tên Googlebot-Image và Mediapartners-Google là các spider hay Bot, User-Agent Names riêng biệt của Google, tương ứng dùng để quét các file ảnh, các thông tin phục vụ cho dịch vụ quảng cáo Adsense mà trang Web đó dùng. Do lệnh dùng bị lặp nên cậu không hiểu là đúng. File robots.txt mới được chỉnh sửa lại chính xác hơn.

    Còn các User Agent Names khác như ia_archiver hay ia_archiver là các spider đến từ các trang lưu trữ internet (cho phép giữ lại hình ảnh các trang), đây là lựa chọn cá nhân. Mình cấm các con bọ đến từ trang này được đánh chỉ số trang.

    Thực ra về cú pháp, mình nghĩ chỉ nên dùng cú pháp cấm thư mục chứ không có cho phép như đã đề cập trong bài viết.

    Cám ơn cậu.
    Thân.

  3. Le thanh Hiep :

    Anh ơi diễn đàn của em toàn bị spam thôi, em đã đặt file robot.txt lên bên trong diễn đàn ngang hàng với admincp rồi mà vẫn bị. Hay là file robot.txt của em viết sai ở đâu anh nhỉ?
    Anh có thể viết lại cho em một file robot.txt được ko?
    Em cám ơn anh nhiều. Anh làm ơn gửi cho em vao email với nhé

  4. quang ba Web :

    Việc đặt file robots.txt tại thư mục gốc của diễn đàn giúp cho bạn ngăn chặn một số robots và spam ngoài ý muốn, gây tốn băng thông. Tuy nhiên không phải spammer nào cũng tuân thủ theo robots.txt. Các spammer khó chịu nhất là loại tự động; tự động đăng ký khi giải mã hay qua mặt được mã kiểm tra. Bạn nên tăng cường bảo mật phần đăng ký bằng việc cải thiện thêm mã kiểm tra.

    Ngoài ra còn loại spammer thủ công, spam quảng cáo, bạn nên dọn dẹp một mục quảng cáo và đặt nội qui trên các box để người ta đăng bài đúng mục. Ngoài ra việc cập nhật các lỗi của vbulletin cũng giúp giảm bớt nạn spam kết hợp với đội ngũ moderator sẽ giải quyết triệt để hơn.

    Thân.

  5. hoang :

    chào anh

    Trường hợp mình tạo link cho bài viết dạng http://www.vietseo.net/indexability/robots-txt-search-indexing/ như của anh tức là domain.com/catogory/post

    Thì dùng lệnh như dưới đây có đúng không ạ?

    Disallow: /category/

    Vì em có blog wordpress.com thấy google có index cả:

    http://www.domain.com//category/tên catogory.

    cảm ơn a.

  6. Daitop :

    Em Đang Sử dụng host free của byethost để làm một forum nhưng mà không hiểu sao mỗi khi em vào trang theo domain của em nó lại hiện ra trang http://4sql.net/notify/1.php hoặc http://ifastnet.com/notify/1.php
    EM có lên mạng tìm hiểu thì được biết có thể là do file robots.txt . Mong anh sớm có câu trả lời

  7. vhmh2005 :

    Nếu như không xài file robot.txt thì có chuyện gì xảy ra không nhỉ?

  8. Nghe nhạc sàn :

    @vhmh2005 : Nếu như ko xài robots.txt , website bạn vẫn chạy bình thường , chỉ có điều các chú bot đánh chỉ mục ko theo ý muốn , đánh mọi thứ trong website bạn gây nên các trang quan trọng ko được index hết .

Bình luận của bạn