Robots.txt disallows Web Robot, User-agent
Phân tích và hướng dẫn chi tiết cách sử dụng file robots.txt để điều khiển, phân quyền cho bọ tìm kiếm.
Như các bạn đã biết, để đánh chỉ số một trang Web thì các máy tìm kiếm thường gửi các bọ tìm kiếm tới viếng thăm trang Web cần được chỉ số hóa. Ngoài việc sử dụng thẻ Meta Tag Robots, thì bạn có thể ứng dụng một file text đặc biệt đặt tại thư mục gốc của tên miền để điều chỉnh ứng xử của bọ tìm kiếm (trường hợp ứng dụng cho Google xem Google Robots). Bài viết này vietSEO và các bạn sẽ cùng phân tích ứng dụng của file robots.txt này.
Giới thiệu Robots.txt
Như đã viết ở trên, khi đánh chỉ số một trang Web thì các bọ tìm kiếm sẽ kiểm tra nội dung một tệp tin đặc biệt đặt tại thư mục gốc tên là robots.txt. Tệp tin này chứa hoàn toàn nội dung văn bản text (không phải HTML). Robots.txt được hiểu với nghĩa là “Robots Exclusion Protocol”; nó cho phép người quản trị Web (Webmaster) định ra các thành phần với quyền hạn riêng biệt cho từng bọ tìm kiếm. Nói cách khác thông qua tệp tin này, Webmaster sẽ giao tiếp với bọ tìm kiếm để điều khiển tác vụ của các bọ tìm kiếm nói trên.
Cú pháp trong Robots.txt
Cú pháp dùng trong tệp tin này thường dùng để cấm robots (bọ tìm kiếm) quét các trang mà đường dẫn URL được chỉ ra. Mỗi đoạn văn bản thường gồm có tên của bọ tìm kiếm (user agent hay robot) và đường dẫn mà nó không được quét. Và thường là bạn không thể chỉ định ra thư mục nhất định hay là các loại tệp tin mà bọ tìm kiếm có thể đánh chỉ số. Nên nhớ rằng, ngầm định, các robots có thể truy cập bất kể thư mục nào theo đường dẫn URL không được cấm trong tệp tin robots.txt. Tất cả mọi tài nguyên không bị cấm thì đều có thể được truy cập.
Bạn có thể hiển thị file robots.txt chỉ đơn giản bằng trình duyệt ( http://vietseo.net/robots.txt ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu.
Xin nói thêm rằng Google gần đây có hỗ trợ cú pháp Sitemap trong robots.txt cho phép chỉ định sơ đồ Web (Sitemap XML) trong robots.txt
Ví dụ phần cú pháp Sitemap được chỉ định trong fie robots.txt trên vietSEO như sau :
[source:html]
#BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.vietseo.net/sitemaps.xml.gz
#END XML-SITEMAP-PLUGIN
[/source]
Ứng dụng robots.txt
Đây là toàn bộ tài liệu liên quan tới chuẩn loại trừ Robot, mà theo lý thuyết thì tất cả các robots đề phải tuân theo các chỉ định trong file robots.txt.
| Cú pháp | Ghi chú cho Webmaster |
|---|---|
| User-agent: * Disallow: |
Dấu (*) có nghĩa là áp dụng cho mọi robots. Nhưng vì không có tài nguyên nào bị cấm nên thành ra tất cả mọi thư mục đề được cho phép. |
| User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/ |
Tất cả mọi robots đều có quyền truy cập tất cả các thư mục trừ ba thư mục được trích dẫn phía sau. |
| User-agent: SpamBot Disallow: / |
Trường hợp này robot SpamBot bị cấm truy cập tất cả thư mục. Dấu gạch chéo “/” có nghĩa là tất cả các thư mục.User-Agent có thể là ký tự đơn và các robots không phần biệt chữ hoa và chữ thường. |
| User-agent: SpamBot Disallow: / User-agent: * Disallow: /private/ |
Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các robots khác được được truy cập tất cả trừ thư mục “private”. |
| User-agent: SpamBot Disallow: /tmp/ Disallow: /private/ Disallow: /tailieu/canhan.html User-agent: * Disallow: /tmp/ Disallow: /private/ |
Không cho phép SpamBot dò các thư mục được liệt kê phía sau : thư mục “tmp”, “private” và tệp tin “canhan.html” trong thư mục “tailieu”. Các bọ tìm kiếm các được dò mọi thứ trừ hai thư mục “tmp” và “private”. |
| Sử dụng sai – Phản ví dụ | |
|
Các cách dùng sai syntax và file robots.txt
|
|
| User-agent: * Disallow / |
KHÔNG ! Đây là cách dùng sai vì thiếu dấu hai chấm “:” sau disallow. |
| User-agent: * Disallow: * |
KHÔNG ! Nếu muốn cấm toàn bộ mọi thứ thì hãy sử dụng ký tự gạch ngang “/” (chỉ định thư mục gốc) |
| User-agent: sidewiner Disallow: /tmp/ |
KHÔNG ! Robots sẽ bỏ qua các tên sai của User Agent. Hãy xem file logs trên server hoặc xem thêm danh sách User Agent names. |
| User-agent: * Disallow: /tmp/ User-agent: SpamBot Disallow: /tailieu/canhan.html Disallow: /tmp/ |
KHÔNG ! Robots đọc theo thứ tự từ trên xuống dưới và nó sẽ dùng lại khi tìm thấy phần văn bản liên quan tới nó. Bởi vậy “SpamBot” sẽ dừng ngay tại bảng ghi đầu tiên với dấu sao “*” mà không cần đến bảng ghi tiếp theo dành riêng cho nó. |
Ngoài ra, bạn có thể ưng dụng file robots.txt trong việc ngăn ngừa phần nào các robots có hại, mang tính chất spam, email extractor hay nhằm giảm nội dung trùng lặp, loại bỏ đường dẫn URL đã bị đánh chỉ số. Chúng ta sẽ trở lại vấn đề này trong các bài viết với từng chủ đề liên quan.
Danh sách User Agent Names
Các User Agent của Google
Google thường sử dụng vài User Agent cho từng dịch vụ riêng của mình. Bạn có thể chỉ định từng dòng User Agent riêng rẽ. Trong trường hợp bạn chặn (disallow) Googlebot thị bạn sẽ chặn tất cả các User Agent bắt đầu bằng “Goooglebot”
- Googlebot: Đánh chỉ số các trang Web và cập nhật các trang mới trong cơ sở dữ liệ của Google
- Googlebot-Mobile: Đánh chỉ số các trang cho dịch vụ mobile (các thiết bị di động, cầm tay)
- Googlebot-Image: Đánh chỉ số các trang cho tìm kiếm file ảnh.
- Mediapartners-Google: Đánh chỉ số trang để xác định nội dung cho Google Adsense. Bọ tìm kiếm này chỉ xuất hiện trên các trang sử dụng dịch vụ quảng cáo trực tuêysn Google Adsense.
- Adsbot-Google: Đánh chỉ số các trang để xác định chất lượng của các trang AdWords. Bọ này chỉ được sử dụng nếu trang của bạn sử dụng dịch vụ quảng cáo Adwords dành cho các nhà quảng cáo sản phẩm dịch vụ của họ..
Các User Agent khác
Đây là một số danh sách các User-Agent mà bạn có thể tham khảo như đã viết ở trên :
- Web Robots Database : Chứa tòan bộ các robots active;
- Search Engine Robots : Danh sách chứa tât cả máy tìm kiếm, bọ tìm kiếm và thông tin về đường dẫn, cập nhập.
Hoài Nam – quảng bá Web.
Bài viết cùng chủ đề liên quan
- Googlebot và Robots.txt : Allow, Disallow
Ứng dụng tệp tin loại trừ robots.txt trong trường hợp đặc biệt với Googlebot. - Robots, HTML Meta và Google, Yahoo, Microsoft
Hướng dẫn ứng dụng chuẩn Robots Exclusion Protocol (REP) thông qua tệp tin robots.txt và thẻ META tags cho các máy tìm kiếm Google, Yahoo và Microsofts. - Robots META Tag – Metadata Elements
Hướng dẫn sử dụng thẻ Robots META Tag chỉ định việc đánh chỉ số trang Web, truy vấn đường dẫn và các dịch vụ của máy tìm kiếm. - Bọ tìm kiếm Web crawler, spider, web robot, googlebot, slurp
Web crawler, web spider hay web robot là một chương trình tự động tìm kiếm trên Internet được thiết kết để thu thập tài nguyên Internet
Bình luận của bạn

May 19th, 2008 at 5:47
Anh có thể giải thích về file robot.txt của vietseo đựơc không ạ ?
Khúc đầu em đọc bài này thì em có thể hiểu, còn khúc sau thì không hiểu ý nghĩa là gì
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.vietseo.net/sitemaps.xml.gz
# END XML-SITEMAP-PLUGIN
May 19th, 2008 at 15:02
Cám ơn Phong cách trẻ đã quan tâm tới vấn đề robots.
Quay trở lại câu hỏi của bạn, thì đúng là khi làm robots.txt mình cũng không xem rõ các bản ghi (record) cho bọ tìm kiếm nên có bị trùng lặp.
Về nghĩa thì như sau : Tên Googlebot-Image và Mediapartners-Google là các spider hay Bot, User-Agent Names riêng biệt của Google, tương ứng dùng để quét các file ảnh, các thông tin phục vụ cho dịch vụ quảng cáo Adsense mà trang Web đó dùng. Do lệnh dùng bị lặp nên cậu không hiểu là đúng. File robots.txt mới được chỉnh sửa lại chính xác hơn.
Còn các User Agent Names khác như ia_archiver hay ia_archiver là các spider đến từ các trang lưu trữ internet (cho phép giữ lại hình ảnh các trang), đây là lựa chọn cá nhân. Mình cấm các con bọ đến từ trang này được đánh chỉ số trang.
Thực ra về cú pháp, mình nghĩ chỉ nên dùng cú pháp cấm thư mục chứ không có cho phép như đã đề cập trong bài viết.
Cám ơn cậu.
Thân.
November 16th, 2008 at 9:54
Anh ơi diễn đàn của em toàn bị spam thôi, em đã đặt file robot.txt lên bên trong diễn đàn ngang hàng với admincp rồi mà vẫn bị. Hay là file robot.txt của em viết sai ở đâu anh nhỉ?
Anh có thể viết lại cho em một file robot.txt được ko?
Em cám ơn anh nhiều. Anh làm ơn gửi cho em vao email với nhé
November 16th, 2008 at 19:43
Việc đặt file robots.txt tại thư mục gốc của diễn đàn giúp cho bạn ngăn chặn một số robots và spam ngoài ý muốn, gây tốn băng thông. Tuy nhiên không phải spammer nào cũng tuân thủ theo robots.txt. Các spammer khó chịu nhất là loại tự động; tự động đăng ký khi giải mã hay qua mặt được mã kiểm tra. Bạn nên tăng cường bảo mật phần đăng ký bằng việc cải thiện thêm mã kiểm tra.
Ngoài ra còn loại spammer thủ công, spam quảng cáo, bạn nên dọn dẹp một mục quảng cáo và đặt nội qui trên các box để người ta đăng bài đúng mục. Ngoài ra việc cập nhật các lỗi của vbulletin cũng giúp giảm bớt nạn spam kết hợp với đội ngũ moderator sẽ giải quyết triệt để hơn.
Thân.
December 13th, 2008 at 15:50
chào anh
Trường hợp mình tạo link cho bài viết dạng http://www.vietseo.net/indexability/robots-txt-search-indexing/ như của anh tức là domain.com/catogory/post
Thì dùng lệnh như dưới đây có đúng không ạ?
Disallow: /category/
Vì em có blog wordpress.com thấy google có index cả:
http://www.domain.com//category/tên catogory.
cảm ơn a.
December 9th, 2009 at 1:24
Em Đang Sử dụng host free của byethost để làm một forum nhưng mà không hiểu sao mỗi khi em vào trang theo domain của em nó lại hiện ra trang http://4sql.net/notify/1.php hoặc http://ifastnet.com/notify/1.php
EM có lên mạng tìm hiểu thì được biết có thể là do file robots.txt . Mong anh sớm có câu trả lời
July 21st, 2010 at 18:01
Nếu như không xài file robot.txt thì có chuyện gì xảy ra không nhỉ?
July 25th, 2010 at 2:31
@vhmh2005 : Nếu như ko xài robots.txt , website bạn vẫn chạy bình thường , chỉ có điều các chú bot đánh chỉ mục ko theo ý muốn , đánh mọi thứ trong website bạn gây nên các trang quan trọng ko được index hết .