Robots.txt disallows Web Robot, User-agent
Như các bạn đã biết, để đánh chỉ số một trang Web thì các máy tìm kiếm thường gửi các bọ tìm kiếm tới viếng thăm trang Web cần được chỉ số hóa. Ngoài việc sử dụng thẻ Meta Tag Robots, thì bạn có thể ứng dụng một file text đặc biệt đặt tại thư mục gốc của tên miền để điều chỉnh ứng xử của bọ tìm kiếm (trường hợp ứng dụng cho Google xem Google Robots). Bài viết này vietSEO và các bạn sẽ cùng phân tích ứng dụng của file robots.txt này.
Giới thiệu Robots.txt
Như đã viết ở trên, khi đánh chỉ số một trang Web thì các bọ tìm kiếm sẽ kiểm tra nội dung một tệp tin đặc biệt đặt tại thư mục gốc tên là robots.txt. Tệp tin này chứa hoàn toàn nội dung văn bản text (không phải HTML). Robots.txt được hiểu với nghĩa là “Robots Exclusion Protocol”; nó cho phép người quản trị Web (Webmaster) định ra các thành phần với quyền hạn riêng biệt cho từng bọ tìm kiếm. Nói cách khác thông qua tệp tin này, Webmaster sẽ giao tiếp với bọ tìm kiếm để điều khiển tác vụ của các bọ tìm kiếm nói trên.
Cú pháp trong Robots.txt
Cú pháp dùng trong tệp tin này thường dùng để cấm robots (bọ tìm kiếm) quét các trang mà đường dẫn URL được chỉ ra. Mỗi đoạn văn bản thường gồm có tên của bọ tìm kiếm (user agent hay robot) và đường dẫn mà nó không được quét. Và thường là bạn không thể chỉ định ra thư mục nhất định hay là các loại tệp tin mà bọ tìm kiếm có thể đánh chỉ số. Nên nhớ rằng, ngầm định, các robots có thể truy cập bất kể thư mục nào theo đường dẫn URL không được cấm trong tệp tin robots.txt. Tất cả mọi tài nguyên không bị cấm thì đều có thể được truy cập.
Bạn có thể hiển thị file robots.txt chỉ đơn giản bằng trình duyệt ( http://vietseo.net/robots.txt ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu.
Xin nói thêm rằng Google gần đây có hỗ trợ cú pháp Sitemap trong robots.txt cho phép chỉ định sơ đồ Web (Sitemap XML) trong robots.txt
Ví dụ phần cú pháp Sitemap được chỉ định trong fie robots.txt trên vietSEO như sau :
[source:html]
#BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.vietseo.net/sitemaps.xml.gz
#END XML-SITEMAP-PLUGIN
[/source]
Ứng dụng robots.txt
Đây là toàn bộ tài liệu liên quan tới chuẩn loại trừ Robot, mà theo lý thuyết thì tất cả các robots đề phải tuân theo các chỉ định trong file robots.txt.
| Cú pháp | Ghi chú cho Webmaster |
|---|---|
| User-agent: * Disallow: |
Dấu (*) có nghĩa là áp dụng cho mọi robots. Nhưng vì không có tài nguyên nào bị cấm nên thành ra tất cả mọi thư mục đề được cho phép. |
| User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/ |
Tất cả mọi robots đều có quyền truy cập tất cả các thư mục trừ ba thư mục được trích dẫn phía sau. |
| User-agent: SpamBot Disallow: / |
Trường hợp này robot SpamBot bị cấm truy cập tất cả thư mục. Dấu gạch chéo “/” có nghĩa là tất cả các thư mục.User-Agent có thể là ký tự đơn và các robots không phần biệt chữ hoa và chữ thường. |
| User-agent: SpamBot Disallow: / User-agent: * Disallow: /private/ |
Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các robots khác được được truy cập tất cả trừ thư mục “private”. |
| User-agent: SpamBot Disallow: /tmp/ Disallow: /private/ Disallow: /tailieu/canhan.html User-agent: * Disallow: /tmp/ Disallow: /private/ |
Không cho phép SpamBot dò các thư mục được liệt kê phía sau : thư mục “tmp”, “private” và tệp tin “canhan.html” trong thư mục “tailieu”. Các bọ tìm kiếm các được dò mọi thứ trừ hai thư mục “tmp” và “private”. |
| Sử dụng sai - Phản ví dụ | |
|
Các cách dùng sai syntax và file robots.txt
|
|
| User-agent: * Disallow / |
KHÔNG ! Đây là cách dùng sai vì thiếu dấu hai chấm “:” sau disallow. |
| User-agent: * Disallow: * |
KHÔNG ! Nếu muốn cấm toàn bộ mọi thứ thì hãy sử dụng ký tự gạch ngang “/” (chỉ định thư mục gốc) |
| User-agent: sidewiner Disallow: /tmp/ |
KHÔNG ! Robots sẽ bỏ qua các tên sai của User Agent. Hãy xem file logs trên server hoặc xem thêm danh sách User Agent names. |
| User-agent: * Disallow: /tmp/ User-agent: SpamBot Disallow: /tailieu/canhan.html Disallow: /tmp/ |
KHÔNG ! Robots đọc theo thứ tự từ trên xuống dưới và nó sẽ dùng lại khi tìm thấy phần văn bản liên quan tới nó. Bởi vậy “SpamBot” sẽ dừng ngay tại bảng ghi đầu tiên với dấu sao “*” mà không cần đến bảng ghi tiếp theo dành riêng cho nó. |
Ngoài ra, bạn có thể ưng dụng file robots.txt trong việc ngăn ngừa phần nào các robots có hại, mang tính chất spam, email extractor hay nhằm giảm nội dung trùng lặp, loại bỏ đường dẫn URL đã bị đánh chỉ số. Chúng ta sẽ trở lại vấn đề này trong các bài viết với từng chủ đề liên quan.
Danh sách User Agent Names
Các User Agent của Google
Google thường sử dụng vài User Agent cho từng dịch vụ riêng của mình. Bạn có thể chỉ định từng dòng User Agent riêng rẽ. Trong trường hợp bạn chặn (disallow) Googlebot thị bạn sẽ chặn tất cả các User Agent bắt đầu bằng “Goooglebot”
- Googlebot: Đánh chỉ số các trang Web và cập nhật các trang mới trong cơ sở dữ liệ của Google
- Googlebot-Mobile: Đánh chỉ số các trang cho dịch vụ mobile (các thiết bị di động, cầm tay)
- Googlebot-Image: Đánh chỉ số các trang cho tìm kiếm file ảnh.
- Mediapartners-Google: Đánh chỉ số trang để xác định nội dung cho Google Adsense. Bọ tìm kiếm này chỉ xuất hiện trên các trang sử dụng dịch vụ quảng cáo trực tuêysn Google Adsense.
- Adsbot-Google: Đánh chỉ số các trang để xác định chất lượng của các trang AdWords. Bọ này chỉ được sử dụng nếu trang của bạn sử dụng dịch vụ quảng cáo Adwords dành cho các nhà quảng cáo sản phẩm dịch vụ của họ..
Các User Agent khác
Đây là một số danh sách các User-Agent mà bạn có thể tham khảo như đã viết ở trên :
- Web Robots Database : Chứa tòan bộ các robots active;
- Search Engine Robots : Danh sách chứa tât cả máy tìm kiếm, bọ tìm kiếm và thông tin về đường dẫn, cập nhập.
Hoài Nam - quảng bá Web.
Bài viết cùng chủ đề liên quan
- Googlebot và Robots.txt : Allow, Disallow
Bài viết này chúng ta sẽ tìm hiểu cụ thể các thức áp dụng tệp tin robots.txt này cho máy tìm kiếm Google mà cụ thể là các User... - Robots, HTML Meta và Google, Yahoo, Microsoft
Robots Exclusion Protocol (REP) Một trong những quan tâm hàng đầu của các quản trị website (webmaster) là mức độ phổ biến và khả thị (visibility) trong website của... - Robots META Tag - Metadata Elements
Thường thì tệp tin robots.txt đặt tại thư mục gốc của tên miền là công cụ lý tưởng để giao tiếp với các máy tìm kiếm (Robots với Google, Yahoo... - Bọ tìm kiếm Web crawler, spider, web robot, googlebot, slurp
Web crawler, web spider hay web robot còn gọi là bọ tìm kiếm là một chương trình tự động tìm kiếm trên Internet. Nó được thiết kết để thu thập...
-
Báo lá cải » Blog Archive » Thủ thuật SEO - quảng bá Website Says:
July 15th, 2008 at 10:38 am[...] trang Web của mình, bạn có thể sử dụng tệp tin robots.txt hay các meta tag robots cũng như lệnh “nofollow” để hạn chế nội dung trùng lặp [...]
-
Robots, HTML Meta và Google, Yahoo, Microsoft « SEO Blog Google Says:
July 24th, 2008 at 2:35 am[...] lên máy tìm kiếm. Trong trường hợp này họ sẽ sử dụng tệp tin loại trừ robots.txt (Robots Exclusion Protocol - REP) để hướng dẫn bọ tìm kiếm tiếp cận tài nguyên [...]
-
Thủ thuật SEO - quảng bá Website « SEO Blog Google Says:
July 26th, 2008 at 7:47 am[...] trang Web của mình, bạn có thể sử dụng tệp tin robots.txt hay các meta tag robots cũng như lệnh “nofollow” để hạn chế nội dung [...]
-
Googlebot v Says:
August 13th, 2008 at 1:06 pm[...] v
-
Googlebot v Says:
August 13th, 2008 at 1:07 pm[...] v
-
Thủ Thuật Seo Quảng Bá Website Cho Webmaster Việt Nam « Life’s connection and share Says:
August 30th, 2008 at 8:12 am[...] trang Web của mình, bạn có thể sử dụng tệp tin robots.txt hay các meta tag robots cũng như lệnh “nofollow” để hạn chế nội dung trùng lặp [...]

May 19th, 2008 at 5:47 am
Anh có thể giải thích về file robot.txt của vietseo đựơc không ạ ?
Khúc đầu em đọc bài này thì em có thể hiểu, còn khúc sau thì không hiểu ý nghĩa là gì
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.vietseo.net/sitemaps.xml.gz
# END XML-SITEMAP-PLUGIN
May 19th, 2008 at 3:02 pm
Cám ơn Phong cách trẻ đã quan tâm tới vấn đề robots.
Quay trở lại câu hỏi của bạn, thì đúng là khi làm robots.txt mình cũng không xem rõ các bản ghi (record) cho bọ tìm kiếm nên có bị trùng lặp.
Về nghĩa thì như sau : Tên Googlebot-Image và Mediapartners-Google là các spider hay Bot, User-Agent Names riêng biệt của Google, tương ứng dùng để quét các file ảnh, các thông tin phục vụ cho dịch vụ quảng cáo Adsense mà trang Web đó dùng. Do lệnh dùng bị lặp nên cậu không hiểu là đúng. File robots.txt mới được chỉnh sửa lại chính xác hơn.
Còn các User Agent Names khác như ia_archiver hay ia_archiver là các spider đến từ các trang lưu trữ internet (cho phép giữ lại hình ảnh các trang), đây là lựa chọn cá nhân. Mình cấm các con bọ đến từ trang này được đánh chỉ số trang.
Thực ra về cú pháp, mình nghĩ chỉ nên dùng cú pháp cấm thư mục chứ không có cho phép như đã đề cập trong bài viết.
Cám ơn cậu.
Thân.