Jan 04

Bọ tìm kiếm Web crawler, spider, web robot, googlebot, slurp

Web crawler, web spider hay web robot còn gọi là bọ tìm kiếm là một chương trình tự động tìm kiếm trên Internet. Nó được thiết kết để thu thập tài nguyên Internet (trang Web, hình ảnh, video, tài liệu Word, PDF hay PostScrips) , cho phép máy tìm kiếm đánh chỉ số sau đó.

Cùng phương thức, nhưng một số robots lại bị sử dụng để lượm các tài nguyên hoặc để lọc địa chỉ email.

Để đánh chỉ số các tài nguyên Web, mỗi bọ tìm kiếm (robot) sẽ đi theo các liên kết mà nó tìm thấy tại một trang trung tâm. Sau đó, mỗi trang đã duyệt sẽ được ghi nhớ lại và gán cho tần số đánh lại chỉ số dựa vào mức độ cập nhật thường xuyên hay không của trang.

Để điểu chỉnh ứng xử các robots, một tệp tin ngoại trừ (robots.txt) sẽ được đặt tại thư mục gốc của trang Web để chỉ định cho robots một danh sách những tài nguyên không được tiếp cận. Tệp tin robots.txt này còn đưa ra danh sách những bọ tìm kiếm nào được quyền đánh chỉ số trang Web. Qui tắc này cho phép giảm tải trên máy chủ và tránh đánh chỉ số những tài liệu không cần thiết hoặc nhạy cảm. Tuy nhiên có nhiều bọ tìm kiếm không tôn trọng chỉ định này, và hoàn toàn bỏ qua tệp tin ngoại trừ (robots.txt).

Một số bọ tìm kiếm phổ biến của các máy tìm kiếm :

  • Googlebot của Google
  • MSNBot của MSN
  • Slurp của Yahoo
  • Scooter của Alta Vista
  • Baidu của Baidu

Xem thêm : Máy tìm kiếm.

Bài viết cùng chủ đề liên quan

  1. Googlebot và Robots.txt : Allow, Disallow
    Bài viết này chúng ta sẽ tìm hiểu cụ thể các thức áp dụng tệp tin robots.txt này cho máy tìm kiếm Google mà cụ thể là các User...
  2. Robots.txt disallows Web Robot, User-agent
    Như các bạn đã biết, để đánh chỉ số một trang Web thì các máy tìm kiếm thường gửi các bọ tìm kiếm tới viếng thăm trang Web cần được...
Tags: , , , , , ,
4 TrackBack cho “Bọ tìm kiếm Web crawler, spider, web robot, googlebot, slurp”
  1. Google sitemap, thủ thuật SEO quảng bá Blog WordPress « Mr.Lonely - Chu Tuấn Tài Says:

    [...] khi bắt tay vào việc cải thiện cấu trúc thêm rõ ràng bạn phải hiểu được bọ tìm kiếm của Google đã khai thác và đánh chỉ số trang của bạn như thế nào. Và Google [...]

  2. Webmaster Vietnam’s Blog - Thủ thuật Webmaster tạo Website khả kiến, chỉ số hoá dễ dàng Says:

    [...] (site navigation) phải được tạo và ứng dụng cho tất cả người dùng kể cả bọ tìm kiếm Google. Sau đây là một vài hướng dẫn mà bạn nên làm [...]

  3. Báo lá cải » Blog Archive » Thủ thuật SEO - quảng bá Website Says:

    [...] tìm kiếm sử dụng các bọ tìm kiếm để đánh chỉ số trang. Các con bọ tìm kiếm này sẽ phân tích mã nguồn trang [...]

  4. Thủ Thuật Seo Quảng Bá Website Cho Webmaster Việt Nam « Life’s connection and share Says:

    [...] tìm kiếm sử dụng các bọ tìm kiếm để đánh chỉ số trang. Các con bọ tìm kiếm này sẽ phân tích mã nguồn trang [...]

Bình luận của bạn