Bọ tìm kiếm Web crawler, spider, web robot, googlebot, slurp
Web crawler, web spider hay web robot là một chương trình tự động tìm kiếm trên Internet được thiết kết để thu thập tài nguyên Internet
Web crawler, web spider hay web robot còn gọi là bọ tìm kiếm là một chương trình tự động tìm kiếm trên Internet. Nó được thiết kết để thu thập tài nguyên Internet (trang Web, hình ảnh, video, tài liệu Word, PDF hay PostScrips) , cho phép máy tìm kiếm đánh chỉ số sau đó.
Cùng phương thức, nhưng một số robots lại bị sử dụng để lượm các tài nguyên hoặc để lọc địa chỉ email.
Để đánh chỉ số các tài nguyên Web, mỗi bọ tìm kiếm (robot) sẽ đi theo các liên kết mà nó tìm thấy tại một trang trung tâm. Sau đó, mỗi trang đã duyệt sẽ được ghi nhớ lại và gán cho tần số đánh lại chỉ số dựa vào mức độ cập nhật thường xuyên hay không của trang.
Để điểu chỉnh ứng xử các robots, một tệp tin ngoại trừ (robots.txt) sẽ được đặt tại thư mục gốc của trang Web để chỉ định cho robots một danh sách những tài nguyên không được tiếp cận. Tệp tin robots.txt này còn đưa ra danh sách những bọ tìm kiếm nào được quyền đánh chỉ số trang Web. Qui tắc này cho phép giảm tải trên máy chủ và tránh đánh chỉ số những tài liệu không cần thiết hoặc nhạy cảm. Tuy nhiên có nhiều bọ tìm kiếm không tôn trọng chỉ định này, và hoàn toàn bỏ qua tệp tin ngoại trừ (robots.txt).
Một số bọ tìm kiếm phổ biến của các máy tìm kiếm :
Xem thêm : Máy tìm kiếm.
Bài viết cùng chủ đề liên quan
- Googlebot và Robots.txt : Allow, Disallow
Ứng dụng tệp tin loại trừ robots.txt trong trường hợp đặc biệt với Googlebot. - Robots.txt disallows Web Robot, User-agent
Phân tích và hướng dẫn chi tiết cách sử dụng file robots.txt để điều khiển, phân quyền cho bọ tìm kiếm. - Search engine – Máy tìm kiếm | Thuật ngữ SEO Webmaster Internet
Search engine hay còn gọi là máy tìm kiếm là một trang Web cho phép người dùng tìm kiếm nội dung số của các trang Web trên Internet. - Kết quả tìm kiếm Google không sử dụng Keywords Meta Tag
Google tái khẳng định không sử dụng thẻ Keywords Meta Tag để xếp hạng Pagerank Website. - Search engine optimization SEO – Tối ưu hóa công cụ tìm kiếm
Search engine optimization viết tắt là SEO tạm dịch là tối ưu hóa cho công cụ tìm kiếm, diễn giải đúng là tối ưu hóa Website nhằm tăng thứ hạng trên các công cụ tìm kiếm.
Bình luận của bạn
