Google, Yahoo, Microsofts bỏ qua Boilerplate
Rất nhiều trang Web hoặc tài liệu sử dụng các ký tự y hệt nhau trong phần sidebar hoặc phần cuối trang (footer), ví dụ như lưu ý bản quyền, liên lạc hay các thanh duyệt (navigation bar).
Các nhân viên lập trình đôi khi sử dụng thuật ngữ “boilerplate” tạm dịch là mẫu trích1 để ám chỉ các đoạn mã chuẩn thư viện được dùng để chèn vào trong chương trình. Trong khi đó các luật sư sử dụng trích mẫu trong các hợp đồng - phần văn bản nằm ở mặt sau của hợp đồng luôn cố định cho các loại hợp đồng khác nhau.
Các máy tìm kiếm hiện nay rất có thể bỏ qua các văn bản mẫu này khi đánh chỉ số những trang này. Ngoài ra máy tìm kiếm còn có thể sử dụng nội dung các trang này sau khi loại bỏ văn bản mẫu có thể làm nhiễu nội dung chính của trang để đưa ra các gợi ý tìm kiếm cho người dùng sử dụng chức năng tìm kiếm cá nhân hóa. Việc loại bỏ các văn bản mẫu này giúp cải thiện việc sắp xếp thứ hạng trang kết quả tìm kiếm cá nhân hóa.
Câu hỏi được đặt ra là bằng việc bỏ qua các văn bản mẫu, Google cố gắng hiểu nội dung chính của trang thì liệu nó có tính đến các từ khóa làm trong cảnh báo bản quyền cuối trang hay việc sử dụng đường dẫn tới trang chủ ? Liệu các chuỗi ký tự liên kết nằm trong đường dẫn trỏ tới các liên kết bạn bè có được tính đến hay không ?

Boilerplate của bách khoa toàn thư Wikipedia
Thật khó đưa ra một câu trả lời chính xác là Google tính đến các mẫu văn bản lặp này như thế nào. Google tính đến các từ khóa trong điều khoản bản quyền, giới thiệu và thông cáo ra sao trên tất cả các trang. Nhưng một điều có thể chắc là Google sẽ không còn quan tâm thật nhiều tới chúng trong tương lai.
Máy tìm kiếm Google thế hệ mới ?
Theo dự đoán thì Google thế hệ tiếp theo sẽ được “lai tạp” giữa tìm kiếm Internet và tìm kiếm trong máy tính các nhân cũng như tìm kiếm trong mạng nội bộ Intranet với nhiều tính năng mới. Theo các đăng ký bằng sáng chế gần đây thì hiện đã có trên dưới 50 ứng dụng mà tương lai có thể được tích hợp trong chức năng tìm kiếm thế hệ tiếp theo.
Google và các mẫu trích
Trong số 50 ứng dụng kể trên có một vài ứng dụng khá mới vừa được giới thiệu, nó cho phép bỏ qua mẫu văn bản lặp này :
Systems and methods for analyzing boilerplate
Invented by Stephen R. Lawrence
US Patent Application 20080040316
Published February 14, 2008
Filed March 31, 2004
Hệ thống và phương pháp phân tích boilerplate cho phép phát hiện các yếu tố trong nhiều các bài viết liên quan. Sau đó, hệ thống đánh chỉ số sẽ xem các yếu tố chung này như là một mẫu văn bản chung. Ví dụ, hệ thống đánh chỉ số sẽ xác định qui định về bản quyền tác giải xuất hiện trong các bài viết. Và phần qui định bản quyền sẽ bị qui vào mẫu văn bản chung.
Các máy tìm kiếm lại xử lý các boilerplate này một cách khác nhau. Ví dụ chúng có thể côi tất cả các ký tự nằm sau chữ “Bản quyền” chẳng hạn sẽ bị coi là mẫu văn bản trích dẫn nếu chúng lại xuất hiện trên nhiều trang khác nhau.
Các văn bản trên thanh trượt, tiêu đề, khẩu hiệu trang Web, địa chỉ cuối trang cũng có thể bị qui vào mẫu văn bản trích dẫn chung.
Tìm kiếm nội dung và mẫu trích
Có hai cách thức khác nhau mà các máy tìm kiếm (search engine) sẽ sử dụng để xác định ra các mẫu văn bản trích dẫn chung này :
- Truy vấn ẩn
- Hệ thống đánh chỉ số sẽ tìm kiếm và xác định các phần văn bản trích dẫn chung so với phần văn bản chính. Sau đó chúng sẽ tạo ra các truy vấn tìm kiếm ẩn chứa các từ khóa tìm kiếm từ phần nội dung chính.
- Truy vấn hiện
- Hệ thống truy vấn sẽ tách bỏ hoặc coi nhẹ phần văn bản trích dẫn chung khi người dùng tìm kiếm.
Trong cả hai trường hợp truy vấn ẩn hay hiện thì trọng số của phần văn bản trích dẫn chung luôn sẽ bị coi nhẹ hơn là phần văn bản chính của trang. Và vì thế một bài viết sẽ không cần phải được đánh chỉ số lại sau khi phần văn bản trích dẫn chung bị thay đổi hay xóa khỏi trang liên quan. Điều đó có nghĩa là chỉ có văn bản chính của trang mới ảnh hưởng tới các truy vấn tìm kiếm.
Định dạng chung của mẫu trích
- Boilerplate : Các văn bản của mẫu trích thường nằm tại phần tiêu đề, cuối trang hay các thanh duyệt và chúng xuất hiện trên nhiều trang. Mẫu trích của thể được xác định khi phân tích một số các chủ đề liên đới vị dụ tập hợp nhiều trang trong một trang. Cũng có thể xác định chúng trong một trang đơn.
- Xác định mẫu trích : Trình chỉ số hóa có thể xác định mẫu trích theo vài cách khác nhau : Có thẻ phân tích tần xuất của các từ hay câu trong một số chủ đề liên quan để xác dịnh ra các thành phần chung của các trang này. Trình chỉ số hóa sau đó xếp hạng các thành phần chung này như là mẫu trích. Ví dụ, một câu như “Copyright 2008″ xuất hiện trong một số các bài viết chung có thể coi là mẫu trích.
- Vị trí vệ tinh cả từ và câu : Một số từ hay câu xuất hiện tại một số vị trí nhất định trên một trang có thể sẽ bị qui vào mẫu trích. Ví dụ các phần văn bản chung luôn xuất hiện cuối trang sẽ bị coi là mẫu trích. Ví dụ các lưu ý về bản quyền hay địa chỉ liên lạc cuối trang sẽ bị coi là mẫu trích.
- Thành phần duyệt, di chuyển : Các thành phần chung của mã nguồn HTML trong trang cũng có thể bị coi là mẫu trích. Ví dụ, một đoạn mã JavaScript cho phép thay đổi cách thức hiển thị đường dẫn URL khi người dùng di chuột qua đường dẫn đó cũng có thể bị coi là mẫu trích.
- Câu, ngữ định trước : Mẫu trích cũng của thể được xác định thông qua một danh sách các từ ngữ, câu được liệt kê trước. Ví dụ các thành phần chung của thanh trượt, hoặc các phần liên quan bản quyền, trợ giuóp như “Trang chủ”, “Trợ giúp”, “Dịch vụ” hay “Bản quyền”.
- Tần suất : Từ xuất hiện thường xuyên trong các bài viết có nhiều khả năng bị xếp vào mẫu trích hơn là các từ ngữ xuất hiện thi thoảng. Ví dụ các từ như “Trang chủ”, “Liên lạc”.
- Các từ ngữ hay câu chung đôi khi không bị coi là mẫu trích : Dù xuất hiện trên nhiều trang liên đói, nhưng tần suất sử dụng không phải là chỉ số để xác định mẫu trích. Lấy vị dụ một trang chuyên về SEO thì sẽ có rất nhiều lần sử dụng thuật ngũ “quảng bá Web” trên các trang khác nhau. Thế nhưng từ này sẽ không bị coi là mẫu trích vì nó liên quan tới nội dung của trang hiển thị.
Kết luận về mẫu trích
- Bạn nên nhớ rằng các công cụ tìm kiếm có thể bỏ qua mẫu trích trên các trang đối với các truy vấn của người dùng.
- Nếu bạn muốn máy tìm kiếm để ý đến nội dung văn bản của trang thì hãy để ý đến vị trí các văn bản này trên trang cũng như là tần suất sử dụng chúng trên nhiều trang khác nhau.
- Các đường dẫn của thanh trượt và các liên kết các thành phần quan trọng khác nhau của trang Web có thể bị coi là mẫu trích nhưng phần văn bản neo (anchor text) vấn được máy tìm kiếm xem trong để đánh giá nội dung của trang mà nó trỏ tới.
- Google có thẻ có hoặc chưa coi trọng những yếu tố trên. Trong trường hợp chưa thì chắc chắn nó sẽ được sớm tích hợp trong thuật toán của Google.
Hoài Nam - vietSEO.net
- Boilerplate được dùng để ám chỉ tới một đoạn văn bản được sử dụng lặp đi lặp lại nhiều lần trong văn bản hay ứng dụng mới mà không hề thay đổi so với ban đầu [↩]
Bài viết cùng chủ đề liên quan
- Robots, HTML Meta và Google, Yahoo, Microsoft
Robots Exclusion Protocol (REP) Một trong những quan tâm hàng đầu của các quản trị website (webmaster) là mức độ phổ biến và khả thị (visibility) trong website của... - Cuộc chiến Yahoo - Microsoft
SAN FRANCISCO (AFP) - Yahoo lại từ chối thêm một lần nữa lời đề nghị mua lại của tập đoàn phần mềm khổng lồ Microsoft, được dàn dựng lần này...
-
Google và các công cụ tìm kiếm bỏ qua Boilerplate Says:
June 28th, 2008 at 11:35 pm[...] Google và các công cụ tìm kiếm bỏ qua Boilerplate Boilerplate được dùng để ám chỉ tới một đoạn văn bản được sử dụng lặp đi lặp lại nhiều lần trong văn bản hay ứng dụng mới mà không hề thay đổi so với ban đầu. Các mẫu trích này xuất hiện nhiều tại các vị trí như trên phần Header, Footer, trên Sidebar hay mục liên lạc, bản quyền (Copyright) hay thanh duyệt (Navigation bar) hoăc trong các bài viết liên đới. Các máy tìm kiếm (Google, Yahoo và Microsofts) xử lý các mẫu trích này như thế nào trong thuật toán đối với truy vấn của người tìm kiếm ? Google, Yahoo, Microsofts bỏ qua Boilerplate [...]
-
Top 10 thủ thuật SEO Webmaster cần tránh « SEO Blog Google Says:
July 14th, 2008 at 6:54 am[...] nhiên” và nó sẽ khiến kết quả tìm kiếm không còn chuẩn xác với truy vấn của người dùng (Ghi nhớ là thứ hạng trang Web cũng phụ thuộc nhiều vào đường dẫn URL bên [...]

June 28th, 2008 at 12:52 pm
Theo bài viết thì google sẽ bỏ qua các menu, footer lập đi lập lại và sẽ không tính vào phần nội dụng của website. Vậy theo nam thì google có pass PR cho các menu kô?
June 28th, 2008 at 5:17 pm
Trong bài viết tớ đề cập tới việc các boilerplate bị các máy tìm kiếm coi nhẹ khi người tìm kiếm truy vấn các từ khóa liên quan. Các máy tìm kiếm sẽ chú trọng hơn nội dung chính của trang.
Tuy nhiên việc pass PageRank lại tùy thuộc một phần nữa vào bản chất liên kết URL. Các đường dẫn Flash hay Javascript sẽ khó được Google phát hiện nên khó mà pass Rank được. Trong trường hợp URL với bản chất HTML thì lại phục thuộc vào vị trí của menu, bản chất mở liên kết (thẻ target), phụ thuộc vào thẻ nofollow.
Dùng từ pass PageRank thì mình nghĩ sẽ dễ bị hiểu lầm, vì một số người cho răng liên kết bên ngoài sẽ làm thất thoát PageRank của trang. Điều này là hoàn toàn sai. Các liên kết bên ngoài trong bài viết gắn kết với nội dung hoặc cung cấp thêm thông tin cho người đọc sẽ củng cố thêm độ tin cậy, thêm tin tức phong phú cho trang. Và ngược lại, các trang được liên kết trỏ đến sẽ nhận thêm “điểm” cho PageRank riêng từ các liên kết này.
Tóm lại, trong trường hợp của Webmaster Việt Nam thì các trang được liên kết trong phần footer chắc chắn sẽ nhận được “điểm” cho PageRank riêng.
WVN dạo này ổn chứ ? Tớ thỉnh thoảng cũng ghé qua thường xuyên :D.
Thân.
June 28th, 2008 at 8:10 pm
Mình muốn hỏi ý kiến của Nam về trường hợp như thế này:
Chẳng hạn ta có một website về trang sức, ta có một liên kết trên menu đến trang con với từ khóa “vòng đeo tay”, nhĩ nhiên menu này ko sử dụng thuộc tính target, nofollow và dùng mã html thuần túy. Trong một bài viết khác (bài viết về trang sức bạc chẳng hạn) có từ khóa vòng đeo tay thì Trung liên kết đến trang “vòng đeo tay”.
Theo Nam thì làm như thế có cần thiết không nhằm boost PR cho trang “vòng đeo tay” vì ngay trên trang đó đã có menu “vòng đeo tay”.