XML Sitemaps & SEO: Những điều bạn cần biết

Khi web phát triển, Google cũng như SEO cũng vậy.
Điều này có nghĩa là những gì được coi là thực hành tốt nhất thường là thông lượng. Những gì có thể đã được tư vấn tốt ngày hôm qua, không phải như vậy ngày hôm nay.

Điều này đặc biệt đúng đối với các sơ đồ trang web , vốn gần như cũ như bản thân SEO.
XML Sitemaps & SEO: Những điều bạn cần biết
Vấn đề là, khi mỗi người đàn ông và con chó của họ đã đăng câu trả lời trong diễn đàn, xuất bản các khuyến nghị trên blog và ý kiến ​​khuếch đại với phương tiện truyền thông xã hội, cần có thời gian để sắp xếp lời khuyên có giá trị từ thông tin sai lạc.

Vì vậy, trong khi hầu hết chúng ta hiểu chung rằng việc gửi sơ đồ trang web đến Google Search Console là quan trọng, bạn có thể không biết phức tạp về cách triển khai chúng theo cách thúc đẩy chỉ số hiệu suất chính của SEO (KPI).

Hãy làm sáng tỏ sự nhầm lẫn xung quanh các phương pháp hay nhất cho sơ đồ trang web ngay hôm nay.

Trong bài viết này chúng tôi đề cập đến:
  • Sơ đồ trang web XML là gì
  • Định dạng sơ đồ trang web XML
  • Các loại sơ đồ trang web
  • Tối ưu hóa chỉ mục sơ đồ trang web XML
  • Danh sách kiểm tra thực hành tốt nhất về sơ đồ trang web XML

Sơ đồ trang web XML là gì

Nói một cách đơn giản, một sơ đồ trang web XML là một danh sách các URL của trang web của bạn.

Nó hoạt động như một lộ trình để cho các công cụ tìm kiếm biết nội dung nào có sẵn và cách tiếp cận nó.

Công cụ tìm kiếm sẽ tìm tất cả chín trang trong sơ đồ trang web với một lượt truy cập vào tệp sơ đồ trang web XML.

Trên trang web, nó sẽ phải nhảy qua năm liên kết nội bộ để tìm trang 9.

Khả năng này của một sơ đồ trang web XML để hỗ trợ trình thu thập thông tin trong lập chỉ mục nhanh hơn đặc biệt quan trọng đối với các trang web:
  • Có hàng ngàn trang và / hoặc kiến ​​trúc trang web sâu.
  • Thường xuyên thêm các trang mới.
  • Thường xuyên thay đổi nội dung của các trang hiện có.
  • Bị can thiệp từ các trang liên kết và mồ côi nội bộ yếu kém.
  • Thiếu hồ sơ liên kết bên ngoài mạnh mẽ.
Lưu ý phụ: Gửi một sơ đồ trang web có URL noindex cũng có thể tăng tốc độ deindexation. Điều này có thể hiệu quả hơn việc xóa URL trong Google Search Console nếu bạn có nhiều URL bị xóa. Nhưng hãy sử dụng tính năng này cẩn thận và chắc chắn bạn chỉ tạm thời thêm các URL đó vào sơ đồ trang web của mình.

Lấy chìa khóa

Mặc dù các công cụ tìm kiếm về mặt kỹ thuật có thể tìm thấy các URL của bạn mà không có nó, bằng cách bao gồm các trang trong một sơ đồ trang web XML bạn chỉ ra rằng bạn coi chúng là các trang đích có chất lượng.

Mặc dù không có gì đảm bảo rằng một sơ đồ trang web XML sẽ thu thập dữ liệu các trang của bạn, nhưng hãy để một mình lập chỉ mục hoặc xếp hạng, gửi một trang chắc chắn sẽ tăng cơ hội của bạn.

Định dạng Sơ đồ trang web XML

Trang một trang sử dụng tất cả các thẻ có sẵn sẽ có sơ đồ trang web XML này:
định dạng sơ đồ trang web xml và thẻ
Nhưng SEO nên sử dụng mỗi thẻ như thế nào? Tất cả siêu dữ liệu có giá trị không?

Thẻ Loc (aka Location)
Thẻ bắt buộc này chứa phiên bản chính xác, tuyệt đối của vị trí URL.

Nó phải phản ánh chính xác giao thức trang web của bạn (http hoặc https) và nếu bạn đã chọn để bao gồm hoặc loại trừ www.

Đối với các trang web quốc tế, đây cũng là nơi bạn có thể thực hiện xử lý hreflang của mình .

Bằng cách sử dụng thuộc tính liên kết xhtml: để chỉ các biến thể ngôn ngữ và vùng cho mỗi URL, bạn giảm thời gian tải trang, các triển khai khác của các phần tử liên kết trong tiêu đề <head> hoặc HTTP không thể cung cấp.

Yoast có một bài viết hoành tráng trên hreflang cho những người muốn tìm hiểu thêm.

Lastmod (aka Last Modified) Tag
Một thẻ tùy chọn nhưng rất khuyến khích được sử dụng để truyền đạt ngày và thời gian sửa đổi cuối cùng của tệp.

John Mueller thừa nhận rằng Google sử dụng siêu dữ liệu lastmod hiểu khi nào trang cuối cùng thay đổi và nếu trang đó được thu thập thông tin. Mâu thuẫn với lời khuyên từ Illyes  năm 2015.

Thời gian sửa đổi lần cuối đặc biệt quan trọng đối với các trang nội dung vì nó giúp Google hiểu rằng bạn là nhà xuất bản gốc.

Bạn cũng nên cập nhật ngày sửa đổi khi bạn đã thực hiện các thay đổi có ý nghĩa.

Cố gắng lừa công cụ tìm kiếm rằng nội dung của bạn mới mẻ , khi không, có thể dẫn đến hình phạt của Google.

Thẻ Changefreq (aka Thay đổi tần số)
Ngày xửa ngày xưa, thẻ tùy chọn này cho biết tần suất nội dung trên URL được mong đợi sẽ thay đổi thành công cụ tìm kiếm.

Nhưng  Mueller đã tuyên bố  rằng "tần số thay đổi không thực sự đóng vai trò quan trọng với các sơ đồ trang web" và rằng "tốt hơn hết là chỉ cần chỉ định dấu thời gian trực tiếp".

Thẻ ưu tiên
Thẻ tùy chọn này hiển thị cho công cụ tìm kiếm mức độ quan trọng của trang so với các URL khác của bạn trên thang điểm từ 0,0 đến 1,0.

Tốt nhất, nó chỉ là một gợi ý cho các công cụ tìm kiếm và cả Mueller lẫn  Illyes đã tuyên bố rõ ràng rằng họ bỏ qua nó.

Lấy chìa khóa

Trang web của bạn cần một sơ đồ trang web XML, nhưng không nhất thiết là siêu dữ liệu tần suất ưu tiên và thay đổi.

Sử dụng thẻ lastmod chính xác và tập trung sự chú ý của bạn vào việc đảm bảo bạn đã gửi đúng URL.

Các loại Sơ đồ trang web

Có nhiều loại sơ đồ trang web khác nhau. Hãy nhìn vào những cái bạn thực sự cần.

Chỉ mục Sơ đồ trang web XML

Sơ đồ trang web XML có một số hạn chế:
  • Tối đa 50.000 URL.
  • Giới hạn kích thước tệp không nén là 50MB.
Sơ đồ trang web có thể được nén bằng cách sử dụng gzip (tên tệp sẽ trở thành một cái gì đó tương tự như sitemap.xml.gz) để tiết kiệm băng thông cho máy chủ của bạn. Nhưng khi đã giải nén, sơ đồ trang web vẫn không thể vượt quá giới hạn.

Bất cứ khi nào bạn vượt quá một trong hai giới hạn, bạn sẽ cần phân tách các URL của mình trên nhiều sơ đồ trang web XML.

Sau đó, các sơ đồ trang web đó có thể được kết hợp thành một tệp chỉ mục sơ đồ trang web XML, thường được đặt tên là sitemap-index.xml. Về cơ bản, một sơ đồ trang web cho sơ đồ trang web.

Đối với các trang web đặc biệt lớn, bạn cũng có thể tạo nhiều tệp chỉ mục sơ đồ trang web. Nhưng lưu ý rằng bạn không thể lồng các tệp chỉ mục sơ đồ trang web.

Để các công cụ tìm kiếm dễ dàng tìm thấy tất cả các tệp sơ đồ trang web của bạn cùng một lúc, bạn sẽ muốn:
  • Gửi chỉ mục sơ đồ trang web của bạn đến Google Search Console và Công cụ quản trị trang web Bing.
  • Chỉ định URL chỉ mục sơ đồ trang web của bạn trong tệp robots.txt của bạn. Chỉ công cụ tìm kiếm trực tiếp vào sơ đồ trang web của bạn khi bạn chào đón họ thu thập dữ liệu.
sơ đồ trang web xml trong robots.txt
Bạn cũng có thể gửi sơ đồ trang web bằng cách ping chúng vào Google.

Nhưng hãy cẩn thận:

Google không còn chú ý đến các mục nhập hreflang trong “sơ đồ trang web chưa được xác minh”, điều mà Tom Anthony cho là có nghĩa là những trang được gửi qua URL ping.

Sơ đồ trang web XML
Sơ đồ trang web hình ảnh được thiết kế để cải thiện việc lập chỉ mục nội dung hình ảnh.

Tuy nhiên, trong SEO hiện đại, hình ảnh được nhúng trong nội dung trang, vì vậy sẽ được thu thập dữ liệu cùng với URL của trang.

Hơn nữa, cách tốt nhất là sử dụng đánh dấu schema.org/ImageObject JSON-LD để gọi ra các thuộc tính hình ảnh cho các công cụ tìm kiếm vì nó cung cấp nhiều thuộc tính hơn một sơ đồ trang web XML hình ảnh.

Bởi vì điều này, một sơ đồ trang web XML là không cần thiết cho hầu hết các trang web. Bao gồm một sơ đồ trang web hình ảnh sẽ chỉ lãng phí thu thập ngân sách.

Ngoại lệ cho điều này là nếu hình ảnh giúp thúc đẩy doanh nghiệp của bạn, chẳng hạn như trang web ảnh cổ phiếu hoặc trang web thương mại điện tử đạt được các phiên trang sản phẩm từ tìm kiếm Hình ảnh của Google.

Biết rằng hình ảnh không nhất thiết phải nằm trên cùng một miền với trang web của bạn được gửi trong sơ đồ trang web. Bạn có thể sử dụng CDN miễn là được xác minh trong Search Console.

Sơ đồ trang web Video XML
Tương tự như hình ảnh, nếu video và quan trọng đối với doanh nghiệp của bạn, hãy gửi sơ đồ trang web video XML.

Nếu không, một sơ đồ trang web video là không cần thiết.

Lưu ngân sách thu thập thông tin của bạn cho trang mà video được nhúng vào, đảm bảo bạn đánh dấu tất cả các video bằng JSON-LD dưới dạng schema.org/VideoObject .

Sơ đồ trang web Google Tin tức
Chỉ những trang web được đăng ký với Google Tin tức mới nên sử dụng sơ đồ trang web này.

Nếu bạn có, bao gồm các bài viết được xuất bản trong hai ngày qua, tối đa 1000 URL cho mỗi sơ đồ trang web và cập nhật các bài viết mới ngay khi chúng được xuất bản.

Trái ngược với một số lời khuyên trực tuyến, sơ đồ trang web Google Tin tức không hỗ trợ URL hình ảnh.

Google khuyên bạn nên sử dụng hình ảnh schema.org hoặc og: image để chỉ định hình thu nhỏ bài viết của bạn cho Google Tin tức.

Sơ Đồ Web Di Động
Điều này là không cần thiết cho hầu hết các trang web.

Tại sao? Vì Mueller đã xác nhận sơ đồ trang web dành cho thiết bị di động chỉ dành cho các trang điện thoại tính năng. Không dành cho khả năng tương thích với điện thoại thông minh.

Vì vậy, trừ khi bạn có URL duy nhất được thiết kế đặc biệt cho điện thoại nổi bật, một sơ đồ trang web dành cho thiết bị di động sẽ không có lợi.

Sơ đồ trang web HTML
Các sơ đồ trang web XML chăm sóc các nhu cầu của công cụ tìm kiếm. Sơ đồ trang web HTML được thiết kế để hỗ trợ người dùng tìm nội dung.

Câu hỏi sẽ trở thành, nếu bạn có trải nghiệm người dùng tốt và các liên kết nội bộ được tạo tốt, bạn có cần một sơ đồ trang web HTML không?

Kiểm tra số lần xem trang của sơ đồ trang web HTML của bạn trong Google Analytics. Rất có thể, nó rất thấp. Nếu không, đó là dấu hiệu tốt cho thấy bạn cần cải thiện điều hướng trang web của mình.

Sơ đồ trang web HTML thường được liên kết trong các chân trang web. Lấy vốn chủ sở hữu liên kết từ mọi trang của trang web của bạn.

Tự hỏi bản thân minh. Đó có phải là cách sử dụng tốt nhất của liên kết vốn chủ sở hữu đó không? Hoặc bạn có bao gồm một sơ đồ trang web HTML như một cái gật đầu với các phương pháp hay nhất về trang web cũ không?

Nếu ít người sử dụng nó. Và các công cụ tìm kiếm không cần nó vì bạn có liên kết nội bộ mạnh mẽ và một sơ đồ trang web XML. Sơ đồ trang web HTML đó có lý do để tồn tại không? Tôi sẽ tranh luận không.

Sơ đồ trang web XML động
Sơ đồ trang web tĩnh rất đơn giản để tạo ra bằng cách sử dụng một công cụ như Screaming Frog.

Vấn đề là, ngay sau khi bạn tạo hoặc xóa một trang, sơ đồ trang web của bạn đã lỗi thời. Nếu bạn sửa đổi nội dung của một trang, sơ đồ trang web sẽ không tự động cập nhật thẻ lastmod.

Vì vậy, trừ khi bạn yêu thích tạo và tải lên sơ đồ trang web theo cách thủ công cho mọi thay đổi, tốt nhất là tránh các sơ đồ trang web tĩnh.

Mặt khác, các sơ đồ trang web XML động được máy chủ của bạn tự động cập nhật để phản ánh các thay đổi của trang web có liên quan khi chúng xảy ra.

Để tạo sơ đồ trang web XML động:
  • Yêu cầu nhà phát triển viết mã tập lệnh tùy chỉnh, đảm bảo cung cấp thông số kỹ thuật rõ ràng
  • Sử dụng công cụ tạo sơ đồ trang web động
  • Cài đặt plugin cho CMS của bạn, ví dụ: plugin Yoast SEO cho WordPress
Lấy chìa khóa

Sơ đồ trang web XML động và chỉ mục sơ đồ trang web là thực tiễn tốt nhất hiện đại. Sơ đồ trang web dành cho thiết bị di động và HTML thì không.

Chỉ sử dụng sơ đồ trang web hình ảnh, video và Google Tin tức nếu chỉ mục được cải thiện của các loại nội dung này thúc đẩy KPI của bạn.

Tối ưu hóa chỉ mục sơ đồ trang web XML

Bây giờ cho phần thú vị. Làm cách nào để bạn sử dụng sơ đồ trang web XML để thúc đẩy KPI SEO.

Chỉ bao gồm các trang có liên quan đến SEO trong Sơ đồ trang web XML
Sơ đồ trang web XML là danh sách các trang bạn khuyên bạn nên thu thập thông tin, không nhất thiết phải là mọi trang trong trang web của bạn.

Một con nhện tìm kiếm đến trang web của bạn với một "phụ cấp" cho bao nhiêu trang nó sẽ thu thập dữ liệu.

Sơ đồ trang web XML cho biết bạn xem xét các URL được bao gồm quan trọng hơn những URL không bị chặn nhưng không nằm trong sơ đồ trang web.

Bạn đang sử dụng nó để nói với các công cụ tìm kiếm “Tôi thực sự đánh giá cao nếu bạn tập trung vào các URL này nói riêng.”

Về cơ bản, nó giúp bạn sử dụng ngân sách thu thập dữ liệu hiệu quả.

Bằng cách chỉ bao gồm các trang có liên quan đến SEO, bạn giúp công cụ tìm kiếm thu thập thông tin trang web của bạn một cách thông minh hơn để gặt hái những lợi ích của việc lập chỉ mục tốt hơn.

Bạn nên loại trừ:
  • Các trang không chuẩn.
  • Trang trùng lặp.
  • Trang được phân trang.
  • URL dựa trên tham số hoặc ID phiên.
  • Trang kết quả tìm kiếm trang web.
  • Trả lời các URL nhận xét.
  • Chia sẻ qua URL email.
  • URL được tạo bằng cách lọc không cần thiết cho SEO.
  • Lưu trữ trang.
  • Bất kỳ chuyển hướng (3xx), trang bị thiếu (4xx) hoặc trang lỗi máy chủ (5xx).
  • Các trang bị robots.txt chặn.
  • Các trang có noindex.
  • Các trang tài nguyên có thể truy cập bằng biểu mẫu gen dẫn (ví dụ: các tệp PDF giấy trắng).
  • Các trang hữu ích hữu ích cho người dùng, nhưng không nhằm mục đích là trang đích (trang đăng nhập, liên hệ với chúng tôi, chính sách bảo mật, trang tài khoản, v.v.).
Tôi muốn chia sẻ một ví dụ từ Michael Cottam về các trang ưu tiên:

Giả sử trang web của bạn có 1.000 trang. 475 trong số 1.000 trang đó là nội dung liên quan đến SEO. Bạn làm nổi bật 475 trang đó trong một sơ đồ trang web XML, về cơ bản yêu cầu Google loại bỏ chỉ mục phần còn lại.

Bây giờ, giả sử Google thu thập 475 trang đó và xác định rằng 175 là “A”, 200 là “B +” và 100 “B” hoặc “B-”. Đó là một cấp trung bình mạnh mẽ và có thể cho biết một trang web chất lượng để gửi đến người dùng.

Tương phản chống lại việc gửi tất cả 1.000 trang thông qua sơ đồ trang web XML. Bây giờ, Google xem 1.000 trang bạn nói là nội dung có liên quan đến SEO và thấy hơn 50% là các trang “D” hoặc “F”. Điểm trung bình của bạn không còn đẹp nữa và điều đó có thể gây hại cho các phiên không phải trả tiền của bạn.

Nhưng hãy nhớ rằng, Google sẽ chỉ sử dụng XML của bạn gửi như một đầu mối cho những gì quan trọng trên trang web của bạn.

Chỉ vì nó không có trong sơ đồ trang web XML của bạn không nhất thiết có nghĩa là Google sẽ không lập chỉ mục các trang đó.

Khi nói đến SEO, chất lượng trang web tổng thể là một yếu tố quan trọng.

Thực hiện một trang: tìm kiếm để xem tất cả các trang mà Google đã lập chỉ mục.

Khi bạn tìm thấy các trang có chất lượng thấp , hãy đầu tư thời gian để sửa chúng. Điều này không chỉ tốt hơn cho các công cụ tìm kiếm mà quan trọng hơn là cung cấp trải nghiệm người dùng tốt hơn.

Lấy chìa khóa

Quản lý ngân sách thu thập thông tin bằng cách giới hạn URL sơ đồ trang web XML chỉ cho các trang có liên quan đến SEO và giảm các trang có chất lượng thấp trên trang web của bạn.

Theo dõi tác động của các tối ưu hóa của bạn thông qua thống kê thu thập dữ liệu trong Google Search Console.

Tận dụng đầy đủ Báo cáo Sơ đồ trang web

Mặc dù báo cáo sơ đồ trang web của Google Search Console hữu ích cho việc phát hiện cảnh báo và lỗi (đặc biệt là với báo cáo Phạm vi chỉ mục mới ), bạn có thể làm được nhiều hơn xác thực đơn giản.

Làm cách nào để bạn có thể làm cho dữ liệu lập chỉ mục sơ đồ trang web của mình có thể hành động?

Hãy tưởng tượng bạn có một trang web với 131.000 trang liên quan đến SEO.

Do kích thước, bạn cần nhiều sơ đồ trang web.

Cả Google và Schema.org hiển thị các ví dụ khuyến khích đặt tên được đánh số.

Vì vậy, bạn có thể đã kết thúc với một cái gì đó như thế này:

Không phải là quy ước đặt tên sâu sắc nhất.

Biết rằng toàn bộ trang web có 64 phần trăm các trang được lập chỉ mục không đặc biệt hữu ích.

Bạn cần khám phá loại trang nào bị bỏ sót.

Vấn đề là, nếu bạn cố gắng lặn sâu hơn, các tên sơ đồ trang web tuần tự không cho biết phần nào của trang web của bạn đang gặp vấn đề về lập chỉ mục.

Mất nhiều thời gian để khám phá tất cả các loại trang trong sơ đồ trang web-3.

Thay vào đó, hãy sử dụng tên sơ đồ trang web mô tả phản ánh cấu trúc trang web của bạn.
mô tả sơ đồ trang web XML mô tả
Bằng cách nhóm các loại trang khác nhau trong sơ đồ trang web được đặt tên rõ ràng, bạn có trang sản phẩm của nam giới bị cô lập làm sự cố lập chỉ mục chính của bạn.

Nhưng các trang bài viết cũng không hoạt động tốt.

Để khám phá lý do tại sao, hãy chia sơ đồ trang web bài viết thành các sơ đồ trang web nhỏ hơn dựa trên thứ nguyên bổ sung.
các bài viết đặt tên sơ đồ trang web của bảng điều khiển tìm kiếm trên google
Bây giờ chúng ta có sự rõ ràng đó là các bài báo liên quan đến sức khỏe kém hiệu quả về lập chỉ mục.

Sơ đồ trang web phải loại trừ lẫn nhau - với mỗi URL chỉ tồn tại trong một sơ đồ trang web. Khác, nó làm cho phân tích khó khăn hơn và bạn có thể thấy nhiều trang được lập chỉ mục hơn được gửi.

Lấy chìa khóa

Ngoài việc xác định cảnh báo và lỗi, bạn có thể sử dụng sơ đồ trang web XML làm công cụ theo dõi để tách biệt các vấn đề về chỉ mục bằng cách đặt tên các sơ đồ trang web theo cách mô tả để phản ánh kiến ​​trúc trang web của bạn.

Sơ đồ trang web không còn bị phân chia vì chúng đạt đến giới hạn 50.000 URL. Chúng được nhóm lại để cung cấp thông tin chi tiết có thể hành động về lập chỉ mục trang (hoặc thiếu thông tin này).

Danh sách kiểm tra thực hành tốt nhất của Sơ đồ trang web XML

Hãy đầu tư thời gian để:
✓ Bao gồm thẻ hreflang trong sơ đồ trang web XML
✓ Bao gồm các thẻ <loc> và <lastmod>
✓ Nén tệp sơ đồ trang web bằng gzip
✓ Sử dụng tệp chỉ mục sơ đồ trang web
✓ Chỉ sử dụng sơ đồ trang web hình ảnh, video và tin tức của Google nếu chỉ mục thúc đẩy KPI của bạn
✓ Tự động tạo các sơ đồ trang web XML
✓ URL chỉ mục sơ đồ trang web tham chiếu trong robots.txt
✓ Gửi chỉ mục sơ đồ trang web cho cả Search Console của Google và Công cụ quản trị trang web Bing
✓ Chỉ bao gồm các trang có liên quan đến SEO trong sơ đồ trang web XML
✓ Khắc phục tất cả lỗi và cảnh báo sơ đồ trang web
✓ URL nhóm trong sơ đồ trang web được mô tả có tên dựa trên loại trang
✓ Tải xuống dữ liệu sơ đồ trang web từ GSC để phân tích tỷ lệ lập chỉ mục
✓ Đảm bảo URL chỉ được bao gồm trong một sơ đồ trang web

Bây giờ, hãy kiểm tra sơ đồ trang web của riêng bạn và đảm bảo bạn đang làm đúng.

Tài nguyên SEO khác:

Mời các bạn viết lời bình cho bài viết!

Nhấp bài bình luận SEO