Ads Top

Hệ thống Khách sạn gần Sân bay giá rẻ | Phòng chờ bay

Tối ưu hóa tiêu đề từ khóa SEO tại Etsy: thử nghiệm thiết kế và quan hệ nhân quả suy luận

Công cụ tìm kiếm bên ngoài như Google và Bing là một nguồn chính của giao thông cho Etsy, đặc biệt là cho đuôi dài của chúng tôi, khó khăn hơn để tìm các mục, và do đó Search Engine Optimization (SEO) là rất quan trọng trong việc đẩy niêm yết phát hiện hiệu quả trên nền tảng của chúng tôi.

Chúng tôi muốn chắc chắn rằng chiến lược SEO của chúng tôi là hướng dữ liệu và chúng ta có thể rất tự tin rằng bất cứ điều gì thay đổi, chúng tôi thực hiện sẽ mang lại kết quả tích cực. Tại Etsy, chúng tôi không ngừng chạy thí nghiệm để tối ưu hóa trải nghiệm người dùng và phát hiện trên nền tảng của chúng tôi, và do đó chúng ta tự nhiên quay sang thử nghiệm để cải thiện hiệu suất SEO của chúng tôi. Trong khi nó là tương đối đơn giản để thiết lập một thử nghiệm trên trang web trên các trang và các ứng dụng riêng của chúng tôi, chạy các thử nghiệm với SEO yêu cầu thay đổi cách trang Etsy đã xuất hiện trong kết quả công cụ tìm kiếm, trên đó chúng ta không có quyền kiểm soát trực tiếp.

Để khắc phục hạn chế này, chúng tôi thiết kế một khuôn khổ thiết kế thí nghiệm thay đổi chút ít cho phép chúng tôi để có hiệu quả kiểm tra như thế nào để thay đổi các trang của chúng tôi ảnh hưởng đến hiệu suất SEO của chúng tôi. bài này giải thích phương pháp phía sau thử nghiệm SEO của chúng tôi, những thách thức chúng ta đã đi qua, và làm thế nào chúng ta đã giải quyết chúng.

Phương pháp thí nghiệm

Đối với một trong các thí nghiệm của chúng tôi, chúng tôi đưa ra giả thuyết rằng việc thay đổi tiêu đề trang của chúng tôi hiển thị trong kết quả tìm kiếm (còn gọi là 'thẻ tiêu đề') có thể làm tăng tỷ lệ nhấp của họ. Etsy có hàng triệu trang tạo ra của người dùng tạo ra nội dung mà là thích hợp cho một bài kiểm tra. Nhiều người trong số các trang này cũng nhận được phần lớn lưu lượng của họ thông qua SEO.

Dưới đây là một ví dụ về một mẫu chúng ta sử dụng khi thiết lập một thí nghiệm tiêu đề từ khóa SEO gần đây.
Chúng tôi đã được lấy cảm hứng từ các bài kiểm tra SEO tại Pinterest và đinh bấm và quyết định thành lập một thí nghiệm tương tự mà chúng ta phân chia ngẫu nhiên các trang của chúng tôi thành các nhóm khác nhau và áp dụng phrasings thẻ tiêu đề khác nhau trình bày ở trên. Chúng tôi sẽ đo lường sự thành công của mỗi nhóm thử nghiệm bằng bao nhiêu lưu lượng nó lái xe tương đối so với nhóm đối chứng. Trong thí nghiệm này, chúng tôi cũng thành lập hai nhóm đối chứng để có một mức độ cao hơn của sự tự tin trong các kết quả của chúng tôi và để có thể kiểm tra chất lượng lấy mẫu ngẫu nhiên của chúng tôi sau khi thử nghiệm bắt đầu.

Lấy mẫu

Chúng tôi lấy một mẫu nhỏ của các trang của một loại tương tự trong khi đảm bảo rằng mẫu của chúng tôi đã đủ lớn để cho phép chúng ta có ý nghĩa thống kê trong một khoảng thời gian hợp lý.
Bởi vì lần đến các trang cá nhân rất dễ biến động, với nhiều giá trị ngoại lai và biến động từ ngày này sang ngày khác, chúng ta phải tạo ra các nhóm tương đối lớn của 1000 trang mỗi mong đợi để đạt được ý nghĩa một cách nhanh chóng. Hơn nữa, vì mức độ cao của sự khác biệt giữa các trang của chúng tôi, lấy mẫu ngẫu nhiên đơn giản của các trang của chúng tôi vào nhóm thử nghiệm đã tạo ra các nhóm thử nghiệm khác nhau từ mỗi khác một cách đáng kể về mặt thống kê, ngay cả trước khi thí nghiệm bắt đầu.

Để đảm bảo các nhóm thử nghiệm của chúng tôi đã được so sánh với nhau hơn, chúng tôi sử dụng lấy mẫu phân tầng, nơi mà chúng tôi đầu tiên xếp hạng các trang là một phần của thử nghiệm thăm, đã phá vỡ chúng thành các nhóm NTILE và sau đó chỉ định ngẫu nhiên những trang từ mỗi nhóm NTILE vào một trong các nhóm kiểm tra, đảm bảo để có một trang từ mỗi nhóm NTILE. Điều này đảm bảo rằng các nhóm thử nghiệm của chúng tôi là luôn đại diện của mẫu tổng thể và đáng tin cậy hơn tương tự như nhau.
Sau đó chúng tôi nhìn vào các số liệu thống kê cho mỗi nhóm thử nghiệm trong khoảng thời gian trước, tính toán giá trị trung bình và độ lệch chuẩn theo tháng và chạy t-kiểm tra để đảm bảo các nhóm không khác nhau từ mỗi khác một cách đáng kể về mặt thống kê. Tất cả các nhóm kiểm tra thông qua xét nghiệm này.
Ước tính nhân quả Tác động

Mặc dù các nhóm thử nghiệm trong thí nghiệm của chúng tôi là không khác nhau ở mức ý nghĩa thống kê trước khi thử nghiệm, có sự khác biệt nhỏ mà ngăn cản việc ước lượng chính xác nguyên nhân tác động sau điều trị. Ví dụ, nhóm thử nghiệm XYZ có thể thấy sự gia tăng tương đối so với kiểm soát B, nhưng nếu kiểm soát B tốt hơn so với nhóm thử nghiệm XYZ ngay cả trước khi thí nghiệm bắt đầu, chỉ cần lấy sự khác biệt giữa hai nhóm sẽ không được ước tính tốt nhất của sự khác biệt điều trị đã thực hiện.

Một phương pháp phổ biến để giải quyết vấn đề này là để tính toán sự khác biệt về sự khác biệt giữa các nhóm kiểm tra và kiểm soát trước và sau điều trị.

Trong khi phương pháp này sẽ làm việc tốt, nó có thể đã tạo ra hai kích thước hiệu quả điều trị ước tính khác nhau khi so sánh các nhóm thử nghiệm đối với hai nhóm điều khiển khác nhau. Chúng tôi quyết định rằng, thay vào đó, sử dụng phân tích chuỗi thời gian cấu trúc Bayesian để tạo ra một nhóm kiểm soát tổng hợp kết hợp thông tin từ cả hai nhóm điều khiển sẽ cung cấp một phân tích bụi của các kết quả.

Trong phương pháp này, một mô hình máy học được đào tạo sử dụng dữ liệu trước khi điều trị để dự đoán hiệu suất của mỗi nhóm thử nghiệm dựa trên hiệp phương sai của nó so với dự đoán của nó - trong trường hợp của chúng tôi, các nhóm kiểm soát hai. Sau khi mô hình được đào tạo, nó được sử dụng để tạo ra các nhóm kiểm soát tổng hợp đối chứng cho từng nhóm kiểm tra, mô phỏng những gì sẽ xảy ra đã điều trị không được áp dụng.

Phân tích tác động nhân quả trong thí nghiệm này được thực hiện bằng cách sử dụng gói CausalImpact bởi Google.

Các kết quả

Chúng tôi bắt đầu nhìn thấy những ảnh hưởng của phương pháp điều trị thử nghiệm của chúng tôi ngay sau khi một vài ngày sau ngày bắt đầu thử nghiệm. Thậm chí dường như tiêu đề thẻ thay đổi rất tinh tế dẫn đến những thay đổi lớn và có ý nghĩa thống kê về lượng truy cập vào trang của chúng tôi.

Trong một số nhóm thử nghiệm, chúng tôi đã nhìn thấy lợi ích quan trọng trong giao thông.

Trong khi ở những người khác, chúng ta thấy không có sự thay đổi.
Và trong một số những người khác, chúng tôi thậm chí còn thấy một sự thay đổi tiêu cực mạnh mẽ trong giao thông.
A-A Thử nghiệm

Hai nhóm đối chứng trong thử nghiệm này cho thấy không có sự khác biệt ý nghĩa thống kê so sánh với nhau sau khi thí nghiệm. Mặc dù một thay đổi nhỏ đã được phát hiện, hiệu quả không có ý nghĩa.

Sau thí nghiệm xác nhận triển khai

Một khi chúng ta xác định các tag tiêu đề thực hiện tốt nhất, việc điều trị đã được tung ra trên tất cả các nhóm thử nghiệm. Các nhóm khác do những thang máy tương tự trong giao thông và phương sai trên xô biến mất, xác nhận thêm kết quả của chúng tôi.
Thực tế là hai nhóm kiểm soát của chúng tôi không thấy có sự thay đổi khi so sánh với nhau, và cũng có một thực tế là các nhóm khác trải qua những cải tiến tương tự trong hoạt động sau khi điều trị thực hiện tốt nhất đã được áp dụng đối với họ đã cho chúng tôi cơ sở vững chắc cho niềm tin vào giá trị của chúng tôi các kết quả.

Thảo luận

Nó xuất hiện trong các kết quả của chúng tôi rằng thẻ tiêu đề ngắn hơn thực hiện tốt hơn so với những người còn. Điều này có thể là bởi vì đối với ngắn, thẻ tiêu đề nhắm mục tiêu tốt hơn, có một xác suất cao của một trận đấu tỷ lệ phần trăm (có thể được tính toán bằng cách sử dụng số liệu như cách Levenshtein giữa các truy vấn tìm kiếm và thẻ tiêu đề) với truy vấn tìm kiếm của bất kỳ người dùng nào đó trên Google .

Trong một giả thuyết tương tự, nó có thể là sử dụng thẻ tiêu đề nhắm mục tiêu tốt là nguyên văn hơn tương tự như thuật ngữ tìm kiếm phổ biến giúp tăng tỷ lệ trận đấu với thuật ngữ tìm kiếm của Google và do đó cải thiện thứ hạng.

Tuy nhiên, có khả năng là các chiến lược khác nhau làm việc tốt cho các trang web khác nhau, và chúng tôi sẽ khuyên bạn nên kiểm tra nghiêm ngặt để phát hiện ra các chiến lược SEO tốt nhất phù hợp cho từng trường hợp.

Lấy đi
  • Có hai nhóm điều khiển cho A-Một thử nghiệm. Điều này cho phép chúng tôi có sự tự tin hơn nhiều trong các kết quả của chúng tôi.
  • Các gói CausalImpact có thể được sử dụng để dễ dàng chiếm sự khác biệt nhỏ trong thử nghiệm so với nhóm kiểm soát và ước tính khác biệt của phương pháp điều trị chính xác hơn.
  • Đối với các thẻ tiêu đề, nó rất có thể là một thực hành tốt nhất để sử dụng phân nhịp và từ ngữ đó sẽ tối đa hóa xác suất của một Levenshtein trận khoảng cách thấp từ các truy vấn tìm kiếm mục tiêu phổ biến trên Google
Được tạo bởi Blogger.