Nội dung:
Tạo file robots.txt cho WordPress
Để website của bạn có thể xuất hiện trên trang kết quả tìm kiếm của Google – Search Engine Result Pages (SERPs), bạn cần để cho con “bots” của Google truy cập vào những trang quan trọng trong website.
File robots.txt được tạo ra để điều hướng cho việc truy cập của những con bots này bao gồm dẫn dụ con Bots này tìm đến các thông tin cần SEO trên Google. Ngược lại, yêu cầu con Bots này không truy cập vào các thông tin khác, những thông tin không cần thiết.
File robots.txt là gì ?
Khi bạn xây dựng một website bâất kỳ bao gồm tin tức, bán hàng online… kể cả landing page, khi đã Public website thì các con Spider (Bots) này sẽ quét các ngõ ngách trong website của bạn.
Chúng có chức năng giúp phân loại website và thông báo kết quả với Google là webiste của bạn thuộc loại nào, bạn đang muốn nói điều gì, thể hiện trình bày vấn đề gì.
Bên trong một website có rất nhiều tài nguyên như thư mục hình ảnh, thư mục chứa các file code, thư mục chứa các theme (giao diện), thư mục chứa các module, plugin.
Rất nhiều thành phần khác nhau trong một website. Vậy thì nếu các thư mục này hiển thị trên thanh công cụ tìm kiếm và không như mong đợi của người SEO thì sẽ như thế nào. Người dùng đâu quan tâm đến các thư mục Plugin, thư mục Theme.
Họ quan tâm thư mục chứa các bài viết của bạn, những hình ảnh về sản phẩm, dịch vụ…Vậy làm sau để hiển thị các thư mục này ra ngoài công cụ tìm kiếm của Google và các thư mục còn lại không hiển thị ra bên ngoài.
File Robots.txt sẽ giải quyết bài toàn này. Robots.txt thông báo với Google về việc nên lấy thông tin của thư mục nào và không nên lấy thông tin của thư mục nào. Bằng cách điều hướng đường đi cho con Bots Google.
File robots.txt tạo ra một bộ chỉ dẫn cho con bots này. Robots.txt thông báo với Bots rằng: “Ê, Lại đây và chui vào quét thư mục này nè, thư mục kia không được chui vào nhe !”.
File này có thể rất chi tiết tùy theo mức độ bạn muốn. Nó cũng dễ tạo và không đòi hỏi kiến thức kỹ thuật gì nhiều.
Trên thực tế, không có file Robots.txt thì Google cũng sẽ cho Bots thực hiện quét site của bạn. Nhưng sẽ không đạt hiểu quả cao trong quá trình SEO, Không có file Robots này thì Bots sẽ index toàn bộ nội dung của bạn ngay cả những folder bạn không muốn chúng hiển thị hoặc người khác truy cập.
Tạo file robots.txt.
Một tập tin robots.txt có thể được tạo ra trong vài giây. Tất cả những gì bạn phải làm là mở một trình soạn thảo văn bản (NotePad hoặc NotePad++) và lưu một tập tin trống với tên robots.txt. Sau khi thêm một số “quy tắc” vào tập tin, lưu nó lại và upload lên thư mục gốc của Hosting (public_html)
Hãy đảm bảo bạn đã upload tập tin robots.txt vào thư mục gốc của Host (public_html) không nằm trong bất kỳ thư mục nào khác.
Không mất quá nhiều thời gian để có được một sự hiểu biết đầy đủ về Robots Exclusion Standard. Chỉ có một vài quy tắc để bạn tìm hiểu. Những quy tắc này thường được gọi là “chỉ thị”.
Ba chỉ thị chính của Robots Exclusion Standard là:
- User-agent: xác định các công cụ tìm kiếm mà quy tắc được áp dụng.
- Disallow: ngăn cản các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.
- Allow: cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.
Dấu hoa thị (*) có thể được sử dụng như một ký tự đại diện cho tất cả các công cụ tìm kiếm. Ví dụ, bạn có thể thêm dòng sau vào file robots.txt để ngăn chặn các công cụ tìm kiếm thu thập thông tin trên toàn bộ blog/ website của bạn.
User-agent: *
Disallow: /
Các chỉ thị trên là hữu ích nếu bạn đang phát triển một blog/ website mới và không muốn các công cụ tìm kiếm lập chỉ mục khi nó chưa được hoàn thiện.
Một số blog/ website sử dụng chỉ thị Disallow
mà không có dấu gạch chéo (/) để biểu thị một trang web có thể được thu thập dữ liệu. Điều này cho phép các công cụ tìm kiếm có đầy đủ quyền truy cập vào toàn bộ blog/ website của bạn.
User-agent: *
Disallow:
Để ngăn chặn việc thu thập dữ liệu với các thư mục hoặc đường dẫn cụ thể, bạn chỉ cần thêm đường dẫn hoặc tên thư mục vào sau chữ Disallow
.
Trong ví dụ dưới đây, tôi đã quy định các công cụ tìm kiếm không được phép thu thập thông tin của thư mục /plugins/ và toàn bộ các tập tin cũng như thư mục con chứa trong nó:
User-agent: *
Disallow: /plugins/
Điều này có được là do robots.txt sử dụng đường dẫn tương đối, không sử dụng đường dẫn tuyệt đối. Các dấu gạch chéo (/) thay thế cho thư mục gốc của tên miền và do đó áp dụng quy tắc cho toàn bộ blog/ website của bạn.
Mẫu File Robots.TXT
Tạo File Robots.txt qua Plugin:
Ngoài ra bạn có thể sử dụng các Plugin bên dưới để tạo File Robots cho website:
1/ Yoast SEO
2/ All in One SEO
Kiểm tra hoạt động của File Robots.txt
Có thể dùng Google Search Console để kiểm thử nó xem file Robots.txt có lỗi không. The Search Console là bộ tools mà Google cung cấp để kiểm tra nội dung site của bạn hiển thị như thế nào với trình tìm kiếm.
Một trong số các tools này là để kiểm tra Robots.txt. Để sử dụng, bạn đăng nhập vào console, và chuyển tới tab robots.txt Tester: