File robots.txt là gì ?

WordPress SEO 14 lượt xem

File robots.txt là gì?

Trước tiên, bạn cần biết làm sao các công cụ tìm kiếm thu thập được dữ liệu từ website của bạn. Đó là nhờ những con bots tự động được tạo ra từ những thuật toán vô cùng phúc tạp. Những bot này thu thập dữ liệu trên mạng để giúp các công cụ tìm kiếm như Google lập chỉ mục và xếp hạng hàng tỷ trang trên Internet.

Hầu hết các website sẽ được thiết lập index toàn bộ website, những tài nguyên trên website được index sẽ hiển thị trên google mỗi khi người nào đó tìm kiếm những từ khóa liên quan về nó.

Bạn sẽ không thích những thư mục, tài nguyên nhạy cảm của website được thu thập và công khai trên các công cụ tìm kiếm, nó sẽ chứa rất nhiều rủi ro về bảo mật.

Như vậy, file robots.txt được sinh ra đưa ra những chỉ dẫn cho các bots của các công cụ tìm kiếm, đâu là nơi bạn nên đến và không nên đến để thu thập dữ liệu.

File robots.txt là một file text có tác dụng báo cho web robot (con bọ của bộ máy tìm kiếm) biết trang nào cần quét (crawl) và trang nào không cần quét trên website của bạn.

Về cơ bản:

Khi bộ máy tìm kiếm truy cập website của bạn để quét và đánh chỉ mục, nó sẽ kiểm tra file robots.txt đầu tiên.

File này sẽ cho bộ máy tìm kiếm biết cách quét và đánh chỉ mục website của bạn.

Đây là ví dụ một  file robots.txt

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Ý nghĩa file này như sau:

Dấu * sau User-agent có nghĩa là file robots.txt này sẽ áp dụng với tất cả web robot ghé thăm website.

Nét gạch chéo sau disallow bảo robot không ghé thăm bất cứ trang nào trên website.

Dĩ nhiên đây chỉ là ví dụ để cho bạn hình dung file robots.txt là như thế nào.

Khi tạo website bạn muốn robot của bộ máy tìm kiếm ghé thăm trang web do vậy website website có xếp hạng tốt.

Đây cũng là mục tiêu mà chúng ta cần tối ưu sao cho bộ máy tìm kiếm quét trang của bạn hợp lý nhất.

Bạn cần biết rằng:

Website của bạn có rất nhiều trang. Do vậy bộ máy tìm kiếm có thể mất nhiều thời gian để quét trang.

Điều này có thể tác động xấu tới xếp hạng của bạn.

Vì sao?

Bởi bộ máy tìm kiếm Google có một khái niệm bạn cần biết. Đó là:

Ngân sách dò (crawl budget).

Ngân sách dò của Google bao gồm 2 thứ.

Đầu tiên đó là giới hạn tốc độ quét (crawl rate limit) như Google giải thích bên dưới:

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Thứ hai là nhu cầu quét (crawl demand) như giải thích bên dưới:

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Nói đơn giản ngân sách dò chính là số lượng URL mà Google bot có thể và muốn quét trên trang của bạn.

Hiểu được điều này có tác dụng quan trọng.

Bạn sẽ biết cách giúp cho Googel có thể sử dụng ngân sách quét một cách không ngoan.

Nói dễ hiểu:

Bạn nên để Google quét những trang có giá trị. Những trang bạn muốn có thứ hạng tốt.

Còn những trang không quan trọng tốt nhất bạn nên khóa lại.

Như vậy Google không còn mất thời gian để quét chúng.

Thực tế bạn cần biết một vài yếu tố tác động xấu đến ngân sách quét như bên dưới:

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Chốt lại:

Chúng ta sẽ tối ưu file robots.txt để cho Google có thể quét và đánh chỉ mục trang của bạn một cách dễ dàng và thuận lợi. Do vậy website của bạn có thể cải thiện xếp hạng.

Cách tìm file robots.txt trên website của bạn

File robots.txt là file public do vậy bạn có thể dễ dàng kiểm tra file này trên bất kỳ website nào.

Đơn giản bạn chỉ cần thêm vào /robots.txt vào phần cuối.

Một mẹo hay: bạn có thể vào trang web lớn trong niche của bạn và nghiên cứu file robots để học tập theo.

Có vài một tình huống xảy ra khi kiểm tra file robots.txt của một website:

Bạn sẽ tìm thấy file robots.txt như bên dưới:

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Bạn sẽ tìm thấy một file trống

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Bạn sẽ gặp phải lỗi 404.

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Nếu bạn nhìn thấy file trống hoặc lỗi 404 bạn cần phải bắt tay vào sửa ngay.

Về cách tạo và chỉnh sửa file robots.txt. Bạn có 3 lựa chọn:

Bạn có thể tạo file robots.txt trên máy của bạn sử dụng một trình text editor đơn giản như Notepad hoặc Notepad++.

Nhớ đừng dùng Word để tạo file này vì phần mềm này sẽ chèn những ký tự không mong muốn.

Cách thứ hai bạn sử dụng File Manager để tạo và chỉnh sửa file này ngay trên host.

Và cách cuối cũng là cách mình đề xuất: bạn sử dụng công cụ tạo file robots.txt của Google Search Console. ​

Mình sẽ nói rõ cách tạo file robots.txt ở phần bên dưới.

Nhưng bây giờ mình muốn nói thêm cách tìm file robots.txt khi bạn kiểm tra thấy có một file bằng việc gắn /robots.txt.

Đi tới thư mục gốc của website sử dụng FTP hoặc File Manager.

Đối với website WordPress, có lẽ bạn sẽ không tìm thấy một file robots.txt mặc dù kiểm tra bước trên cho ra một file hợp lệ.

Điều này bởi vì WordPRess đã tạo ra một file robots.txt ảo.

Trong tình huống này bạn cần tạo mới robots.txt trong thư mục gốc.

Tạo file robots.txt

Như mình đã nói bạn sử dụng công cụ tạo file robots.txt trong Google Search Console.

Truy cập Google Search Console. Click vào website bạn muốn tạo file robots.txt.

Đi tới Crawl -> robots.txt Tester.

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Bạn nhập vào nội dung file robots.txt. Sau đó bạn click vào nút Submit.

Lúc này bạn sẽ nhìn thấy một popup hướng dẫn thêm:

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Bạn sẽ tải file robots.txt bạn vừa tạo. Sau đó upload lên thư mục gốc của website.

Tiếp theo click vào View uploadd version để đảm bảo file robots.txt đã chuẩn.

Sau đó bạn click vào nút Submit để thông báo cho Google.

Như vậy bạn đã hình dung được cách tạo file robots.txt cho website ​

Còn bây giờ bạn đang thắc mắc bạn cần nhập gì trong file robots.txt?

Mình sẽ hướng dẫn bạn tạo một file robots.txt đơn giản.

Trước khi bắt tay vào tạo file bạn cần tham khảo một chút cú pháp từ Google.

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Đầu tiên bạn muốn bổ sung dấu * sau user-agent như thế này:

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Tiếp theo, nhập vào Disallow: nhưng không đánh gì đằng sau như thế này:

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Đây chính là file robots.txt cơ bản với ý nghĩa bảo bộ máy tìm kiếm truy cập tất cả các trang trong website của bạn

Chúng ta cần tối ưu file này cho SEO.

Như đã nói ở phần ngân sách quét, bạn cần thông báo cho bộ máy tìm kiếm không nên quét những khu vực của website mà bạn không muốn public.

Ví dụ đây là file robots.txt mặc định mà WordPress tạo ra khi bạn cài đặt WordPress

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

File này sẽ bảo với bộ máy tìm kiếm không quét phần wp-admin. Riêng file admin-ajax thì vẫn quét như bình thường. Lý do vì sao file này cần phải quét, bạn tham khảo ở đây.

Từ đây bạn có thể chủ động sử dụng dòng lệnh tương tự để ngăn không cho bộ máy tìm kiếm quét một số trang cụ thể.

Bạn chỉ cần bổ sung dòng disallow giống như trang file robots ở trang này.

Giả sử bạn không muốn con bọ quét trang http://yourdomainname.com/page/ , bạn có thể bổ sung dòng lệnh như bên dưới.

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Cái quan trọng:

Bạn cần xác định những trang nào bạn cần ngăn bộ máy tìm kiếm ghé thăm.

Đây một là một vài gợi ý:

Nội dung trùng lặp. Có lẽ bạn cũng biết nội dung trùng lặp không tốt cho SEO. Nhưng vì lý do nào đó bạn có nội dung trùng lặp, bạn có thể bảo bộ máy tìm không quét những trang như vậy.

Trang cảm ơn. Một và nhà tiếp thị có xây dựng trang cảm ơn ở đó có thể chứa link ebook sau khi khách ghé thăm đăng ký email.

Nếu bạn cũng có trang như vậy, có lẽ bạn không muốn nó được đánh chỉ mục. Bởi vì trang này chỉ dành cho những người tham gia email list của bạn đúng không?

Có một điểm bạn cần biết:

Sử dụng dòng lệnh disallow không đồng nghĩa ngăn trang nào đó được đánh chỉ mục.

Về mặt lý thuyết bạn có thể disallow một trang, nhưng nó vẫn có thể được đánh chỉ mục.

Đó là lúc bạn cần lệnh noindex. Bạn sử dụng lệnh noindex cùng với disallow để chắc chắn bộ máy tìm kiếm không ghé thăm và đánh chỉ mục trang bạn không mong muốn.

Đây là ví dụ của disallow và noindex trang thankyou:

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Một chỉ lệnh nữa bạn cần biết đó là nofollow. Chỉ lệnh này bảo với bot rằng nó không cần quét link trên trang.

Chỉ lệnh này bạn không dùng trong file robots.txt mà đặt nó trong thẻ meta như thế này:

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Tất nhiên bạn không cần động tay vào code.

Nếu bạn đang sử dụng plugin Yoast SEO, bạn có thể hướng dẫn robot không đánh chỉ mục và quét link trên trang ở phần cấu hình nâng cao của bài viết.

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Kiểm tra lại file robots.txt sau khi tạo

Ngay sau khi bạn đã tạo và tối ưu xong file robots.txt, bạn cần chắn chắn file hợp lệ.

Vậy bằng cách nào?

Bạn lại tiếp tục sử dụng công cụ robots.txt miễn phí như trong Googe Search Console.

Nếu bạn đã sử dụng công cụ tạo file robots.txt của Google Search Console, có lẽ bạn không cần kiểm tra thêm.

Còn đây là cách kiểm tra lại file robots.txt bạn vừa tạo cho website của mình. ​

Ở trong trang quản trị của Google Search Console, đi tới Crawl -> robots.txt Tester

Nhập vào đường dẫn URL và click vào nút Test.

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Nếu nút Test chuyển thành Allowed, điều đó nghĩa là file robots.txt của bạn hợp lệ.

File robots.txt là gì ? Cách tạo file robots.txt tối ưu cho website wordpress?

Bạn có thể đọc thêm về công cụ này ở đây.

Lời kết

Tạo và tối ưu file robots.txt không phải là nhiệm vụ quá phức tạp.

Nhưng nó lại đem lại cho bạn giá trị lớn về SEO.

Một file robots.txt tối ưu sẽ giúp bộ máy tìm kiếm sử dụng ngân sách quét hợp lý.

Kết quả là:

Bộ máy tìm kiếm sẽ hiển thị nội dung của bạn trong kết quả tìm kiếm (SERP) tốt nhất. Đồng nghĩa với người dùng dễ tìm thấy website của bạn.

Nếu bạn chưa tạo một file robots.txt hoặc file của bạn chưa tối ưu, mình đề nghị bạn nên thực hiện việc đó như hướng dẫn trong bài.

Mình rất muốn biết kiến thức của bạn về file robots.txt ở phần bình luận bên dưới. 

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *