File robot.txt là gì? Có cần thiết không?

File robot.txt là gì vậy?

Đó là một tệp dữ liệu dạng text mà người viết web lập ra để chỉ dẫn cho công cụ tìm kiếm, về những phần nào trên website mà con bot được truy cập, phần nào không được truy cập khi thu thập dữ liệu.

Googlebot (google bot) là con bọ của Google, còn được gọi là spider. Googlebot dùng để thu thập thông tin website, giúp Google cập nhật thêm những chỉ mục mới và website mới. Googlebot sử dụng các thuật toán và bò vào website, thực hiện quá trình thu thập và tiếp nhận dữ liệu web. Nhờ vậy mà người dùng tìm kiếm được thông tin từ hàng triệu website trên thế giới.

Trong một website có (đa số) nội dung quản trị viên muốn Google thu thập dữ liệu để lập chỉ mục trang (index). Điều đó có lợi cho website: thu thập thông tin thì mới có hy vọng lên Top Google. Vì thế, việc được index cũng là một mục tiêu của việc làm SEO.

Trang web không có file robot.txt đồng nghĩa rằng cho phép các công cụ tìm kiếm (SE) bò vào và thu thập tất cả các dữ liệu. Hoặc có file này mà bạn không chỉ rõ về việc không cho phép (disallow), thì mặc nhiên là được truy cập (allow).

Vậy có khi nào bạn không muốn Google thu thập dữ liệu website của bạn hay không?

Có chứ!

Thực tế khi quản trị web, bạn sẽ thấy có những phần nội dung bạn không muốn xuất hiện trên kết quả tìm kiếm. Nghĩa là bạn không muốn Google “xộc vào”. Thứ nhất, có thể bạn không muốn công bố những thông tin đó rộng rãi cho người dùng tìm kiếm, chẳng hạn là album ảnh nào đó (vì lý do riêng tư). Thứ hai, có những trang con (ví dụ: trang quản trị, trang thành viên đăng nhập...) nội dung không liên quan đến chủ đề chính, nên Google truy cập chẳng có ích lợi gì, chỉ làm “loãng”, và chậm tốc độ crawl (bò vào). Loại này cần để chặn không cho công cụ tìm kiếm “nhòm ngó”.

Để giúp các SE phân biệt 2 nhóm trên (cho phép và không cho phép), chúng ta cần lập ra file robot.txt và đưa chỉ dẫn vào đó, rồi đăng lên thư mục gốc là xong.

Nên sử dụng file robot.txt trong trường hợp nào?

Như trên tôi đã nói, nếu không có file này thì các công cụ tìm kiếm sẽ thu thập tất cả nội dung trong website của bạn.

Có một số trường hợp bạn nên sử dụng file này, để đạt mục đích quản trị website cũng như tối ưu hóa với các SE. Cụ thể khi:

  1. Chặn các công cụ tìm kiếm khi website đang xây dựng. Bạn biết rằng việc xây dựng và hoàn thiện website có thể mất nhiều ngày, thậm chí với trang phức tạp là nhiều tuần hay nhiều tháng. Trong quá trình đó, khi đưa lên online để chạy thử và chỉnh sửa, bạn không muốn Google index các trang đang dở dang (không có lợi về mặt SEO). Khi đó, bạn nên chặn tất cả các SE không cho vào tất cả các nội dung trang web đang phát triển. Sau đó, khi nào thấy web đã hoàn thiện, thì bạn sẽ sửa file robot.txt và cho phép SE vào từng phần hoặc tất cả nội dung tùy theo mong muốn của bạn lúc đó.
  2. Chặn trang kết quả tìm kiếm để tránh bị đối thủ chơi xấu. Khi sử dụng công cụ Search nhúng trong web của bạn, trang kết quả sẽ có URL riêng, và Google cũng có thể index những trang đó. Điều tệ hại là đối thủ có thể lợi dụng tính năng đó để cố tình search những từ khóa có nội dung xấu, nhạy cảm, gây bất lợi cho danh tiếng website của bạn. Vì vậy, cách phòng tránh là chặn toàn bộ trang kết quả, không cho các SE index và đánh giá.
  3. Chặn công cụ thu thập liên kết (như Ahrefs). Các công cụ này dùng con bọ để thu thập thông tin về web của bạn như: Backlink, Referring domains, Organic keywords, Top pages... Đối thủ sử dụng công cụ này để phân tích website của bạn, nhằm “bắt chước”, hoặc cạnh tranh trực tiếp với những từ khóa mà bạn đang nằm trong top. Nếu bạn muốn cản trở điều đó, thì cách đơn giản là block các con bot này bằng cách đặt đoạn mã trong file robot.txt:

User-agent: AhrefsBot
Disallow: /

Bạn có thực sự cần file robot.txt không?

Còn tùy trường hợp, mà bạn có thể cần hoặc không cần.

Rất có thể bạn không cần, nếu không muốn SE loại trừ trang nào, hay phần nào web của bạn. Nói cách khác, nếu không có gì phải “giấu” SE, thì cũng chẳng cần robot.txt làm gì.

Tuy nhiên, khi kiểm tra đánh giá bằng các công cụ SEO, nếu không thấy file này thì sẽ bị nhắc hoặc trừ điểm. Vì vậy, cũng nên cân nhắc tạo file, có thể để trắng, hoặc không cấm gì cả.

Cách tạo file Robot.txt

Để tạo file, bạn chỉ cần dùng công cụ như Notepad trong Windows. Mở 1 tệp mới, sau đó đặt tên là “robot.txt”, rồi ghi lại là xong phần khởi tạo.

Giờ tôi sẽ nói đến phần nội dung của file.
Cú pháp của file robots.txt thế nào?

Một số cú pháp phổ biến bao gồm:

User-agent: tên loại bot
Disallow: không cho phép bot có tên trong User-Agent truy cập
Allow: cho phép bot truy cập
Dấu *: áp dụng cho tất cả

Lấy ví dụ:

User-agent: * (Áp dụng với tất các các loại bot)
Disallow: / (Chặn không cho bot truy cập vào toàn bộ website)

Giải thích chi tiết các dòng mã phổ biến như trong hình dưới

Dùng disallow trong file robots.txt

Một số lưu ý khi sử dụng Robot.txt

  • Câu lệnh cần viết chính xác, không thiếu hay thừa ký tự hay khoảng trắng, và có phân biệt chữ hoa chữ thường.
  • File phải được lưu với bảng mã là utf-8, không sử dụng mã Unicode vì như vậy sẽ hiển thị ra các ký tự không đúng với mong muốn, và làm sai mã chỉ dẫn.
  • Việc chặn bằng file này không mang tính tuyệt đối. Nếu bạn đặt đường link từ trang không bị chặn đến trang bị chặn, thì trang bị chặn vẫn rất có thể xuất hiện trên kết quả tìm kiếm. Vì vậy khi muốn bảo vệ nội dung, để cho chắc bạn nên đặt mật khẩu bảo vệ cho những thư mục hoặc trang nào cần thiết.

Trên đây tôi đã giới thiệu khá chi tiết về file robot.txt là gì, vai trò cũng như cú pháp của các câu lệnh trong file này. Hy vọng bạn tìm thấy thông tin hữu ích cho việc quản trị web cũng như làm SEO của mình.

Nếu bạn thấy bài viết hữu ích thì Like ủng hộ nhé!

 


Bình luận trên Facebook

Bài viết gần đây