Robots txt Là Gì? Hướng Dẫn Tạo Và Cấu Hình File Robots.txt Cho Website

Robots Txt Là Gì Hướng Dẫn Tạo Và Cấu Hình File Robots.txt Cho Website

Nếu bạn đang tìm hiểu về SEO cho website của mình, chắc hẳn bạn đã nghe đến file robots.txt. Nhưng Robots txt là gì và tại sao nó quan trọng cho việc tối ưu hóa công cụ tìm kiếm? Hãy cùng Mua Chung Tool tìm hiểu trong bài viết này.

TL;DR

  • Robots.txt là tệp văn bản giúp quản lý cách thức công cụ tìm kiếm thu thập dữ liệu website, từ đó tối ưu hóa SEO hiệu quả.
  • Bài viết hướng dẫn chi tiết cấu trúc, cách tạo và sử dụng file robots.txt trên WordPress, cùng những bí quyết và lưu ý quan trọng để tối ưu hiệu quả SEO cho website.

Robots txt là gì?

“Robots.txt”, là một tệp văn bản đơn giản có phần mở rộng .txt. Tệp này là một phần của Giao thức loại trừ robot (REP), chi phối cách robot Web (hoặc bot của công cụ tìm kiếm) thu thập dữ liệu trên web, kiểm tra lượng truy cập website, lập chỉ mục Google cho nội dung và cung cấp nội dung đó cho người dùng.

Robots txt là gì
Robots txt là gì

Quá trình để một website xuất hiện trên Google diễn ra như sau:

Quản trị web xuất bản nội dung trên web > Googlebot truy cập web để kiểm tra URL mới > Lập chỉ mục > Xuất bản website trên Google.

Quá trình này được gọi là lập chỉ mục Google và bất kỳ tệp hoặc đường dẫn nào trên website đều cần được lập chỉ mục trước khi nó có thể xuất hiện trên internet. Để cho phép Googlebot kiểm tra và phân tích website, yêu cầu một tiêu chuẩn cụ thể và tệp chứa tiêu chuẩn đó được gọi là robots.txt.

Nói một cách đơn giản, robots.txt là một tệp văn bản chứa các tiêu chuẩn web do quản trị viên thiết lập để hướng dẫn các công cụ tìm kiếm thu thập thông tin trên trang cho mục đích lập chỉ mục.

Nếu một website thiếu tệp robots.txt, bot công cụ tìm kiếm có thể truy cập và lập chỉ mục tất cả các trang. Điều này đôi khi có thể tác động tiêu cực đến SEO và chất lượng của website nếu cấu trúc SEO của nó không được chuẩn hóa.

Cấu trúc của tệp robots.txt

“Robots.txt,” một tập tin chứa cú pháp đặc biệt được xem là một ngôn ngữ riêng, bao gồm:

  • User-agent: Đây là tên của các công cụ thu thập dữ liệu web (ví dụ: Googlebot mobile, Bingbot, …).
  • Disallow: Được sử dụng để thông báo cho các User-agent không được phép thu thập dữ liệu từ các URL cụ thể. Mỗi URL chỉ được sử dụng một dòng Disallow.
  • Allow (chỉ áp dụng cho Googlebot): Lệnh thông báo cho Googlebot biết nó có thể truy cập vào một trang hoặc thư mục con, ngay cả khi các trang hoặc thư mục con đó có thể không được phép.
  • Crawl-delay: Thông báo cho các Web Crawler biết họ phải chờ bao lâu trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng Googlebot không chấp nhận lệnh này và bạn phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Được sử dụng để cung cấp vị trí của bất kỳ Sitemap XML nào liên kết với URL này. Lưu ý rằng chỉ có các công cụ tìm kiếm Google, Ask, Bing và Yahoo hỗ trợ lệnh này.
Cấu trúc của tệp robots.txt
Cấu trúc của tệp robots.txt

Công dụng của robots.txt

Robots.txt là một tập tin được đặt trên máy chủ web để hướng dẫn cho các robot của công cụ tìm kiếm về cách truy cập vào website. Việc tạo file robots.txt có thể giúp cải thiện quá trình tìm kiếm và xếp hạng của website bởi các công cụ tìm kiếm.

File robots.txt cho phép bạn chỉ định các phần của website mà các robot của công cụ tìm kiếm được phép truy cập hoặc bị cấm truy cập. Ví dụ, nếu website của bạn chứa các trang đăng nhập hoặc dữ liệu nhạy cảm, bạn có thể sử dụng robots.txt để ngăn các robot của công cụ tìm kiếm truy cập vào các trang này.

Công dụng của robots.txt
Công dụng của robots.txt

Ngăn chặn công cụ tìm kiếm khi website chưa hoàn thiện

Trong quá trình mới tạo và thử nghiệm website, bạn cần thời gian để hoàn thiện cấu trúc và nội dung của các trang. Do đó, không muốn các trình duyệt truy cập và lập chỉ mục website vào thời điểm này là điều quan trọng. Việc này không có lợi cho SEO và có thể làm giảm chất lượng của website. Tạo tệp robots.txt giúp bạn ngăn chặn nguy cơ này.

Ngăn chặn trang tìm kiếm hiển thị các kết quả không mong muốn

Để phát triển website một cách hiệu quả, Google cần đánh giá các URL quan trọng. Do đó, thiết lập tiêu chuẩn cho trình tìm kiếm giúp hạn chế các URL không mong muốn, gây hại đến sự phát triển của website.

Ngăn chặn các công cụ thu thập liên kết website

Một số công cụ như Ahref, Top page, Organic keyword,… cho phép thu thập dữ liệu trang chỉ với địa chỉ website. Điều này có thể khiến đối thủ tiềm năng đọc thông tin phân tích về website của bạn và lập kế hoạch “bắt chước” chiến lược từ khóa hoặc cạnh tranh với các từ khóa hàng đầu của bạn. Để hạn chế điều này, việc sử dụng lệnh chặn trong tệp robots.txt là cần thiết.

Mặc dù việc tạo file robots.txt không bắt buộc, nhưng nó là một trong những cách hiệu quả nhất để giúp công cụ tìm kiếm hiểu rõ hơn về website của bạn và cải thiện việc hiển thị kết quả tìm kiếm của nó. Tuy nhiên, nếu tất cả các URL trên website của bạn đều là tốt và không ảnh hưởng gì đến chất lượng trang, bạn có thể không cần thiết lập tệp robots.txt cho website của mình.

Hạn chế của tệp robots.txt

Không phải mọi trình duyệt tìm kiếm đều hỗ trợ các lệnh trong tệp robots.txt

Việc thiết lập tiêu chuẩn trên tệp robots.txt không áp dụng cho tất cả bot của các công cụ tìm kiếm. Một số trình thu thập dữ liệu có quyền lựa chọn có tuân theo tệp hay không. Do đó, biện pháp bảo mật dữ liệu tốt nhất là đặt mật khẩu cho các tệp riêng tư trên máy chủ.

Mỗi trình thu thập dữ liệu có cú pháp phân tích dữ liệu riêng biệt

Một số trình thu thập dữ liệu uy tín sẽ tuân theo chuẩn của các lệnh trong tệp robots.txt. Tuy nhiên, cách phân tích dữ liệu của mỗi trình tìm kiếm là khác nhau. Một số trình không thể hiểu được câu lệnh được thiết lập trong tệp robots.txt. Do đó, người quản trị web cần hiểu rõ cú pháp thích hợp cho từng công cụ thu thập dữ liệu trên website.

Google vẫn có thể lập chỉ mục các trang bị chặn bởi tệp robots.txt

Trong trường hợp bạn đã chặn một URL hoặc một tệp trên web nhưng chúng vẫn xuất hiện trên một trang khác, Google vẫn có thể đọc và lập chỉ mục cho chúng. Nội dung trong các tệp này vẫn có thể xuất hiện trong kết quả tìm kiếm trên Google. Nếu URL đó không thực sự cần thiết, bạn có thể xóa toàn bộ chúng trên web để đảm bảo mức độ bảo mật cao nhất.

Cách hoạt động của file robots.txt

Quá trình sử dụng tệp robots.txt để kiểm soát việc crawl dữ liệu của các công cụ tìm kiếm diễn ra như sau:

Bước 1: Công cụ tìm kiếm sẽ sử dụng phương pháp crawl (cào/phân tích) để thu thập dữ liệu từ các website khác nhau bằng cách theo dõi các liên kết. Quá trình crawl này còn được gọi là “Spidering” và nó giúp khám phá nội dung của website.

Cách hoạt động của file robots.txt
Cách hoạt động của file robots.txt

Bước 2: Sau khi thu thập được dữ liệu, công cụ tìm kiếm sẽ index nội dung đó để trả lời các yêu cầu tìm kiếm của người dùng. Tệp robots.txt được sử dụng để cung cấp thông tin về cách các công cụ tìm kiếm thu thập dữ liệu từ website. Bằng cách sử dụng tệp robots.txt, các bot có thể được hướng dẫn để thu thập dữ liệu một cách chính xác và hiệu quả.

File robots.txt nằm ở đâu trên website?

File robots.txt nằm ở đâu trên website
File robots.txt nằm ở đâu trên website

Khi tạo một website WordPress, hệ thống sẽ tự động tạo ra một tập tin robots.txt và đặt nó trong thư mục gốc của máy chủ. Ví dụ, nếu website của bạn có địa chỉ là abcdef.com, bạn có thể truy cập tập tin robots.txt tại đường dẫn abcdef.com/robots.txt.

Tập tin robots.txt sẽ chứa các quy tắc để chỉ định cách các công cụ tìm kiếm truy cập website của bạn. Thông thường, tập tin này sẽ cấm bots truy cập vào các thư mục quan trọng như wp-admin hoặc wp-includes.

Cụ thể, quy tắc “User-agent: *” được áp dụng cho tất cả các loại bots trên website và “Disallow: /wp-admin/” và “Disallow: /wp-includes/” cho biết bots không được phép truy cập vào hai thư mục này.

Kiểm tra website có file robots.txt hay không

Để kiểm tra xem có tệp robots.txt trên website hay không, bạn có thể thực hiện các bước sau:

Bước 1: Nhập Root Domain của website vào thanh địa chỉ trên trình duyệt (ví dụ: abcdef.com).

Bước 2: Thêm /robots.txt vào cuối địa chỉ (ví dụ: abcdef.com/robots.txt).

Bước 3: Nhấn Enter để truy cập vào tệp robots.txt của website. Nếu website có tệp robots.txt, bạn sẽ thấy nội dung của tệp này được hiển thị trên trình duyệt. Ngược lại, nếu không có tệp này, bạn sẽ nhận được thông báo lỗi từ trình duyệt.

Cấu trúc kiểm tra file robots.txt của website
Cấu trúc kiểm tra file robots.txt của website

Quy tắc nào cần được bổ sung vào file robots.txt WordPress

Trên WordPress, file robots.txt thường chỉ xử lý một quy tắc tại một thời điểm. Tuy nhiên, nếu bạn muốn áp dụng các quy tắc khác nhau cho các bot khác nhau, bạn có thể thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot. Ví dụ, để tạo một quy tắc áp dụng cho tất cả các bot và một quy tắc khác chỉ áp dụng cho Bingbot, bạn có thể sử dụng cú pháp sau:

User-agent: *

Disallow: /wp-admin/

User-agent: Bingbot Disallow: /

Sau đó, tất cả các Bingbot sẽ bị chặn truy cập vào /wp-admin/, trong khi bot của các công cụ tìm kiếm khác vẫn có thể truy cập.

Các quy tắc trong file robots.txt
Các quy tắc trong file robots.txt

3 cách tạo file robots.txt trên WordPress

Việc tạo và điều chỉnh file robots.txt đóng vai trò quan trọng trong việc tối ưu hóa SEO cho website WordPress của bạn. Dưới đây là hướng dẫn về cách tạo file robots.txt bằng 3 cách đơn giản trên nền tảng WordPress:

Cách 1: Dùng Yoast SEO

Bước 1: Để khởi đầu việc tạo file robots.txt trên website WordPress của bạn qua Yoast SEO, truy cập vào Bảng điều khiển WordPress bằng cách đăng nhập vào website của bạn. Sau khi đăng nhập thành công, bạn sẽ thấy giao diện Bảng điều khiển WordPress.

Bước 2: Chọn mục SEO từ danh sách menu ở phía bên trái, sau đó chọn Công cụ. Bằng cách này, bạn sẽ được dẫn đến màn hình quản lý Công cụ SEO trên WordPress.

Chọn Tools trong mục SEO ở giao diện WordPress Dashboard
Chọn Tools trong mục SEO ở giao diện WordPress Dashboard

Bước 3: Chọn File Editor để chuyển đến trang chỉnh sửa các tệp liên quan đến SEO, bao gồm cả tệp robots.txt. Ở đây, bạn có thể tạo, chỉnh sửa và lưu tệp robots.txt cho website của mình.

Chọn File editor để chuyển đến trang chỉnh sửa file robots.txt
Chọn File editor để chuyển đến trang chỉnh sửa file robots.txt

Cách 2: Qua bộ Plugin All in One SEO

Một lựa chọn khác để tạo file robots.txt cho WordPress một cách nhanh chóng là sử dụng plugin All in One SEO. Đây là một plugin đơn giản và dễ sử dụng cho WordPress. Bạn có thể tạo file robots.txt trên WordPress bằng cách thực hiện các bước sau:

Bước 1: Truy cập vào giao diện chính của plugin SEO WordPress All in One SEO Pack.

Bước 2: Chọn All in One SEO > Chọn Feature Manager > Nhấp vào Activate cho tính năng Robots.txt.

Chọn Feature Manager trong plugin All in One SEO
Chọn Feature Manager trong plugin All in One SEO

Bước 3: Bạn có thể tạo và chỉnh sửa file robots.txt tại giao diện hiển thị.

Vị trí tạo và chỉnh sửa file robots.txt
Vị trí tạo và chỉnh sửa file robots.txt

Cách 3: Tạo rồi upload file robots.txt qua FTP

Nếu bạn muốn thử cách tạo file robots txt cho WordPress mà không sử dụng plugin, bạn có thể thực hiện quy trình này thủ công bằng cách sử dụng các phần mềm chỉnh sửa văn bản như Notepad hoặc TextEdit. Dưới đây là các bước chi tiết:

Bước 1: Sử dụng Notepad hoặc TextEdit để tạo mẫu file robots.txt cho WordPress.

Bước 2: Sử dụng FTP để truy cập vào thư mục public_html và tìm file robots.txt.

Tạo nội dung file robots.txt
Tạo nội dung file robots.txt

Bước 3: Mở FTP → Chọn public_html → Chọn file robots.txt → Upload để tải lên.

Tải file Robots.txt lên ftp
Tải file Robots.txt lên ftp

Một số quy tắc khi tạo file robots.txt

Dưới đây là một số quy tắc quan trọng cần lưu ý về định dạng và vị trí của file robots.txt:

  • File phải có tên chính xác là robots.txt.
  • Phân biệt rõ ràng giữa chữ hoa và chữ thường trong tên và nội dung của file. Đừng sử dụng các biến thể như Robots.txt hoặc robots.TXT.
  • Mỗi website chỉ nên có một file robots.txt duy nhất.
  • File cần được đặt trong thư mục gốc của máy chủ lưu trữ website.
  • Robots.txt phải là tệp văn bản được mã hóa UTF-8 để tránh vấn đề với các ký tự không hợp lệ.
  • Để các bot của công cụ tìm kiếm có thể truy cập được, file robots.txt cần nằm trong thư mục cấp cao nhất của website.
  • Tránh đặt /wp-content/themes/ hoặc /wp-content/plugins/ trong chỉ thị Disallow, vì điều này có thể gây rối bot khi xác định giao diện của website.
  • Các file robots.txt thường được công khai và có sẵn trên website, vì vậy không nên sử dụng để che giấu thông tin cá nhân.
  • Mỗi Subdomain của một Root Domain cần có các file robots.txt riêng biệt để chỉ rõ vị trí của wp sitemap liên kết với domain.

Một số lưu ý khi sử dụng file robots.txt

  • Khi sử dụng file robot.txt, có một số điểm cần chú ý như sau:
  • Các liên kết trên trang mà file robots.txt chặn sẽ không được các trình thu thập dữ liệu web theo dõi, trừ khi chúng liên kết đến từ các trang khác.
  • Không có việc truyền link juice từ các trang bị chặn đến trang mục tiêu. Vì vậy, nếu muốn tăng cường sức mạnh của link juice qua các trang này, cần sử dụng phương pháp khác thay vì chỉnh sửa file robots.txt.
  • Không nên sử dụng file robots.txt để ngăn chặn dữ liệu nhạy cảm như thông tin cá nhân người dùng xuất hiện trong kết quả tìm kiếm.
  • Nguyên nhân là trang chứa thông tin nhạy cảm này có thể liên kết đến nhiều trang khác, vì vậy bot có thể bỏ qua chỉ thị của file trên trang chủ của bạn.
  • Hầu hết các User-agent của một công cụ tìm kiếm hoạt động theo cùng một quy tắc, nên không cần phải đưa ra chỉ thị cho từng User-agent riêng biệt.
  • Các công cụ tìm kiếm thường lưu trữ nội dung trong file robots.txt và cập nhật ít nhất một lần mỗi ngày. Để nội dung trong tệp được cập nhật nhanh chóng, có thể sử dụng chức năng Gửi của Trình kiểm tra tệp robots.txt.

Kết luận

Tóm lại, Robots.txt là một tệp quan trọng để quản lý việc quét website của bạn bởi các công cụ tìm kiếm. Bằng cách tạo và cấu hình đúng file Robots.txt, bạn có thể kiểm soát được việc tìm kiếm và lập chỉ mục website của mình. Điều quan trọng là hiểu rõ Robots.txt là gì và cách sử dụng nó hiệu quả. Hãy áp dụng những hướng dẫn trong bài viết này để tạo và cấu hình file Robots.txt cho website của bạn một cách chính xác và hiệu quả.

5/5 - (1 bình chọn)
Chat Facebook
Chat Facebook 8h - 17h (Từ T2 - T6)
Chat Zalo
Chat Zalo 8h - 17h (Từ T2 - T6)
Chat Telegram
Chat Telegram 8h - 17h (Từ T2 - T6)
Youtube
Youtube Hướng dẫn sử dụng
Ảnh mũi tên
Lên trên