Robot.txt được sử dụng để làm gì??

Robot.txt được sử dụng để làm gì??

Robot.txt được sử dụng để làm gì??
Nency
2019-09-03


Tệp robot.txt cho biết trình thu thập thông tin của công cụ tìm kiếm những trang hoặc tệp mà trình thu thập thông tin có thể hoặc không thể yêu cầu từ trang web của bạn. Điều này được sử dụng chủ yếu để tránh quá tải trang web của bạn với các yêu cầu; nó không phải là một cơ chế để giữ một trang web ra khỏi Google.  Để giữ một trang web ra khỏi Google, bạn nên sử dụng các  chỉ thị noindex hoặc bảo vệ mật khẩu trang của bạn.

Robot.txt được sử dụng để làm gì?
robot.txt được sử dụng chủ yếu để quản lý lưu lượng trình thu thập thông tin đến trang web của bạn và  thường  để ngăn một trang khỏi Google, tùy thuộc vào loại tệp:

Loại trangQuản lý giao thôngẨn khỏi GoogleSự miêu tả
trang web

Đối với các trang web (HTML, PDF hoặc các định dạng phi phương tiện khác mà Google có thể đọc ), robot.txt có thể được sử dụng để quản lý lưu lượng thu thập thông tin nếu bạn nghĩ rằng máy chủ của bạn sẽ bị quá tải bởi các yêu cầu từ trình thu thập thông tin của Google hoặc để tránh thu thập thông tin không quan trọng hoặc các trang tương tự trên trang web của bạn.
Bạn không nên sử dụng robot.txt làm phương tiện để ẩn các trang web của mình khỏi kết quả Tìm kiếm của Google.  Điều này là do, nếu các trang khác trỏ đến trang của bạn bằng văn bản mô tả, trang của bạn vẫn có thể được lập chỉ mục mà không cần truy cập trang. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ mật khẩu hoặc  chỉ  thị noindex .
Nếu trang web của bạn bị chặn với tệp robot.txt , nó vẫn có thể xuất hiện trong kết quả tìm kiếm, nhưng kết quả tìm kiếm sẽ không có mô tả và trông giống như thế này . Các tệp hình ảnh, tệp video, PDF và các tệp không phải HTML khác sẽ bị loại trừ. Nếu bạn thấy kết quả tìm kiếm này cho trang của mình và muốn sửa nó, hãy xóa mục nhập robots.txt chặn trang. Nếu bạn muốn ẩn trang hoàn toàn khỏi tìm kiếm, hãy sử dụng phương pháp khác .
Tập tin phương tiện

Sử dụng robot.txt để quản lý lưu lượng thu thập thông tin và cũng để ngăn các tệp hình ảnh, video và âm thanh xuất hiện trong kết quả tìm kiếm của Google. (Lưu ý rằng điều này sẽ không ngăn các trang hoặc người dùng khác liên kết đến tệp hình ảnh / video / âm thanh của bạn.)
  • Đọc thêm về việc ngăn hình ảnh xuất hiện trên Google.
  • Đọc thêm về việc ngăn chặn các tệp video xuất hiện trên Google.
Tài nguyên tập tin

Bạn có thể sử dụng robot.txt để chặn các tệp tài nguyên như tệp hình ảnh, tập lệnh hoặc kiểu không quan trọng, nếu bạn nghĩ rằng các trang được tải mà không có các tài nguyên này sẽ không bị ảnh hưởng đáng kể do mất .Tuy nhiên, nếu sự vắng mặt của các tài nguyên này khiến trình thu thập thông tin của Google khó hiểu trang hơn, bạn không nên chặn chúng, nếu không Google sẽ không làm tốt việc phân tích các trang phụ thuộc vào các tài nguyên đó.

Sử dụng dịch vụ lưu trữ trang web
Nếu bạn sử dụng dịch vụ lưu trữ trang web, chẳng hạn như Wix, Drupal hoặc Blogger, bạn có thể không cần (hoặc có thể) chỉnh sửa trực tiếp tệp robot.txt của mình. Thay vào đó, nhà cung cấp của bạn có thể hiển thị trang cài đặt tìm kiếm hoặc một số cơ chế khác để thông báo cho các công cụ tìm kiếm xem có thu thập dữ liệu trang của bạn hay không.

Để xem trang của bạn đã được Google thu thập thông tin hay chưa, hãy tìm kiếm URL trang trong Google.

Nếu bạn muốn ẩn (hoặc bỏ ẩn) trang của mình khỏi các công cụ tìm kiếm, hãy thêm (hoặc xóa) mọi yêu cầu đăng nhập trang có thể tồn tại và tìm kiếm hướng dẫn về sửa đổi mức độ hiển thị trang của bạn trong công cụ tìm kiếm trên dịch vụ lưu trữ của bạn, ví dụ: wix ẩn trang từ công cụ tìm kiếm

Hiểu những hạn chế của robot.txt
Trước khi tạo hoặc chỉnh sửa  robots.txt, bạn nên biết giới hạn của phương pháp chặn URL này. Đôi khi, bạn có thể muốn xem xét các cơ chế khác để đảm bảo URL của bạn không thể tìm thấy trên web.

Các lệnh của Robots.txt có thể không được hỗ trợ bởi tất cả các công cụ tìm kiếm
Các hướng dẫn trong robots.txttệp có thể thực thi hành vi của trình thu thập thông tin đến trang web của bạn, tùy thuộc vào trình thu thập thông tin để tuân theo chúng. Mặc dù Googlebot và các trình thu thập dữ liệu web đáng kính khác tuân theo các hướng dẫn trong một robots.txttệp, các trình thu thập thông tin khác có thể không. Do đó, nếu bạn muốn giữ an toàn thông tin từ các trình thu thập dữ liệu web, tốt hơn là sử dụng các phương pháp chặn khác, chẳng hạn như các tệp riêng tư bảo vệ mật khẩu trên máy chủ của bạn .

Các trình thu thập thông tin khác nhau diễn giải cú pháp khác nhau
Mặc dù các trình thu thập dữ liệu web đáng kính tuân theo các chỉ thị trong một robots.txttệp, mỗi trình thu thập thông tin có thể diễn giải các chỉ thị khác nhau. Bạn nên biết cú pháp thích hợp để giải quyết các trình thu thập dữ liệu web khác nhau vì một số có thể không hiểu các hướng dẫn nhất định.
Một trang bị cướp vẫn có thể được lập chỉ mục nếu được liên kết từ các trang khác

Trong khi Google không thu thập dữ liệu hoặc lập chỉ mục nội dung bị chặn robots.txt, chúng tôi vẫn có thể tìm và lập chỉ mục một URL không được phép nếu được liên kết từ các địa điểm khác trên web. Do đó, địa chỉ URL và, có khả năng, các thông tin có sẵn công khai khác, chẳng hạn như văn bản neo trong các liên kết đến trang vẫn có thể xuất hiện trong kết quả tìm kiếm của Google. Để ngăn chặn URL của bạn xuất hiện chính xác trong kết quả Tìm kiếm của Google, bạn nên  bảo vệ mật khẩu các tệp trên máy chủ của mình  hoặc sử dụng thẻ meta noindex hoặc tiêu đề phản hồi  (hoặc xóa hoàn toàn trang).


Theo Google

Robot.txt được sử dụng để làm gì??
4/ 5
Oleh