همچنین بهتر است دستورالعملهای هر موتور جستجو را بخوانید تا مطمئن شوید دستوراتی که مینویسید برای همه موتورهای جستجو کار میکنند. در ادامه به بررسی مهمترین دستوراتی میپردازیم که به کمک آنها میتوانیم برای رباتهای مختلف قوانین بخصوصی را برای بررسی سایتمان مشخص کنیم. علاوه بر اینها، گوگل رباتهای مختلف دیگری را هم دارد که لیست کامل نام و وظیفه آنها را میتوانید در مقاله “مرور خزندههای موتور جستجو گوگل” که توسط خود گوگل منتشر شده است ببینید. اما به صورت کلی میتوانیم امیدوار باشیم که تمام قوانینی که داخل فایل ربات سایتمان مشخص میکنیم توسط مهمترین خزندههای وب یعنی خزندههای گوگل رعایت میشوند. با این حال، یک فایل robots.txt کار زیادی برای مدیریت ترافیک رباتهای مخرب انجام نمیدهد. ابزارهای مدیریت ربات مانند Cloudflare Bot Management یا Super Bot Fight Mode میتواند به مهار فعالیت مخرب ربات، بدون تأثیر روی رباتهای ضروری مانند خزنده های وب کمک کند.
اکثر خزندههای موتورهای جستجو بزرگ مانند گوگل، بینگ و یاهو به محدودیتهای تعریف شده در فایل ربات سایت احترام میگذارند. در حقیقت وظیفه این فایل معرفی بخشهای قابل دسترسی و بخشهای محدود شده برای دسترسی رباتها میباشد. به صورت تعریفی دقیقتر، این فایل راهنمای خزندگان سطح وب که از سوی موتورهای جستجو به منظور بررسی و ثبت اطلاعات سایتها ایجاد شدهاند، میباشد. فایل Robots.txt فایلی برای گزارش ساختار صفحات وب به رباتهای کراولر است تا بدانند کدام صفحات باید در موتورهای جستجو نمایش داده شوند و کدام صفحات نمایش داده نشوند.
فرض کنید که شما در حال پیاده سازی یک وب سایت در حوزه تجارت الکترونیک هستید و بازدیدکنندگان از سایت شما می توانند برای جستجوی سریع تر در میان محصولات شما از یک فیلتر استفاده کنند. خیر رباتهای بدافزارها به دنبال اطلاعات کلی از سایتها مانند ایمیلهای بخش Info هستند درنتیجه به صورت کامل Robots.txt را نادیده میگیرند و از دستورات آن پیروی نمیکنند. هدف این رباتهای مخرب پیدا کردن ایمیلهای شرکتی است تا هرزنامه و اسپمها را به صورت انبوه برای این ایمیلها ارسال کنند. فایل Robots.txt دسترسی خزندهها به بخشهای مختلف سایت شما را کنترل میکنند. درنتیجه اگر شما به صورت تصادفی Googlebot را از خزیدن در سایت خود منع کنید ممکن است برای سئو و رتبه بندی سایت شما خیلی خطرناک باشد.
۲ـ مشخص کردن صفحات و بخشهای غیرمجاز با Disallow
با نگاه کردن به فایلهای robots.txt دیگر سایتها میتوانید از آنها برای سایت خودتان الگو بگیرید. اولین بخش، Crawl Rate Limit (حد نرخ خزیدن) است و دومی Crawl Demand. راههای دیگر جایگزین برای حذف صفحه از نتایج جستجئی گوگل را در ادامه معرفی میکنیم. با این حال از اول سپتامبر 2019 گوگل پشتیبانی از این دستورالعمل را به طور کامل متوقف کرد.
- اگرچه امنیت وبسایت هیچگاه صد درصدی نیست اما برخی اقدامات وجود دارند که با رعایت آنها میتوانیم تا حد بسیار زیادی ریسک هک شدن وبسایت خود را کاهش دهیم.
- هنگامی که فایل robots.txt خود را دارید، وقت آن است که آن را زنده کنید.
- یک فایل Robots.txt دارای ساختاری میباشد که در صورتی که این ساختار دچار اختلالی باشد، شاید اصلاً کاربردی را که باید داشته باشد را از دست بدهد.
- وقتی رباتها میخواهند صفحههایی از سایت را بررسی کنند، اول فایل Robots.txt را میخوانند.
با استفاده از این کد شما به همه رباتها اعلام میکنید که فعلاً نیازی نیست هیچ صفحهای از سایت را بررسی کنند. در پایان اگر سوالی در خصوص فایل robots.txt و مسائل مرتبط با آن دارید حتما مطرح کنید و به غنیتر شدن محتوای این مقاله کمک کنید. معمولا یکبار قوانین و محدودیتهای فایل robot مشخص میشود و تا زمانی که محدودیتهای این فایل مشکل ساز نشدهاند نیازی به اصلاح و تغییر فایل robots.txt نیست. اما اگر تعداد صفحات ایندکس شده دقیقا و یا تقریبا همان مجله خبری سئو تعداد صفحاتی بود که انتظار دارید در داخل گوگل ایندکس شده باشند، نیازی به ساخت و یا تغییر فایل robot سایت خود ندارید. در این قسمت شما میتوانید به صورت زنده تغییرات مورد نظرتان را در محتویات فایل robots.txt انجام دهید و سپس از طریق بخش پایینی بررسی کنید که آیا تغییرات انجام شده دقیقا همان چیزی هستند که به دنبال آن هستید یا خیر. بعد از انتخاب، صفحهای باز میشود که در آن گوگل آخرین فایل ربات پیدا شده از سایتتان را به شما نمایش میدهد.
درباره وب داران