فایل Robots txt چیست و چطور یک فایل Robots عالی بسازیم؟ نوین-سئو سمروش

اگرچه گوگل صفحاتی که در فایل Robots.txt محدود شده‌اند را خزش و ایندکس نمی‌کند، اما ممکن است از سایر صفحات، لینک‌هایی به این صفحات محدود شده وجود داشته باشند که موجب ایندکس شدن این صفحات شوند. چرا که ممکن است بتوانیم از طریق دیگری به خواسته‌ای که به دنبال آن هستیم برسیم و از روش‌های دیگری برای پنهان کردن صفحات سایتمان در نتایج موتورهای جستجو استفاده کنیم. فرض کنید که در وبسایت‌تان فولدری به نام mypic دارید که در آن یکسری تصاویر را نگهداری می‌کنید که علاقه‌ای ندارید ربات‌ جستجو تصاویر گوگل آن را بررسی کند و در نتایج خود نشان دهد. به این ترتیب ربات Googlebot که اصلی‌ترین ربات گوگل است متوجه می‌شود که باید به دستورات خاصی توجه کند. ربات AdsBot-Google گوگل با دیدن این دستور متوجه می‌شود که باید از قواعد خاصی پیروی کند و دستورات نوشته شده در فایل ربات مخصوص او هستند.

اگر صاحب یک وبسایت کوچک با تعداد صفحات کمی هستید، با مراجعه به سرچ کنسول وبسایت‌تان می‌توانید تعداد صفحاتی از سایت‌تان که توسط گوگل ایندکس شده‌اند را در بخش Coverage مشاهده کنید. اما در صورتی که این فایل را پیدا نکردید و در آدرس robots.txt/ هم با یک صفحه ناموجود رو به رو شدید، تنها کاری که لازم است انجام دهید، ایجاد یک فایل جدید با پسوند txt و آپلود آن بر روی ریشه اصلی وبسایت‌تان است. برای جلوگیری از این مشکل، بهتر است از تگ noindex در هدر همان صفحاتی که علاقه‌ای به حضور آن‌ها در نتایج گوگل ندارید استفاده کنید و یا با گذاشتن رمز و یا سایر روش‌های بلاک کردن، از ایندکس شدن این URLها جلوگیری کنید. بهترین روش برای انجام اینکار معرفی آدرس نقشه سایت در داخل گوگل سرچ کنسول است. برای انجام اینکار پیشنهاد می‌کنیم که حتما مقاله “صفر تا صد نقشه سایت” را مطالعه کنید.

کامنت ها در فایل robots.txt

البته در حال حاضر می‌توان از این فایل برای خارج کردن فایل‌هایی مثل تصاویر، ویدیو یا صدا از نتایج جستجو استفاده کنید اما برای صفحات وب مناسب نیست. فایل Robots.txt در وبسایت‌ها نقش همین راهنماها و نگهبانان را دارد اما نه برای کاربرانی که وارد سایت می‌شوند، بلکه برای ربات‌هایی که برای بررسی سایت یا هر کار دیگری می‌خواهند در بخش‌های مختلف سایت سرک بکشند. بنابراین اگر شما هم قصد راه اندازی یک وب سایت بزرگ تجاری را دارید حتما باید به کیفیت فایل robots.txt وب سایت خود توجه کنید و تمامی نکاتی که در این مطلب بیان کردم را رعایت کنید. بنابراین زمانی که حجم فایل های شما بیشتر از این مقدار باشد توسط موتور جستجوی گوگل نادیده گرفته می شود.

  • خوشبختانه برای بررسی صحت فایل Robots.txt می‌توانید از ابزار تست سرچ کنسول کوگل استفاده نمایید تا از درستی اطلاعات وارد شده اطمینان حاصل کنید.
  • بنابراین فایل ربات ساز از ورود ربات‌ها به صفحات موردنظر شما جلوگیری کرده و ایندکس شدن آنها را ممنوع خواهد کرد.
  • خیر ربات‌های بدافزارها به دنبال اطلاعات کلی از سایت‌ها مانند ایمیل‌های بخش Info هستند درنتیجه به صورت کامل Robots.txt را نادیده می‌گیرند و از دستورات آن پیروی نمی‌کنند.
  • با این حال، یک فایل robots.txt کار زیادی برای مدیریت ترافیک ربات‌های مخرب انجام نمی‌دهد.

بدین ترتیب و با نوشتن این دستورالعمل‌های ساده می‌توانید فعالیت ربات‌ها در وب سایت خود را محدود کرده و کنترل کاملی بر آن داشته باشید. همانطور که تا اینجا متوجه شدید، برای حذف کامل یک فایل خاص مانند فایل‌های PDF یا تصاویر از نتایج گوگل، می‌توان مجله خبری سئو به کمک محدودیت‌های فایل robot اینکار را به صورت کامل انجام داد. به عنوان مثال در بسیاری از سایت‌ها بخشی تحت عنوان پروفایل کاربران وجود دارد که نمایش این پروفایل‌های کاربری در نتایج گوگل هیچ ترافیکی برای سایت مورد نظر ایجاد نمی‌کنند.

فایل robots.txt خود را پیدا کرده و آن را برای ویرایش باز کنید. اگر ترغیب شدید که نگاهی به فایل robots.txt سایت خودتان یا هر سایتی بیاندازید، پیدا کردنش سخت نیست. صاحبان وبسایت و وبمسترها می‌توانند ورود ربات‌ها به وبسایت را از راه‌های مختلفی کنترل کنند. البته ربات‌های دیگری متعلق به سرویس ‌دهنده‌های مختلف اینترنتی هستند. بعد از خواندن این مقاله می‌توانید هر نوع رباتی را فقط با دانستن نامش محدود و کنترل کنید. ربات‌ها در واقع نرم‌افزارهایی هستند که به صورت خودکار صفحه‌های مختلف را باز و بررسی می‌کنند.

راهنمای کامل فایل robots.txt