معمولا موتورهای جستجو محتویات فایل robotx.txt را ذخیره میکنند تا به دانلود مجدد آن نیاز نداشته باشند، با این حال روزانه چندبار نسخه جدید فایل را بارگذاری میکنند. پس انعکاس تغییرات اعمال شده در فایل Robots.txt زمان زیادی نخواهد برد و سریعا اعمال میشود. حالا که متوجه شدید گوگل چه دیدی از سایت شما دارد، شاید بهتر باشد برای اصلاح این دید، دست بکار شوید. استفاده از فایل txt برای نشان دادن آدرس فایل نقشه سایت به رباتها استفاده می شود. کراول باجت در واقع تعداد دفعاتی است که گوگل در روز صفحات سایت شما را خزش می کند و مقدار آن با توجه به بزرگی سایت، سلامت سایت و لینک لینک های ورودی به سایت متغیر است. مقدار کراول باجت متغیر است و ممکن است گوگل در یک روز 20 صفحه و روز دیگر 100 صفحه از سایت را خزش کند.
گوگل به صورت رسمی اعلام کرده است که برخی از دستورات قرار داده شده در Robots.txt از تاریخ 1 سپتامبر 2019 به بعد کارایی ندارند و باید از دستورات جایگزین برای آنها استفاده کرد. گوگل به صورت رسمی همچنان فایل Robots.txt مورد پشتیبانی قرار میدهد، اما برخی از دستورات این فایل را دیگر پشتیبانی نکرده و آنها را نادیده میگیرد. حالا به راحتی میتوانید محتوای فایل ربات خود را مجله خبری سئو ویرایش کنید و بعد از انجام تغییرات بر روی گزینه ذخیره تغییرات کلیک کنید. در صورتی که از قبل به کمک این پلاگین یک فایل robots.txt هم برای سایتتان ایجاد نکرده باشید به صورت زیر به شما پیشنهاد ایجاد یک فایل جدید میدهد که باید بر روی آن کلیک کنید. اما این چیزی نیست که ما دنبال آن باشیم، بنابراین باید بتوانیم به کمک فایل robots قوانینی را مشخص کنیم که باب میل ما هستند.
- موتورهای جستجوگر شناخته شده نظیر گوگل، بینگ و… این توانایی را دارند که با بررسی محتویات فایل Robots.txt درک بهتری نسبت به ساختار یک سایت پیدا کنند و از برخی دستورات داده شده پیروی کنند.
- در واقع با این کار به رباتها میگویید کدام صفحهها اصلاً در اولویت شما نیستند.
- چهبسا این دستورات را بسیار ساده بپندارید اما همین دستورات بهکلی میتوانند سیاست سئوی سایت شمارا تغییر دهند.
- اگر فکر میکنید نوشتن فایل ربات کار پیچیده و سختی است باید بگوییم که اشتباه فکر کردید، زیرا بسیار ساده و کوتاه می توانید این فایل با ارزش را بنویسید.
گوگل این فرمان را نمیشناسد، اگرچه موتورهای جستجوی دیگر آن را تشخیص میدهند. برای Google، مدیران میتوانند فرکانس خزیدن را برای وبسایت خود در کنسول جستجوی Google تغییر دهند. با این کد آدرس صفحه ای را که می خواهید ربات ها به آن دسترسی نداشته باشند، پنهان می کنید. به عنوان مثال می توانید دسترسی به پوشه تصاویر و ویدیو ها را و یا صفحه ادمین سایت را با این کد ببندید.
خدمات و دسترسی ها
اما چند نکته راجع به وردپرس در این زمینه وجود دارد که دانستن آنها خالی از لطف نیست. همچنین این ابزار یک ویرایشگر آنلاین نیز میباشد که میتوانید محتویات آن را با استانداردهای پیشنهادی تغییر دهید. اما فراموش نکنید که به منظور اعمال این تغییرات در سایت خود، باید محتوای ویرایش شده جدید را با محتوای متنی قبلی موجود در robots.txt حال حاضر در هاست خود جایگزین کنید.
همچنین در فرآیندهای خزیدن و نمایهسازی، دستورالعملها به عنوان دستوراتی عمل میکنند تا رباتهای موتور جستجو ، مانند Googlebot، به صفحات مناسب هدایت شوند. برای جلوگیری از دسترسی رباتها چند راه مختلف وجود داره که در انتهای مقاله توضیح دادیم. میتونید از سرچ کنسول دوباره درخواست ایندکس بدید، نقشه سایت رو دوباره بررسی و آپلود کنید.
همانطور که میبینید دیجیکالا دستور سایت مپ را در فایل robots.txt خود قرار داده است. کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است. از این دستور میتوان به دو شکل در فایل robots.txt استفاده کرد. مطمئناً شما هم میخواهید ربات گوگل Crawl Budget سایتتان را به بهترین شکل ممکن مصرف کند. به عبارت دیگر، ربات گوگل باید ارزشمندترین و مهمترین صفحات شما را بهتر و بیشتر بررسی کند.
به این معنی که اگر شما به ریشه هاست سایت خودتان مراجعه کنید فایلی تحت عنوان robots.txt را پیدا نخواهید کرد. بلکه این فایل به صورت مجازی و خودکار توسط وردپرس ایجاد میشود. به این ترتیب علارقم اینکه شما صراحتا در فایل ربات خود از گوگل خواستهاید که این صفحات را بررسی و ایندکس نکند، اما باز هم مشاهده میکنید که این صفحات در نتایج گوگل ظاهر میشوند.
نمونه فایل Robots.txt برای سایت وردپرسی
Robots.txt نحوه خزیدن در صفحات مختلف وبسایت را به رباتها اعلام میکند در حالی که متا ربات و ربات X رفتارهای یک صفحه یا محتویات یک صفحه را به رباتهای خزنده اعلام میکنند. با اینکار خزندههای موتور جستجو گوگل حتی اگر فایل robots.txt سایت شما را هم نادیده بگیرند چون در داخل صفحه صراحتا از رباتها خواسته شده که این صفحه را ایندکس نکنند، به این درخواست احترام میگذارند. “/” در اینجا نشان دهنده “ریشه” در سلسله مراتب یک وب سایت یا صفحهای است که همه صفحات دیگر از آن منشعب میشوند، بنابراین شامل صفحه اصلی و تمام صفحات لینک شده از آن میشود.