بعد از بارگذاری این فایل در هاست خود نیازی به هیچ فعالیت دیگری برای معرفی به گوگل ندارید خود این موتور جستجو در همین مسیر استاندارد آپدیت های شما را نیز دریافت خواهد کرد. Google ممکن است نویسههایی را که بخشی از محدوده UTF-8 نیستند نادیده بگیرد، و احتمالاً قوانین robots.txt را نامعتبر میکند. موارد خاصی نیز وجود دارد که نمیخواهید هیچ بودجه خزشی را برای بازدید گوگل در صفحاتی با تگ noindex هدر دهید.
عملکرد موتورهای جستجو در زمان برخورد با دستورالعمل Crawl-delay
برای مثال موتور جستجوی یاندکس، این دستور را به عنوان زمان تاخیر در بین مشاهده و بررسی هر وب سایت تعبیر می کند. موتور جستجوی بینگ نیز این دستور را به عنوان مهلت زمانی تعبیر می کند، مهلت زمانی که مجله خبری سئو طی آن اجازه دسترسی به یک صفحه را دارد. موتور جستجوی گوگل چندین نوع روبات مخصوص به خود دارد که معروفترین آنها بانام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را بر عهده دارد.
فرض کنید اولین بار برای انجام یک کار اداری وارد سازمان بزرگی میشوید؛ هیچ جایی را هم نمیشناسید. مدیران این سازمان هم چون میدانند مراجعه کنندهها همهجا را نمیشناسند، پس کنار در ورودی یک باجه اطلاعات درست کردهاند و یک یا چند نفر را مسئول راهنمایی و نگهبانی گذاشتهاند. اگر این افراد راهنما و نگهبان نباشند، کل سازمان دچار هرج و مرج میشود. هرکسی برای انجام کارهایش راهروها را بالا و پایین میکند و کارمندان هم نمیتوانند کارها را به درستی انجام دهند. بهترین کاری که می توانید انجام دهید این است که تنها یک فایل robots.txt برای هر زیردامنه خود داشته باشید. عدم اجازه دسترسی به برخی از بخش های سایت می تواند مورد سوءاستفاده توسط هکرها قرار گیرد.
- این همچنین برای هر URL غیرمجاز در زنجیره تغییر مسیر اعمال می شود، زیرا خزنده به دلیل تغییر مسیرها نمی تواند قوانین را واکشی کند.
- در صورتی که این فایل را بروزرسانی کردهاید بهتر است آدرس آن را برای بررسی در گوگل سرچ کنسول ارسال کنید تا سریعتر بروز رسانی شود.
- به همین دلیل با اعمال دستوراتی در فایل ربات سایت می توان از این امر جلوگیری کرد.
- برای صفحاتی محرمانهای که نباید به صورت عمومی نمایش داده شوند ایجاد پسورد و یا شناسایی IP پیشنهاد میشود.
این ربات نسبت به سایر رباتهای جستجوگر، دستورات بیشتری را متوجه میشود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک میکند. در گذشته پیشنهاد میشد که صفحه پنل مدیریتی وردپرس یا همان wp-admin را از طریق فایل robots.txt برای دسترسی رباتها مسدودسازی کنیم. اما بعد از بروزرسانی وردپرس در سال 2012 این مسئله دیگر اهمیتی نداشت. چرا که وردپرس در سیستم جدید خود قابلیتی پیشفرض به تگ هدر فایل robots.txt اضافه کرده بود که در آن تگ noindex و دستور مسدودسازی دسترسی گنجانده شده بود. بنابراین در حال حاضر بدون نیاز به مورد خاصی، صفحه مدیریتی پنل سایت شما به صورت خودکار از لیست ایندکسهای موتورهای جستجو حذف میشود.
البته باید توجه داشته باشید که این دستورالعمل غیررسمی noindex هرگز در موتور جستجوی بینگ کار نکرد. در مثال بالا هیچ یک از موتورهای جستجو به جز گوگل اجازه دسترسی به بخش های /secret/، /test/ و /not-launched-yet/ را ندارند. یکی از مهم ترین نکاتی که باید درباره فایل robots.txt بدانید این است که موتورهای جستجو به شکل های مختلفی از این فایل استفاده می کنند.
سایت خبری آکسان پلاس
تمام حقوق وب سایت متعلق به آژانس خلاقیت و نوآوری ویرا می باشد هرگونه کپی برداری بدون ذکر منبع پیگرد قانونی دارد. فقط کافیست نرم افزاری مانند Notepad که فایل ها را با پسوند txt ذخیره می کند را در سیستم خود داشته باشید. اگر بهطور پیشفرض، دستوری در باکس موردنظر وجود دارد، آن را پاککرده و دستورات جدید را وارد نمایید. اگر از افزونه Yoast SEO استفاده میکنید، پس میتوانید از تولیدکننده فایل Robots.txt این افزونه نیز استفاده کنید. شما میتوانید با استفاده از ادیتور Robotx.txt این افزونه، فایل Robots.txt برای سایت خود ایجاد کرده و آن را ویرایش کنید. دو راه برای ساخت و ویرایش فایل Robots.txt در وردپرس وجود دارد که بهدلخواه، هرکدام را که میخواهید میتوانید انتخاب کنید.
مدیریت بهینه بودجه خزش سایت
اما سایر رباتها وقتی به این دستور میرسند هیچ توجهی به آن نمیکنند و بدون محدودیت محتوای فولدر mypic سایت شما را هم بررسی میکنند چرا که محدودیت شما تنها مربوط به ربات Googlebot-Image میشود و نه تمام رباتها. بنابراین برای تهیه یک فایل robots.txt مناسب و عالی ما نیز باید با این دستورات و نحوه تفسیر آنها توسط رباتها آشنا باشیم. مهمتر از همه اینکه رباتهای گوگل به خوبی با این استاندارد آشنا هستند و از دستورات آن هم پیروی میکنند. موتور جستجو گوگل به تجربه کاربری سایتها توجه ویژهای دارد، یکی از مواردی که به تجربه کاربری کاربران لطمه زیادی وارد میکند بحث از دسترس خارج شدن سایت یا به اصطلاح down شدن آن است.