برای مثال موتور جستجوی یاندکس، این دستور را به عنوان زمان تاخیر در بین مشاهده و بررسی هر وب سایت تعبیر می کند. موتور جستجوی بینگ نیز این دستور را به عنوان مهلت زمانی تعبیر می کند، مهلت زمانی که طی آن اجازه دسترسی به یک صفحه را دارد. موتور جستجوی گوگل چندین نوع روبات مخصوص به خود دارد که معروفترین آنها بانام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را بر عهده دارد.
خوشبختانه، نیازی نیست امیدوار باشید که کد شما به درستی تنظیم شده باشد. در قسمت بالا منظور از User-agent نوع رباتی است که شما آن را فرا می خوانید. برای ایجاد یک فایل TXT می توانید از ویرایشگر notepad ویندوز خود استفاده کنید. اگر تعداد صفحاتی که شما می خواهید با تعداد صفحات فهرست بندی شده برابر بودند. (همچنین، اگر از پلاگین های وردپرس برای ریدایرکت یا کاستومایز پرمالینک ها استفاده کرده باشید، ممکنه اشکال از این پلاگین ها باشه و با غیر فعال کردنشون ممکنه که این مشکل برطرف بشه). در مورد مشکلت فکر نمی کنم robots.txt بتونه بهت کمکی بکنه چون این مشکل باید از یک جای دیگه درست بشه.
این ربات نسبت به سایر رباتهای جستجوگر، دستورات بیشتری را متوجه میشود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک میکند. در گذشته پیشنهاد میشد که صفحه پنل مدیریتی وردپرس یا همان wp-admin را از طریق فایل robots.txt برای دسترسی رباتها مسدودسازی کنیم. اما بعد از بروزرسانی وردپرس در سال 2012 این مسئله دیگر اهمیتی نداشت. چرا که وردپرس در سیستم جدید خود قابلیتی پیشفرض به تگ هدر فایل robots.txt اضافه کرده بود که در آن تگ noindex و دستور مسدودسازی دسترسی گنجانده شده بود. بنابراین در حال حاضر بدون نیاز به مورد خاصی، صفحه مدیریتی پنل سایت شما به صورت خودکار از لیست ایندکسهای موتورهای جستجو حذف میشود.
- نحوه ایجاد فایل Robots.txt داشتن فایل Robots.txt برای هر سایت لازم است.
- خیلیها فکر میکنند که از طریق فایلهای ربات از اطلاعات محرمانهی خود مراقبت میکنند در حالی که کاملا برعکس است و برخی رباتها میتوانند از این اطلاعات شما سوءاستفاده کنند.
- یعنی چی؟ یعنی اینکه یک تایمی ربات های گوگل برای هر سایت در نظر می گیرند تا در داخلش خزش کنند.
- البته لازم به ذکر است این یک روش مطمئن برای جلوگیری از نمایش سایت شما در موتورهای جستجو نیست و باید صفحات سایت را no-index کنید.
استفاده از شبکه توزیع محتوا CDN یک راه مقابله با رباتهای بد و مدیریت مصرف منابع سرور است. دستور Disallow از پرکاربردترین دستورات در فایل robots.txt است. این دستور مشخص کننده صفحه یا صفحات غیر قابل دسترس برای رباتهای خزنده وب است. مجددا باید تکرار کنیم که استفاده از این دستور صرفا صفحات را از دسترسی رباتها مخفی میکند و ممکن است کاربر با کلیک روی لینک این صفحات امکان بازدید صفحه را داشته باشد و مجله خبری سئو یا حتی این صفحات در نتایج جستجو فهرست شوند. اگر فایل مذکور با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قادر به شناسایی نباشند، رباتهای موتورهای جستجو همچنان به دسترسی به اطلاعات سایت شما ادامه داده و میتوانند آنها را ایندکس کنند. به عبارت دیگر، رباتها فقط زمانی تغییر رفتار میدهند که دستور دقیق و منطبق با آن رفتار را از طریق متون داخل این فایل دریافت کرده باشند.
برای جلوگیری از نمایش صحیح URL خود در نتایج جستجوی Google، از فایل های سرور خود با رمز عبور محافظت کنید ، باز هم تاکید میکنیم از متای noindex برای حذف کامل استفاده کنید. دستورات robots.txt ممکن است توسط همه موتورهای جستجو پشتیبانی نشود.دستورالعملهای موجود در فایلهای robots.txt نمیتوانند رفتار خزنده را در سایت شما اعمال کنند. در حالی که Googlebot و سایر خزندههای وب معتبر از دستورالعملهای فایل robots.txt پیروی میکنند، خزندههای دیگر ممکن است این کار را نکنند. بنابراین، اگر میخواهید اطلاعات را از خزندههای مخفی نگه دارید، بهتر است از روشهای مسدودسازی دیگر مانند محافظت از فایلهای خصوصی با رمز عبور روی سرور خود استفاده کنید .
Robots.txt چیست؟
دستور Allow دقیقا برعکس دستور Disallow عمل می کند؛ این دستور به ربات های موتور جستجوی گوگل اجازه ایندکس کردن را می دهد. هدف این دستور تعیین محدودیت در میزان مصرف منابع سرور با تنظیم میزان تاخیر بین بازدیدهای مختلف رباتهای خزنده است. در مثال زیر ربات خزنده موظف است بین هر درخواست ۸ میلی ثانیه توقف کند.
فعالیت های سئوکار
برای اکثر مشاغل، چه کوچک چه بزرگ، داشتن یک فروشگاه آنلاین الزامی است و مهمترین گام، سرمایه گذاری در طراحی فروشگاه اینترنتی حرفه ای است. تعرفه طراحی سایت فروشگاهی بسیار متفاوت است اما با هر هزینه ای باید انتظاراتی متناسب داشته باشید. نادرست تنظیم شده باشد، می تواند باعث اشتباه در ایندکس شدن صفحات سایت شود. گاهی اوقات صاحبان سایت ها بعلت نداشتن اطلاعات کافی در این زمینه اشتباهاتی را در ساخت یا ویرایش این فایل متنی رقم می زنند که منجر به خساراتی به سئوی سایت آنها می شود. دستور Allow به شما امکان میدهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد.