به طور خلاصه، فرض کنید که یک قطعه از محتوا را با استفاده از iframe جاسازی کرده ایم. آن قطعه از محتوا اغلب، اگر مربوط به رسانه ای باشد، دستورالعملی برای عدم فهرست بندی خواهد داشت. اما وقتی کدهای مربوطه را در صفحات خود جاسازی می کنید، ممکن است گوگل پیشنهاد دهد که به دلیل اینکه محتوای جایگذاری شده بدون فهرست است، این کار را انجام ندهید. صفحه ای را که ما به عنوان مثال در آن کدهای مربوطه را جایگذاری می کنیم به طور حتم ایندکس خواهند شد. در این بخش، گوگل به شما کنترل بیشتری می دهد تا بگویید، صفحه ای را که در آن کدهای مربوطه جایگذاری شده اند را چگونه فهرست کنید.
ارزش لینک سازی شما زیاد است و زمانی که از robots.txt به درستی استفاده می کنید، ارزش پیوند به صفحاتی که واقعاً می خواهید ارتقا دهید منتقل می شود. فقط از فایلهای robots.txt برای صفحاتی استفاده کنید که نیازی ندارید در آن صفحه لینک سازی به دیگر صفحات داشته باشید. از آنجایی که منبع محدودی از خزیدن دارید، میتوانید robots.txt را نصب کنید تا از صفحات اضافی از طریق Googlebot جلوگیری کرده و آنها را به موارد مهم معرفی کنید. این کار باعث حذف ضایعات بودجه خزیدن شما می شود و هم شما و هم گوگل را از نگرانی در مورد صفحات نامربوط نجات می دهد.
- لطفا توجه داشته باشید که فایل robots.txt شما به صورت عمومی در دسترس خواهد بود.
- هر گروه از چندین قانون یا دستورالعمل (دستورالعمل) تشکیل شده است، یک دستورالعمل در هر خط.
- بهطورکلی توصیه میشود که همیشه دستور فرعی ‘Sitemap’ را در کنار URL نقشه سایت در فایل robots.txt قرار دهید.
- در حقیقت مشکل اصلی شما این است که وب سایت شما در یک هاست ضعیف اجرا می شود و به شکل نادرستی تنظیم شده است.
توجه داشته باشید که تفسیر آنها از این دستورالعمل اندکی متفاوت می باشد و به همین علت نیز بهتر است که قبل از استفاده حتما اسناد موجود در وب سایت این موتورهای جستجو را مطالعه کنید. در مثال بالا هیچ یک از موتورهای جستجو اجازه دسترسی به پوشه /media/ را ندارند به جز فایلی که در مسیر /media/terms-and-conditions.pdf قرار گرفته است. با استفاده از این دو دستورالعمل شما می توانید به موتورهای جستجو بگویید که می توانند به یک صفحه یا فایل خاص در پوشه های مختلف سایت شما دسترسی پیدا کرده و در غیر این صورت مجاز به دسترسی به این فایل ها نیستند. به عنوان مثال ربات های موتور جستجوی گوگل از Googlebot برای انجام این کار استفاده می کنند، ربات های یاهو از Slurp و ربات های موتور جستجوی بینگ نیز از BingBot استفاده می کنند. زمانی که قصد ایجاد تغییرات در robots.txt سایت خود را دارید کاملا مراقب باشید چرا که فایل robots.txt قابلیت این را دارد که قسمت های بزرگی از سایت شما را از دسترس موتورهای جستجو خارج کند. شما می توانید از این فایل برای جلوگیری از عملیات خزیدن موتور های جستجو در برخی از لینک ها و صفحات خاص وب سایت خود استفاده کنید.
ربات گوگل ، به شکلی طراحی شده است تا شهروند خوبی برای دنیای اینترنت باشد. خزیدن، اولویت اصلی این ربات است پس طوری طراحی شده که تا بر تجربه کاربری بازدیدکنندگان سایت تاثیری نگذارد. این بهینهسازی Crawl Rate Limit نام دارد که برای ارائه تجربه کاربری بهتر، تعداد صفحات قابل Crawl در یک روز را محدود میکند. موتورهای جستجوی بینگ، یاهو و Yandex همگی از دستورالعمل Crawl-delay پشتیبانی می کنند که در صورت تمایل می توانید از این ویژگی در فایل robots.txt وب سایت خود استفاده کنید.
و شما میتوانید برای ویرایش و ایجاد آن از یک FTP یا با فایل منیجر کنترلپنل هاست خود اقدام کنید. این فایل درست مثل هر فایل متنی معمولی است و شما میتوانید آن را با یک ویرایشگر متن ساده مانند Notepad باز کنید. هنگام درخواست فایل robots.txt، کد وضعیت HTTP پاسخ سرور بر نحوه استفاده از فایل robots.txt توسط خزندههای Google تأثیر میگذارد.
در این مثال به تمامی موتورهای جستجو گفته شده است که به مسیر /wp-admin/ دسترسی نداشته باشند. این کار با وجود این که برای کاربران یک قابلیت فوق العاده است ولی در اکثر مواقع می تواند برای موتورهای جستجو گیج کننده باشد چرا که باعث به وجود آمدن محتوای تکراری می شود. تا جای امکان سعی کنید از استفاده از دستورالعمل crawl-delay در این فایل برای موتورهای جستجو خودداری کنید.
این دستور به ربات گوگل میگوید که اجازه مشاهده و ایندکسِ فایل seo.png را دارد، علیرغم اینکه فولدر Photos از دسترس رباتها خارجشده است. در هنگام طراحی سایت، مطمئن شوید که از این فایل در هیچکدام از URL هایی که می خواهید توسط گوگل ایندکس شوند و نتایج آنها نمایش داده شوند، استفاده نکرده اید. با استفاده از گوگل وبمستر یا همان کنسول جستجوی گوگل شما می توانید بررسی کنید که چه تعداد و چه صفحاتی مجله خبری سئو از سایتتان فهرست بندی شده اند. تعیین تأخیر خزیدن به منظور جلوگیری از بارگیری بیش از حد سرورهای سایت، زمانیکه رباتهای خزنده در یک زمان چندین URL را بارگیری میکنند. وباید در کل بشینم همه لینک هارو درست کنم و به صفحات درست خودشون ریدایرکت کنم بجز این فکری به ذهنم نمیرسه . دستورات فایل ربات شما از ایندکس جلوگیری نمی کند و می بایست مابقی تنظیمات وردپرس را برای این مورد بررسی نمایید.
ایندکس گوگل چیست؟ دلایل ایندکس نشدن سایت + راه حل
یعنی امکان دارد دو ربات متعلق به یک موتور جستجو یا هر سرویسی، یکی از دستورات پیروی کند و دیگری پیروی نکند. هدر دادن منابع سرور برای این صفحات، باعث از بین رفتن Crawl Budget شما میشود. به این ترتیب صفحات ارزشمند و مهمی که واقعاً نیاز به ایندکس شدن دارند خیلی دیرتر به نتایج جستجو راه پیدا میکنند.