از آنجایی که هر یک از موتورهای جستجو مدت زمان محدودی برای خزیدن در یک وب سایت را دارند، شما باید سعی کنید که این زمان را صرف صفحاتی کنید که نیاز دارید تا در لیست موتورهای جستجو نمایش داده شوند. گوگل در این باره می گوید که تگ indexifembedded “به یک مشکل رایج می پردازد. این مشکل به طور کلی ناشران رسانه ها را نیز تحت تاثیر قرار خواهد داد. در حالی که در برخی مواقع مشاهده خواهید کرد که متقاضیان بخواهند محتوای خود را در زمانی مشخص در صفحات شخص ثالث جایگذاری کنند تا گوگل به ایندکس صفحات بپردازد.
دستور Disallow به رباتها میگوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند. در حقیقت این دستور، بیانگر آدرس صفحهای است مجله خبری سئو که میخواهید از دید روباتها پنهان بماند. این بدان معناست که اگر از دستور شما پیروی کنند، برخی یا کل صفحات را بررسی نمی کنند.
۳. مشخص کردن بخشهای مجاز برای رباتها با Allow
در نهایت، ما با بررسی Crawl Rate و Crawl Demand، مقدار Crawl Budget یک وبسایت را تعریف میکنیم. در واقع Crawl Budget، تعداد URLهایی است که ربات گوگل میخواهد و میتواند ایندکس کند. اما باید حواستان باشد که این رباتها زبان آدمیزاد سرشان نمیشود! یعنی همینطور مثل چی سرشان را میندازند پایین و سر تا پای سایت را بررسی میکنند.
چگونه فایل ربات robots.txt بسازیم؟
مسدود سازی تمام تصاویر برای ربات Google Imagesگوگل نمی تواند تصاویر و ویدیوها را بدون خزیدن در آنها فهرست کند. به طور مشابه، اگر رمزگذاری نویسه فایل robots.txt UTF-8 نباشد، Google ممکن است نویسههایی را که بخشی از محدوده UTF-8 نیستند نادیده بگیرد و قوانین robots.txt را نامعتبر کند. اما یک دستور اشتباه می تواند وضعیت کراول سایت را با خطر مواجه کند. بنابراین بغیر از این سه مورد، توصیه می کنیم به جای robots.txt از دستورات متا استفاده کنید. و احتمال وقوع فاجعه کمتری وجود دارد (مانند مسدود کردن کل سایت شما).
فایل Robots.txt کجاست؟
برای خزیدن در بین وبسایتها موتورهای جستجو از لینکهای قرار داده شده در سایتها استفاده میکنند. درنتیجه در داخل یک سایت چرخیده و از یک سایت به سایت دیگر لینک میشوند. درنهایت خزندهها بین میلیاردها لینک و وبسایت میخزند و اطلاعات را جمعآوری میکنند. اما نباید فراموش کنید که اگرچه میتوان سایت مپ در داخل فایل ربات سایت به رباتهای موتور جستجو گوگل معرفی کرد اما این روش بهترین روش معرفی سایت مپ به رباتهای گوگل نیست. در اوایل مقاله با انواع رباتها و خزندههای سطح وب آشنا شدیم، حتی به صورت دقیقتر اسامی و وظیفه مهمترین رباتهای گوگل را هم بررسی کردیم. حالا به کمک دستور User-agent میتوانیم مشخص کنیم که دستورات ما دقیقا توسط چه رباتی باید اجرا شوند.
این اطلاعات به وبسایتها کمک میکند اطلاعات سازگار با سیستم کاربر را نمایش دهند. موتوررهای جستجو این فایل را به صورت کش ذخیره می کنند اما به طور معمول در هر روز یکبار توسط موتورهای جستجو بروزرسانی و کش می شود. در صورتیکه در طول روز بیش از یکبار و به صورت مداوم این فایل را بروزرسانی می کنید می بایست آن را از طریق Google webmaster tools به گوگل معرفی نمایید. سال ۸۳ بود که اولین کسبوکار آنلاین خودم را راهاندازی کردم و تا امروز با علاقه زیادی مشغول کسبدرآمد آنلاین و راهاندازی کسبوکارهای مختلف در بستر وب هستم.
تمایلی به دسترسی رباتها به صفحات برچسب و نویسندگان سایت ندارید. بدین ترتیب تمامی صفحات موجود در وبلاگ از دسترس ربات بایدو خارج خواهد شد. اگر تا الان روی سئوی سایتت کاری نکردی، بهتره که از همین امروز شروع کنی. اگر مشکلی در فایل وجود نداشته باشد، دکمه قرمزرنگ Test به دکمه سبزرنگ Allowed تغییر پیدا میکند. اما اگر ایرادی در فایل دیده شود، لاین (دستور) مشکل دار هایلایت شده و مشخص میشود.
این به این معنی است که گوگل فرض می کند که هیچ محدودیتی برای خزیدن وجود ندارد. اگر url ای از سایت را با این روش مسدود کرده باشید باز هم در نتایج جستجو خواهد بود این روش برای فایلهای ویدیویی، فایلهای PDF و سایر فایلهای غیر HTML قابل قبول برای گوگل است. توجه داشته باشید فایل ربات در روت سایت باید با حروف کوچک انگلیسی نوشته شود و همینطور محتوای ربات به حروف بزرگ و کوچک حساس است.
- اما بعد از بروزرسانی وردپرس در سال 2012 این مسئله دیگر اهمیتی نداشت.
- اگر از تگ نوایندکس استفاده کنید مستقیما به رباتهای کراولر اعلام میکنید که این صفحه نباید در نتایج جستجو نمایش داده شود.
- فرض کنید که شما در حال پیاده سازی یک وب سایت در حوزه تجارت الکترونیک هستید و بازدیدکنندگان از سایت شما می توانند برای جستجوی سریع تر در میان محصولات شما از یک فیلتر استفاده کنند.
- عامل کاربر به وبسایتها کمک میکند محتوایی را نشان دهند که با سیستم کاربر سازگار است.