البته در حالی که تعداد این صفحات کم باشد یا این فرآیند برای شما دشوار نباشد. طبق چیزی که گفته شد (عدم امکان ویرایش مستقیم فایل robots.txt در وردپرس) تنها راهی که بتوان فایل robots.txt را ویرایش کرد ساختن یک فایل جدید از آن و آپلود کردن آن در روت اصلی هاست سرور سایت است. درواقع وقتی یک فایل جدید با این عنوان ساخته شود، وردپرس به صورت خودکار فایل مجازی robots.txt را غیرفعال میکند. فایل Robots.txtدر این فایل طبق دستوراتی که در بالا گفته شد، محدودیت و دسترسی ها را برای ربات ها مشخص کنید.حال که با ساختن آن آشنا شدید باید آن را داخل هاست خود بارگذاری کنید. برای اینکار فقط کافیست فایل ها را در Root قرار دهید و اصلا نباید آن ها را در صفحات یا دایرکتوری ها قرار دهیم.
- حتماً شما هم نمیخواهید که ربات خزنده گوگل برای مشاهده و ایندکس محتوای تکراری و کم ارزش، سرورهای شما را اشغال کند.
- پیکربندی صحیح فایل robots.txt یکی از اقدامات اساسی در بهینه سازی بودجه خزش و سئو سایت است.
- گوگل توصیه میکند سایت خود را به چند فایل نقشه سایت کوچکتر تقسیم کنید.
تمایلی به دسترسی رباتها به صفحات برچسب و نویسندگان سایت ندارید. بدین ترتیب تمامی صفحات موجود در وبلاگ از دسترس ربات بایدو خارج خواهد شد. اگر تا الان روی سئوی سایتت کاری نکردی، بهتره که از همین امروز شروع کنی. اگر مشکلی در فایل وجود نداشته باشد، دکمه قرمزرنگ Test به دکمه سبزرنگ Allowed تغییر پیدا میکند. اما اگر ایرادی در فایل دیده شود، لاین (دستور) مشکل دار هایلایت شده و مشخص میشود.
مسدود سازی تمام تصاویر برای ربات Google Imagesگوگل نمی تواند تصاویر و ویدیوها را بدون خزیدن در آنها فهرست کند. به طور مشابه، اگر رمزگذاری نویسه فایل robots.txt UTF-8 نباشد، Google ممکن است نویسههایی را که بخشی از محدوده UTF-8 نیستند نادیده بگیرد و قوانین robots.txt را نامعتبر کند. اما یک دستور اشتباه می تواند وضعیت کراول سایت را با خطر مواجه کند. بنابراین بغیر از این سه مورد، توصیه می کنیم به جای robots.txt از دستورات متا استفاده کنید. و احتمال وقوع فاجعه کمتری وجود دارد (مانند مسدود کردن کل سایت شما).
تمامی حقوق این سایت محفوظ و متعلق به شرکت طراحی سایت طرح و پردازش مبنا می باشد. هنگامی که فایل robots.txt خود را در اختیار دارید، زمان فعال سازی آن فرا رسیده است. تمامی حقوق مادی و معنوی این وبسایت متعلق به نوین می باشد و هر گونه کپی برداری پیگرد قانونی دارد. اگر فاصله مراجعه رباتها خیلی زیاد هست یعنی سایت یا سرور مشکلی داره که باید حل بشه. این فایل را فقط یکبار باید آماده کنید و دیگر کاری با آن نخواهید داشت مگر این که تغییرات مهمی در ساختار سایت ایجاد کنید. برای تست این که یک صفحه یا هر نوع فایلی توسط فایل Robots.txt بلاک شده، و همچنین اطمینان از این که خود فایل Robots در دسترس است،میتوانید از ابزار تست کننده در سرچ کنسول گوگل استفاده کنید.
دستور Disallow به رباتها میگوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند. در حقیقت این دستور، بیانگر آدرس صفحهای است که میخواهید از دید روباتها پنهان بماند. این بدان معناست که اگر از دستور شما پیروی کنند، برخی یا کل صفحات را بررسی نمی کنند.
برای خزیدن در بین وبسایتها موتورهای جستجو از لینکهای قرار داده شده در سایتها استفاده میکنند. درنتیجه در داخل یک سایت چرخیده و از یک سایت به سایت دیگر لینک میشوند. درنهایت خزندهها بین میلیاردها لینک و وبسایت میخزند و اطلاعات را جمعآوری میکنند. اما نباید فراموش کنید که اگرچه میتوان سایت مپ در داخل فایل ربات سایت به رباتهای موتور جستجو گوگل معرفی کرد اما این روش بهترین روش معرفی سایت مپ به رباتهای گوگل نیست. در اوایل مقاله با انواع رباتها و خزندههای سطح وب آشنا شدیم، حتی به صورت دقیقتر اسامی و وظیفه مهمترین رباتهای گوگل را هم بررسی کردیم. حالا به کمک دستور User-agent میتوانیم مشخص کنیم که دستورات ما دقیقا توسط چه رباتی باید اجرا شوند.
Robots.txt چیست؟
از آنجایی که هر یک از موتورهای جستجو مدت زمان محدودی برای خزیدن در یک وب سایت را دارند، شما باید سعی کنید که این زمان را صرف صفحاتی کنید که نیاز دارید تا در لیست موتورهای جستجو نمایش داده شوند. گوگل در این باره می گوید که تگ indexifembedded “به یک مشکل رایج می پردازد. این مشکل به طور کلی ناشران رسانه ها را نیز تحت تاثیر قرار خواهد داد. در حالی که در برخی مواقع مشاهده خواهید کرد که متقاضیان بخواهند محتوای خود را در زمانی مشخص در صفحات شخص ثالث جایگذاری کنند تا گوگل به ایندکس صفحات بپردازد.
این به این معنی است که گوگل فرض می کند که هیچ محدودیتی برای خزیدن وجود ندارد. اگر url ای از سایت را با این روش مسدود کرده باشید باز هم در نتایج جستجو خواهد بود این روش برای فایلهای ویدیویی، مجله خبری سئو فایلهای PDF و سایر فایلهای غیر HTML قابل قبول برای گوگل است. توجه داشته باشید فایل ربات در روت سایت باید با حروف کوچک انگلیسی نوشته شود و همینطور محتوای ربات به حروف بزرگ و کوچک حساس است.
در نهایت، ما با بررسی Crawl Rate و Crawl Demand، مقدار Crawl Budget یک وبسایت را تعریف میکنیم. در واقع Crawl Budget، تعداد URLهایی است که ربات گوگل میخواهد و میتواند ایندکس کند. اما باید حواستان باشد که این رباتها زبان آدمیزاد سرشان نمیشود! یعنی همینطور مثل چی سرشان را میندازند پایین و سر تا پای سایت را بررسی میکنند.
آشنایی با محدودیت های Robots.txt
این اطلاعات به وبسایتها کمک میکند اطلاعات سازگار با سیستم کاربر را نمایش دهند. موتوررهای جستجو این فایل را به صورت کش ذخیره می کنند اما به طور معمول در هر روز یکبار توسط موتورهای جستجو بروزرسانی و کش می شود. در صورتیکه در طول روز بیش از یکبار و به صورت مداوم این فایل را بروزرسانی می کنید می بایست آن را از طریق Google webmaster tools به گوگل معرفی نمایید. سال ۸۳ بود که اولین کسبوکار آنلاین خودم را راهاندازی کردم و تا امروز با علاقه زیادی مشغول کسبدرآمد آنلاین و راهاندازی کسبوکارهای مختلف در بستر وب هستم.