در این حالت، برای جلوگیری از نمایش صفحاتی که علاقهای به نمایش آنها در نتایج گوگل نداریم از فایل robots.txt کمک میگیریم و آدرس این گونه صفحات را از دسترس خزندههای گوگل خارج میکنیم. هنگامی که فایل robots.txt خود را در رایانه خود ذخیره کردید، آماده است تا آن را در اختیار خزنده های موتورهای جستجو قرار دهید. هیچ ابزاری وجود ندارد که بتواند در این مورد به شما کمک کند، زیرا نحوه آپلود فایل در سایت شما به معماری سایت و سرور شما بستگی دارد. در مبحث شبکه، پروتکل قالبی برای ارائه دستورالعملها یا دستورات است.
با این دستور، ربات های موتورهای جستجو به هیچ وجه نمیتوانند وب سایت را بخزند. یک ربات خوب، مانند یک خزنده وب یا یک ربات فید خبری، سعی میکند قبل از مشاهده هر صفحه دیگری در یک دامنه، ابتدا از فایل robots.txt بازدید کند و دستورالعمل های آن را دنبال کند. ربات بد یا فایل robots.txt را نادیده میگیرد یا آن را بررسی میکند تا صفحات وب ممنوعه را پیدا کند. اگر مایل هستید که تنها تعداد محدودی از صفحات سایت شما در موتورهای جستجو ایندکس نشوند، پیشنهاد میکنیم به جای تغییر در فایل robots.txt از تگ noindex در هدر صفحه موردنظر استفاده کنید. Robot.txt یک فایل متنی است که برای سئو استفاده میشود و حاوی دستوراتی برای روباتهای فهرستکننده موتورهای جستجو است که صفحاتی را مشخص میکند که میتوانند یا نمیتوانند ایندکس شوند.
جدول زیر نحوه برخورد ربات Googlebot با فایلهای robots.txt را برای کدهای وضعیت مختلف HTTP خلاصه میکند. نقش اصلی آن بهینه سازی نرخ خزش است و اینکه به ربات ها بگویید کجا را کراول کنند و کجا را کراول نکنند تا فرصت کراول برای صفحات مهم تر ایجاد شود. اگر برای ایندکس کردن تمام صفحات خود با مشکل مواجه هستید، ممکن است با مشکل بودجه crawl مواجه شوید. با مسدود کردن صفحات بیاهمیت با robots.txt، گوگل بات میتواند بیشتر بودجه خزشِ شما را صرف صفحاتی کند که واقعاً مهم هستند. در مثال بالا همه رباتهای خزنده از دسترسی به تمامی آدرسهایی که دارای کاراکتر ؟ هستند منع شدهاند.
این کار به این دلیل کار می کند که فایل robots.txt همیشه باید در فهرست اصلی وب سایت قرار گیرد. این فایل به عنکبوت های خزنده گوگل و موتورهای جستجو می گوید که چه صفحاتی را خزش و فهرست بندی نکنند. Robots.txt در واقع یک فایل است با پسوند TXT که به ربات ها و خرنده های موتورهای جستجو این را می گوید که در کدام صفحات یا بخش های یک سایت حق خزیدن ندارند. بعد از انتخاب وبسایت به صفحهای هدایت میشوید که آخرین محتوای فایل Robots.txt که گوگل دریافت و بررسی کرده را نمایش میدهد.
در این مثال به راحتی میتوان اینکار را انجام داد تا مشکل حل شود. برخی از موتورهای جستوجو مانند گوگل رباتهای خاص برای خود داند. گوگل رباتهایی دارد که عکس را جستوجو میکنند و رباتهایی نیز دارند که به سراغ محتواها میروند. نیازی نیست برای این دو ربات جداگانه دستورالعمل مشخص کنیم، اما دادن دستورالعمل میتواند، نحوهی خزیدن این رباتها در سایت شما را تنظیم و کنترل کند. دستور دیر خزیدن یا crawl-delay، مقداریست که توسط برخی از رباتهای خزنده وب پشتیبانی میشود. از آنجایی که این دستور در استاندارد وب رباتها تعریف نشده است، هر ربات میتواند به شکل خاصی آن را تغبیر کند.
اگر فکر میکنید نوشتن فایل ربات کار پیچیده و سختی است باید بگوییم که اشتباه فکر کردید، زیرا بسیار ساده و کوتاه می توانید این فایل با ارزش را بنویسید. دیسالو بودن فولدر وردپرس ادمین، برای امنیت سایت و یا سئو، مفید هست یا مضر. به احتمال زیاد مشکل شما از هاست و دسترسی فایل هست که اجازه ساخت رو نمیده.شما میتونید طبق آموزشی این فایل رو به صورت دستی بسازید و در هاستتتون آپلود کنید. اگر شما فایلی بانام Robots.txt مشاهده نمیکنید، به این معناست که سایت شما آن فایل را ندارد.
در مرحله دوم، بعد از اینکه مشخص کردیم دقیقا با چه رباتی طرف هستیم، حالا باید مشخص کنیم که محدودیتهای این ربات چیست و چه صفحات و منابعی از وبسایت شما را نباید بررسی کند. با اینکار در حقیقت اعلام میکنیم که تمام رباتها مد نظر ما هستند و تمام رباتها باید به دستورات ما توجه کنند و دیگر نیازی نیست اسامی تک تک رباتها را بنویسیم. اگر نگران یادگیری این دستورات هستید، باید خیالتان را راحت کنم، چرا که این دستورات خیلی خیلی سادهتر از تصورتان هستند و در کل تنها با 4 دستور زیر به راحتی میتوانیم تمام اقدامات مورد نیاز در فایل robots.txt را انجام دهیم. هرکدام از این رباتها با توجه به شناختی که از سایت ما پیدا میکنند با نرخ مشخصی به نام “Crawl Budget” به سایتمان سر میزنند و تغییرات آن را بررسی میکنند. حالا که تا حدودی متوجه شدیم که کلیت این فایل چیست، بد نیست که نگاهی به نقشهای فایل robots.txt و دلایل اهمیت آن بپردازیم و دقیقا مشخص کنیم که چرا سایتمان باید حاوی فایل robots.txt باشد.
آیا تمامی رباتهای موجود در اینترنت از فایل txt پیروی میکنند؟
یک ربات خزنده وب از خاصترین مجموعه دستورالعمل ها در فایل robots.txt پیروی میکند. اگر دستورات متناقضی در فایل وجود داشته باشد، ربات از دستور granular بالاتر پیروی میکند. فقط فراموش نکن من بارها در آموزش سئو وبین سئو گفتم که site map سایت مپ ات را هم داخل robots.txt به گوگل معرفی کن. یعنی چی؟ یعنی اینکه یک تایمی ربات های گوگل برای هر سایت در نظر می گیرند تا در داخلش خزش کنند. شما با دسترسی ندادن به صفحات غیر عمومی ات این تایم را بیشتر می کنی برای صفحاتی که باید ببیند.
توجه کنید که اگر سایت شما فایل Robots.txt نداشته باشد هم رباتهای گوگل کار خودشان را میکنند. اگر چنین فایلی وجود نداشته باشد، ربات بدون هیچ محدودیتی به تمام بخشهای در دسترس سر میزند. Crawl Budget در حقیقت تعداد صفحاتی از وب سایتتان است که ربات گوگل در یک روز آنها را خزیده و بررسی میکند. بودجه شما، یا همان تعداد صفحاتی که توسط Googlebot مشاهده می شوند، بر اساس حجم وبسایت شما (تعداد صفحات)، سلامت آن (عدم بروز خطا) و تعداد بکلینکهای سایتتان تعیین میشود. در صورتی که شما هم قصد دارید تا سئو سایت خود را به صورت کاملا حرفه ای بهینه سازی کنید بهتر است که با تمامی جنبه های مختلف فایل robots.txt آشنا شوید و از نیروهای متخصص برای پیاده سازی این فایل استفاده کنید. در حال حاضر موتور جستجوی گوگل از حداکثر سایز 500 کیلوبایت برای فایل robots.txt پشتیبانی می کند.
بررسی و کنترل محتوای به وسیله تگ ربات های جدید گوگل
در این شرایط است که برای بهینه سازی عملکرد سایت، باید ربات های موتور جستجوی گوگل را محدود کرد؛ برای انجام این کار هم باید از فایل Robots.txt استفاده کرد. فایل Robots.txt به شما کمک نمیکند تا یک URL را از ایندکس موتورهای جستجو حذف کنید و همچنین از موتورهای جستجو در برابر اضافه کردن یک URL جلوگیری نمیکند. مجله خبری سئو پس فایل ربات صرفا برای جلوگیری از کراول نیست و موتورهای جستجو در هر صورت صفحات شما را ایندکس و کراول میکنند اما با فایل ربات به آنها اطلاع میدهید که این صفحات را در نتایج جستجو نمایش ندهد. اعمال تغییرات ناخواسته در این فایل میتواند کل سایت یا بخش بزرگی از سایت شما را از دسترس موتورهای جستجو خارج کند.
- این فایل بخشی از پروتکل ردگیری ربات های موتورهای جستجو می باشد.
- اگر بتوانید فایل robots.txt خوبی ایجاد کنید، میتوانید به موتورهای جستجو (به خصوص Googlebot) بگویید که کدام صفحات را مشاهده نکند.
- موتور جستجوی گوگل چندین نوع روبات مختص به خود را دارد که معروفترین آنها بانام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را عهدهدار است.
- از آنجایی که این دستور در استاندارد وب رباتها تعریف نشده است، هر ربات میتواند به شکل خاصی آن را تغبیر کند.