فایل robots txt چیست؟ آموزش ساخت و استفاده در سئو-سئو سمروش

به طور خلاصه، فرض کنید که یک قطعه از محتوا را با استفاده از iframe جاسازی کرده ایم. آن قطعه از محتوا اغلب، اگر مربوط به رسانه ای باشد، دستورالعملی برای عدم فهرست بندی خواهد داشت. اما وقتی کدهای مربوطه را در صفحات خود جاسازی می کنید، ممکن است گوگل پیشنهاد دهد که به دلیل اینکه محتوای جایگذاری شده بدون فهرست است، این کار را انجام ندهید. صفحه ای را که ما به عنوان مثال در آن کدهای مربوطه را جایگذاری می کنیم به طور حتم ایندکس خواهند شد. در این بخش، گوگل به شما کنترل بیشتری می دهد تا بگویید، صفحه ای را که در آن کدهای مربوطه جایگذاری شده اند را چگونه فهرست کنید.

به روز رسانی robots.txt برای موتورهای جستجو

با استفاده درست از فایل robots.txt می توانید به ربات‌های جستجو بگویید که Crawl Budget سایت‌تان را به درستی مصرف کنند. همین قابلیت است که اهمیت فایل robots.txt را در سئو دوچندان می‌کند. وقتی ربات‌ها می‌خواهند صفحه‌هایی از سایت را بررسی کنند، اول فایل Robots.txt را می‌خوانند. در این فایل با چند دستور ساده مشخص می‌کنیم که ربات اجازه بررسی کدام مجله خبری سئو صفحه‌ها را دارد و کدام صفحه‌ها را نباید بررسی کند. موارد مشابه بسیار زیادی دیده شده است که استفاده از دستورالعمل های نادرست و ایجاد تغییرات ناگهانی در فایل robots.txt باعث بروز مشکلات عمده در سئو سایت شده است. موتور جستجوی گوگل تنها اجازه دسترسی به /not-launched-yet/ را ندارد اما اجازه دسترسی به /secret/ و /test/ برای آن فراهم شده است.

یعنی امکان دارد دو ربات متعلق به یک موتور جستجو یا هر سرویسی، یکی از دستورات پیروی کند و دیگری پیروی نکند. هدر دادن منابع سرور برای این صفحات، باعث از بین رفتن Crawl Budget شما می‌شود. به این ترتیب صفحات ارزشمند و مهمی که واقعاً نیاز به ایندکس شدن دارند خیلی دیرتر به نتایج جستجو راه پیدا می‌کنند.

  • اهمیت استفاده از فایل Robots.txt برای یک سایت از آن جهت است که شما می‌توانید مدیریتی درست و ساختارمند بر روی سایت خود و محتوا‌ها و صفحات مختلف آن داشته باشید.
  • برخی از موتورهای جستجو چندین خزنده برای بررسی سایت ها دارند، به عنوان مثال گوگل از خزنده Googlebot برای سرچ های ارگانیک و از خزنده Googlebot-Image برای جستجوی تصویری استفاده می کند.
  • دستور Disallow از پرکاربردترین دستورات در فایل robots.txt است.
توجه داشته باشید که تفسیر آنها از این دستورالعمل اندکی متفاوت می باشد و به همین علت نیز بهتر است که قبل از استفاده حتما اسناد موجود در وب سایت این موتورهای جستجو را مطالعه کنید. در مثال بالا هیچ یک از موتورهای جستجو اجازه دسترسی به پوشه /media/ را ندارند به جز فایلی که در مسیر /media/terms-and-conditions.pdf قرار گرفته است. با استفاده از این دو دستورالعمل شما می توانید به موتورهای جستجو بگویید که می توانند به یک صفحه یا فایل خاص در پوشه های مختلف سایت شما دسترسی پیدا کرده و در غیر این صورت مجاز به دسترسی به این فایل ها نیستند. به عنوان مثال ربات های موتور جستجوی گوگل از Googlebot برای انجام این کار استفاده می کنند، ربات های یاهو از Slurp و ربات های موتور جستجوی بینگ نیز از BingBot استفاده می کنند. زمانی که قصد ایجاد تغییرات در robots.txt سایت خود را دارید کاملا مراقب باشید چرا که فایل robots.txt قابلیت این را دارد که قسمت های بزرگی از سایت شما را از دسترس موتورهای جستجو خارج کند. شما می توانید از این فایل برای جلوگیری از عملیات خزیدن موتور های جستجو در برخی از لینک ها و صفحات خاص وب سایت خود استفاده کنید.

البته در حالی که تعداد این صفحات کم باشد یا این فرآیند برای شما دشوار نباشد. طبق چیزی که گفته شد (عدم امکان ویرایش مستقیم فایل robots.txt در وردپرس) تنها راهی که بتوان فایل robots.txt را ویرایش کرد ساختن یک فایل جدید از آن و آپلود کردن آن در روت اصلی هاست سرور سایت است. درواقع وقتی یک فایل جدید با این عنوان ساخته شود، وردپرس به صورت خودکار فایل مجازی robots.txt را غیرفعال می‌کند. فایل Robots.txtدر این فایل طبق دستوراتی که در بالا گفته شد، محدودیت و دسترسی ها را برای ربات ها مشخص کنید.حال که با ساختن آن آشنا شدید باید آن را داخل هاست خود بارگذاری کنید. برای اینکار فقط کافیست فایل ها را در Root قرار دهید و اصلا نباید آن ها را در صفحات یا دایرکتوری ها قرار دهیم.

این دستور به ربات گوگل می‌گوید که اجازه مشاهده و ایندکسِ فایل seo.png را دارد، علی‌رغم اینکه فولدر Photos از دسترس ربات‌ها خارج‌شده است. در هنگام طراحی سایت، مطمئن شوید که از این فایل در هیچکدام از URL هایی که می خواهید توسط گوگل ایندکس شوند و نتایج آنها نمایش داده شوند، استفاده نکرده اید. با استفاده از گوگل وبمستر یا همان کنسول جستجوی گوگل شما می توانید بررسی کنید که چه تعداد و چه صفحاتی از سایتتان فهرست بندی شده اند. تعیین تأخیر خزیدن به منظور جلوگیری از بارگیری بیش از حد سرورهای سایت، زمانی‌که ربات‌های خزنده در یک زمان چندین URL را بارگیری می‌کنند. وباید در کل بشینم همه لینک هارو درست کنم و به صفحات درست خودشون ریدایرکت کنم بجز این فکری به ذهنم نمیرسه . دستورات فایل ربات شما از ایندکس جلوگیری نمی کند و می بایست مابقی تنظیمات وردپرس را برای این مورد بررسی نمایید.

همانطور که می‌دانیم ربات خزنده و ایندکس کنندۀ گوگل، Googlebot نام دارد. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک می‌کند. همانطور که گفتیم مهم‌ترین ربات‌ها در اینترنت ربات‌های موتور جستجوی گوگل هستند پس ما در ادامه مقاله هرجا می‌گوییم ربات منظورمان ربات‌های گوگل است. در مثال بالا هیچ یک از موتورهای جستجو به مسیری که شامل پوشه /wp-admin/ است دسترسی ندارند و همینطور دو نقشه سایت را نیز تعریف کرده ایم که در آدرس های بیان شده موجود می باشند.

مراقب فایل robots.txt سایت‌تان باشید