فایل Robots txt چیست؟ راهنمای کامل نحوه ساخت فایل Robots.txt-سئو سمروش

موتور‌های جستجوگر شناخته شده نظیر گوگل، بینگ و… این توانایی را دارند که با بررسی محتویات فایل Robots.txt درک بهتری نسبت به ساختار یک سایت پیدا کنند و از برخی دستورات داده شده پیروی کنند. Robots.txt مخفف شده عبارت Robots Exclusion Protocol می‌باشد که به معنی پروتکل حذف ربات می‌باشد. موتورهای جست‌وجو برای خزیدن در سایت‌ها لینک‌ها را دنبال می‌کنند و از این سایت به سایت‌های دیگر می‌روند تا میلیاردها صفحه و لینک‎‌های دیگر را کشف کنند. برخی این حرکت موتورهای جست‌وجو را به عنکبوت نسبت داده‌اند و نامش را گذاشته‌اند. در همین حال یک ربات کراولر موتورهای جست‌وجو، پس از ورود به سایت و قبل از Spidering، به دنبال فایل Robot.txt سایت می‌گردد. با نوشتن فایل Robots.txt می‌توانید میزان ورود ربات‌ها به سایت خود جهت ایندکس صفحات را محدود سازید و به دنبال آن نیز سرعت بارگذاری صفحات سایت را افزایش دهید.

چند نکته که اگر به آن‌ها توجه نکنید خرابکاری می‌کنید!

سوالی که شاید برای شما هم پیش بیاید این است که این فایل در کجا قرار دارد. یا بهتر است بگوییم در کجا باید بدنبال این فایل بگردیم؟ پاسخ این سوال بسیار ساده است. دقت داشته باشید که اگر این فایل در هاست شما موجود نبود می توانید خودتان آن را ایجاد کنید. پیشنهاد می کنم ببینی این ارور 404 از وردپرس میاد یا از سمت وب سرور.

کاربر عامل یا user agent :

بهترین روش برای اینکار استفاده از ابزار تست فایل robots.txt گوگل سرچ کنسول است. درصورتی که از افزونه یواست برای سئو سایت وردپرسی خود استفاده می‌کنید، این افزونه برای مدیریت مجله خبری سئو و ویرایش فایل ربات سایت‌تان یک بخش ویژه را در نظر گرفته است. برخی از سیستم‌های مدیریت محتوا همانند وردپرس، به صورت خودکار اقدام به ایجاد فایل robots.txt می‌کنند.

راهنمای جامع استفاده از فایل Robots.txt – ویژگی ها و موارد استفاده

وقتی صحبت از URL های واقعی در فایل Robots.txt می‌شود، آدرس‌ها و دستورهای کاملاً پیچیده‌ای در این فایل استفاده می‌شوند. با این حال امکان تطبیق الگو برای طیف وسیعی از URL ها وجود دارد. موتور جست‌وجوهای گوگل و بینگ هردو از یک الگوی منظم برای بررسی URL ها در این فایل استفاده می‌کنند. فایل txt برای مخفی کردن اطلاعات خصوصی مناسب نیست و فقط باید دستورالعمل‌های ربات‌ها را در آن قرار داد. با استفاده از این کد شما به ربات‌ها اعلام می‌کنید که اجازه دسترسی به این فایل و بررسی آن را ندارند. با استفاده از این کد شما به ربات‌ها اعلام می‌کنید که همه صفحات و محتوای سایت را مجاز به بررسی هستند.

بازم ممنون بابت صبر و حوصلتون و اینکه سرتونو بدرد آوردم امیدوارم جوابی بمن بدید که مشکلات سایتمو حل کنه و راه حلاتون عملی باشه عین مقاله هاتون . و اگه توسط این قابلیت میشه من باید چکار کنم تا از دست این دسته ها و آدرس های قدیمی که ارور هستش راحت شم . از رتبه ۲ هزار گوگل به ۵۰ هزار نزول پیدا کردیم و بهتر بگم عین ۱۰ هزار صفحه ما شد ارور ۴۰۴ که طراحان جدید گفتن بعد از مدتی از بین میرن که نرفت تکرار میکنم از بین نرفت و یا اگه رفت بالای ۶ ماه طول کشید.

اگر در صورت باز کردن این صفحه با ارور 404 مواجه شوید یعنی چنین فایلی ساخته نشده است. اما در صورتی که بعد از وارد شدن به این صفحه با کدهای User-agent و … مواجه شدید، یعنی سایت شما این فایل را دارد. در این حالت باید از طریق FTP و یا کنترل پنل هاست سایت خود، به قسمت مدیریت فایل رفته و در روت اصلی هاست فایل robots.txt را پیدا کنید. سپس باید آن را توسط یک ویرایشگر متنی آنلاین اجرا کرده و آن را ویرایش کنید.

در زمان پیاده سازی این قطعه کد در فایل robots.txt توجه داشته باشید که این کار باعث قطع شدن دسترسی تمامی ربات های گوگل می شود. روش های مختلفی وجود دارد که شما با پیاده سازی آنها در فایل robots.txt می توانید دسترسی موتورهای جستجو به بخش های مختلف سایت خود را فراهم کنید. دلیل اول این است که شما نمی خواهید درباره تنظیماتی که برای خزیدن ربات های موتورهای جستجو در وب سایت خود اعمال کرده اید ابهامی وجود داشته باشد. با این حال باید توجه داشت که موتورهای جستجو گوگل و بینگ در این جا اجازه دسترسی خواهند داشت چرا که طول کاراکترهای دستورالعمل بیشتر از Allow می باشد. شما می توانید به موتورهای جستجو بگویید که به فایل ها، صفحات یا لینک های خاصی از وب سایت شما دسترسی نداشته باشند.

  • اگر شما اعتقاد دارید در بودجه خزش سایت شما اشکالاتی وجود دارد پس بلاک کردن موتورهای جستجو از بررسی قسمت‌های کم اهمیت سایت، از هدر رفت بودجه خزش جلوگیری می‌کند.
  • درصورتی که شما اقدام به ایجاد یک فایل حقیقی به نام robots.txt در ریشه هاست سایت خودتان کنید، فایل ربات مجازی به صورت خودکار از کار می‌افتد و فایل حقیقی آپلود شده توسط شما جایگزین آن خواهد شد.
  • این بدان معناست که اگر از دستور شما پیروی کنند، برخی یا کل صفحات را بررسی نمی کنند.
  • در واقع اگر example.com یک robots.txt داشته باشد اما a.example.com نداشته باشد قوانینی که بر روی example.com اعمال می‌شود روی a.example.com اعمال نخواهد شد همچنین هر پروتکل و پورت به robots.txt خودش نیاز دارد.