فایل robots.txt خود را پیدا کرده و آن را برای ویرایش باز کنید. اگر ترغیب شدید که نگاهی به فایل robots.txt سایت خودتان یا هر سایتی بیاندازید، پیدا کردنش سخت نیست. صاحبان وبسایت و وبمسترها میتوانند ورود رباتها به وبسایت را از راههای مختلفی کنترل کنند. مجله خبری سئو البته رباتهای دیگری متعلق به سرویس دهندههای مختلف اینترنتی هستند. بعد از خواندن این مقاله میتوانید هر نوع رباتی را فقط با دانستن نامش محدود و کنترل کنید. رباتها در واقع نرمافزارهایی هستند که به صورت خودکار صفحههای مختلف را باز و بررسی میکنند.
تاثیر این فایل بر سئو سایت
اگرچه گوگل صفحاتی که در فایل Robots.txt محدود شدهاند را خزش و ایندکس نمیکند، اما ممکن است از سایر صفحات، لینکهایی به این صفحات محدود شده وجود داشته باشند که موجب ایندکس شدن این صفحات شوند. چرا که ممکن است بتوانیم از طریق دیگری به خواستهای که به دنبال آن هستیم برسیم و از روشهای دیگری برای پنهان کردن صفحات سایتمان در نتایج موتورهای جستجو استفاده کنیم. فرض کنید که در وبسایتتان فولدری به نام mypic دارید که در آن یکسری تصاویر را نگهداری میکنید که علاقهای ندارید ربات جستجو تصاویر گوگل آن را بررسی کند و در نتایج خود نشان دهد. به این ترتیب ربات Googlebot که اصلیترین ربات گوگل است متوجه میشود که باید به دستورات خاصی توجه کند. ربات AdsBot-Google گوگل با دیدن این دستور متوجه میشود که باید از قواعد خاصی پیروی کند و دستورات نوشته شده در فایل ربات مخصوص او هستند.
کدام دایرکتوری ها یا فایل هایی که user-agent می تواند به آن دسترسی داشته باشد. هر مجموعه دستور از چندین قانون یا دستورالعمل (دستورالعمل) تشکیل شده است، یک دستورالعمل در هر خط. هر مجموعه دستور با یک User-agent خط شروع می شود که هدف مجموعه دستور ها را مشخص می کند. هر چیزی که بعد از “Disallow” می آید صفحات یا بخش هایی هستند که می خواهید مسدود کنید.
در صورتی که قصد این را دارید که بصورت قابل اطمینان یک صفحه را از نتایج جستجو حذف کنید بایستی از تگ noindex در صفحه مورد نظر استفاده کنید. برای مشاهده این تگ بایستی اجازه بررسی صفحه و مشاهده این تگ را به موتور جستجو بدهید پس بهتر است صفحه را در robots.txt بلاک نکنید. درج تمامی اطلاعات و صفحات یک سایت قطعا اتفاق خوب و ایده آلی برای وب مستران نیست. به همین دلیل با اعمال دستوراتی در فایل ربات می توان این مورد را اصلاح کرد.
فایل Robots.txt در کجا قرار دارد؟
به عنوان مثال در موتورهای جستجو گوگل و بینگ در صورتی که تعداد کاراکترهای استفاده شده در دستورالعمل Allow بیشتر باشد اولویت بیشتری نسبت به دستورالعمل Disallow خواهد داشت. اگر موتورهای جستجو قادر باشند تا یک سرور را overload کنند معمولا استفاده از این دستورالعمل در فایل robots.txt یک راه حل موقت برای حل این مشکل خواهد بود. این دستورالعمل در واقع مسیر دسترسی را برای موتورهای جستجو تعریف می کند و در صورتی که هیچ مسیری مشخص نشده باشد به طور کامل توسط گوگل و بینگ نادیده گرفته می شود. در صورتی که برای یک وب سایت هیچ robots.txt وجود نداشته باشد یا دستورالعمل های قابل اجرا در این فایل وجود نداشته باشند موتورهای جستجو معمولا کل وب سایت شما را جستجو می کنند. گوگل پیشنهادات مختلفی را در خصوص ربات های خزنده در موتورهای جستجو ارائه داد که برخی از آنها مورد تایید قرار گرفته و پیاده سازی شدند.
با تنظیم صحیح این فایل میتوانید فرایند خزش در سایت خود را بهینه سازی کنید و از فهرست شدن صفحات با محتوای تکراری جلوگیری کنید. برای مشاهده و ویرایش فایل ربات در وردپرس یا هر سایت دیگری به فایل منیجر در پنل هاست مراجعه کنید و درون فولدر public_html بدنبال فایل robots.txt بگردید. خوب است بدانید که بصورت پیش فرض این فایل وجود ندارد و برای ویرایش محتوای آن باید یک فایل متنی بصورت robots.txt ایجاد کنید و دستورات لازم را در آن قرار دهید. در صورت وجود این دستور موتورهای جستجو توانایی خزیدن هیچ یک از صفحات وبسایت را ندارند.
بدین ترتیب و با نوشتن این دستورالعملهای ساده میتوانید فعالیت رباتها در وب سایت خود را محدود کرده و کنترل کاملی بر آن داشته باشید. همانطور که تا اینجا متوجه شدید، برای حذف کامل یک فایل خاص مانند فایلهای PDF یا تصاویر از نتایج گوگل، میتوان به کمک محدودیتهای فایل robot اینکار را به صورت کامل انجام داد. به عنوان مثال در بسیاری از سایتها بخشی تحت عنوان پروفایل کاربران وجود دارد که نمایش این پروفایلهای کاربری در نتایج گوگل هیچ ترافیکی برای سایت مورد نظر ایجاد نمیکنند.
چرا باید بگویم که این فایل وجود دارد و اتفاقات داخل آن را گفتم. طراحان سایت ما در «مه ویژن» با درنظر گرفتن نیاز کسبوکار شما، وقت و هزینهی مورد نظر شما، بهترین و مناسبترین سایت فروشگاهی را برای شما طراحی میکنند. در این مقاله در رابطه با امکانات ویژهای که یک فروشگاه اینترنتی میتواند داشته باشد، صحبت کردهایم.
- مدیریت منابع مصرفی سرور توسط رباتها امری مهم است زیرا به جز رباتهای موتورهای جستجو، رباتهای بد دیگری وجود دارند که به دستورات موجود در فایل robots.txt توجه نمیکنند.
- Robot.txt یک فایل متنی است که برای بهبود سئو سایت از طریق مدیریت ایندکس گوگل، مورد استفاده قرار می گیرد.
- تیم وب داران با تکیه بر سه اصل آموزش , اجرا و مدیریت به صورت تخصصی در حوزه های طراحی سایت، سئو از سال 1394 فعالیت خود را با نام رایانه پویان آغاز کرد.
- در صورتی که از قبل به کمک این پلاگین یک فایل robots.txt هم برای سایتتان ایجاد نکرده باشید به صورت زیر به شما پیشنهاد ایجاد یک فایل جدید میدهد که باید بر روی آن کلیک کنید.
- وب سایتی که قصد تعریف کردن نرخ خزیدن یا نرخ درخواست در آن دارید را انتخاب کنید.
- از اینرو اگر میخواهید صفحات مربوط به رسانه سایت شما ایندکس شوند، در چنین حالتی از یک تگ noindex در صفحات استفاده می شود.
فایلهای robots.txt بیشتر برای مدیریت فعالیتهای رباتهای خوب مانند خزندههای وب در نظر گرفته شدهاند، زیرا رباتهای بد اصلاً دستورالعملها را دنبال نمیکنند. Txt بیشتر برای مدیریت فعالیتهای رباتهای خوب مانند خزندههای وب در نظر گرفته شدهاند، زیرا رباتهای بد احتمالاً دستورالعملها را دنبال نمیکنند. با لیست کردن برخی صفحات خاص و استفاده از Disallow در حقیقت شما به رباتهای مخرب و هکرها میگویید که این صفحات سایت مهم هستند و نباید به آنها دسترسی پیدا کنید و آنها به راحتی این صفحات را پیدا میکنند. اما اگر مسیرها و دایرکتوریها را دیسآلو کنید این رباتها صرفا میتوانند صفحهی دایرکتوری را ببینند و امکان دیدن سایر صفحات و وبپیجها وجود ندارد. توجه داشته باشید که حتما از یک صفحهی 404 یا صفحات مشابه برای دایرکتوریهایی که قرار نیست ایندکس شوند اما وجود دارند استفاده کنید. فایل robots.txt فایلی جهت مشخص کردن دسترسی موتورهای جستجو به وب سایت است.