هر خزنده ای ممکن است سینتکس کد شما را متفاوت تفسیر کنداگرچه خزندههای وب معتبر دستورالعملهای موجود در فایل robots.txt را قبول میکنند، اما هر خزنده ممکن است دستورالعملها را متفاوت تفسیر کند. شما باید سینتکس مناسب برای آدرس دادن به خزنده های وب مختلف را بدانید زیرا ممکن است برخی دستورالعمل های خاصی را درک نکنند. دستور Disallow برای ایندکس نکردن کاربرد دارد؛ با این دستور شما به ربات های موتور جستجو می گویید که نمی خواهید صفحه یا بخش مورد نظر در سایتتان، ایندکس شود. بعد از اینکه public_html را باز کردید، فایل را به داخل آن بکشید؛ توجه داشته باشید که به عنوان مالک سایت، باید بتوانید به تمام قسمت های فایل دسترسی داشته باشید و آن را بخوانید، ویرایش کنید و بنویسید.
این کارها تنها می تواند از نمایش داده شدن این صفحات توسط موتورهای جستجو در لیست جستجوی آنها جلوگیری کند. استفاده از یک لینک canonical یا تگ meta robots نمی تواند از خزیدن موتورهای جستجو در این صفحات جلوگیری کند. این فایل به موتورهای جستجو می گوید که چگونه می توانند به بهترین شکل ممکن وب سایت شما را جستجو کنند. اگر تعداد صفحات ایندکس شده چیزی فراتر از تصور و انتظارتان بود در این حالت احتمالا به یک فایل robots.txt با قوانین و محدودیتهای مشخص نیاز دارید.
اگر وبسایت خود را به ابزار گوگل سرچ کنسول متصل کرده باشید، وقتی که ابزار تست را باز کنید از شما درخواست میکند که Property مورد نظرتان را انتخاب کنید. درصورتی که شما اقدام به ایجاد یک فایل حقیقی به نام robots.txt در ریشه هاست سایت خودتان کنید، فایل ربات مجازی به صورت خودکار از کار میافتد و فایل حقیقی آپلود شده توسط شما جایگزین آن خواهد شد. همچنین برخی از دستورات انحصاری رباتهای خاص هم برای بسیاری از رباتها، ناشناخته و غیر قابل درک است و به همین خاطر ممکن است برخی رباتها از این دستورات پیروی کنند و برخی دیگر به آنها توجهی نکنند. دقیقا همانطوری که حرف زدن به زبان چینی برای بسیاری از مردم جهان کاملا غیر قابل مفهوم و درک است. قبل از اینکه بخواهیم در فایل robots.txt سایتمان تغییراتی ایجاد کنیم، لازم است که با محدودیتهای این فایل آشنا باشیم. برای گذاشتن کامنت و یادداشت در داخل فایل ربات میتوانیم از علامت # استفاده کنیم، به این ترتیب جلوی هشتگ هرچیزی که بنویسیم توسط رباتها و خزندهها نادیده گرفته میشود.
- اگر دستورات متناقضی در فایل وجود داشته باشد، ربات از دستور granular بالاتر پیروی میکند.
- علاوه بر این شما می توانید با خالی گذاشتن فایل نیز این کار را انجام دهید.
- چک لیست سئو و تولید محتوا که در این مقاله سایت مه ویژن می خوانید، شما را تا حد خوبی با تمامی اقداماتی که باید برای سئوی سایت خود بکنید، آشنا می کند.
- این صفحه هیچ ارزشی برای ایندکس ندارد و گاهی ممکن است باعث محتوای تکراری هم شود.
وردپرس به صورت اتوماتیک این کار را از طریق تگهای متا انجام میدهد. قبل از هرچیز فایل robots.txt خود را بررسی و تست کنید تا مطمئن شوید بخش مهمی از سایت شما از طریق آن مسدود نشده باشد. اگر شما از سیستم مدیریت محتوای وردپرس و افزونه Yoast SEO استفاده کنید نیازی به بروز رسانی سایت مپ با انتشار هر مطلب یا بروزرسانی محتوا نخواهید داشتید این افزونه به صورت اتوماتیک تغییرات رو در سایت مپ اعمال خواهد کرد. همچنین، شما میتوانید فایل robots.txt خود را به سایت مپ xml لینک کنید.
آشنایی با دستورات فایل Robots.txt و معانیشان
در دنیای اینترنت، بیش از هزاران نرم افزار برنامه نویسی شده برای خزیدن داخل وب وجود دارند که به آنها رباتهای خزنده یا crawler گفته میشود. به کمک متا تگ noindex در هدر یک صفحه میتوان امیدوار بود که این صفحه مجله خبری سئو به صورت کامل از نتایج گوگل حذف خواهد شد. با توجه به محدود بودن این بودجه برای هر سایت، طبیعتا نباید اجازه دهیم بودجه خزش سایت ما صرف خزش محتواهایی از سایتمان شود که هیچ کمکی به افزایش ترافیک سایت ما نمیکنند.
بخش عمده ای از سئو وب سایت مربوط به ارسال سیگنال های مناسب به موتورهای جستجو است و این فایل یکی از بهترین راه های ارتباطی با موتورهای جستجو برای وب سایت شما می باشد. گوگل اعلام کرده است یک تگ روبات جدید در آینده پیش روی شما قرار خواهد گرفت که این تگ یرچسب indexifembedded نام دارد. این موضوع این امکان را در اختیار شما قرار خواهد داد که به کنترل تگ های خود بپردازید. در این بخش متوجه خواهید شد آیا گوگل قصد دارد صفحه ای را با محتوای جاسازی شده فهرست کند یا خیر. از طرفی این موضوع به گوگل اجازه خواهد دهد تا محتوای یک صفحه را در صورتی که در صفحه دیگری از طریق iframe یا تگ های HTML مشابه بارگزاری شده باشد را علیرغم دستور noindex، فهرست بندی کند. همانطور که قبلاً هم گفته شد Robots.txt در پوشه اصلی سایت قرار میگیرد.
و همینطور هر چیزی که بعد از “Disallow” شما آن را برای خزیدن ربات ها مسدود می کنید. دستورالعمل های متا نمی تواند برای منابع چندرسانه ای مانند PDF ها و تصاویر به خوبی Robots.txt عمل نماید. مثلا یک صفحه در دست ساخت دارید و یا اینکه یک صفحه برای ورود به بخش مدیریت سایت دارید. به این دلیل که گوگل خودش به راحتی می تواند کلیه صفحات مهم سایت را پیدا کرده بخزد و فهرست بندی نماید. بله وجود این فایل برای سئو بسیار مهم است و اگر آن را ندارید باید ایجاد کنید. درود بر شما، این فایل توسط افزونه های سئو مثل یوآست ساخته می شود.
استفاده از $ برای انتهای لینک ها
یک فایل robots.txt شامل دستورالعمل هایی برای تمامی موتورهای جستجو می باشد. Robots.txt تنها برای خزیدن بهتر رباتهای گوگل و دریافت نتایج بهینهتر استفاده شده و تأثیر آن در بهبود سئوی سایت است. از فایل Robots.txt برای جلوگیری از نمایش اطلاعات حساس مانند اطلاعات خصوصی کاربر در نتایج جستجو یا همان SERP ها استفاده نکنید. چرا که این اطلاعات با دیگر صفحات پیوند داشته و درنتیجه ممکن است همچنان ایندکس شده و یا اینکه ایندکس دیگر صفحات را هم با مشکل روبرو کنند. بعد از ایجاد و یا انجام اصلاحات در فایل ربات، باید از صحت تغییرات خود مطمئن شوید.