از متا تگهای ربات نمی توان برای فایل های غیر HTML مانند تصاویر، فایل های متنی یا اسناد PDF استفاده کرد. از طرف دیگر از تگ های X-Robots می توان با استفاده از دستورات .htaccess برای فایل های غیر HTML استفاده کرد. هر robots.txt فقط میتواند یک منبع را پوشش دهد.مثلا برای یک وبسایت که دارای چندین زیر دامنه است هر زیر دامنه باید یک robots.txt داشته باشند. در واقع اگر example.com یک robots.txt داشته باشد اما a.example.com نداشته باشد قوانینی که بر روی example.com اعمال میشود روی a.example.com اعمال نخواهد شد همچنین هر پروتکل و پورت به robots.txt خودش نیاز دارد. قابل استفاده برای یک خزنده یا گروهی از خزنده که در فایل robots.txt گنجانده شده است. خزنده یا Crawler یک نوع ربات است که با شناخت و دنبال کردن آدرس ها، صفحات جدیدی را شناسایی و برای ایندکس به گوگل معرفی میکند.
آکادمی آموزشی نوین
همواره از عدم وجود خطا در فایل robots.txt خود اطمینان حاصل کنید. ولی احتمالا نمیدانید واقعا چه قدرتی در این فایل به ظاهر ساده نهفته است. اگر فایل به درستی بارگذاری شده باشد گزینه قرمز رنگ تست به رنگ سبز تغییر خواهد کرد. برای کامنت بعدی من نام، ایمیل، و وبسایت من را در این مرورگر ذخیره کن. مواردی نیز وجود دارد که در آن شما نمی خواهید هیچ گونه بودجه ای را برای ورود به صفحه Google با برچسب noindex هدر دهید.
تکتک ما امیدواریم که با تلاش خود، تاثیری هر چند کوچک در بهبود کیفیت وب فارسی داشته باشیم. هر آنچه برای کنترل این رباتها فضول اما مفید لازم بود را به زبان ساده توضیح دادیم. حالا باید این فایل را در سرور میزبان به جای فایل قبلی قرار دهید. بعد از این که فایل را ساختید آن را باید در سرور میزبان سایت آپلود کنید. حالا این فایل را باز کنید و طبق راهنمایی که گفته شد، دستورات لازم را در آن بنویسید.
سایت مپ، سایت شما نیز در دستورات فایل Robot.txt قرار میگیرد که به رباتهای موتورهای جستوجو میگوید فایل XML نقشه سایت کجاست. پس برای اینکه به آنها بگویید صفحهای را ایندکس نکنند باید از دستور Disallow و برای اینکه بگویید بعدا این صفحه را کراول کنند از دستور Crawl-delay باید استفاده کنید. باید بدانید که موتورهای جستوجو رباتهای متفاوتی دارند به همین دلیل با کد User Agent و نام ربات مورد نظر، میتوانیم ربات خاصی را مشخص کنیم. البته میتوانیم تمامی رباتهای موتورهای جستوجوی مختلف را هدف قرار دهیم و به اصطلاح از Wild card استفاده کنیم. اگر بتوانید فایل robots.txt خوبی ایجاد کنید، میتوانید به موتورهای جستجو (به خصوص Googlebot) بگویید که کدام صفحات را مشاهده نکند.
محدود کردن ایندکس فایلهای خاص
اجازه دسترسی به یک خزنده را بدهیدفقط googlebot-news ممکن است کل سایت را بخزد. فایل robots.txt باید یک فایل متنی ساده با کدگذاریUTF-8باشد و خطوط باید با CR یا CR/LF یا LF از هم جدا شوند. Crawl-delay به موتور های جستجو دستور می دهد که صفحه ای را با تاخیر ایندکس کنند؛ این دستور مجله خبری سئو زمانی کاربرد دارد که صفحه شما دارای مشکل است و می خواهید آن را برطرف کنید. به طور کلی، دو نوع دستور برای این فایل ها داریم؛ اولین دستور برای محدود کردن موتور های جستجو از کراول کردن است و دومین دستور هم برای اجازه دادن به موتور های جستجو برای کراول کردن خواهد بود.
فایل Robots.txt چیست و چه کارایی دارد؟به همراه تگ ربات های جدید گوگل 2022زمان افزایش دانش شما: 13 دقیقه
در این صفحه افزونه Yoast SEO فایل فعلی Robots.txt شمارا نمایش میدهد. درصورتیکه فایل Robots.txt ندارید، میتوانید به کمک افزونه یوست سئو آن را ایجاد کنید. Robots.txt یک گزینه برای به حداقل رساندن محتوای تکراری موجود برای خزیدن است.
- دستور sitemap که در ادامه این دستور آدرس نقشه سایت میآید یک روش برای نشان دادن نقشه سایت به موتور جستجو است.
- صفحات غیرمجاز لزوماً “پنهان” نیستند – آنها فقط برای کاربران عادی Google یا Bing مفید نیستند، بنابراین به آنها نشان داده نمیشوند.
- طراحان سایت ما در «مه ویژن» با درنظر گرفتن نیاز کسبوکار شما، وقت و هزینهی مورد نظر شما، بهترین و مناسبترین سایت فروشگاهی را برای شما طراحی میکنند.
- همچنین این ابزار یک ویرایشگر آنلاین نیز میباشد که میتوانید محتویات آن را با استانداردهای پیشنهادی تغییر دهید.
- به عنوان مثال فایل robots.txt سایت گروه دیجیتال نردبان از اینجا قابل مشاهده است.
- این محلی پیشفرض است که رباتها و خزندهها آن را بررسی میکنند تا به دنبال این فایل باشند.
البته من اطلاعی از روند انتقال سایت تون ندارم، در هر صورت واضحه که ریدایرکت 301 به خوبی اعمال نشده. اگر آدرس صفحات قدیمی رو دارید یک بار همه رو به آدرس جدید ریدایرکت کنید. پیشنهاد اونا استفاده از افزونه ریدایرکت بود و حالا اینکه اینا درست میگن یا نه تا حد زیادی به نظر خودم درسته . اما دستور htaccess که شما می فرمائید رو بنده نمیدونم به چه شیوه ای عمل میکنه اگه شما میتونید تو این زمینه فیلم یا آموزشی ارائه بدبد که تست کنم ممنون میشم . راحتترین راه حذف کردن صفحهای از نتایج جستجو استفاده از دستورهای به اصطلاح متا تگ در قسمت هد صفحه است.