یکشنبه ۱۱ تیر ۰۲ ۱۴:۴۶
آشنایی با دستورها فولدر Robots.txt و معانیشان
کلاً ۴ فرمان اساسی در فولدر Robots.txt نیاز داریم:
User-agent: برای معلوم کردن رباتی که اوامر برای آن نوشته شده.
Disallow: بخشهایی که ربات اجازه درخواست آموزش سئو مشهد یا پژوهش آن را ندارد.
Allow: نصیبهایی که مجاز به درخواست و بازرسی است.
Sitemap: برای علامت دادن آدرس فولدر نقشه سایت به رباتها.
به دنبال توضیح می دهیم که چطور بایستی از این دستورات مصرف شود.
۱. مشخص و معلوم کردن ربات با User-agent
از این دستور برای هدفگیری یک ربات خاص استعمال میشود. از این دستور میاقتدار به دو شکل در فایل robots.txt استفاده کرد.
در صورتیکه میخواهید به تمام رباتهای خزنده یک دستور یکسان بدهید، کافی می باشد پس از عبارت User-agent از علامت ستاره (*) استفاده کنید. نشان ستاره به معنای «کلیه چیز» است. مانند مثال زیر:
*:User-agent
فرمان بالا بدین مضمون است که اوامر آجل، برای آموزش سئو در مشهد کلیه رباتهای کاوشگر یکسان کار کند.
اما اگر می خواهید فقط به یک ربات خاص مانند ربات گوگل (GoogleBot) دستور خاصی را بدهید، دستور شما باید به طور ذیل نوشته شود:
User-agent: Googlebot
کد بالا بهاین مضمون می باشد که \"اجرای دستورات پوشه، صرفا برای ربات گوگل الزامی است.
۲. معلوم کردن صفحه ها و قسمتهای غیرمجاز با Disallow
امر Disallow به رباتها میگوید که چه فولدرهایی از وبوب سایت شمارا نباید تحقیق کنند. درواقع این دستور، بیانگر آدرسهایی است که میخواهید از رباتهای جستجو پنهان بماند.
قطعا بخوانید: با یادگیری اصول و فنون گفتوگو؛ برنده مذاکرات شوید
به عنوان مثال چنانچه نمیخواهید موتورهای جستجو، تصاویر وبوبسایتتان را ایندکس کنند، میتوانید تک تک تصاویر وبسایت را داخل یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید.
فرض کنیم که آحاد این تصاویر را به داخل فولدری به نام Photos منتقل کردهاید. برای آنکه به گوگل بگویید که این تصاویر را ایندکس نکند، باید دستوری مانند پایین را بنویسید:
* :User-agent
Disallow: /photos
دستور / پس از Disallow به ربات گوگل می گوید بایستی وارد پوشهای در ریشه فایل شوی. اسم این پوشه photos است.
این دو خط در فایل robots.txt، به هیچ یک از رباتها اجازه ورود به فولدر تصاویر را نمیدهد. در کد دستوری بالا، بخش «User-agent: *» میگوید که اجرای این فرمان برای کلیه رباتهای جستجو الزامی هست. قسمت Disallow: /photos بیانگر این است که ربات، اجازه ورود یا ایندکس فولدر تصاویر سایت را ندارد.
نکته: نیازی نیست آدرس را به صورت کامل جلوی دستور Allow یا Disallow بنویسید.
۳. مشخص و معلوم کردن بخشهای مجاز برای رباتها با Allow
همانطور که میدانیم ربات خزنده و ایندکس کنندۀ گوگل، Googlebot نام دارااست. این ربات نسبت به سایر رباتهای کاوش گر، دستورات بیشتری را متوجه میشود. ضمن امرها \"User-agent\" و \"Disallow\"، ربات گوگل دستور دیگری به نام \"Allow\" را نیز ادراک میکند.
امر Allow به شما امکان میدهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را داراست. برای شعور بهتر این دستور، اجازه بدهید که از مثال گذشته به کارگیری کنیم، بهتر نیست؟
در مثال قبلی رشته کدی را نوشتیم که به رباتهای جستجو، اجازه دسترسی به تصاویر وب سایت را نمیداد. تک تک تصاویر وبسایت را باطن یک فولدر به نام Photos قرار دادیم و با دستور ذیل یک فایل robots.txt ساخت کردیم:
* :User-agent
Disallow: /photos
هم اکنون تصور کنید درون این فایلی ما که در هاستینگ وب سایت جای دارد، تصویری به نام novin.jpg وجود دارد که می خواهیم Googlebot آن را ایندکس کند. با استعمال از امر Allow خواهیم توانست به ربات گوگل بگوییم که این عمل را انجام دهد:
* :User-agent
Disallow: /photos
Allow: /photos/novin.jpg
این فرمان به ربات گوگل میگوید علی رغم اینکه فولدر Photos از دسترس رباتها خارج شدهاست، اجازه مشاهده و ایندکس فایل novin.jpg را دارد.
۴. نقشه تارنما
گوگل برای وبمسترها و صاحبان تارنماها تعدادی منش برای دسترسی به نقشه وب سایت گذارده هست. یکی اینراهها نوشتن آدرس پوشه در فایل هست.
به طبع بخوانید: لینک سازی داخلی چیست و چهطور ایفا می شود؟
Sitemap: https://example.com/sitemap.xml
هیچ الزامی وجود ندارد که آدرس نقشه سایت را از این شیوه به رباتهای گوگل نمایش دهید. بهترین منش ارائه نقشه تارنما به گوگل به کار گیری از ابزار سرچ کنسول هست.
همان گونه که می بینید دیجیکالا دستور وبسایت مپ را در فایل robots.txt خود قرار داده است.
در قسمت آنگاه توضیح می دهیم که چطور یک پوشه Robots.txt بسازیم، آن را در جای درستش قرار دهیم و تست کنیم تا رباتهای گوگل به آن دسترسی داشته باشند.
- ۱۴ بازديد
- ۰ نظر