این آموزش رو بخاطر اینکه ماخذی فارسی برای مطالعه کامل روی فایل robots.txt و آموزش نحوه ی ساخت و خواصش پیدا نکردم می گذارم و امیدوارم استفاده بشه
کلیت:
این فایل چه کار می کنه
ربات های جستجوگر را هشیار می کنه که برای جستجو چه فایل هایی را نباید باز کنند و چه فایل هایی رو می تونند باز کنند
خاصیتش چیه
برای کاربر مهمترین خاصیتش حفظ امنیته و حفظ حریم های شخصی به این وسیله کاربر می تونه مدارک خصوصی و عکس های خانوادگیش رو با آرامش روی هاستش نگه داری کنه
برای ربات ها هم خاصیتش اتلاف کمتر وقت و انرژی در یک سایته و این امر دومین خاصیت فایل رو ایجاد می کنه
موتورها رو تشویق می کنه به یافتن نتایج جستجو ها در سایت هایی که robots.txt دارند و این یعنی بالا رفتن در رتبه ی گوگل و آلکسا
این فایل باید در یک صفحه text only به وسیله ی notepad نوشته بشه و کد و علائم جدا کننده خاص مثل <> یا , و ” نیاز نداره ولی هر تکه از دستوراتش باید در یک سطر جدا باشه
این فایل بر پایه دو دستور Disallow و Allow و یک شاخصه User-agent نوشته می شه
Disallow محدوده ممنوع رو تعریف می کنه
Allow محدوده ی آزاد برای جستجو
User-agent محدوده کسانی که اجازه جستجو براشون مسدود یا باز شده
سایت گوگل سالم ترین نمونه ی این برگه رو نمایش داده
نگاه کنید:
http://www.google.com/robots.txt
و به این ترتیب کد زیر
User-agent: * Disallow: /news Allow: /news/directory
در این فایل اینگونه ترجمه می شه
هر نوع جستجوگر و رباتی (هیچ نوع)
نمی تونه پوشه news را جستجو کنه ولی می تونه زیر پوشه ی directory رو از این پوشه بخونه و جستجو کنه
گوگل دستورات این فایل را به اینگونه تقسیم می کنه
برای بلوکه کردن جستجو در کل سایت
Disallow: /
برای مسدود کردن جستجوی یک پوشه
Disallow: /junk-directory/
برای مسدود کردن جستجو در یک صفحه
Disallow: /private_file.html
برای اینکه یک عکس در لیست یافته های گوگل دیده نشود
User-agent: Googlebot-Image Disallow: /images/dogs.jpg
برای پاک کردن کل عکس های سایت از لیست جستجوی گوگل
User-agent: Googlebot-Image Disallow: /
برای پاک کردن یک فرمت مشخص (مانند gif) از جستجوی گوگل
User-agent: Googlebot Disallow: /*.gif$
برای صفحاتی که هنوز مطالبشون در حال تکمیله و یا آماده پذیرش آگهی نیست مطالب این صفحات در نتایج جستجو دیده نمی شه ولی گوگل اونها رو آنالیز می کنه و دسته بندی های لازم رو روشون انجام می ده
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
خوب اینها تمام دانش مورد نیاز برای نوشتن این فایل بودند حالا برای شروع فولدرها و فایل هاتون رو روی هاست دسته بندی و لیست کنید و تلاش کنید هر گزینه را در یکی از شرایطی که بالا عنوان شد قرار دهید و یا برای دسته ی اخر که دسته ای کاملا مجاز خواهد بود جدا کنید
لیست نهایی شما به راحتی وضعیت هر فایل را مشخص می کنه
معمولا ما با کل ربات ها کار داریم و
user-agent :*
کارمون رو راه می ندازه که استفاده یکبار ازش در اولین سطر کافیه ولی اگر موردی مثل آخرین مورد ذکر شده بود
User-agent: Mediapartners-Google
نام ربات گوگل آنالیزه
نام بعضی از معروف ترین ربات ها هم عبارته از:
User-agent: IsraBot # unless they're feeding search engines. User-agent: UbiCrawler User-agent: DOC User-agent: WebCopier User-agent: Offline Explorer User-agent: Teleport User-agent: TeleportPro User-agent: WebZIP User-agent: linko User-agent: HTTrack User-agent: Microsoft.URL.Control User-agent: Download Ninja User-agent: wget # http://www.nameprotect.com/botinfo.html User-agent: NPBot # http://www.webreaper.net/ User-agent: WebReaper User-agent: ia_archiver
که فکر کنم بجز IsraBot که ربات دائره المعارف وی کی پدیاست باقی ربات ها از نامشون و یا توضیح کوتاه قبلشون قابل تشخیصند
در آخرین خطوط این فایل آدرس های sitemap.xml را اضافه می کنید به این صورت
Sitemap: http://YourDomain.com/sitemap.xml
با توجه به اینکه فایل های هر سیستم مختص خودش هستند پس کپی کردن هیچ فایلی از هیچ جا کمکی بهتون نمی کنه و رفتن مراحل ساده بالا برای داشتن این فایل لازمه
در نهایت اگر دوستان اطلاعات تکمیل کننده داشتند ممنون می شم بهش اضافه کنند ولی سئوالات رو بگذارند برای تایپیک جدا که اصل مطلب از دست نره