آموزش کامل ساخت robots.txt

نوشته شده توسط ۱۰ سال پیش

این آموزش رو بخاطر اینکه ماخذی فارسی برای مطالعه کامل روی فایل robots.txt و آموزش نحوه ی ساخت و خواصش پیدا نکردم می گذارم و امیدوارم استفاده بشه
کلیت:
این فایل چه کار می کنه
ربات های جستجوگر را هشیار می کنه که برای جستجو چه فایل هایی را نباید باز کنند و چه فایل هایی رو می تونند باز کنند
خاصیتش چیه
برای کاربر مهمترین خاصیتش حفظ امنیته و حفظ حریم های شخصی به این وسیله کاربر می تونه مدارک خصوصی و عکس های خانوادگیش رو با آرامش روی هاستش نگه داری کنه
برای ربات ها هم خاصیتش اتلاف کمتر وقت و انرژی در یک سایته و این امر دومین خاصیت فایل رو ایجاد می کنه
موتورها رو تشویق می کنه به یافتن نتایج جستجو ها در سایت هایی که robots.txt دارند و این یعنی بالا رفتن در رتبه ی گوگل و آلکسا
این فایل باید در یک صفحه text only  به وسیله ی notepad  نوشته بشه و کد و علائم جدا کننده خاص مثل <> یا , و ” نیاز نداره ولی هر تکه از دستوراتش باید در یک سطر جدا باشه
این فایل بر پایه دو دستور Disallow و Allow و یک شاخصه User-agent نوشته می شه
Disallow محدوده ممنوع رو تعریف می کنه
Allow  محدوده ی آزاد برای جستجو
User-agent محدوده کسانی که اجازه جستجو براشون مسدود یا باز شده
سایت گوگل سالم ترین نمونه ی این برگه رو نمایش داده
نگاه کنید:
http://www.google.com/robots.txt
و به این ترتیب کد زیر

User-agent: *
Disallow: /news
Allow: /news/directory

در این فایل اینگونه ترجمه می شه
هر نوع جستجوگر و رباتی (هیچ نوع)
نمی تونه پوشه news  را جستجو کنه ولی می تونه زیر پوشه ی directory  رو از این پوشه بخونه و جستجو کنه
گوگل دستورات این فایل را به اینگونه تقسیم می کنه
برای بلوکه کردن جستجو در کل سایت

Disallow: /

برای مسدود کردن جستجوی یک پوشه

Disallow: /junk-directory/

برای مسدود کردن جستجو در یک صفحه

Disallow: /private_file.html

برای اینکه یک عکس در لیست یافته های گوگل دیده نشود

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

برای پاک کردن کل عکس های سایت از لیست جستجوی گوگل

User-agent: Googlebot-Image
Disallow: /

برای پاک کردن یک فرمت مشخص (مانند gif) از جستجوی گوگل

User-agent: Googlebot
Disallow: /*.gif$

برای صفحاتی که هنوز مطالبشون در حال تکمیله و یا آماده پذیرش آگهی نیست مطالب این صفحات در نتایج جستجو دیده نمی شه ولی گوگل اونها رو آنالیز می کنه و دسته بندی های لازم رو روشون انجام می ده

User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /

خوب اینها تمام دانش مورد نیاز برای نوشتن این فایل بودند حالا برای شروع فولدرها و فایل هاتون رو روی هاست دسته بندی و لیست کنید و تلاش کنید هر گزینه را در یکی از شرایطی که بالا عنوان شد قرار دهید و یا برای دسته ی اخر که دسته ای کاملا مجاز خواهد بود جدا کنید
لیست نهایی شما  به راحتی وضعیت هر فایل را مشخص می کنه
معمولا ما با کل ربات ها کار داریم و
user-agent  :*
کارمون رو راه می ندازه که استفاده یکبار ازش در اولین سطر کافیه ولی اگر موردی مثل آخرین مورد ذکر شده بود

User-agent: Mediapartners-Google

نام ربات گوگل آنالیزه
نام بعضی از معروف ترین ربات ها هم  عبارته از:

User-agent: IsraBot
# unless they're feeding search engines.
User-agent: UbiCrawler
User-agent: DOC
User-agent: WebCopier
User-agent: Offline Explorer
User-agent: Teleport
User-agent: TeleportPro
User-agent: WebZIP
User-agent: linko
User-agent: HTTrack
User-agent: Microsoft.URL.Control
User-agent: Download Ninja
User-agent: wget
# http://www.nameprotect.com/botinfo.html
User-agent: NPBot
# http://www.webreaper.net/
User-agent: WebReaper
User-agent: ia_archiver

که فکر کنم بجز IsraBot که ربات دائره المعارف وی کی پدیاست باقی ربات ها از نامشون و یا توضیح کوتاه قبلشون قابل تشخیصند
در آخرین خطوط این فایل آدرس های sitemap.xml  را اضافه می کنید به این صورت

Sitemap: http://YourDomain.com/sitemap.xml

با توجه به اینکه فایل های هر سیستم مختص خودش هستند پس کپی کردن هیچ فایلی از هیچ جا کمکی بهتون نمی کنه و رفتن مراحل ساده بالا برای داشتن این فایل لازمه
در نهایت اگر دوستان اطلاعات تکمیل کننده داشتند ممنون می شم بهش اضافه کنند ولی سئوالات رو بگذارند برای تایپیک جدا که اصل مطلب از دست نره

 

مرتضی گرانسایه


ارسال دیدگاه شما