ساده ترین توضیح درمورد فایل robots.txt این است که فایلd حاوی محتوای متنی با دستورات خاص است که دسترسی خزنده های موتورهای جستجو را مشخص میکند. به عبارت دیگر، به موتورهای جستجو میگوید که کدام صفحات را باید کرال کنند و کدام صفحات را کرال نکنند. در ادامه بیشتر به توضیح درمورد این فایل مهم میپردازیم.

نکته مهم درمورد کاربرد فایل robot.txt

کاربرد اصلی این فایل مربوط به کنترل بودجه کراول میشود. شما میتوانید در این فایل به گوگل بفهمانید که کدام یک از صفحات شما اهمیت کمتری دارند و نمیخواهید که کرال شوند.

گفتیم که با استفاده از این فایل به موتور جستجو نشان میدهیم که چه صفحاتی از سایت ما را باید کرال کند و چه صفحاتی را خیر. اما باید به شما تذکر دهیم که هرگز از فایل robots.txt برای حذف یک صفحه از موتور جستجو استفاده نکنید. چرا؟ به این دلیل که گوگل حتی اگر خود صفحه را نبیند نیز میتواند آن را ایندکس کند! حتما میپرسید چطور ممکن است؟! گوگل تمامی لینک هایی که در صفحات سایت شما وجود دارد را ایندکس میکند. اگر در پیج دیگری، به پیجی که حالا از طریق robot.txt بسته اید لینک داده باشید؛ گوگل آن را ایندکس میکند.

پس برای حذف صفحه از نتیجه سرچ، به جای استفاده از فایل robots.txt ، از روش های دیگری مثل noindex یا پسورد گذاشتن استفاده کنید. چرا که گوگل به صفحاتی که نیاز به لاگین دارند، دسترسی ندارد.

فایل robots.txt

محدودیت های فایل robots.txt

موتورهای جستجویی هستند که از قوانین این فایل پشتیبانی نمیکنند. البته که در کشور ما مردم بیشتر از گوگل برای سرچ های خود استفاده میکنند. و گوگل و کرالرهای آن کاملا از دستورات این فایل تبعیت میکند.

مورد بعدی مربوط به همین است که از این فایل نباید برای حذف کردن صفحات از نتیجه سرچ استفاده کنید.

چطور فایل robots.txt بسازیم؟

اگر برای مدیریت سایت خود از از CMSها استفاده میکنید، نیازی نیست این فایل را به صورت دستی تنظیم و آماده کنید. سیستم های مدیریت محتوا مثل وردپرس، خودشان فایل robots.txt را برای شما میسازند. اگر هم فایل شما ساخته شده و میخواهید نگاهی به آن بیندازید کافی است دستور robots.txt/ را به انتهای URL وب سایت خود اضافه کنید. نمونه این فایل از سایت جیمکس:

User-agent: *

Disallow: /wp-admin/

Disallow: /readme.html

Allow: /wp-content/uploads/

sitemap: https://gmaxads.com/sitemap_index.xml

اگر به جای همچین دستوراتی، با کد 404 یا حتی صفحه خالی مواجه شدید، بهتر است که اقدام به رفع این مشکل کنید.

دستورات فایل robots.txt

وقتی کرالرهای (خزنده ها) یک موتور جستجو میخواهند یک سایت را بررسی کنند، اول به سراغ این فایل میروند و مطابق با دستورات موجود در آن به ادامه کار خود میپردازند. با هم چند مورد از انواع دستورات فایل robots.txt را میبینیم و بیشتر با آن ها آشنا میشویم.

User-agent: *

Allow: /

Disallow:

این دستور کلی ترین دستور در این فایل میباشد. User-agent درواقع به کرالر موتور جستجو اشاره دارد. یعنی در این قسمت شما میتوانید دسترسی کرالرهای گوگل یا هر موتور جستجو دیگری مشخص کنید.

دستور Allow یا Disallow دقیقا به دسترسی User-agent اشاره دارد.

در دستوری که بالاتر مشاهده کردید، با علامت * به تمامی user-agent ها اشاره کردیم و با گذاشتن علامت / جلوی دستور Allow کرال کردن تمامی صفحات را برای آن ها مجاز کردیم. شما میتوانید متناسب با نیاز خود این دستورات را تنظیم کنید. حتی میتوانید در فایل robots.txt به کرالرها بگویید که یک سری از صفحات را کرال بکنند و یا نکنند:

Disallow:/_ads/

robots.txt

برای مثال این دستور به کرالرها میگوید که هیچکدام از صفحاتی که شامل این اسلاگ هستند را کرال نکند.

حال با چند مورد از user-agent های موتورهای جستجو آشنا خواهیم شد:

Google:

  • Googlebot
  • Googlebot-Image (تصاویر)
  • Googlebot-News (اخبار)
  • Googlebot-Video (ویدیوها)

Bing

  • Bingbot
  • MSNBot-Media (برای فیلم عکس)

Baidu

  • Baiduspider

شما با استفاده از این نام ها میتوانید کرالرهای هرکدام از این موتورهای جستجو را در فایل robots.txt خود به صفحات مهم یا بی اهمیت معرفی کنید.

سخن پایانی

در این مقاله با دستورات و کاربرد فایل robots.txt آشنا شدیم. شاید کاربرد این فایل همیشگی نباشد. به این معنی که احتمالا قرار نیست هر روز یا هر هفته با این فایل و دستورات آن سر و کله بزنید. اما وجود آن به عنوان یکی از اجزای سایت برای کرال باجب و در نتیجه سئو و رتبه سایت شما حائز اهمیت خواهد بود.