فایل robots.txt (روبوت) یکی از اصلی ترین فایل هایی است که به موتور های جستجو ماننند گوگل می گوید که چه جا هایی از سایت را اجازه دارد ببیند و چه جا هایی را اجازه ندارد. بیشتر موتور های جستجو از جمله گوگل، به قوانین این فایل احترام می گذارند و عمل می کنند اما موتور جستجو هایی هستند که ممکن است زیاد به این قواعد پایبند نباشند. در این مقاله به راهنمای جامع فایل روبوت (robots.txt) می پردازیم تا علاوه بر معرفی آن، قواعد و نحوه نوشتن کد های این فایل را آموزش می دهیم. پس با دقت این مقاله آموزش robots.txt را بخوانید تا اشتباهی در فایل robots.txt سایتتان پیش نیاید.
فهرست عناوین مقاله
فایل robots.txt چیست و چه کار می کند؟
فایل robots.txt یک فایل متنی است که زمانی ورود به سایت، این فایل را می خوانند (در صورت وجود) و قوانین آن را مدنظر قرار می دهند. قواعد داخل فایل روبوت مشخص می کند که موتور های جستجو به چه صفحات و URL هایی اجازه دسترسی دارند و به چه صفحات و URL هایی اجازه دسترسی ندارند.
موتور های جستجو با ربات هایی که دارند وب را می گردند و لینک ها را دنبال می کنند و صفحات سایت های سراسر اینترنت را پیدا می کنند. وفتی ربات موتور های جستجو می خواهند وارد سایتی شوند، این فایل robotx.txt چک می کنند و اگر دسترسی به صفحات خاصی از طریق فایل روبوت بسه شده باشد، موتور های جستجو دیگر آن صفحه را نمی بینند. این فایل را بیشتر موتور های جستجو به رسمیت می شناسند و قواعد تعریف شده آن را رعایت می کنند.
در این مقاله به طور کامل این فایل را بررسی می کنیم و می سازیم اما در دوره آموزش سئو نیز به صورت عملی و ویدئویی این فایل را بررسی کرده ایم و ساخته ایم. اگر می خواهید سئو را به طور کامل یاد بگیرید، این دوره را به شما پیشنهاد می کنیم. اگر هم چیزی از سئو نمی دانید و می خواهید به صورت رایگان اطلاعات خوبی را به دست بیاورید، مقاله آموزش سئو را بخوانید.
محتوای فایل robots.txt چیست؟
کد زیر نمونه فایل robots.txt سایت است:
User-agent: [bot identifier]
[directive 1]
[directive 2]
[directive ...]
User-agent: [another bot identifier]
[directive 1]
[directive 2]
[directive ...]
Sitemap: [URL location of sitemap]
درک کد های نوشته شده در آن زیاد سخت نیست و با هم در این ادامه یاد می گیریم که هر کد و سینتکس چه معنایی دارد.
محل فایل robots.txt کجاست؟
این فایل باید در مسیر روت دامین باشد. مثلا اگر دامین ما wpseason.com است، آدرس فایل robots باید wpseason.com/robots.txt باشد. نام فایل به شدت مهم است و باید درست robots.txt باشد و تمام حروف نیز کوچک باشد. در غیر این صورت عمل نخواهد کرد. در ادامه با آموزش استفاده از robots.txt همراه ما باشید.
آشنایی با سینتکس های فایل robots txt
در این بخش با کد های محتوای robots.txt آشنا می شویم تا هم آن ها را درک کنیم و هم بتوانیم خودمون دستورات مورد نظرمان را بنویسیم.
User-agents
ربات هر موتور جستجویی، یک نام مشخص دارد. یعنی شما می توانید به کمک این پارامتر، دسترسی به یک مسیر را در سایت خود، فقط برای گوگل ببندید اما سایر موتور های جستجو دسترسی داشته باشند! به دلیل تنوع زیاد موتور های جستجو، ما در اینجا User-agent موتور های جستجو معروف تر را معرفی کرده ایم:
- Google: Googlebot
- Google Images: Googlebot-Image
- Bing: Bingbot
- Yahoo: Slurp
- Baidu: Baiduspider
- DuckDuckGo: DuckDuckBot
البته شاید بگویید اگر بخواهیم برای تمام موتور های جستجو دسترسی یک URL را ببندیم، باید تک تک تعریف کنیم؟! جواب خیر است. شما با کمک کاراکتر * می توانید طوری تعریف کنید که شامل تمام ربات ها شود.
به عنوان مثال اگر بخواهید دسترسی تمام ربات ها را به صفحه admin ببندید، کافیست کدی مانند زیر در فایل بنویسید.
User-agent: * Disallow: /admin
اگر بخواهید دسترسی را فقط برای یک user-agent خاص ببندید، باید به صورت زیر عمل کنید:
User-agent: Googlebot Allow: /admin
پس از طریق پارامتر User-agent مشخص می کنیم که این بخش از قوانین برای چه ربات هایی اعمال شود و اگر برای تمام ربات ها باشد، کافیست از کاراکتر * استفاده کنید.
Directives
منظور از Directives همان قوانینی هستند که ربات ها باید پیروی کنند. در اینجا این Directives ها را بررسی می کنیم و مثال می زنیم.
Disallow
از طریق این پارامتر می توانید صفحه یا URL را که ربات ها اجازه دسترسی ندارند را مشخص کنید. مثلا اگر کد زیر در robots.txt باشد، یعنی هیچ رباتی اجازه دسترسی به بخش blog را ندارد. حتی اگر بعد از آدرس blog یک مسیر دیگر وجود داشته باشد، باز هم دسترسی نخواهند داشت. به عنوان مثال blog/post نیز در این جا مسدود خواهد شد.
User-agent: * Disallow: /blog
Allow
این دستور برعکس دستور قبلی است و اجازه دسترسی به ربات ها را می دهد. مثلا شاید شما بخش blog را بسته باشید اما در زیر مجموعه آن یک پست یا صفحه ای قرار دارد که می خواهید ربات ها به آن دسترسی داشته باشند. پس می توانید به شکل زیر عمل کنید:
User-agent: * Disallow: /blog Allow: /blog/allowed-post
اگر سایت شما وردپرسی است و از افزونه Yoast SEO استفاده می کنید، این فایل توسط این افزونه ساخته می شود و محتوای آن به طور پیشفرض به شکل زیر است:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
این دقیقا مثالی است که بالاتر زدیم. الان بخش wp-admin کامل بسته شده است اما یک فایل که در مسیر wp-admin/admin-ajax.php است را باز کرده است تا استثنا به این فایل دسترسی داشته باشند.
Sitemap
توسط پارامتر sitemap نیز می توانید محل دقیق فایل نقشه سایت را به ربات اعلام کنید تا به راحتی به نقشه سایت و تمام صفحات ثبت شده در آن دسترسی داشته باشند. اگر با سایت مپ آشنا نیستید، در یک مقاله جداگانه به این موضوع پرداختیم که می توانید در سایت مطالعه کنید.
برای تعریف سایت مپ در فایل robots.txt به این صورت عمل کنید:
User-agent: * Disallow: /blog/ Allow: /blog/post-title/
Sitemap: https://www.domain.com/sitemap.xml
البته اگر قبلا سایت مپ خود را از طریق گوگل سرچ کنسول ثبت کرده باشید، برای گوگل دیگر نیاز نیست که اینجا هم این فایل را قرار دهید. اما وجود آن در این فایل، برای ربات های سایر موتور های جستجو مفید است و بهتر است قرار دهید.
یک نکته دیگر که نیازی نیست برای user-agent های مختلف سایت مپ را جداگانه قرار دهید. کافیست یک بار طبق دستور بالا، آدرس این فایل را بنویسید.
سایر پارامتر ها
پارامتر های دیگری برای فایل روبوت وجود دارند اما برخی از آن ها را دیگر گوگل پشتیبانی نمی کند. چون تمرکز ما بیشتر روی گوگل است، پس جزئیات این پارامتر ها را بیان نمی کنیم و دستوراتی که در بالا گفته شد، برای ما کافی است. اما این پارامتر ها Crawl-delay، Noindex، Nofollow است. اگر می خواهید اطلاعات بیشتری از این ها داشته باشید، می توانید جستجو کنید.
پارامتر های noindex و nofollow که گفته شد، منظور ما استفاده آن ها در فایل robots.txt است و نه تگ متا ربات که در صفحات قرار می گیرد.
مزایا و معایب فایل robots چیست؟
در این بخش بیایید مزایا و معایب این روبوت را بررسی کنیم.
مزیت: مدیریت بودجه خزش (Crawl Budget) بهتر می شود
ربات های کراولر گوگل یا سایر موتور های جستجو، برای هر سایت یک بودجه مشخص برای خزش آن در نظر می گیرند. حالا اگر ما بیاییم و بخش هایی از سایت که واقعا نیاز نیست توسط گوگل بررسی و ایندکس شود (مثلا بخش پنل ادمین یا لینک های بدون محتوا) را برای این ربات ها ببندیم، بودجه مشخص شده برای ما، صرف قسمت های مهم تر سایت می شود. پس بلاک کردن بخش هایی غیرضروری سایت برای ربات ها توسط فایل روبوت، به بهینه سازی بودجه خزش کمک می کند.
مزیت: از فایل های خصوصی سایت محافظ می کند
اگر در هاست سایت خود فایل هایی دارید که نباید به طور عمومی در گوگل وجود داشته باشند (مثلا فایل های دانلودی یا فروشی)، می توانید مسیر این فایل ها را از طریق robots.txt ببندید.
عیب: صفحه ای را از گوگل حذف نمی کند!
شما توسط فایل robots.txt اعلام می کنید که ربات ها به چه صفحاتی دسترسی دارند یا ندارند. اما نمی توانید از طریق این فایل به آن ها بگویید که چه صفحاتی را در نتایج نمایش دهند یا ندهند! به عبارت دیگر، بلاک کردن صفحه در فایل روبوت، به معنای این نیست که در گوگل ایندکس نشوند.
البته خیلی نمی توان این مورد را عیب گذاشت چون وظیفه این فایل نیست. برای جلوگیری از ایندکس شدن صفحه در گوگل، باید از تگ متا روبوت در صفحه استفاده کنید و ویژگی noindex را به آن صفحه بدهید. در این حالت حتی اگر گوگل به آن صفحه هم دسترسی داشته باشد، به دلیل noindex بودن آن، صفحه را در گوگل ایندکس نمی کند.
عیب: عدم توزیع اعتبار لینک
اگر ربات گوگل نتواند صفحه را کراول کند، پس اعتبار لینک هم منتقل نمی شود. وقتی صفحه ای بلاک شده است، یعنی یک بن بست است! دیگر اعتباری از آن جا منتقل نمی شود.
آیا باید از robots.txt استفاده کنیم؟
شاید استفاده از robots.txt برای برخی سایت های کوچک چندان ضروری نباشد. اما در کل توصیه می شود که از این فایل استفاده کنید. این فایل به وب سایت شما کمک می کند تا:
- از کروال کردن محتوای تکراری جلوگیری کند
- بخش هایی از سایت که خصوصی هستند را، خصوصی نگه دارند
- به پهنای باند سرور کمک می کند
- به بودجه خزش (Crawl Budget) کمک می کند
- از فایل هایی صوتی یا تصویری که نباید در گوگل وجود داشته باشند، محافظت می کند
- و …
البته یک بار دیگر هم می گویم که بلاک کردن صفحه در فایل robots.txt، لزوما به معنای جلوگیری از ایندکس شدن نیست! گوگل گفته است که به دلیل دنبال کردن لینک ها در اینترنت، ممکن است آن صفحه ایندکس شود. برای ایندکس نشدن باید صفحه را noindex کنید.
ساخت فایل robots.txt
در بالا با دستورات این فایل آشنا شدیم و می توانید به سادگی این فایل را بسازید. اگر از وردپرس هم استفاده می کنید، افزونه Yoast SEO به طور پیشفرض این فایل را (به صورت مجازی) می سازد. اما اگر نمی خواهید درگیر کد شوید، یک سایت وجود دارد که به شما کمک می کند با وارد کردن صفحات و دستورات خود در یک فرم، فایل robots.txt را تحویل بگیرید!
کافیست از این لینک وارد سایت شوید.
- در ستون Action مشخص کنید که می خواهید دسترسی لینکی را ببندید یا باز بگذارید.
- از ستون Robot نوع ربات را انتخاب کنید.
- و از ستون Files or directories، مسیر مورد نظر خود را وارد کنید.
- سپس، روی Add کلیک کنید. دستورات بیشتری هم می توانید وارد کنید.
- همچنین می توانید سایت مپ خود را در فیلد Sitemap URL قرار دهید.
- در پایان در بخش Your Robots.txt File می توانید کد را کپی کنید و در فایل خود در هاست قرار دهید.
برای ساخت فایل robots.txt چه در وردپرس و چه در سایر CMS ها، آموزش متفاوتی وجود ندارد. کافیست همین فایل را در فولدر روت سایت خود قرار دهید. اما افزونه هایی در وردپرس هستند که به شما کمک می کنند این فایل را بسازید. افزونه یواست سئو یکی از آن هاست.
سوالات متداول در مورد robots.txt
- این فایل حداکثر چه حجمی می تواند داشته باشد؟ بهتر است حداکثر 500 کیلوبایت باشد.
- فایل robots.txt در وردپرس کجاست؟ کافیست بعد از آدرس اصلی دامین خود، robots.txt را تایپ کنید. نه صرفا برای وردپرس بلکه برای تمام سایت ها اینطور است. اگر نبود، یعنی این فایل ساخته نشده است.
- چگونه این فایل را ویرایش کنم؟ کافیست وارد فایل منیجیر هاست خود شوید و فولدر روت سایت، این فایل را ببینید. اگر نبود یعنی ساخته نشده است یا توسط پلاگین ها (مانند افزونه یواست سئو)، به صورت مجازی ساخته شده است.
جمع بندی
در این مقاله یاد گرفتیم که از طریق فایل robots.txt می توانیم دسترسی ربات ها را به برخی از صفحات و بخش های سایت (به دلایل مختلفی که گفته شد) ببندیم. این کار مزایای زیادی دارد. به عنوان مثال بهینه سازی بودجه خزش یکی از آن هاست. روش ساخت این فایل و دستورات و قواعد آن را آموزش دادیم تا بتوانید این فایل را بسازید.
در آخر چند پیشنهاد ویژه هم برای شما داریم. شما می توانید کتاب آموزش سئو را به صورت رایگان از سایت دانلود کنید. همچنین یک چک لیست سئو سایت آماده کرده ایم که به بهینه سازی سئو سایت شما کمک می کند. همچنین اگر هدف شما این است که سئو را کامل یاد بگیرید، پیشنهاد ما دوره آموزش سئو است.
امیدوارم این مقاله آموزشی برای شما مفید بوده باشد و و اطلاعات و راهنمایی های کاملی در مورد فایل robots.txt به دست آورده باشید. اگر سوال یا نظری دارید، حتما از بخش نظرات همین مطلب با ما در میان بگذارید و ما را خوشحال کنید.