خطای کرول- Crawl Error – در کنسول جستجوی گوگل چیست؟
کرول کردن یا خزیدن باتهای گوگل برای وبسایت شما و برای تلاشهای سئوی شما مهم است، چراکه این موضوع، به ایندکس شدن سایت شما کمک میکند و در نتیجه رتبه شما در صفحات نتایج جستجوی گوگل را تعیین میکند. اگر گوگل با خطای کرول مواجه شود، ممکن است که از بررسی کل وبسایت شما صرفنظر کند و شما هیچوقت در نتایج جستجو ظاهر نشوید!
رتبهبندی بالا در صفحات نتایج جستجوی گوگل، از آنجایی شروع میشود که اطمینان حاصل کنید که بات گوگل میتواند محتوای شما را کرول و ایندکس کند. اگر باتهای گوگل نتوانند یک صفحه را بهدرستی باز کنند یا از یک صفحه در وبسایت شما به صفحه دیگری بروند، پس قادر نخواهند بود که محتوا را ایندکس کنند. این موارد به خطای کرول شناخته میشوند.میزنی
در این مقاله، شما یاد میگیرید که:
- خطای کرول چیست؟
- خطای وبسایت چیست؟
- خطای URL چیست؟
- ابزار بازرسی URL چیست؟
- مشکل خطاهای کرول چیست؟
خطای کرول چیست؟
Crawl errors یا خطاهای کرول، مشکلاتی هستند که موتورهای جستجو هنگامیکه سعی میکنند به صفحات وبسایت شما دسترسی پیدا کنند، با آن روبرو میشوند. این خطاها مانع باتهای موتورهای جستجو میشوند تا محتوا را بخوانند و صفحات شما را ایندکس کنند.
مقاله مرتبط: خزنده موتور جستجو -کرولر- چیست؟ کرولر چگونه کار میکنند؟
خطاهای کرول، همچنین ممکن است به یک گزارش که در نسخه قدیمی Google Search Console قرار دارد، اشاره کنند.
گزارش خطای کرول دارای دو بخش اصلی است:
- خطاهای سایت: این خطاها مانع باتهای گوگل میشوند تا بهکل وبسایت شما دسترسی پیدا کنند.
- خطاهای URL: این خطاها هنگامی اتفاق میافتند که بات گوگل قادر نیست تا به یک URL خاص در وبسایت شما دسترسی پیدا کند.
در نسخه جدید Google Search Console، این خطاها بر اساس هر URL و در Index Coverage گزارش میشوند.
بخش پوشش ایندکس در نسخه جدید سرچ کنسول، ایندکس را در طول زمان با نشان دادن تعداد موارد زیر، ردیابی میکند:
- خطاهایی که پیدا کرده است (و خطاهایی که شما برطرف کردهاید).
- صفحههای معتبری که گوگل، ایندکس کرده است.
- صفحههایی که گوگل بازدید کرده اما ایندکس نکرده است.
- صفحات معتبر که گوگل ایندکس کرده اما خطاهایی در آنها پیدا کرده است.
ازآنجاییکه این موارد مانع میشوند تا صفحات شما توسط گوگل، کرول و ایندکس شوند، هدف این مقاله، فقط بررسی بخش خطاها است.
مقاله مرتبط: ١٠ گام برای شناساندن سریع تر سایت شما به گوگل
خطاهای سایت
Site Errors مشکلاتی هستند که در سطح وبسایت اتفاق میافتند. به این معنا که کاربران شما یا باتهای گوگل، قادر نیستند که به هیچیک از صفحات شما دسترسی پیدا کنند.
پس این خطاها را نادیده نگیرید!
۳ خطای سایت وجود دارد که گوگل آنها را خطای کرول محسوب میکند:
خطای DNS
یک DNS که مخفف domain name system است، IP یک وبسایت را از رشتهای از اعداد، به حروف و اعداد قابلاستفاده ترجمه میکند. اساساً، DNS سیستمی است که به ما اجازه میدهد تا بدون اینکه نیازی داشته باشیم که IP هر وبسایت بازدیدی را بدانیم، در اینترنت مسیریابی کنیم!
مقاله مرتبط: DNS چیست و چگونه کار می کند؟
سیستم DNS به ترتیب زیر کار میکند:
- نام دامین را در مرورگر خود تایپ میکنید.
- مرورگر بررسی میکند که اگر اطلاعات آن دامین بهصورت محلی روی کامپیوتر شما ذخیره شده است.
- اگر نیست، مرورگر یک درخواست برای سرور DNS محلی شما که معمولاً توسط ISP شما تأمین شده است، ارسال میکند.
- سرور محلی DNS، جزئیات نام دامین را جستجو میکند. اگر هیچ اطلاعاتی نداشته باشد، باید DNS root name server را پیدا کند.
- برای پیدا کردن آن، سرور DNS باید URL را از سمت راست به چپ به قسمتهای کوچکتر تقسیم کند. برای نمونه DNS باید example.com را به “.com”، “example” و “www” تقسیم کند.
- سرور DNS به سرور نام روت DNS متصل میشود تا مکان سرور را برای اولین بخش تقسیمشده دامین یعنی”.com”پیدا کند. این بخش با نام top-level domain (TLD) name server شناخته میشود.
- سپس سرور DNS به سرور TLD متصل میشود.
- سرور DNS از TLD name server ، جزئیات name server را خواهد پرسید که شامل جزئیات نام دامین یعنی “example” باشد.
- در این مرحله، سرور DNS از name server، اطلاعات com را میپرسد و name server هم آدرس IP دامین را تحویل میدهد.
از آنجایی که DNS اولین قدم برای دسترسی به وبسایت است، اتصال DNS ضروری است. اگر گوگل نتواند یک اتصال DNS ایجاد کند، نخواهد توانست دسترسی یا حتی خود وبسایت شمارا پیدا کند.
دو نوع خطای DNS وجود دارد که گوگل با آن برخورد میکند:
DNS Timeout: اگر سرور DNS شما در پاسخگویی به درخواست گوگل، بهاندازه کافی سریع نباشد.
DNS lookup: اگر سرور DNS نتواند نام دامین شما را پیدا کند و در نتیجه گوگل قادر نباشد تا به وبسایت شما دسترسی پیدا کند.
اگر نمیتوانید وبسایت خود را با استفاده از ابزار fetch as Google، فچ کنید، از ارائهدهنده DNS خود، مشکل را پیگیری کنید.
خطای سرور
Server Errors با خطاهای DNS تفاوت دارند از این جهت که گوگل قادر بوده تا URL شما را روی سرور DNS جستجو کند، اما به دلیل اینکه مشکلی در سرور شما وجود دارد، نمیتواند صفحه را بارگذاری کند
این معمولاً به این معنا است که سرور شما خیلی دیر پاسخ میدهد و درخواست گوگل زمانش تمام شده است. گوگل فقط مقدار زمان مشخصی برای انتظار به پاسخگویی یک سرور اختصاص میدهد. اگر زمان بیشتری طول بکشد، بات گوگل درخواست را کنسل میکند. مانند خطای DNS، خطای سرور برای وبسایت شما بسیار مهم است، برای اینکه یک مشکلی با سرور شما وجود دارد که مانع دسترسی کاربران و بات گوگل به وبسایت شما میشود.
اینکه چگونه خطای سرور خود را رفع میکنید، به نوع خطا بستگی دارد. انواع متعددی از خطاهای سرور وجود دارند:
- Timeout: زمان زیادی طول کشید تا سرور به درخواست بات گوگل پاسخ دهد.
- Truncated headers: سرور شما ارتباط خود را قبل از ارسال کامل هدرها قطع کرده است.
- Connection reset: گوگل قادر به وبسایت شما متصل شد اما برای اینکه ارتباط در حین پاسخ Reset شد چیزی دریافت نکرد.
- Truncated response: ارتباط قبل از اینکه گوگل پاسخ کاملی دریافت کند، قطع شد.
- Connection refused: سرور شما از ارتباط با بات گوگل خودداری کرد.
- Connect failed: شبکه سرور شما ازکارافتاده یا در دسترس نبود.
- Connect timeout: ارتباط خیلی طول کشید تا پردازش شود.
- No response: ارتباط با سرور شما قبل از ارسال هر پاسخی قطع شد.
این مقاله راهنمای گوگل را بررسی کنید تا منابع رفع هرکدام از خطاهای سرور را پیدا کنید.
Robots failure
Robot failures یا شکست باتها به عدم توانائی گوگل برای پیدا کردن و خواندن فایل robots.txt یک وبسایت در www.yoursite.com/robots.txt اشاره دارد. اگر DNS قدم اول و ایجاد ارتباط با سرور قدم دوم باشد، خواندن فایل robots.txt، قدم سوم در مراحل کرول یک وبسایت توسط گوگل است.
مقاله مرتبط: راهنمای گام به گام Robots.Txt
گوگل نمیخواهد که هر صفحهای را که شما نخواهید، کرول و ایندکس کند پس اگر نتواند به فایل robots.txt وبسایت که شما در دامین قرار دادهاید، دسترسی پیدا کند، کرول را تا زمان خواندن آن فایل به عقب خواهد انداخت. بااینوجود، اگر شما میخواهید که گوگل همه صفحات شمارا کرول و ایندکس کند، میتوانید این فایل را به دامین خود اضافه نکنید و این خطا را نادیده بگیرید.
اگر شما این خطا را در کنسول جستجوی گوگل میبینید، بررسی کنید که چگونه فایل robots.txt را تنظیم کردهاید.
- آیا آن را بهعنوان فایل متن آشکار ایجاد کردید؟
- آیا صفحه اصلی وبسایت خود را غیرمجاز کردهاید؟
- آیا فایل txt شما یک ۲۰۰ status ارائه میدهد یا یک خطای ۴۰۴؟
- آیا برای بار دوم و سوم و چهارم خط Disallow: / را جستجو کردهاید؟
هنگامیکه شما با یک خطای robots روبرو میشوید، قابل توجه است که نداشتن یک فایل robots.txt، بهتر است از داشتن یک فایل که بهصورت مناسب تنظیم نشده است، زیرا اگر آن فایل خراب باشد باعث میشود که گوگل از کرول سایت شما کلاً صرفنظر کند!
خطاهای URL
errors URL با خطاهای سایت تفاوت دارند ازآنجهت که فقط به برخی صفحات خاص مربوط میشوند نه همه وبسایت شما! آنها مواردی را نشان میدهند که گوگل، صفحه خاصی را درخواست کرده است اما قادر نبوده که آن را بخواند.
Soft 404s
نام این خطا، شاید برای برخیها گمراهکننده باشد. اینها صفحاتی نیستند که ۴۰۴ status code نشان دهند. در واقع، اینها صفحاتی هستند که یک ۲۰۰ HTTP status نشان میدهند. مشکل اینجاست که آنها اغلب صفحات خالی هستند.
گوگل در پیدا کردن اینکه محتوا در کجای یک صفحه قرار دارد، خوب عمل میکند. پس وقتی یک URL شامل صفحهای میشود که محتوای اصلی زیادی ندارد یا اصلاً محتوا ندارد، گوگل آن صفحه را یک soft 404 مینامد. از نظر فنی، صفحه وجود دارد و یک وضعیت ۲۰۰ نمایش میدهد اما یک صفحه خالی است.
گوگل به این صفحات توجه میکند زیرا آنها برای کاربران مفید نیستند و باعث میشوند که گوگل بات بدون هیچ دلیل و نتیجهای کار کند و بازده کرول صفحه شمارا کم میکنند.
بهترین شانس شما این است که یا به این صفحات محتوا اضافه کنید تا آنها را قابلاستفاده و مفید کنید یا اجازه ایندکس آنها را غیرمجاز کنید تا گوگل دیگر آنها را نبیند.
توجه داشته باشید که اگر شما از یک صفحه اختصاصی ۴۰۴ استفاده کنید که وضعیت ۴۰۴ را نمایش نمیدهد، احتمالاً از طرف گوگل بهعنوان یک soft 404 شناسایی میشود!
Not found
URLهای پیدا نشده، خطاهای واقعی ۴۰۴ هستند که در یک وبسایت دیدهشدهاند. گوگل یک URL در وبسایت شمارا درخواست کرده که وجود ندارد.
مقاله مرتبط: شناخت ١٠ خطای رایج در اینترنت
باوجودی که دیدن تعداد زیادی URL پیدا نشده در گزارش خطاهای کرول، شاید شمارا بترساند، اما بهاندازهای که به نظر میرسند، بد نیستند!
در واقع، به گفته خود گوگل، خطای ۴۰۴ روی ایندکس و رتبهبندی سایت شما تأثیری ندارد.
اکثریت خطاهای ۴۰۴ که شما میبینید، نیاز به رفع مشکل ندارند. هنگامیکه میخواهید تصمیم بگیرید که یک خطای ۴۰۴ را اصلاح کنید یا نه، موارد زیر را در نظر بگیرید:
- آیا URL، لینکهای خارجی باکیفیت زیادی دارد؟
- آیا ترافیک زیادی دریافت میکند؟
- آیا نوعی از URL است که کاربران یا لینک دهندهها قطعاً توقع داشته باشند که وجود داشته باشد؟
اگر پاسخ به یک یا چند سؤال بالا، مثبت است، شاید بهتر باشد که دلایل خطا را تحقیق کنید. اگر خطای ۴۰۴ به دلیل لینکهای داخلی خراب ایجاد شده است، حتماً باید رفع مشکل کنید.
رفع مشکل خطای ۴۰۴ به دلیل ایجاد آن بستگی دارد. شاید فقط بهسادگی اصلاح غلط املایی در یک لینک داخلی باشد. اگر به دلیل لینک خارجی به صفحات قدیمی است، از ریدایرکت ۳۰۱ استفاده کنید تا آن را به صفحه جدید هدایت کنید. اگر شبیه یک URL است که مردم توقع وجود آن را روی وبسایت شما داشته باشند، افزودن صفحه به وبسایت یا ریدایرکت کردن آن به یک محتوای مرتبط درجایی روی وبسایت خود را در نظر بگیرید!
Access denied
این خطاها وقتی اتفاق میافتند که گوگل اجازه پیدا نکند که به یک صفحه خاص دسترسی پیدا کند. آنها معمولاً توسط دلایل زیر ایجاد میشوند:
- قرار دادن پسورد روی صفحه
- وجود صفحاتی که توسط txt مجاز شناخته نشوند
- شرکت میزبان شما بات گوگل را بلاک کرده باشد (کاملا ممکن است!)
اگر شما نمیخواهید که URLهای ظاهرشده در این بخش خطاهای کرول، در نتایج جستجو ظاهر شوند، نیازی ندارید که کاری در اینجا انجام دهید. این در واقع یک تائید است که وبسایت شما درست کار میکند.
اما اگر میخواهید که این صفحات در نتایج جستجو ظاهر شوند، باید عامل بلاک کننده گوگل را رفع کنید.
- پنجره لاگین را از روی صفحه بردارید.
- URL را از فایل txt حذف کنید.
- با میزبان خود تماس بگیرید تا بات گوگل را در لیست سفید خود قرار دهد.
Not followed
این خطا را با link directive یا meta robots tag اشتباه نگیرید. این URLها هیچ ارتباطی به آنها ندارند. URLهای دنبال نشده در خطاهای کرول، در واقع آنهایی هستند که گوگل نتوانسته آنها را به مقصد خود بهطور کامل دنبال کند.
دلایل ممکن:
- فلش، جاوا اسکریپت یا هر محتوای فعالی که گوگل را بلاک میکند.
- ریدایرکتهای خراب، حلقهها یا زنجیرهها.
- لینک کردن نسبی در ریدایرکتها.
- URLهای ریدایرکت شده که در نقشه سایت شما قرار دارند.
دوباره، مانند خطاهای ۴۰۴ و access denied، تصمیم بگیرید که آیا URLهای این بخش، ارزش رفع مشکلدارند یا نه؟ اگر صفحات برای وبسایت شما خیلی مهم نیستند، شاید نیازی نداشته باشید که آنها را اصلاح کنید.
خطاهای سرور و DNS
اینها خطاهای مشابهی هستند که در قسمت خطاهای سایت، بررسی کردیم. گوگل یا نتوانسته که DNS یک URL را پیدا کند یا یک مشکلی با سرور شما هنگام بارگذاری صفحه وجود داشته است. تفاوت در این بخش این است که این خطاها تنها محدود به URLهای لیست شده در این بخش هستند و بهکل وبسایت شما ارتباطی ندارند.
برای دریافت کمک بیشتر از گوگل درباره هر یک از این خطاها و راههای رفع آنها، مقاله Google Search Console Help article را در مورد خطاهای کرول بخوانید.
ابزار بازرسی URL
سرچ کنسول گوگل به شما اجازه میدهد تا هر صفحه روی وبسایت خود را برای مشکلات ایندکس و خطاهای کرول جستجو و بررسی کنید.
شما میتوانید از ۳ طریق به ابزار بازرسی URL، دسترسی داشته باشید:
۱-کلیک روی لینک ابزار بازرسی URL در مسیریاب سمت چپ.
۲- واردکردن URL در نوار جستجو در بالای صفحه، پس از اینکه یک وبسایت را در صفحه اول سرچ کنسول گوگل انتخاب کردید.
۳- کلیک روی نماد ذرهبین روی سطر یک URL در گزارش عملکرد.
URL Inspection tool به شما نشان میدهد که اگر یک صفحه در گوگل ایندکس قرار دارد و جزئیات آنچه گوگل در زمان درخواست صفحه با آن برخورد کرده را ارائه میدهد که شامل:
- صفحهای که گوگل، لینک به صفحه شما را در آن پیدا کرد.
- آخرین باری که کرولرهای گوگل به صفحه دسترسی پیدا کردند.
در عکس زیر میتوانید ببینید که گزارش، برای یک صفحه که وضعیت ۴۰۴ را نشان داده، شامل چه مواردی است:
چه مشکلی با خطاهای کرول وجود دارد؟
واضحترین مشکل در رابطه با داشتن خطای کرول در وبسایت شما این است که آنها مانع گوگل برای دسترسی به محتوای شما میشوند. گوگل نمیتواند صفحههایی را که به آنها دسترسی ندارد، رتبهبندی کند. نرخ بالای خطاهای کرول همچنین میتواند بر روی دید گوگل در مورد سلامت کلی وبسایت شما تأثیر بگذارد.
هنگامیکه کرولرهای گوگل مشکلات زیادی در دسترسی به محتوای یک وبسایت دارند، آنها ممکن است تصمیم بگیرند که این صفحات ارزش کرول مداوم را ندارند. این باعث میشود تا صفحات جدید شما با زمان بیشتری نسبت به شرایط عادی، به گوگل ایندکس بروند.