مجله خبری هاست ایران » طراحی و توسعه » خطای کرول- Crawl Error – در کنسول جستجوی گوگل چیست؟
  • mag-telegram.jpg
  • landing96-300-420.jpg
سئو و بهینه سازی سایت طراحی و توسعه

خطای کرول- Crawl Error – در کنسول جستجوی گوگل چیست؟

خطای کرول- Crawl Error - در کنسول جستجوی گوگل چیست؟

کرول کردن یا خزیدن بات‌های گوگل برای وب‌سایت شما و برای تلاش‌های سئوی شما مهم است، چراکه این موضوع، به ایندکس شدن سایت شما کمک می‌کند و در نتیجه رتبه شما در صفحات نتایج جستجوی گوگل را تعیین می‌کند. اگر گوگل با خطای کرول مواجه شود، ممکن است که از بررسی کل وب‌سایت شما صرف‌نظر کند و شما هیچ‌وقت در نتایج جستجو ظاهر نشوید!

رتبه‌بندی بالا در صفحات نتایج جستجوی گوگل، از آنجایی شروع می‌شود که اطمینان حاصل کنید که بات گوگل می‌تواند محتوای شما را کرول و ایندکس کند. اگر بات‌های گوگل نتوانند یک صفحه را به‌درستی باز کنند یا از یک صفحه در وب‌سایت شما به صفحه دیگری بروند، پس قادر نخواهند بود که محتوا را ایندکس کنند. این موارد به خطای کرول شناخته می‌شوند.میزنی

در این مقاله، شما یاد می‌گیرید که:

  • خطای کرول چیست؟
  • خطای وب‌سایت چیست؟
  • خطای URL چیست؟
  • ابزار بازرسی URL چیست؟
  • مشکل خطاهای کرول چیست؟

خطای کرول چیست؟

Crawl errors یا خطاهای کرول، مشکلاتی هستند که موتورهای جستجو هنگامی‌که سعی می‌کنند به صفحات وب‌سایت شما دسترسی پیدا کنند، با آن روبرو می‌شوند. این خطاها مانع بات‌های موتورهای جستجو می‌شوند تا محتوا را بخوانند و صفحات شما را ایندکس کنند.


مقاله مرتبط: خزنده‌ موتور جستجو -کرولر- چیست؟ کرولر چگونه کار می‌کنند؟


خطاهای کرول، همچنین ممکن است به یک گزارش که در نسخه قدیمی Google Search Console قرار دارد، اشاره کنند.

گزارش خطای کرول دارای دو بخش اصلی است:

  • خطاهای سایت: این خطاها مانع بات‌های گوگل می‌شوند تا به‌کل وب‌سایت شما دسترسی پیدا کنند.
  • خطاهای URL: این خطاها هنگامی اتفاق می‌افتند که بات‌ گوگل قادر نیست تا به یک URL خاص در وب‌سایت شما دسترسی پیدا کند.

در نسخه جدید Google Search Console، این خطاها بر اساس هر URL و در Index Coverage گزارش می‌شوند.

کنسول جدید جستجوی گوگل

بخش پوشش ایندکس در نسخه جدید سرچ کنسول، ایندکس را در طول زمان با نشان دادن تعداد موارد زیر، ردیابی می‌کند:

  • خطاهایی که پیدا کرده است (و خطاهایی که شما برطرف کرده‌اید).
  • صفحه‌های معتبری که گوگل، ایندکس کرده است.
  • صفحه‌هایی که گوگل بازدید کرده اما ایندکس نکرده است.
  • صفحات معتبر که گوگل ایندکس کرده اما خطاهایی در آن‌ها پیدا کرده است.

index coverage errors

ازآنجایی‌که این موارد مانع می‌شوند تا صفحات شما توسط گوگل، کرول و ایندکس شوند، هدف این مقاله، فقط بررسی بخش خطاها است.


مقاله مرتبط: ١٠ گام برای شناساندن سریع تر سایت شما به گوگل


خطاهای سایت

Site Errors مشکلاتی هستند که در سطح وب‌سایت اتفاق می‌افتند. به این معنا که کاربران شما یا بات‌های گوگل، قادر نیستند که به هیچ‌یک از صفحات شما دسترسی پیدا کنند.

پس این خطاها را نادیده نگیرید!

۳ خطای سایت وجود دارد که گوگل آن‌ها را خطای کرول محسوب می‌کند:

خطای DNS

یک DNS که مخفف domain name system است، IP یک وب‌سایت را از رشته‌ای از اعداد، به حروف و اعداد قابل‌استفاده ترجمه می‌کند. اساساً، DNS سیستمی است که به ما اجازه می‌دهد تا بدون اینکه نیازی داشته باشیم که IP هر وب‌سایت بازدیدی را بدانیم، در اینترنت مسیریابی کنیم!


مقاله مرتبط: DNS چیست و چگونه کار می کند؟


سیستم DNS به ترتیب زیر کار می‌کند:

  1. نام دامین را در مرورگر خود تایپ می‌کنید.
  2. مرورگر بررسی می‌کند که اگر اطلاعات آن دامین به‌صورت محلی روی کامپیوتر شما ذخیره شده است.
  3. اگر نیست، مرورگر یک درخواست برای سرور DNS محلی شما که معمولاً توسط ISP شما تأمین شده است، ارسال می‌کند.
  4. سرور محلی DNS، جزئیات نام دامین را جستجو می‌کند. اگر هیچ اطلاعاتی نداشته باشد، باید DNS root name server را پیدا کند.
  5. برای پیدا کردن آن، سرور DNS باید URL را از سمت راست به چپ به قسمت‌های کوچک‌تر تقسیم کند. برای نمونه DNS باید example.com را به “.com”، “example” و “www” تقسیم کند.
  6. سرور DNS به سرور نام روت DNS متصل می‌شود تا مکان سرور را برای اولین بخش تقسیم‌شده دامین یعنی”.com”پیدا کند. این بخش با نام top-level domain (TLD) name server شناخته می‌شود.
  7. سپس سرور DNS به سرور TLD متصل می‌شود.
  8. سرور DNS از TLD name server ، جزئیات name server را خواهد پرسید که شامل جزئیات نام دامین یعنی “example” باشد.
  9. در این مرحله، سرور DNS از name server، اطلاعات com را می‌پرسد و name server هم آدرس IP دامین را تحویل می‌دهد.

dns process

از آنجایی که DNS اولین قدم برای دسترسی به وب‌سایت است، اتصال DNS ضروری است. اگر گوگل نتواند یک اتصال DNS ایجاد کند، نخواهد توانست دسترسی یا حتی خود وب‌سایت شمارا پیدا کند.

دو نوع خطای DNS وجود دارد که گوگل با آن برخورد می‌کند:

DNS Timeout: اگر سرور DNS شما در پاسخگویی به درخواست گوگل، به‌اندازه کافی سریع نباشد.

DNS lookup: اگر سرور DNS نتواند نام دامین شما را پیدا کند و در نتیجه گوگل قادر نباشد تا به وب‌سایت شما دسترسی پیدا کند.

اگر نمی‌توانید وب‌سایت خود را با استفاده از ابزار fetch as Google، فچ کنید، از ارائه‌دهنده DNS خود، مشکل را پیگیری کنید.

خطای سرور

Server Errors با خطاهای DNS تفاوت دارند از این ‌جهت که گوگل قادر بوده تا URL شما را روی سرور DNS جستجو کند، اما به دلیل اینکه مشکلی در سرور شما وجود دارد، نمی‌تواند صفحه را بارگذاری کند

این معمولاً به این معنا است که سرور شما خیلی دیر پاسخ می‌دهد و درخواست گوگل زمانش تمام شده است. گوگل فقط مقدار زمان مشخصی برای انتظار به پاسخگویی یک سرور اختصاص می‌دهد. اگر زمان بیشتری طول بکشد، بات گوگل درخواست را کنسل می‌کند. مانند خطای DNS، خطای سرور برای وب‌سایت شما بسیار مهم است، برای اینکه یک مشکلی با سرور شما وجود دارد که مانع دسترسی کاربران و بات گوگل به وب‌سایت شما می‌شود.

اینکه چگونه خطای سرور خود را رفع می‌کنید، به نوع خطا بستگی دارد. انواع متعددی از خطاهای سرور وجود دارند:

  • Timeout: زمان زیادی طول کشید تا سرور به درخواست بات گوگل پاسخ دهد.
  • Truncated headers: سرور شما ارتباط خود را قبل از ارسال کامل هدرها قطع کرده است.
  • Connection reset: گوگل قادر به وب‌سایت شما متصل شد اما برای اینکه ارتباط در حین پاسخ Reset شد چیزی دریافت نکرد.
  • Truncated response: ارتباط قبل از اینکه گوگل پاسخ کاملی دریافت کند، قطع شد.
  • Connection refused: سرور شما از ارتباط با بات گوگل خودداری کرد.
  • Connect failed: شبکه سرور شما ازکارافتاده یا در دسترس نبود.
  • Connect timeout: ارتباط خیلی طول کشید تا پردازش شود.
  • No response: ارتباط با سرور شما قبل از ارسال هر پاسخی قطع شد.

این مقاله راهنمای گوگل را بررسی کنید تا منابع رفع هرکدام از خطاهای سرور را پیدا کنید.

Robots failure

Robot failures یا شکست بات‌ها به عدم توانائی گوگل برای پیدا کردن و خواندن فایل robots.txt یک وب‌سایت در www.yoursite.com/robots.txt اشاره دارد. اگر DNS قدم اول و ایجاد ارتباط با سرور قدم دوم باشد، خواندن فایل robots.txt، قدم سوم در مراحل کرول یک وب‌سایت توسط گوگل است.


مقاله مرتبط: راهنمای گام به گام Robots.Txt


گوگل نمی‌خواهد که هر صفحه‌ای را که شما نخواهید، کرول و ایندکس کند پس اگر نتواند به فایل robots.txt وب‌سایت که شما در دامین قرار داده‌اید، دسترسی پیدا کند، کرول را تا زمان خواندن آن فایل به عقب خواهد انداخت. بااین‌وجود، اگر شما می‌خواهید که گوگل همه صفحات شمارا کرول و ایندکس کند، می‌توانید این فایل را به دامین خود اضافه نکنید و این خطا را نادیده بگیرید.

اگر شما این خطا را در کنسول جستجوی گوگل می‌بینید، بررسی کنید که چگونه فایل robots.txt را تنظیم کرده‌اید.

  • آیا آن را به‌عنوان فایل متن آشکار ایجاد کردید؟
  • آیا صفحه اصلی وب‌سایت خود را غیرمجاز کرده‌اید؟
  • آیا فایل txt شما یک ۲۰۰ status ارائه می‌دهد یا یک خطای ۴۰۴؟
  • آیا برای بار دوم و سوم و چهارم خط Disallow: / را جستجو کرده‌اید؟

هنگامی‌که شما با یک خطای robots روبرو می‌شوید، قابل توجه است که نداشتن یک فایل robots.txt، بهتر است از داشتن یک فایل که به‌صورت مناسب تنظیم نشده است، زیرا اگر آن فایل خراب باشد باعث می‌شود که گوگل از کرول سایت شما کلاً صرف‌نظر کند!

خطاهای URL

errors URL با خطاهای سایت تفاوت دارند ازآن‌جهت که فقط به برخی صفحات خاص مربوط می‌شوند نه همه وب‌سایت شما! آن‌ها مواردی را نشان می‌دهند که گوگل، صفحه خاصی را درخواست کرده است اما قادر نبوده که آن را بخواند.

Soft 404s

نام این خطا، شاید برای برخی‌ها گمراه‌کننده باشد. این‌ها صفحاتی نیستند که ۴۰۴ status code نشان دهند. در واقع، این‌ها صفحاتی هستند که یک ۲۰۰ HTTP status نشان می‌دهند. مشکل اینجاست که آن‌ها اغلب صفحات خالی هستند.

گوگل در پیدا کردن اینکه محتوا در کجای یک صفحه قرار دارد، خوب عمل می‌کند. پس وقتی یک URL شامل صفحه‌ای می‌شود که محتوای اصلی زیادی ندارد یا اصلاً محتوا ندارد، گوگل آن صفحه را یک soft 404 می‌نامد. از نظر فنی، صفحه وجود دارد و یک وضعیت ۲۰۰ نمایش می‌دهد اما یک صفحه خالی است.

گوگل به این صفحات توجه می‌کند زیرا آن‌ها برای کاربران مفید نیستند و باعث می‌شوند که گوگل بات بدون هیچ دلیل و نتیجه‌ای کار کند و بازده کرول صفحه شمارا کم می‌کنند.

بهترین شانس شما این است که یا به این صفحات محتوا اضافه کنید تا آن‌ها را قابل‌استفاده و مفید کنید یا اجازه ایندکس آن‌ها را غیرمجاز کنید تا گوگل دیگر آن‌ها را نبیند.

توجه داشته باشید که اگر شما از یک صفحه اختصاصی ۴۰۴ استفاده کنید که وضعیت ۴۰۴ را نمایش نمی‌دهد، احتمالاً از طرف گوگل به‌عنوان یک soft 404 شناسایی می‌شود!

Not found

URL‌های پیدا نشده، خطاهای واقعی ۴۰۴ هستند که در یک وب‌سایت دیده‌شده‌اند. گوگل یک URL در وب‌سایت شمارا درخواست کرده که وجود ندارد.


مقاله مرتبط: شناخت ١٠ خطای رایج در اینترنت


باوجودی که دیدن تعداد زیادی URL پیدا نشده در گزارش خطاهای کرول، شاید شمارا بترساند، اما به‌اندازه‌ای که به نظر می‌رسند، بد نیستند!

در واقع، به گفته خود گوگل، خطای ۴۰۴ روی ایندکس و رتبه‌بندی سایت شما تأثیری ندارد.

اکثریت خطاهای ۴۰۴ که شما می‌بینید، نیاز به رفع مشکل ندارند. هنگامی‌که می‌خواهید تصمیم بگیرید که یک خطای ۴۰۴ را اصلاح کنید یا نه، موارد زیر را در نظر بگیرید:

  • آیا URL، لینک‌های خارجی باکیفیت زیادی دارد؟
  • آیا ترافیک زیادی دریافت می‌کند؟
  • آیا نوعی از URL است که کاربران یا لینک دهنده‌ها قطعاً توقع داشته باشند که وجود داشته باشد؟

اگر پاسخ به یک یا چند سؤال بالا، مثبت است، شاید بهتر باشد که دلایل خطا را تحقیق کنید. اگر خطای ۴۰۴ به دلیل لینک‌های داخلی خراب ایجاد شده است، حتماً باید رفع مشکل کنید.

رفع مشکل خطای ۴۰۴ به دلیل ایجاد آن بستگی دارد. شاید فقط به‌سادگی اصلاح غلط املایی در یک لینک داخلی باشد. اگر به دلیل لینک خارجی به صفحات قدیمی است، از ریدایرکت ۳۰۱ استفاده کنید تا آن را به صفحه جدید هدایت کنید. اگر شبیه یک URL است که مردم توقع وجود آن را روی وب‌سایت شما داشته باشند، افزودن صفحه به وب‌سایت یا ریدایرکت کردن آن به یک محتوای مرتبط درجایی روی وب‌سایت خود را در نظر بگیرید!

Access denied

این خطاها وقتی اتفاق می‌افتند که گوگل اجازه پیدا نکند که به یک صفحه خاص دسترسی پیدا کند. آن‌ها معمولاً توسط دلایل زیر ایجاد می‌شوند:

  • قرار دادن پسورد روی صفحه
  • وجود صفحاتی که توسط txt مجاز شناخته نشوند
  • شرکت میزبان شما بات گوگل را بلاک کرده باشد (کاملا ممکن است!)

اگر شما نمی‌خواهید که URL‌های ظاهرشده در این بخش خطاهای کرول، در نتایج جستجو ظاهر شوند، نیازی ندارید که کاری در اینجا انجام دهید. این در واقع یک تائید است که وب‌سایت شما درست کار می‌کند.

اما اگر می‌خواهید که این صفحات در نتایج جستجو ظاهر شوند، باید عامل بلاک کننده گوگل را رفع کنید.

  • پنجره لاگین را از روی صفحه بردارید.
  • URL را از فایل txt حذف کنید.
  • با میزبان خود تماس بگیرید تا بات گوگل را در لیست سفید خود قرار دهد.

Not followed

این خطا را با link directive یا meta robots tag اشتباه نگیرید. این URL‌ها هیچ ارتباطی به آن‌ها ندارند. URL‌های دنبال نشده در خطاهای کرول، در واقع آن‌هایی هستند که گوگل نتوانسته آن‌ها را به مقصد خود به‌طور کامل دنبال کند.

دلایل ممکن:

  • فلش، جاوا اسکریپت یا هر محتوای فعالی که گوگل را بلاک می‌کند.
  • ریدایرکت‌های خراب، حلقه‌ها یا زنجیره‌ها.
  • لینک کردن نسبی در ریدایرکت‌ها.
  • URL‌های ریدایرکت ‌شده که در نقشه سایت شما قرار دارند.

دوباره، مانند خطاهای ۴۰۴ و access denied‌، تصمیم بگیرید که آیا URL‌های این بخش، ارزش رفع مشکل‌دارند یا نه؟ اگر صفحات برای وب‌سایت شما خیلی مهم نیستند، شاید نیازی نداشته باشید که آن‌ها را اصلاح کنید.

خطاهای سرور و DNS

این‌ها خطاهای مشابهی هستند که در قسمت خطاهای سایت، بررسی کردیم. گوگل یا نتوانسته که DNS یک URL را پیدا کند یا یک مشکلی با سرور شما هنگام بارگذاری صفحه وجود داشته است. تفاوت در این بخش این است که این خطاها تنها محدود به URL‌های لیست شده در این بخش هستند و به‌کل وب‌سایت شما ارتباطی ندارند.

برای دریافت کمک بیشتر از گوگل درباره هر یک از این خطاها و راه‌های رفع آن‌ها، مقاله Google Search Console Help article را در مورد خطاهای کرول بخوانید.

ابزار بازرسی URL

سرچ کنسول گوگل به شما اجازه می‌دهد تا هر صفحه روی وب‌سایت خود را برای مشکلات ایندکس و خطاهای کرول جستجو و بررسی کنید.

شما می‌توانید از ۳ طریق به ابزار بازرسی URL، دسترسی داشته باشید:

۱-کلیک روی لینک ابزار بازرسی URL در مسیریاب سمت چپ.

۲- واردکردن URL در نوار جستجو در بالای صفحه، پس ‌از اینکه یک وب‌سایت را در صفحه اول سرچ کنسول گوگل انتخاب کردید.

۳- کلیک روی نماد ذره‌بین روی سطر یک URL در گزارش عملکرد.

ابزار بازرسی URL

URL Inspection tool به شما نشان می‌دهد که اگر یک صفحه در گوگل ایندکس قرار دارد و جزئیات آنچه گوگل در زمان درخواست صفحه با آن برخورد کرده را ارائه می‌دهد که شامل:

  • صفحه‌ای که گوگل، لینک به صفحه شما را در آن پیدا کرد.
  • آخرین باری که کرولرهای گوگل به صفحه دسترسی پیدا کردند.

در عکس زیر می‌توانید ببینید که گزارش، برای یک صفحه که وضعیت ۴۰۴ را نشان داده، شامل چه مواردی است:

404 HTTP status

چه مشکلی با خطاهای کرول وجود دارد؟

واضح‌ترین مشکل در رابطه با داشتن خطای کرول در وب‌سایت شما این است که آن‌ها مانع گوگل برای دسترسی به محتوای شما می‌شوند. گوگل نمی‌تواند صفحه‌هایی را که به آن‌ها دسترسی ندارد، رتبه‌بندی کند. نرخ بالای خطاهای کرول همچنین می‌تواند بر روی دید گوگل در مورد سلامت کلی وب‌سایت شما تأثیر بگذارد.

هنگامی‌که کرولرهای گوگل مشکلات زیادی در دسترسی به محتوای یک وب‌سایت دارند، آن‌ها ممکن است تصمیم بگیرند که این صفحات ارزش کرول مداوم را ندارند. این باعث می‌شود تا صفحات جدید شما با زمان بیشتری نسبت به شرایط عادی، به گوگل ایندکس بروند.

منبع woorank.com
ابزار بهینه سازی وب هاست ایران

افزودن دیدگاه

کلیک برای ثبت دیدگاه