تعریف Spidering و Crawlers وب

عنکبوت ها و خزندگان وب: آنچه شما باید بدانید برای محافظت از اطلاعات وب سایت

عنکبوت ها برنامه ها (یا اسکریپت های خودکار) هستند که از طریق وب به دنبال اطلاعات می گردند. عنکبوت ها از طریق URL های وب سفر می کنند و می توانند داده ها را از صفحات وب مانند آدرس های ایمیل بکشند. عنکبوت ها نیز برای تغذیه اطلاعات موجود در وب سایت ها برای موتورهای جستجو استفاده می شوند.

عنکبوت، که همچنین به عنوان جستجوگرهای وب شناخته می شوند، در وب جستجو می کنند و نه همه آنها در قصد خود دوستانه هستند.

وب سایت های Spider Spiders برای جمع آوری اطلاعات

گوگل، یاهو

و سایر موتورهای جستجو تنها کسانی نیستند که علاقه مند به وب سایت های خزنده هستند - به همین علت ناامن و اسپم هستند.

عنکبوت ها و دیگر ابزارهای خودکار توسط اسپم ها برای یافتن آدرس های ایمیل (در اینترنت این عمل معمولا "برداشت" نامیده می شود) در وب سایت ها استفاده می شود و سپس از آنها برای ایجاد لیست های هرزنامه استفاده می کنند.

عنکبوتها همچنین ابزارهایی هستند که توسط موتورهای جستجو استفاده میشوند تا اطلاعات بیشتری در مورد وب سایت شما پیدا شوند اما بدون بررسی، یک وبسایت بدون دستورالعمل (یا «مجوزها») درباره نحوه خزیدن سایت شما میتواند خطرات امنیتی مهم عمده را ارائه دهد. عنکبوت ها با دنبال کردن پیوندها سفر می کنند و در پیدا کردن لینک ها به پایگاه های داده، فایل های برنامه و سایر اطلاعات بسیار مفید هستند که ممکن است شما نمی خواهید آنها دسترسی داشته باشند.

مدیران وب میتوانند سیاهههای مربوط را ببینند تا ببینند که عنکبوتها و دیگر رباتها از سایتهای آنها بازدید کردهاند. این اطلاعات به مدیران وب می آموزد که سایت خود را نمایه می کند و چقدر زمان می برد.

این اطلاعات مفید است زیرا اجازه می دهد تا مدیران وب سایت خود را به درستی تنظیم SEO خود و به روز رسانی فایل های robot.txt برای ممنوعیت روبات های خاص از خزیدن سایت خود را در آینده است.

نکاتی درباره حفاظت از وب سایت شما از Crawlers ربات ناخواسته

یک راه ساده برای نگه داشتن خزنده های ناخواسته از وب سایت شما وجود دارد. حتی اگر شما در مورد عنکبوت های مخرب خزنده سایت خود نگران نباشید (آدرس ایمیل مبهم شما را از بسیاری از خزنده ها محافظت نمی کند)، شما هنوز هم نیاز به ارائه موتورهای جستجو با دستورالعمل های مهم است.

تمام وبسایت ها بایستی یک فایل واقع در دایرکتوری ریشه را به نام یک فایل robots.txt داشته باشند. این فایل به شما اجازه می دهد تا خزنده های وب را به جایی که می خواهید آنها را به صفحات فهرست (به غیر از موارد دیگر در متا داده های صفحه مشخص شده بدون نشان دادن) مشخص کنید، در صورتی که آنها یک موتور جستجو هستند.

درست همانطور که می توانید خزنده های خواسته شده را در جایی که می خواهید آنها را مرور کنید، می توانید به آنها بگویید که جایی که ممکن است آنها را رها نکنند و حتی خزنده های خاص را از کل وب سایت شما مسدود کنند.

مهم این است که بدانید که یک فایل robots.txt به خوبی همراه با موتورهای جستجو بسیار ارزشمند خواهد داشت و حتی می تواند یک عنصر کلیدی در بهبود عملکرد وب سایت شما باشد، اما برخی از خزنده های ربات هنوز دستورالعمل های شما را نادیده می گیرند. به همین دلیل، مهم است که تمام نرم افزارها، پلاگین ها و برنامه های خود را همیشه به روز نگه دارید.

مقالات و اطلاعات مرتبط

با توجه به شيوع برداشت اطلاعاتي که براي اهداف نابخرد (هرزنامه) مورد استفاده قرار گرفت، در سال 2003، قانوني براي تصويب اقدامات غير قانوني صادر شد. این قوانین حفاظت از مصرف کنندگان تحت قانون CAN-SPAM 2003 قرار می گیرند.

مهم است که وقت خود را برای خواندن در قانون CAN-SPAM در نظر بگیرید، اگر کسب و کار شما در هر نوع ایمیل یا جمع آوری اطلاعات جمعآوری شود.

شما می توانید اطلاعات بیشتری در مورد قوانین ضد هرزنامه و نحوه مقابله با اسپم ها کسب کنید و آنچه را که شما به عنوان یک صاحب کسب و کار نمی توانید انجام دهید، با خواندن مقالات زیر: