Big Data

از OCCC Wiki
پرش به ناوبری پرش به جستجو

عبارت Big Data مدت‌ها است که برای اشاره به حجم‌هاي عظیمی از داده‌‌ها که توسط سازمان‌های بزرگی مانند گوگل یا ناسا ذخیره و تحلیل مي‌شوند مورد استفاده قرار مي‌گیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعه‌های داده‌اي بزرگی استفاده مي‌شود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاه‌هاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع داده‌‌ها مربوط به برداشت و جمع‌آوری، ذخیره‌سازی، جست‌وجو، اشتراک‌گذاری، تحلیل و نمایش آن‌ها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا مي‌کند که با استفاده از تحلیل حجم‌هاي بیشتری از داده‌ها، مي‌توان تحلیل‌هاي بهتر و پيشرفته‌تري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی‌ و امنیتی، انجام داد و نتایج مناسب‌تری را دریافت‌کرد. بيشتر تحلیل‌های مورد نیاز در پردازش داده‌هاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، شبیه‌سازی‌هاي پیچیده فیزیک، تحقیقات زیست‌شناسی و محیطی، جست‌وجوی اینترنت، تحلیل‌هاي اقتصادی و مالی و تجاری مورد استفاده قرار مي‌گیرد. حجم داده‌هاي ذخیره‌شده در مجموعه‌هاي داده‌اي Big Data، عموماً به‌خاطر تولید و جمع‌آوری داده‌‌ها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشی‌هاي موبایل، حسگرهای محیطی، لاگ نرم‌افزارهای مختلف، دوربین‌ها، میکروفون‌ها، دستگاه‌هاي تشخیص RFID، شبکه‌هاي حسگر بی‌سیم وغيره با سرعت خیره‌کننده‌اي در حال افزایش است. در این ارائه ضمن بررسی مفاهیم پایه ای در بزرگ داده، به بررسی راه حل های موجود برای مدیریت و بهره برداری از این نوع داده ها خواهیم پرداخت.

چالش های حوزه کلان داده

در بحث کلان داده، ما نیاز داریم که داده ها را به منظور استخراج اطلاعات، کشف دانش و در نهایت تصمیم گیری در خصوص مسائل مختلف کاربردی به صورت صحیح مدیریت کنیم. مدیریت داده ها عموما شامل 5 فعالیت اصلی میباشد. 1- جمع آوری، 2- ذخیره سازی، 3- جستجو، 4- به اشتراک گذاری، 5- تحلیل. تا کنون چالشهای زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان میکنند. این چالش ها در ابتدا سه بعد اصلی حجم داده، نرخ تولید و تنوع به عنوان 3V’s مطرح شدند ولی در ادامه چالش های بیشتری در ادبیات موضوع توسط محققان مطرح شده است:

  • حجم داده (Volume): حجم داده ها به صورت نمایی در حال رشد می باشد. منابع مختلفی نظیر شبکه های اجتماعی، لاگ سرورهای وب، جریان های ترافیک، تصاویر ماهواره ای، جریان های صوتی، تراکنش های بانکی، محتوای صفحات وب، اسناد دولتی و ... وجود دارد که حجم داده بسیار زیادی تولید می کنند.
  • نرخ تولید (Velocity): داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید می¬شوند. بسیاری از کاربردها نیاز دارند به محض ورود داده به درخواست کاربر پاسخ دهند. ممکن است در برخی موارد نتوانیم به اندازه کافی صبر کنیم تا مثلا یک گزارش در سیستم برای مدت طولانی پردازش شود.
  • تنوع (Variety): انواع منابع داده و تنوع در نوع داده بسیار زیاد می باشد که در نتیجه ساختارهای داده ای بسیار زیادی وجود دارد. مثلا در وب، افراد از نرم افزارها و مرورگرهای مختلفی برای ارسال اطلاعات استفاده می¬کنند. بسیاری از اطلاعات مستقیما از انسان دریافت میشود و بنابراین وجود خطا اجتناب ناپذیر است. این تنوع سبب میشود جامعیت داده تحت تاثیر قرار بگیرد. زیرا هرچه تنوع بیشتری وجود داشته باشد، احتمال بروز خطای بیشتری نیز وجود خواهد داشت.
  • صحت (Veracity): با توجه به اینکه داده ها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلا در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشت. البته بعضی از تحقیقات این چالش را به معنای حفظ همه مشخصه های داده اصلی بیان کرده اند که باید حفظ شود تا بتوان کیفیت و صحت داده را تضمین کرد. البته تعریف دوم در مولدهای کلان داده صدق میکند تا بتوان داده ای تولید کرد که نشان دهنده ویژگی های داده اصلی باشد.
  • اعتبار (Validity): با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.
  • نوسان (Volatility): این موضوع به سیاست تجاری در خصوص نگهداری اطلاعات برمیگردد. بدلیل نوسان اطلاعات، در یک کاربرد ساده تجارت الکترونیک، شاید نگهداری اطلاعات فروش بیش از یک سال اهمیتی نداشته باشد. ولی در کلان داده معمولا میبایست داده ها برای مدت زمان طولانی نگهداری شوند. در کاربردهایی نظیر تحلیل ارز و بورس، نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلما هزینه های پیاده سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.
  • نمایش (Visualization): یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد از طریق روش های تحلیلی و بصری سازی مناسب اطلاعات امکان پذیری است.
  • ارزش (Value): این موضوع دلالت بر این دارد که آیا هزینه ای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تجاری و تصمیم گیری دارد یا نه. معمولا داده ها میتوانند در تایر های مختلف جابجا شوند. لایه های بالاتر به معنای ارزش بیشتر داده می باشند. بنابراین برخی از سازمانها میتوانند هزینه بالای نگهداری مربوط به تایرهای بالاتر را قبول کنند.