پروژه پژوهشی - Big Data

از OCCC Wiki
پرش به ناوبری پرش به جستجو

چکیده

مقدمه

داده‌هاي عظیم چیست

عبارت Big Data مدت‌ها است که برای اشاره به حجم‌هاي عظیمی از داده‌‌ها که توسط سازمان‌های بزرگی مانند گوگل یا ناسا ذخیره و تحلیل مي‌شوند مورد استفاده قرار مي‌گیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعه‌­های داده‌اي بزرگی استفاده مي‌شود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاه‌هاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع داده‌‌ها مربوط به برداشت و جمع‌آوری، ذخیره‌سازی، جست‌وجو، اشتراک‌گذاری، تحلیل و نمایش آن‌ها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا مي‌کند که با استفاده از تحلیل حجم‌هاي بیشتری از داده‌ها، مي‌توان تحلیل‌هاي بهتر و پيشرفته‌تري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی‌ و امنیتی، انجام داد و نتایج مناسب‌تری را دریافت‌کرد. بيشتر تحلیل‌های مورد نیاز در پردازش داده‌هاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، کانکتومیک (علوم مرتبط با نگاشت سیستم‌عصبی)، شبیه‌سازی‌هاي پیچیده فیزیک، تحقیقات زیست‌شناسی و محیطی، جست‌وجوی اینترنت، تحلیل‌هاي اقتصادی و مالی و تجاری مورد استفاده قرار مي‌گیرد. حجم داده‌هاي ذخیره‌شده در مجموعه‌هاي داده‌اي Big Data، عموماً به‌خاطر تولید و جمع‌آوری داده‌‌ها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشی‌هاي موبایل، حسگرهای محیطی، لاگ نرم‌افزارهای مختلف، دوربین‌ها، میکروفون‌ها، دستگاه‌هاي تشخیص RFID، شبکه‌هاي حسگر بی‌سیم وغيره با سرعت خیره‌کننده‌اي در حال افزایش است، به طوری که در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد داده‌هايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است! -- [1]

چالش محیط ذخیره سازی

  • اطلاعات بزرگ در محیط فناوری اطلاعات فرصت های هیجان انگیز زیادی برای سازمان ها ایجاد کرده است،اماآنها اول باید تصمیم بگیرند این مجموعه عظیم اطلاعات در کجا باید نگهداری شود.

رشد داده ها به عبارتی سیل افزایش داده ها

  • یک تحقیق بازار توسط شرکت آبردین نشان میدهد که رشد داده به طور متوسط حدود 35 درصد سالانه در سال های اخیر میباشد براساس این برآورد تقریبا درهر 2 سال نیاز است فضای ذخیره سازی 2 برابر شود بنابراین این یک مشکل بزرگ خواهد بود که سازمان با این سونامی اطلاعات چه کند. تکنولوژی محیط ذخیره سازی هم در آینده نزدیک برای این مسئله راه حلی ندارد ، از طرفی نیازهای جدید اطلاعات که درخواست داده های تا 15 سال قبل را دارند بنابراین باید فناوری های پیشتاز ذخیره سازی در توسعه ظرفیت نگهداری داده کارهای اساسی انجام دهند
  • ابر ذخیره سازی ُCLOUD Storage بواسطه انعطاف پذیری در مقیاس رشد زیر ساخت مناسبی می باشد.
  • راه کار موجود برای افزایش سرعت دسترسی از طریق (solid-state drives (SSD قابل حصول است.

با این حال، تلاش برای کنار آمدن با حجم رو به رشد داده با چالش روبرو خواهد شد.

توسعه کسب و کار

از دلایل اصلی که چرا داده حجم در حال افزایش است میتوان به کسب و کار های جدید مانند برنامه های کاربردی موبایل. بیش دستگاه های متصل به اینترنت. و منابع آنلاین بیشتر از اطلاعات، مانند رسانه های اجتماعی اشاره نمود که باعث ایجاد کانال های بیشتری را برای جمع آوری داده ها از مشتریان میشود ، که بعضی از اینها بر اساس توافقات بین شرکای تجاری نیز به اشتراک گذاشته میشوند

نیاز به تجزیه تحلیل بازار

با توجه به بررسی کومار اینتل، بسیاری از شرکت ها جمع آوری داده ها برای تجزیه و تحلیل برای کمک به افزایش مکارایی محصولات خود و یا به دست آوردن مزیت رقابتی بازار و همچنین استفاده از دستگاه تولید داده ایجاد شده توسط منابع مانند سنسور به جهت رفتار سنجی مشتریان را مدنظر قرار داده‌اند

داده های بدون ساختار

مقدار اطلاعات بدون ساختار به سرعت در حال افزایش است. در این مورد میتوان به داده های ویدیو کیفیت بالا و تصاویر گرفته شده توسط دستگاه های تلفن همراه با دوربین که روزانه در حال افزایش است ، اشاره کرد

مقابله با سیل

10 دسته بندی اول منابع و فن آوری استخراج دادهای بزرگ [2]

Social network profiles

Social influencers

Activity-generated data

Software as a Service (SaaS) and cloud applications

Public

Hadoop MapReduce application results

Data warehouse appliances

Columnar/NoSQL data sources

Network and in-stream monitoring technologies

Legacy documents

منابع