پروژه پژوهشی - Big Data

چکیده

Big Data به عنوان یکی از جدید ترین چالشهای فن آوری IT در حال حاضر مطرح می باشد، از زمانی که داده توسط عوامل مختلف تولید میشود یکی از مهمترین مباحث اینست که این داده در کجا ذخیره گردد ،در چه محلی مورد جستجو قرار گیرد ، با چه ترفندی جستجو هدفمند شود، چه توان محاسباتی در اختیار است و چگونه بهینه استفاده گردد . ما در این بحث با استفاده از مقالات معتبر بر انیم که مسیر حرکت فن آوری را بررسی نماییم و تازه های سخت افزار و روش های محاسباتی را به اشتراک بگذاریم.

مقدمه

در چند سال اخیر به علت رشد روز افزون تولید داده های مختلف (به دلیل ابزار IT و همچنین ایجاد شبکه های اجتماعی و دیگر موضوعات ) فعالان اقتصادی و سیاسی و امنیتی را بر آن داشته که بتوانند با تجزیه و تحلیل این داده ها اطلاعات موجود از قبیل رفتار مشتریان اقتصادی - کنشهای اجتماعی - مبارزه با تروریسم و غیره را بدست آورند اما یک معضل اصلی نگهداری این حجم عظیم داده و همچنین بررسی این داده ها و ارتباط بین انها نیاز به عوامل فنی را اتناب ناپذیر مینماید سوالهای متداول که در اینجا وجود دارد اینست که
1) داده ها در چه محل فیزیکی ذخیره شوند
2) چه تغییراتی در فایل سیستم ها و بانکهای اطلاعاتی انجام گردد
3) چگونه از پردازش موازی در تحلیل داده سود ببریم
4) روشهای جستجو و شاخص بندی بین این داده های ساخت نیافته چگونه ایجاد شود
5) ایجاد ابزار مناسبی که بتواند ارتباط بین سوالهای فوق را ایجاد کند
در اینجا بنا داریم با استفاده از منابع موجود مسیر تولید علم در Big Date را بررسی نماییم.

داده‌هاي عظیم چیست

عبارت Big Data مدت‌ها است که برای اشاره به حجم‌هاي عظیمی از داده‌‌ها که توسط سازمان‌های بزرگی مانند گوگل یا ناسا ذخیره و تحلیل مي‌شوند مورد استفاده قرار مي‌گیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعه‌های داده‌اي بزرگی استفاده مي‌شود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاه‌هاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع داده‌‌ها مربوط به برداشت و جمع‌آوری، ذخیره‌سازی، جست‌وجو، اشتراک‌گذاری، تحلیل و نمایش آن‌ها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا مي‌کند که با استفاده از تحلیل حجم‌هاي بیشتری از داده‌ها، مي‌توان تحلیل‌هاي بهتر و پيشرفته‌تري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی‌ و امنیتی، انجام داد و نتایج مناسب‌تری را دریافت‌کرد. بيشتر تحلیل‌های مورد نیاز در پردازش داده‌هاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، کانکتومیک (علوم مرتبط با نگاشت سیستم‌عصبی)، شبیه‌سازی‌هاي پیچیده فیزیک، تحقیقات زیست‌شناسی و محیطی، جست‌وجوی اینترنت، تحلیل‌هاي اقتصادی و مالی و تجاری مورد استفاده قرار مي‌گیرد. حجم داده‌هاي ذخیره‌شده در مجموعه‌هاي داده‌اي Big Data، عموماً به‌خاطر تولید و جمع‌آوری داده‌‌ها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشی‌هاي موبایل، حسگرهای محیطی، لاگ نرم‌افزارهای مختلف، دوربین‌ها، میکروفون‌ها، دستگاه‌هاي تشخیص RFID، شبکه‌هاي حسگر بی‌سیم وغيره با سرعت خیره‌کننده‌اي در حال افزایش است، به طوری که در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد داده‌هايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است! -- [1]

چالش محیط ذخیره سازی [2]

اطلاعات بزرگ در محیط فناوری اطلاعات فرصت های هیجان انگیز زیادی برای سازمان ها ایجاد کرده است،اماآنها اول باید تصمیم بگیرند این مجموعه عظیم اطلاعات در کجا باید نگهداری شود.

رشد داده ها به عبارتی سیل افزایش داده ها

یک تحقیق بازار توسط شرکت آبردین نشان میدهد که رشد داده به طور متوسط حدود 35 درصد سالانه در سال های اخیر میباشد براساس این برآورد تقریبا درهر 2 سال نیاز است فضای ذخیره سازی 2 برابر شود بنابراین این یک مشکل بزرگ خواهد بود که سازمان با این سونامی اطلاعات چه کند. تکنولوژی محیط ذخیره سازی هم در آینده نزدیک برای این مسئله راه حلی ندارد ، از طرفی نیازهای جدید اطلاعات که درخواست داده های تا 15 سال قبل را دارند بنابراین باید فناوری های پیشتاز ذخیره سازی در توسعه ظرفیت نگهداری داده کارهای اساسی انجام دهند
ابر ذخیره سازی ُCLOUD Storage بواسطه انعطاف پذیری در مقیاس رشد زیر ساخت مناسبی می باشد.
راه کار موجود برای افزایش سرعت دسترسی از طریق (solid-state drives (SSD قابل حصول است.

با این حال، تلاش برای کنار آمدن با حجم رو به رشد داده با چالش روبرو خواهد شد.

توسعه کسب و کار

از دلایل اصلی که چرا داده حجم در حال افزایش است میتوان به کسب و کار های جدید مانند برنامه های کاربردی موبایل. بیش دستگاه های متصل به اینترنت. و منابع آنلاین بیشتر از اطلاعات، مانند رسانه های اجتماعی اشاره نمود که باعث ایجاد کانال های بیشتری را برای جمع آوری داده ها از مشتریان میشود ، که بعضی از اینها بر اساس توافقات بین شرکای تجاری نیز به اشتراک گذاشته میشوند

نیاز به تجزیه تحلیل بازار

با توجه به بررسی کومار اینتل، بسیاری از شرکت ها جمع آوری داده ها برای تجزیه و تحلیل برای کمک به افزایش مکارایی محصولات خود و یا به دست آوردن مزیت رقابتی بازار و همچنین استفاده از دستگاه تولید داده ایجاد شده توسط منابع مانند سنسور به جهت رفتار سنجی مشتریان را مدنظر قرار داده‌اند

داده های بدون ساختار

مقدار اطلاعات بدون ساختار به سرعت در حال افزایش است. در این مورد میتوان به داده های ویدیو کیفیت بالا و تصاویر گرفته شده توسط دستگاه های تلفن همراه با دوربین که روزانه در حال افزایش است ، اشاره کرد

مقابله با سیل داده ها

چندین روش برای مقابله با این حجم داده وجود دارد، ابزاری مثل Apache Hadoop میتوانند به این رشد داده و اطلاعات ذخیره شده کمک نمایند، در این مورد Currie Munce معاون مدیر تولید دیسکهای SDD شرکت HGST میگوید " Hadoop یک نرم افزار متن باز است که به شما اجازه میدهد با یک نرم افزار ساده از طریق دسته های داده به وسیله پردازش خوشه ای از داد ها استفاده نمایید " .
کومار از شرکت اینتل : " فن اوری های جدید کارایی را با از بین بردن افزونگی داده و همچنین فشرده سازی داده افزایش داده اند "
به علاوه ، تغییرات فن آوری محیط ذخیره سازی به سرعت در حال ظهور میباشد ،برای مثال میتوان از ترکیب چند سرور با هزینه پایین و ارتباط نودهای آن به صورت انعطاف پذیر(در طول زمان به حجم و گنجایش آن افزود ) یک انباره داده ایجاد نمود.

دیسک سخت

دیسک سخت حداقل تا سال 2020 به عنوان اولین محیط ذخیره سازی جایگه خود را حفظ خواهد کرد ، دیسک در حال حاضر به عنوان اصلی ترین و ارزان و سهل الوصول ترین را ذخیره سازی داده مورد اتکا است . پروفسور استیون سوانسون استاد دانشگاه سن دیه گو کالیفرنیا، (UCSD) : " دیسک سخت یک مزیت غیر قابل بحث از نظر هزینه نگهداری برای هر بیت حجم داده دارد ، هیچ افق روشنی برای جابجایی تکنولوژی دیگر به جای دیسک سخت وجود ندارد" تولید کنندگان این محصول نیز از گذشته در فکر و اجای افزایش ظرفیت دیسک سخت میباشند.
کومار میگوید ظرفیت دیسکهای سخت در سال 2014 به 5 ترابایت خواهد رسید این ظرفیت در سال 2013 4 ترابایت است. سه روش جدید ذخیزه سازی داده در حال معرفی میباشند.

Nanolithography

در این فن آوری با استفاده از نانو تکنولوژی شبیه لیتوگافی عمل کرده و حجم ذخیره روی دیسک 2 نوآوری افزایش پیدا می کند. Nanoimprinting and molecular self-assembly با ایجاد سلولهای ذخیره کوچکتر باعث افزایش تراکم ناحیه ای روی دیسک به دو برابر میشود.

Helium drives

HGST تا پایانسال 2013 قرار است اولین دیسک خود را که به جای هوا داخل آن با گاز هلیوم پر میشود را ارائه نماید این عمل باعث کاهش حرکت روی پلاتر(حلقه) دیسک میگردد ، بنابراین هر دیسک به جای 6 صفحه میتواند شامل 7 صفحه گردد ، کاهش بار مکانیکی باعث افزایش کارایی و راندمان نوشتن بیتها در کنار هم میگردد بنا بر نظر تحلیل گر شرکت فوق در این صورت افزایش ظرفیت 25% تا 50% را خواهیم داشت ، علاوه بر این کاهش 23% مصرف انرژی ازدیگر مزیت این فنآوی می باشد. IHS در این مورد پیش بینی کرده فروش دیسکهای هلیوم تا آخر سال 2016 به رقم 100 میلیون خواهد رسید.

(Heat-assisted magnetic recording (HAMR

HAMR آخرین دستاورد در حال تولید دیسک است که قابلیت افزایش ظزفیت ذخیره سازی را دارد . این روش از لیزر جهت پایداری بال در ابزارذخیره سازی استفاده میکند . این دیسکها از آلیاژ آهن و پلاتین و سایر آلیاژ هایی که قادر به ذخیره سازی بیشری ازمواد فعلی هستند ساخته شده اند ، اما اینمواد بایستی گرم شوند تا بتوانند به حدکافی برای ذخیره داده مغناطیسی گردند . در آزمایشگاه شرکت seagate با استفاده از فنآوری HAMR توانایی ذخیره سازی 1TB روی هر اینچ مربع بدست آمده است در صورتی که این فضا در حال حاضر 620GB رابیشتر ذخیره نمیکند و این به معنی 60% رشد ذخیره سازی در یکواحد را حاصل می کند . شرکت seagate پیش بینی ظرفیت 6TB در آینده نزدیک و 60TB در محصولات تولیدی سال 2016 بر پایه فن آوری HAMR را دارد.

حافظه حالت جامد Solid state Memory

یکچالش بزرگ درکارکردبا داده های بزرگ برای سازمانها سرعت کار با این حجم داده می باشد. دیسکهای حالت جامد SSD از این جهت که شامل ابزارمکانیکی نیستند میتواند با سرعت بالاتری دسترسی به داده رافراهم نماید(البته این دیسکها به علت هزینه بالا و تخریب سریع به علت تعداد نوشتن محدود ) که بیشتر برای خواندن داده مورد استفاده قرار می گیرند . به تعبیری این حافظه کارگری مفید در خدمت داده های بزرگ ی باشند. بهره وری استفاده از SSD بیشتر برای داده های نامنظم از قبیل شبکه های اجتماعی می باشد. SSD تقریبا از نظر قیمت 10 برابر دیسکهای معمولی هزینه خواهد داشت اما با این حال وقتی ظرفیت آن افزایش یابدمشتری خود را بدست می آورد . محققین در حال کار بر روی تکنیکهای جدید 3D برای ارتقای ظرفیت ذخیره ساز SSD هستند. که اعلام شده اولین محصول 3D NAND در سال 2015 به بازار خواهد آمد .گروه دیگر از فروشندگان حافظه مثل توشیبا وSanDisk روی حافظه مبتی بر ReRam درحال فعالیتمی باشند. ReRam بر مبنای اعمال یک جریان الکتریکی بر روی مواد کار میکند این مقاومت باعث میشود بتوان داده های باینری را روی سطح خواند و یانوشت.

شرکتهای در حالتحقیق امیدوارند که این محصول بین سالهای 2017 - 2018 عمومی گردد.

ذخیره سازی ابری Cloud storage

ذخیره سازی موضوعی Object storage

مسیر و توان انتقال داده Data buses

منبع ذخیره نوری Optical storage

موانع ذخیره سازی STORAGE BARRIERS

فایل سیستمهای متناسب Big Data

فایل سیستم چند منظوره با قابلیت جستجوی بالا -[Versatile Searchable File System (VSFS) [3

یک فایل سیستم چند منظوره مبتنی بر زبان پرس و جو (NFQL) میباشد ، با تجزیه وتحلیل انجام شده روی ترافیک برنامه های کاربردی و ایجادشاخص قابلیت مقیاس پذیری بالا و قدرتمند را برای فیلتر داده فراهم میکند.

فایل سیستم توزیع شده hadoop شرکت آپاچی [5]

این فایل سیستم که توسط گروه تولید نرم افزار Apache تولید شده است علاوه بر قابلیت توزیع داده انعطاف بالایی در مورد خطا داشته و همچنین قابلیت ارا بر روی سخت افزارهای بسیار ارزان را دارد

ساخت سیستم های ذخیره سازی مبتنی بر فلش [5]

امروزه ذخیره سازی و مدیریت داده ها به شکل فزاینده ای به موضوع مهم محافل علمی دنیا تبدیل شده است، همچنین افزایش تراکم وکاهش قیمت فلش های NAND باعث تمایل به بهره‌مندی از این فناوری در دانشگاهها و شرکت های پیشرو فناوری شده است ، تراشه‌های فلش معمولادر درایوهای SSD جاگذاری میشوند

روشهای جستجوی داده

پردازش موازی جستجوی کلید مورد نظر در محیط نامشخص [6]

XML به صورت طبیعی برای بیان داده هایی بکار میرود که یک عدم قطعیت در آن موجود است. برایبهبود کارایی کلید جستجو در این محیط نامشخص ،ما از یک مدل دیویی برای Indexing عناصر XML استفاده میکنیم که یک روش رمز گذاری مبتنی بر پیشوند است ،شما وقتی با یک داده بزرگ کارمیکنید که طول عناصر کد دیویی آن هم بزرگ می باشدبه طور ملموسی بهره وری پایینی از روابط بین عناصر حادث خواهد شد که احتیاج به فضای ذخیره سازی بزرگ بوجود می‌آید . بنابراین داده های بزرگ و پیپیده شما دچار تنگنامی گردد در اینجاست که باید با استفاده از ترکیب مدیریت داده ها (partition) و استفاده از پردازش موازی اطلاعات را در زمان مناسب استخراج کرد . قطعات مختلف XML در شبکه های توزیع شده ذخیره میشود و امکان پردازش موازی به روش (SLCAs) یافتن کوچکترین ،پایینترین ، ریشه مشترک ارتباط را فراهم کرده و خروجی بالاترین احتمال درستی را دارد.

NoSQL Databases

10 دسته بندی اول منابع و فن آوری استخراج دادهای بزرگ [7]

Social network profiles

Social influencers

Activity-generated data

Software as a Service (SaaS) and cloud applications

Public

Hadoop MapReduce application results

Data warehouse appliances

Columnar/NoSQL data sources

Network and in-stream monitoring technologies

Legacy documents

منابع

1 ) ماهنامه شبكه شماره 133 با عنوان جنبش NoSQL
2) Storage Challenge : Where Will All That Big Data Go? :Neal Leavitt : 2013 IEEE
3) VSFS: A Searchable Distributed File System : Lei Xu,Ziling Huang ,Hong Jiang, Lei Tian, David Swanson :2014 IEEE
4) http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
5) A New Exploration to Build Flash-based Storage Systems by Co-Designing File System and FTL: Wenwei Qiu, Xiang Chen, Nong Xiao, Fang Liu, Zhiguang Chen : 2013 IEEE
6) Parallel Processing the Keyword Search in Uncertain Environment : Bo Ning, Xiaoping Zhou, Yimin Shi : 2012 IEEE
7) http://www.zdnet.com/article/top-10-categories-for-big-data-sources-and-mining-technologies