پروژه پژوهشی - Big Data: تفاوت میان نسخهها
بدون خلاصۀ ویرایش |
|||
(۵۶ نسخهٔ میانی ویرایش شده توسط ۶ کاربر نشان داده نشد) | |||
خط ۱: | خط ۱: | ||
== چکیده == | == چکیده == | ||
* Big Data به عنوان یکی از جدید ترین چالشهای فن آوری IT در حال حاضر مطرح می باشد، از زمانی که داده توسط عوامل مختلف تولید میشود یکی از مهمترین مباحث اینست که این داده در کجا ذخیره گردد ،در چه محلی مورد جستجو قرار گیرد ، با چه ترفندی جستجو هدفمند شود، چه توان محاسباتی در اختیار است و چگونه بهینه استفاده گردد . ما در این بحث با استفاده از مقالات معتبر بر انیم که مسیر حرکت فن آوری را بررسی نماییم و تازه های سخت افزار و روش های محاسباتی را به اشتراک بگذاریم. | |||
== مقدمه == | == مقدمه == | ||
* در چند سال اخیر به علت رشد روز افزون تولید داده های مختلف (به دلیل ابزار IT و همچنین ایجاد شبکه های اجتماعی و دیگر موضوعات ) فعالان اقتصادی و سیاسی و امنیتی را بر آن داشته که بتوانند با تجزیه و تحلیل این داده ها اطلاعات موجود از قبیل رفتار مشتریان اقتصادی - کنشهای اجتماعی - مبارزه با تروریسم و غیره را بدست آورند اما یک معضل اصلی نگهداری این حجم عظیم داده و همچنین بررسی این داده ها و ارتباط بین انها نیاز به عوامل فنی را اتناب ناپذیر مینماید سوالهای متداول که در اینجا وجود دارد اینست که | |||
* 1) داده ها در چه محل فیزیکی ذخیره شوند | |||
* 2) چه تغییراتی در فایل سیستم ها و بانکهای اطلاعاتی انجام گردد | |||
* 3) چگونه از پردازش موازی در تحلیل داده سود ببریم | |||
* 4) روشهای جستجو و شاخص بندی بین این داده های ساخت نیافته چگونه ایجاد شود | |||
* 5) ایجاد ابزار مناسبی که بتواند ارتباط بین سوالهای فوق را ایجاد کند | |||
* در اینجا بنا داریم با استفاده از منابع موجود مسیر تولید علم در Big Date را بررسی نماییم. | |||
== دادههاي عظیم چیست == | == دادههاي عظیم چیست == | ||
عبارت Big Data مدتها است که برای اشاره به حجمهاي عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل ميشوند مورد استفاده قرار ميگیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعههای دادهاي بزرگی استفاده ميشود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا ميکند که با استفاده از تحلیل حجمهاي بیشتری از دادهها، ميتوان تحلیلهاي بهتر و پيشرفتهتري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد و نتایج مناسبتری را دریافتکرد. بيشتر تحلیلهای مورد نیاز در پردازش دادههاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، کانکتومیک (علوم مرتبط با نگاشت سیستمعصبی)، شبیهسازیهاي پیچیده فیزیک، تحقیقات زیستشناسی و محیطی، جستوجوی اینترنت، تحلیلهاي اقتصادی و مالی و تجاری مورد استفاده قرار ميگیرد. حجم دادههاي ذخیرهشده در مجموعههاي دادهاي Big Data، عموماً بهخاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهاي موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم وغيره با سرعت خیرهکنندهاي در حال افزایش است، به طوری که در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد دادههايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است! -- [1] | عبارت Big Data مدتها است که برای اشاره به حجمهاي عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل ميشوند مورد استفاده قرار ميگیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعههای دادهاي بزرگی استفاده ميشود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا ميکند که با استفاده از تحلیل حجمهاي بیشتری از دادهها، ميتوان تحلیلهاي بهتر و پيشرفتهتري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد و نتایج مناسبتری را دریافتکرد. بيشتر تحلیلهای مورد نیاز در پردازش دادههاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، کانکتومیک (علوم مرتبط با نگاشت سیستمعصبی)، شبیهسازیهاي پیچیده فیزیک، تحقیقات زیستشناسی و محیطی، جستوجوی اینترنت، تحلیلهاي اقتصادی و مالی و تجاری مورد استفاده قرار ميگیرد. حجم دادههاي ذخیرهشده در مجموعههاي دادهاي Big Data، عموماً بهخاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهاي موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم وغيره با سرعت خیرهکنندهاي در حال افزایش است، به طوری که در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد دادههايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است! -- [1] | ||
== چالش محیط ذخیره سازی == | == چالش محیط ذخیره سازی [2] == | ||
*اطلاعات بزرگ در محیط فناوری اطلاعات فرصت های هیجان انگیز زیادی برای سازمان ها ایجاد کرده است،اماآنها اول باید تصمیم بگیرند این مجموعه عظیم اطلاعات در کجا باید نگهداری شود. | *اطلاعات بزرگ در محیط فناوری اطلاعات فرصت های هیجان انگیز زیادی برای سازمان ها ایجاد کرده است،اماآنها اول باید تصمیم بگیرند این مجموعه عظیم اطلاعات در کجا باید نگهداری شود. | ||
=== | === رشد داده ها به عبارتی سیل افزایش داده ها === | ||
*یک تحقیق بازار توسط شرکت آبردین نشان میدهد که رشد داده به طور متوسط حدود 35 درصد سالانه در سال های اخیر میباشد براساس این برآورد تقریبا درهر 2 سال نیاز است فضای ذخیره سازی 2 برابر شود بنابراین این یک مشکل بزرگ خواهد بود که سازمان با این سونامی اطلاعات چه کند. تکنولوژی محیط ذخیره سازی هم در آینده نزدیک برای این مسئله راه حلی ندارد ، از طرفی نیازهای جدید اطلاعات که درخواست داده های تا 15 سال قبل را دارند بنابراین باید فناوری های پیشتاز ذخیره سازی در توسعه ظرفیت نگهداری داده کارهای اساسی انجام دهند | |||
*'''ابر ذخیره سازی''' ُCLOUD Storage بواسطه انعطاف پذیری در مقیاس رشد زیر ساخت مناسبی می باشد. | |||
* راه کار موجود برای افزایش سرعت دسترسی از طریق (solid-state drives (SSD قابل حصول است. | |||
با این حال، تلاش برای کنار آمدن با حجم رو به رشد داده با چالش روبرو خواهد شد. | |||
==== توسعه کسب و کار==== | |||
از دلایل اصلی که چرا داده حجم در حال افزایش است میتوان به کسب و کار های جدید مانند برنامه های کاربردی موبایل. بیش دستگاه های متصل به اینترنت. و منابع آنلاین بیشتر از اطلاعات، مانند رسانه های اجتماعی اشاره نمود که باعث ایجاد کانال های بیشتری را برای جمع آوری داده ها از مشتریان میشود ، که بعضی از اینها بر اساس توافقات بین شرکای تجاری نیز به اشتراک گذاشته میشوند | |||
==== نیاز به تجزیه تحلیل بازار ==== | |||
با توجه به بررسی کومار اینتل، بسیاری از شرکت ها جمع آوری داده ها برای تجزیه و تحلیل برای کمک به افزایش مکارایی محصولات خود و یا به دست آوردن مزیت رقابتی بازار و همچنین استفاده از دستگاه تولید داده ایجاد شده توسط منابع مانند سنسور به جهت رفتار سنجی مشتریان را مدنظر قرار دادهاند | |||
==== داده های بدون ساختار ==== | |||
مقدار اطلاعات بدون ساختار به سرعت در حال افزایش است. در این مورد میتوان به داده های ویدیو کیفیت بالا و تصاویر گرفته شده توسط دستگاه های تلفن همراه با دوربین که روزانه در حال افزایش است ، اشاره کرد | |||
=== مقابله با سیل داده ها === | |||
* چندین روش برای مقابله با این حجم داده وجود دارد، ابزاری مثل Apache Hadoop میتوانند به این رشد داده و اطلاعات ذخیره شده کمک نمایند، در این مورد Currie Munce معاون مدیر تولید دیسکهای SDD شرکت HGST میگوید " Hadoop یک نرم افزار متن باز است که به شما اجازه میدهد با یک نرم افزار ساده از طریق دسته های داده به وسیله پردازش خوشه ای از داد ها استفاده نمایید " . | |||
* کومار از شرکت اینتل : " فن اوری های جدید کارایی را با از بین بردن افزونگی داده و همچنین فشرده سازی داده افزایش داده اند " | |||
* به علاوه ، تغییرات فن آوری محیط ذخیره سازی به سرعت در حال ظهور میباشد ،برای مثال میتوان از ترکیب چند سرور با هزینه پایین و ارتباط نودهای آن به صورت انعطاف پذیر(در طول زمان به حجم و گنجایش آن افزود ) یک انباره داده ایجاد نمود. | |||
=== دیسک سخت === | |||
*دیسک سخت حداقل تا سال 2020 به عنوان اولین محیط ذخیره سازی جایگه خود را حفظ خواهد کرد ، دیسک در حال حاضر به عنوان اصلی ترین و ارزان و سهل الوصول ترین را ذخیره سازی داده مورد اتکا است . پروفسور استیون سوانسون استاد دانشگاه سن دیه گو کالیفرنیا، (UCSD) : " دیسک سخت یک مزیت غیر قابل بحث از نظر هزینه نگهداری برای هر بیت حجم داده دارد ، هیچ افق روشنی برای جابجایی تکنولوژی دیگر به جای دیسک سخت وجود ندارد" تولید کنندگان این محصول نیز از گذشته در فکر و اجای افزایش ظرفیت دیسک سخت میباشند. | |||
* کومار میگوید ظرفیت دیسکهای سخت در سال 2014 به 5 ترابایت خواهد رسید این ظرفیت در سال 2013 4 ترابایت است. سه روش جدید ذخیزه سازی داده در حال معرفی میباشند. | |||
==== Nanolithography ==== | |||
* در این فن آوری با استفاده از نانو تکنولوژی شبیه لیتوگافی عمل کرده و حجم ذخیره روی دیسک 2 نوآوری افزایش پیدا می کند. Nanoimprinting and molecular self-assembly با ایجاد سلولهای ذخیره کوچکتر باعث افزایش تراکم ناحیه ای روی دیسک به دو برابر میشود. | |||
==== Helium drives ==== | |||
* HGST تا پایانسال 2013 قرار است اولین دیسک خود را که به جای هوا داخل آن با گاز هلیوم پر میشود را ارائه نماید این عمل باعث کاهش حرکت روی پلاتر(حلقه) دیسک میگردد ، بنابراین هر دیسک به جای 6 صفحه میتواند شامل 7 صفحه گردد ، کاهش بار مکانیکی باعث افزایش کارایی و راندمان نوشتن بیتها در کنار هم میگردد بنا بر نظر تحلیل گر شرکت فوق در این صورت افزایش ظرفیت 25% تا 50% را خواهیم داشت ، علاوه بر این کاهش 23% مصرف انرژی ازدیگر مزیت این فنآوی می باشد. IHS در این مورد پیش بینی کرده فروش دیسکهای هلیوم تا آخر سال 2016 به رقم 100 میلیون خواهد رسید. | |||
==== (Heat-assisted magnetic recording (HAMR ==== | |||
* HAMR آخرین دستاورد در حال تولید دیسک است که قابلیت افزایش ظزفیت ذخیره سازی را دارد . این روش از لیزر جهت پایداری بال در ابزارذخیره سازی استفاده میکند . این دیسکها از آلیاژ آهن و پلاتین و سایر آلیاژ هایی که قادر به ذخیره سازی بیشری ازمواد فعلی هستند ساخته شده اند ، اما اینمواد بایستی گرم شوند تا بتوانند به حدکافی برای ذخیره داده مغناطیسی گردند . در آزمایشگاه شرکت seagate با استفاده از فنآوری HAMR توانایی ذخیره سازی 1TB روی هر اینچ مربع بدست آمده است در صورتی که این فضا در حال حاضر 620GB رابیشتر ذخیره نمیکند و این به معنی 60% رشد ذخیره سازی در یکواحد را حاصل می کند . شرکت seagate پیش بینی ظرفیت 6TB در آینده نزدیک و 60TB در محصولات تولیدی سال 2016 بر پایه فن آوری HAMR را دارد. | |||
=== حافظه حالت جامد Solid state Memory === | |||
یکچالش بزرگ درکارکردبا داده های بزرگ برای سازمانها سرعت کار با این حجم داده می باشد. دیسکهای حالت جامد SSD از این جهت که شامل ابزارمکانیکی نیستند میتواند با سرعت بالاتری دسترسی به داده رافراهم نماید(البته این دیسکها به علت هزینه بالا و تخریب سریع به علت تعداد نوشتن محدود ) که بیشتر برای خواندن داده مورد استفاده قرار می گیرند . به تعبیری این حافظه کارگری مفید در خدمت داده های بزرگ ی باشند. بهره وری استفاده از SSD بیشتر برای داده های نامنظم از قبیل شبکه های اجتماعی می باشد. SSD تقریبا از نظر قیمت 10 برابر دیسکهای معمولی هزینه خواهد داشت اما با این حال وقتی ظرفیت آن افزایش یابدمشتری خود را بدست می آورد . محققین در حال کار بر روی تکنیکهای جدید 3D برای ارتقای ظرفیت ذخیره ساز SSD هستند. که اعلام شده اولین محصول 3D NAND در سال 2015 به بازار خواهد آمد .گروه دیگر از فروشندگان حافظه مثل توشیبا وSanDisk روی حافظه مبتی بر ReRam درحال فعالیتمی باشند. ReRam بر مبنای اعمال یک جریان الکتریکی بر روی مواد کار میکند این مقاومت باعث میشود بتوان داده های باینری را روی سطح خواند و یانوشت. | |||
* شرکتهای در حالتحقیق امیدوارند که این محصول بین سالهای 2017 - 2018 عمومی گردد. | |||
=== ذخیره سازی ابری Cloud storage === | |||
=== ذخیره سازی موضوعی Object storage === | |||
=== مسیر و توان انتقال داده Data buses === | |||
=== منبع ذخیره نوری Optical storage === | |||
=== موانع ذخیره سازی STORAGE BARRIERS === | |||
== فایل سیستمهای متناسب Big Data == | |||
=== فایل سیستم چند منظوره با قابلیت جستجوی بالا -[Versatile Searchable File System (VSFS) [3 === | |||
* یک فایل سیستم چند منظوره مبتنی بر زبان پرس و جو (NFQL) میباشد ، با تجزیه وتحلیل انجام شده روی ترافیک برنامه های کاربردی و ایجادشاخص قابلیت مقیاس پذیری بالا و قدرتمند را برای فیلتر داده فراهم میکند. | |||
=== فایل سیستم توزیع شده hadoop شرکت آپاچی [5] === | |||
[[پرونده:Hadoop 92231548.jpg|قاب|وسط]] | |||
* این فایل سیستم که توسط گروه تولید نرم افزار Apache تولید شده است علاوه بر قابلیت توزیع داده انعطاف بالایی در مورد خطا داشته و همچنین قابلیت ارا بر روی سخت افزارهای بسیار ارزان را دارد | |||
== ساخت سیستم های ذخیره سازی مبتنی بر فلش [5] == | |||
* امروزه ذخیره سازی و مدیریت داده ها به شکل فزاینده ای به موضوع مهم محافل علمی دنیا تبدیل شده است، همچنین افزایش تراکم وکاهش قیمت فلش های NAND باعث تمایل به بهرهمندی از این فناوری در دانشگاهها و شرکت های پیشرو فناوری شده است ، تراشههای فلش معمولادر درایوهای SSD جاگذاری میشوند | |||
== روشهای جستجوی داده == | |||
=== پردازش موازی جستجوی کلید مورد نظر در محیط نامشخص [6] === | |||
* XML به صورت طبیعی برای بیان داده هایی بکار میرود که یک عدم قطعیت در آن موجود است. برایبهبود کارایی کلید جستجو در این محیط نامشخص ،ما از یک مدل دیویی برای Indexing عناصر XML استفاده میکنیم که یک روش رمز گذاری مبتنی بر پیشوند است ،شما وقتی با یک داده بزرگ کارمیکنید که طول عناصر کد دیویی آن هم بزرگ می باشدبه طور ملموسی بهره وری پایینی از روابط بین عناصر حادث خواهد شد که احتیاج به فضای ذخیره سازی بزرگ بوجود میآید . بنابراین داده های بزرگ و پیپیده شما دچار تنگنامی گردد در اینجاست که باید با استفاده از ترکیب مدیریت داده ها (partition) و استفاده از پردازش موازی اطلاعات را در زمان مناسب استخراج کرد . قطعات مختلف XML در شبکه های توزیع شده ذخیره میشود و امکان پردازش موازی به روش (SLCAs) یافتن کوچکترین ،پایینترین ، ریشه مشترک ارتباط را فراهم کرده و خروجی بالاترین احتمال درستی را دارد. | |||
=== NoSQL Databases === | |||
== 10 دسته بندی اول منابع و فن آوری استخراج دادهای بزرگ [ | == 10 دسته بندی اول منابع و فن آوری استخراج دادهای بزرگ [7] == | ||
=== Social network profiles === | === Social network profiles === | ||
=== Social influencers === | === Social influencers === | ||
خط ۲۱: | خط ۸۶: | ||
== منابع == | == منابع == | ||
*1 ) ماهنامه شبكه شماره 133 با عنوان جنبش NoSQL | *1 ) ماهنامه شبكه شماره 133 با عنوان جنبش NoSQL | ||
*2 )http://www.zdnet.com/article/top-10-categories-for-big-data-sources-and-mining-technologies | *2) Storage Challenge : Where Will All That Big Data Go? :Neal Leavitt : 2013 IEEE | ||
*3) VSFS: A Searchable Distributed File System : Lei Xu,Ziling Huang ,Hong Jiang, Lei Tian, David Swanson :2014 IEEE | |||
*4) http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html | |||
*5) A New Exploration to Build Flash-based Storage Systems by Co-Designing File System and FTL: Wenwei Qiu, Xiang Chen, Nong Xiao, Fang Liu, Zhiguang Chen : 2013 IEEE | |||
*6) Parallel Processing the Keyword Search in Uncertain Environment : Bo Ning, Xiaoping Zhou, Yimin Shi : 2012 IEEE | |||
*7) http://www.zdnet.com/article/top-10-categories-for-big-data-sources-and-mining-technologies |
نسخهٔ کنونی تا ۶ مارس ۲۰۱۵، ساعت ۱۲:۴۲
چکیده
- Big Data به عنوان یکی از جدید ترین چالشهای فن آوری IT در حال حاضر مطرح می باشد، از زمانی که داده توسط عوامل مختلف تولید میشود یکی از مهمترین مباحث اینست که این داده در کجا ذخیره گردد ،در چه محلی مورد جستجو قرار گیرد ، با چه ترفندی جستجو هدفمند شود، چه توان محاسباتی در اختیار است و چگونه بهینه استفاده گردد . ما در این بحث با استفاده از مقالات معتبر بر انیم که مسیر حرکت فن آوری را بررسی نماییم و تازه های سخت افزار و روش های محاسباتی را به اشتراک بگذاریم.
مقدمه
- در چند سال اخیر به علت رشد روز افزون تولید داده های مختلف (به دلیل ابزار IT و همچنین ایجاد شبکه های اجتماعی و دیگر موضوعات ) فعالان اقتصادی و سیاسی و امنیتی را بر آن داشته که بتوانند با تجزیه و تحلیل این داده ها اطلاعات موجود از قبیل رفتار مشتریان اقتصادی - کنشهای اجتماعی - مبارزه با تروریسم و غیره را بدست آورند اما یک معضل اصلی نگهداری این حجم عظیم داده و همچنین بررسی این داده ها و ارتباط بین انها نیاز به عوامل فنی را اتناب ناپذیر مینماید سوالهای متداول که در اینجا وجود دارد اینست که
- 1) داده ها در چه محل فیزیکی ذخیره شوند
- 2) چه تغییراتی در فایل سیستم ها و بانکهای اطلاعاتی انجام گردد
- 3) چگونه از پردازش موازی در تحلیل داده سود ببریم
- 4) روشهای جستجو و شاخص بندی بین این داده های ساخت نیافته چگونه ایجاد شود
- 5) ایجاد ابزار مناسبی که بتواند ارتباط بین سوالهای فوق را ایجاد کند
- در اینجا بنا داریم با استفاده از منابع موجود مسیر تولید علم در Big Date را بررسی نماییم.
دادههاي عظیم چیست
عبارت Big Data مدتها است که برای اشاره به حجمهاي عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل ميشوند مورد استفاده قرار ميگیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعههای دادهاي بزرگی استفاده ميشود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا ميکند که با استفاده از تحلیل حجمهاي بیشتری از دادهها، ميتوان تحلیلهاي بهتر و پيشرفتهتري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد و نتایج مناسبتری را دریافتکرد. بيشتر تحلیلهای مورد نیاز در پردازش دادههاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، کانکتومیک (علوم مرتبط با نگاشت سیستمعصبی)، شبیهسازیهاي پیچیده فیزیک، تحقیقات زیستشناسی و محیطی، جستوجوی اینترنت، تحلیلهاي اقتصادی و مالی و تجاری مورد استفاده قرار ميگیرد. حجم دادههاي ذخیرهشده در مجموعههاي دادهاي Big Data، عموماً بهخاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهاي موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم وغيره با سرعت خیرهکنندهاي در حال افزایش است، به طوری که در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد دادههايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است! -- [1]
چالش محیط ذخیره سازی [2]
- اطلاعات بزرگ در محیط فناوری اطلاعات فرصت های هیجان انگیز زیادی برای سازمان ها ایجاد کرده است،اماآنها اول باید تصمیم بگیرند این مجموعه عظیم اطلاعات در کجا باید نگهداری شود.
رشد داده ها به عبارتی سیل افزایش داده ها
- یک تحقیق بازار توسط شرکت آبردین نشان میدهد که رشد داده به طور متوسط حدود 35 درصد سالانه در سال های اخیر میباشد براساس این برآورد تقریبا درهر 2 سال نیاز است فضای ذخیره سازی 2 برابر شود بنابراین این یک مشکل بزرگ خواهد بود که سازمان با این سونامی اطلاعات چه کند. تکنولوژی محیط ذخیره سازی هم در آینده نزدیک برای این مسئله راه حلی ندارد ، از طرفی نیازهای جدید اطلاعات که درخواست داده های تا 15 سال قبل را دارند بنابراین باید فناوری های پیشتاز ذخیره سازی در توسعه ظرفیت نگهداری داده کارهای اساسی انجام دهند
- ابر ذخیره سازی ُCLOUD Storage بواسطه انعطاف پذیری در مقیاس رشد زیر ساخت مناسبی می باشد.
- راه کار موجود برای افزایش سرعت دسترسی از طریق (solid-state drives (SSD قابل حصول است.
با این حال، تلاش برای کنار آمدن با حجم رو به رشد داده با چالش روبرو خواهد شد.
توسعه کسب و کار
از دلایل اصلی که چرا داده حجم در حال افزایش است میتوان به کسب و کار های جدید مانند برنامه های کاربردی موبایل. بیش دستگاه های متصل به اینترنت. و منابع آنلاین بیشتر از اطلاعات، مانند رسانه های اجتماعی اشاره نمود که باعث ایجاد کانال های بیشتری را برای جمع آوری داده ها از مشتریان میشود ، که بعضی از اینها بر اساس توافقات بین شرکای تجاری نیز به اشتراک گذاشته میشوند
نیاز به تجزیه تحلیل بازار
با توجه به بررسی کومار اینتل، بسیاری از شرکت ها جمع آوری داده ها برای تجزیه و تحلیل برای کمک به افزایش مکارایی محصولات خود و یا به دست آوردن مزیت رقابتی بازار و همچنین استفاده از دستگاه تولید داده ایجاد شده توسط منابع مانند سنسور به جهت رفتار سنجی مشتریان را مدنظر قرار دادهاند
داده های بدون ساختار
مقدار اطلاعات بدون ساختار به سرعت در حال افزایش است. در این مورد میتوان به داده های ویدیو کیفیت بالا و تصاویر گرفته شده توسط دستگاه های تلفن همراه با دوربین که روزانه در حال افزایش است ، اشاره کرد
مقابله با سیل داده ها
- چندین روش برای مقابله با این حجم داده وجود دارد، ابزاری مثل Apache Hadoop میتوانند به این رشد داده و اطلاعات ذخیره شده کمک نمایند، در این مورد Currie Munce معاون مدیر تولید دیسکهای SDD شرکت HGST میگوید " Hadoop یک نرم افزار متن باز است که به شما اجازه میدهد با یک نرم افزار ساده از طریق دسته های داده به وسیله پردازش خوشه ای از داد ها استفاده نمایید " .
- کومار از شرکت اینتل : " فن اوری های جدید کارایی را با از بین بردن افزونگی داده و همچنین فشرده سازی داده افزایش داده اند "
- به علاوه ، تغییرات فن آوری محیط ذخیره سازی به سرعت در حال ظهور میباشد ،برای مثال میتوان از ترکیب چند سرور با هزینه پایین و ارتباط نودهای آن به صورت انعطاف پذیر(در طول زمان به حجم و گنجایش آن افزود ) یک انباره داده ایجاد نمود.
دیسک سخت
- دیسک سخت حداقل تا سال 2020 به عنوان اولین محیط ذخیره سازی جایگه خود را حفظ خواهد کرد ، دیسک در حال حاضر به عنوان اصلی ترین و ارزان و سهل الوصول ترین را ذخیره سازی داده مورد اتکا است . پروفسور استیون سوانسون استاد دانشگاه سن دیه گو کالیفرنیا، (UCSD) : " دیسک سخت یک مزیت غیر قابل بحث از نظر هزینه نگهداری برای هر بیت حجم داده دارد ، هیچ افق روشنی برای جابجایی تکنولوژی دیگر به جای دیسک سخت وجود ندارد" تولید کنندگان این محصول نیز از گذشته در فکر و اجای افزایش ظرفیت دیسک سخت میباشند.
- کومار میگوید ظرفیت دیسکهای سخت در سال 2014 به 5 ترابایت خواهد رسید این ظرفیت در سال 2013 4 ترابایت است. سه روش جدید ذخیزه سازی داده در حال معرفی میباشند.
Nanolithography
- در این فن آوری با استفاده از نانو تکنولوژی شبیه لیتوگافی عمل کرده و حجم ذخیره روی دیسک 2 نوآوری افزایش پیدا می کند. Nanoimprinting and molecular self-assembly با ایجاد سلولهای ذخیره کوچکتر باعث افزایش تراکم ناحیه ای روی دیسک به دو برابر میشود.
Helium drives
- HGST تا پایانسال 2013 قرار است اولین دیسک خود را که به جای هوا داخل آن با گاز هلیوم پر میشود را ارائه نماید این عمل باعث کاهش حرکت روی پلاتر(حلقه) دیسک میگردد ، بنابراین هر دیسک به جای 6 صفحه میتواند شامل 7 صفحه گردد ، کاهش بار مکانیکی باعث افزایش کارایی و راندمان نوشتن بیتها در کنار هم میگردد بنا بر نظر تحلیل گر شرکت فوق در این صورت افزایش ظرفیت 25% تا 50% را خواهیم داشت ، علاوه بر این کاهش 23% مصرف انرژی ازدیگر مزیت این فنآوی می باشد. IHS در این مورد پیش بینی کرده فروش دیسکهای هلیوم تا آخر سال 2016 به رقم 100 میلیون خواهد رسید.
(Heat-assisted magnetic recording (HAMR
- HAMR آخرین دستاورد در حال تولید دیسک است که قابلیت افزایش ظزفیت ذخیره سازی را دارد . این روش از لیزر جهت پایداری بال در ابزارذخیره سازی استفاده میکند . این دیسکها از آلیاژ آهن و پلاتین و سایر آلیاژ هایی که قادر به ذخیره سازی بیشری ازمواد فعلی هستند ساخته شده اند ، اما اینمواد بایستی گرم شوند تا بتوانند به حدکافی برای ذخیره داده مغناطیسی گردند . در آزمایشگاه شرکت seagate با استفاده از فنآوری HAMR توانایی ذخیره سازی 1TB روی هر اینچ مربع بدست آمده است در صورتی که این فضا در حال حاضر 620GB رابیشتر ذخیره نمیکند و این به معنی 60% رشد ذخیره سازی در یکواحد را حاصل می کند . شرکت seagate پیش بینی ظرفیت 6TB در آینده نزدیک و 60TB در محصولات تولیدی سال 2016 بر پایه فن آوری HAMR را دارد.
حافظه حالت جامد Solid state Memory
یکچالش بزرگ درکارکردبا داده های بزرگ برای سازمانها سرعت کار با این حجم داده می باشد. دیسکهای حالت جامد SSD از این جهت که شامل ابزارمکانیکی نیستند میتواند با سرعت بالاتری دسترسی به داده رافراهم نماید(البته این دیسکها به علت هزینه بالا و تخریب سریع به علت تعداد نوشتن محدود ) که بیشتر برای خواندن داده مورد استفاده قرار می گیرند . به تعبیری این حافظه کارگری مفید در خدمت داده های بزرگ ی باشند. بهره وری استفاده از SSD بیشتر برای داده های نامنظم از قبیل شبکه های اجتماعی می باشد. SSD تقریبا از نظر قیمت 10 برابر دیسکهای معمولی هزینه خواهد داشت اما با این حال وقتی ظرفیت آن افزایش یابدمشتری خود را بدست می آورد . محققین در حال کار بر روی تکنیکهای جدید 3D برای ارتقای ظرفیت ذخیره ساز SSD هستند. که اعلام شده اولین محصول 3D NAND در سال 2015 به بازار خواهد آمد .گروه دیگر از فروشندگان حافظه مثل توشیبا وSanDisk روی حافظه مبتی بر ReRam درحال فعالیتمی باشند. ReRam بر مبنای اعمال یک جریان الکتریکی بر روی مواد کار میکند این مقاومت باعث میشود بتوان داده های باینری را روی سطح خواند و یانوشت.
- شرکتهای در حالتحقیق امیدوارند که این محصول بین سالهای 2017 - 2018 عمومی گردد.
ذخیره سازی ابری Cloud storage
ذخیره سازی موضوعی Object storage
مسیر و توان انتقال داده Data buses
منبع ذخیره نوری Optical storage
موانع ذخیره سازی STORAGE BARRIERS
فایل سیستمهای متناسب Big Data
فایل سیستم چند منظوره با قابلیت جستجوی بالا -[Versatile Searchable File System (VSFS) [3
- یک فایل سیستم چند منظوره مبتنی بر زبان پرس و جو (NFQL) میباشد ، با تجزیه وتحلیل انجام شده روی ترافیک برنامه های کاربردی و ایجادشاخص قابلیت مقیاس پذیری بالا و قدرتمند را برای فیلتر داده فراهم میکند.
فایل سیستم توزیع شده hadoop شرکت آپاچی [5]
- این فایل سیستم که توسط گروه تولید نرم افزار Apache تولید شده است علاوه بر قابلیت توزیع داده انعطاف بالایی در مورد خطا داشته و همچنین قابلیت ارا بر روی سخت افزارهای بسیار ارزان را دارد
ساخت سیستم های ذخیره سازی مبتنی بر فلش [5]
- امروزه ذخیره سازی و مدیریت داده ها به شکل فزاینده ای به موضوع مهم محافل علمی دنیا تبدیل شده است، همچنین افزایش تراکم وکاهش قیمت فلش های NAND باعث تمایل به بهرهمندی از این فناوری در دانشگاهها و شرکت های پیشرو فناوری شده است ، تراشههای فلش معمولادر درایوهای SSD جاگذاری میشوند
روشهای جستجوی داده
پردازش موازی جستجوی کلید مورد نظر در محیط نامشخص [6]
- XML به صورت طبیعی برای بیان داده هایی بکار میرود که یک عدم قطعیت در آن موجود است. برایبهبود کارایی کلید جستجو در این محیط نامشخص ،ما از یک مدل دیویی برای Indexing عناصر XML استفاده میکنیم که یک روش رمز گذاری مبتنی بر پیشوند است ،شما وقتی با یک داده بزرگ کارمیکنید که طول عناصر کد دیویی آن هم بزرگ می باشدبه طور ملموسی بهره وری پایینی از روابط بین عناصر حادث خواهد شد که احتیاج به فضای ذخیره سازی بزرگ بوجود میآید . بنابراین داده های بزرگ و پیپیده شما دچار تنگنامی گردد در اینجاست که باید با استفاده از ترکیب مدیریت داده ها (partition) و استفاده از پردازش موازی اطلاعات را در زمان مناسب استخراج کرد . قطعات مختلف XML در شبکه های توزیع شده ذخیره میشود و امکان پردازش موازی به روش (SLCAs) یافتن کوچکترین ،پایینترین ، ریشه مشترک ارتباط را فراهم کرده و خروجی بالاترین احتمال درستی را دارد.
NoSQL Databases
10 دسته بندی اول منابع و فن آوری استخراج دادهای بزرگ [7]
Social network profiles
Social influencers
Activity-generated data
Software as a Service (SaaS) and cloud applications
Public
Hadoop MapReduce application results
Data warehouse appliances
Columnar/NoSQL data sources
Network and in-stream monitoring technologies
Legacy documents
منابع
- 1 ) ماهنامه شبكه شماره 133 با عنوان جنبش NoSQL
- 2) Storage Challenge : Where Will All That Big Data Go? :Neal Leavitt : 2013 IEEE
- 3) VSFS: A Searchable Distributed File System : Lei Xu,Ziling Huang ,Hong Jiang, Lei Tian, David Swanson :2014 IEEE
- 4) http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
- 5) A New Exploration to Build Flash-based Storage Systems by Co-Designing File System and FTL: Wenwei Qiu, Xiang Chen, Nong Xiao, Fang Liu, Zhiguang Chen : 2013 IEEE
- 6) Parallel Processing the Keyword Search in Uncertain Environment : Bo Ning, Xiaoping Zhou, Yimin Shi : 2012 IEEE
- 7) http://www.zdnet.com/article/top-10-categories-for-big-data-sources-and-mining-technologies