پروژه پژوهشی - Big Data: تفاوت میان نسخهها
خط ۱۱: | خط ۱۱: | ||
== دادههاي عظیم چیست == | == دادههاي عظیم چیست == | ||
عبارت Big Data مدتها است که برای اشاره به حجمهاي عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل ميشوند مورد استفاده قرار ميگیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعههای دادهاي بزرگی استفاده ميشود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا ميکند که با استفاده از تحلیل حجمهاي بیشتری از دادهها، ميتوان تحلیلهاي بهتر و پيشرفتهتري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد و نتایج مناسبتری را دریافتکرد. بيشتر تحلیلهای مورد نیاز در پردازش دادههاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، کانکتومیک (علوم مرتبط با نگاشت سیستمعصبی)، شبیهسازیهاي پیچیده فیزیک، تحقیقات زیستشناسی و محیطی، جستوجوی اینترنت، تحلیلهاي اقتصادی و مالی و تجاری مورد استفاده قرار ميگیرد. حجم دادههاي ذخیرهشده در مجموعههاي دادهاي Big Data، عموماً بهخاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهاي موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم وغيره با سرعت خیرهکنندهاي در حال افزایش است، به طوری که در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد دادههايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است! -- [1] | عبارت Big Data مدتها است که برای اشاره به حجمهاي عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل ميشوند مورد استفاده قرار ميگیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعههای دادهاي بزرگی استفاده ميشود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا ميکند که با استفاده از تحلیل حجمهاي بیشتری از دادهها، ميتوان تحلیلهاي بهتر و پيشرفتهتري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد و نتایج مناسبتری را دریافتکرد. بيشتر تحلیلهای مورد نیاز در پردازش دادههاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، کانکتومیک (علوم مرتبط با نگاشت سیستمعصبی)، شبیهسازیهاي پیچیده فیزیک، تحقیقات زیستشناسی و محیطی، جستوجوی اینترنت، تحلیلهاي اقتصادی و مالی و تجاری مورد استفاده قرار ميگیرد. حجم دادههاي ذخیرهشده در مجموعههاي دادهاي Big Data، عموماً بهخاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهاي موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم وغيره با سرعت خیرهکنندهاي در حال افزایش است، به طوری که در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد دادههايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است! -- [1] | ||
== چالش محیط ذخیره سازی == | == چالش محیط ذخیره سازی [3] == | ||
*اطلاعات بزرگ در محیط فناوری اطلاعات فرصت های هیجان انگیز زیادی برای سازمان ها ایجاد کرده است،اماآنها اول باید تصمیم بگیرند این مجموعه عظیم اطلاعات در کجا باید نگهداری شود. | *اطلاعات بزرگ در محیط فناوری اطلاعات فرصت های هیجان انگیز زیادی برای سازمان ها ایجاد کرده است،اماآنها اول باید تصمیم بگیرند این مجموعه عظیم اطلاعات در کجا باید نگهداری شود. | ||
=== رشد داده ها به عبارتی سیل افزایش داده ها === | === رشد داده ها به عبارتی سیل افزایش داده ها === | ||
خط ۵۱: | خط ۵۱: | ||
=== منبع ذخیره نوری Optical storage === | === منبع ذخیره نوری Optical storage === | ||
=== موانع ذخیره سازی STORAGE BARRIERS === | === موانع ذخیره سازی STORAGE BARRIERS === | ||
== پردازش موازی جستجوی کلید مورد نظر در محیط نامشخص == | == پردازش موازی جستجوی کلید مورد نظر در محیط نامشخص == | ||
* XML به صورت طبیعی برای بیان داده هایی بکار میرود که یک عدم قطعیت در آن موجود است. برایبهبود کارایی کلید جستجو در این محیط نامشخص ،ما از یک مدل دیویی برای Indexing عناصر XML استفاده میکنیم که یک روش رمز گذاری مبتنی بر پیشوند است ،شما وقتی با یک داده بزرگ کارمیکنید که طول عناصر کد دیویی آن هم بزرگ می باشدبه طور ملموسی بهره وری پایینی از روابط بین عناصر حادث خواهد شد که احتیاج به فضای ذخیره سازی بزرگ بوجود میآید . بنابراین داده های بزرگ و پیپیده شما دچار تنگنامی گردد در اینجاست که باید با استفاده از ترکیب مدیریت داده ها (partition) و استفاده از پردازش موازی اطلاعات را در زمان مناسب استخراج کرد . قطعات مختلف XML در شبکه های توزیع شده ذخیره میشود و امکان پردازش موازی به روش (SLCAs) یافتن کوچکترین ،پایینترین ، ریشه مشترک ارتباط را فراهم کرده و خروجی بالاترین احتمال درستی را دارد. | * XML به صورت طبیعی برای بیان داده هایی بکار میرود که یک عدم قطعیت در آن موجود است. برایبهبود کارایی کلید جستجو در این محیط نامشخص ،ما از یک مدل دیویی برای Indexing عناصر XML استفاده میکنیم که یک روش رمز گذاری مبتنی بر پیشوند است ،شما وقتی با یک داده بزرگ کارمیکنید که طول عناصر کد دیویی آن هم بزرگ می باشدبه طور ملموسی بهره وری پایینی از روابط بین عناصر حادث خواهد شد که احتیاج به فضای ذخیره سازی بزرگ بوجود میآید . بنابراین داده های بزرگ و پیپیده شما دچار تنگنامی گردد در اینجاست که باید با استفاده از ترکیب مدیریت داده ها (partition) و استفاده از پردازش موازی اطلاعات را در زمان مناسب استخراج کرد . قطعات مختلف XML در شبکه های توزیع شده ذخیره میشود و امکان پردازش موازی به روش (SLCAs) یافتن کوچکترین ،پایینترین ، ریشه مشترک ارتباط را فراهم کرده و خروجی بالاترین احتمال درستی را دارد. |
نسخهٔ ۲۰ فوریهٔ ۲۰۱۵، ساعت ۰۰:۵۵
چکیده
مقدمه
- در چند سال اخیر به علت رشد روز افزون تولید داده های مختلف (به دلیل ابزار IT و همچنین ایجاد شبکه های اجتماعی و دیگر موضوعات ) فعالان اقتصادی و سیاسی و امنیتی را بر آن داشته که بتوانند با تجزیه و تحلیل این داده ها اطلاعات موچود از قبیل رفتار مشتریان اقتصادی - کنشهای اجتماعی - مارزه با تروریسم و غیره را بدست آورند اما یک معضل اصلی نگهداری این حجم عظیم داده و همچنین بررسی این داده ها و ارتباط بین انها نیاز به عوامل فنی را اتناب ناپذیر مینماید سوالهای متداول که در اینجا وجود دارد اینست که
- 1) داده ها در چه محل فیزیکی ذخیره شوند
- 2) چه تغییراتی در فایل سیستم ها و بانکهای اطلاعاتی انجام گردد
- 3) چگونه از پردازش موازی در تحلیل داده سود ببریم
- 4) روشهای جستجو و شاخص بندی بین این داده های ساخت نیافته چگونه ایجاد شود
- 5) ایجاد ابزار مناسبی که بتواند ارتباط بین سوالهای فوق را ایجاد کند
- در اینجا بنا داریم با استفاده از منابع موجود مسیر تولید علم در Big Date را بررسی نماییم.
دادههاي عظیم چیست
عبارت Big Data مدتها است که برای اشاره به حجمهاي عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل ميشوند مورد استفاده قرار ميگیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعههای دادهاي بزرگی استفاده ميشود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا ميکند که با استفاده از تحلیل حجمهاي بیشتری از دادهها، ميتوان تحلیلهاي بهتر و پيشرفتهتري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد و نتایج مناسبتری را دریافتکرد. بيشتر تحلیلهای مورد نیاز در پردازش دادههاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، کانکتومیک (علوم مرتبط با نگاشت سیستمعصبی)، شبیهسازیهاي پیچیده فیزیک، تحقیقات زیستشناسی و محیطی، جستوجوی اینترنت، تحلیلهاي اقتصادی و مالی و تجاری مورد استفاده قرار ميگیرد. حجم دادههاي ذخیرهشده در مجموعههاي دادهاي Big Data، عموماً بهخاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهاي موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم وغيره با سرعت خیرهکنندهاي در حال افزایش است، به طوری که در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد دادههايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است! -- [1]
چالش محیط ذخیره سازی [3]
- اطلاعات بزرگ در محیط فناوری اطلاعات فرصت های هیجان انگیز زیادی برای سازمان ها ایجاد کرده است،اماآنها اول باید تصمیم بگیرند این مجموعه عظیم اطلاعات در کجا باید نگهداری شود.
رشد داده ها به عبارتی سیل افزایش داده ها
- یک تحقیق بازار توسط شرکت آبردین نشان میدهد که رشد داده به طور متوسط حدود 35 درصد سالانه در سال های اخیر میباشد براساس این برآورد تقریبا درهر 2 سال نیاز است فضای ذخیره سازی 2 برابر شود بنابراین این یک مشکل بزرگ خواهد بود که سازمان با این سونامی اطلاعات چه کند. تکنولوژی محیط ذخیره سازی هم در آینده نزدیک برای این مسئله راه حلی ندارد ، از طرفی نیازهای جدید اطلاعات که درخواست داده های تا 15 سال قبل را دارند بنابراین باید فناوری های پیشتاز ذخیره سازی در توسعه ظرفیت نگهداری داده کارهای اساسی انجام دهند
- ابر ذخیره سازی ُCLOUD Storage بواسطه انعطاف پذیری در مقیاس رشد زیر ساخت مناسبی می باشد.
- راه کار موجود برای افزایش سرعت دسترسی از طریق (solid-state drives (SSD قابل حصول است.
با این حال، تلاش برای کنار آمدن با حجم رو به رشد داده با چالش روبرو خواهد شد.
توسعه کسب و کار
از دلایل اصلی که چرا داده حجم در حال افزایش است میتوان به کسب و کار های جدید مانند برنامه های کاربردی موبایل. بیش دستگاه های متصل به اینترنت. و منابع آنلاین بیشتر از اطلاعات، مانند رسانه های اجتماعی اشاره نمود که باعث ایجاد کانال های بیشتری را برای جمع آوری داده ها از مشتریان میشود ، که بعضی از اینها بر اساس توافقات بین شرکای تجاری نیز به اشتراک گذاشته میشوند
نیاز به تجزیه تحلیل بازار
با توجه به بررسی کومار اینتل، بسیاری از شرکت ها جمع آوری داده ها برای تجزیه و تحلیل برای کمک به افزایش مکارایی محصولات خود و یا به دست آوردن مزیت رقابتی بازار و همچنین استفاده از دستگاه تولید داده ایجاد شده توسط منابع مانند سنسور به جهت رفتار سنجی مشتریان را مدنظر قرار دادهاند
داده های بدون ساختار
مقدار اطلاعات بدون ساختار به سرعت در حال افزایش است. در این مورد میتوان به داده های ویدیو کیفیت بالا و تصاویر گرفته شده توسط دستگاه های تلفن همراه با دوربین که روزانه در حال افزایش است ، اشاره کرد
مقابله با سیل داده ها
- چندین روش برای مقابله با این حجم داده وجود دارد، ابزاری مثل Apache Hadoop میتوانند به این رشد داده و اطلاعات ذخیره شده کمک نمایند، در این مورد Currie Munce معاون مدیر تولید دیسکهای SDD شرکت HGST میگوید " Hadoop یک نرم افزار متن باز است که به شما اجازه میدهد با یک نرم افزار ساده از طریق دسته های داده به وسیله پردازش خوشه ای از داد ها استفاده نمایید " .
- کومار از شرکت اینتل : " فن اوری های جدید کارایی را با از بین بردن افزونگی داده و همچنین فشرده سازی داده افزایش داده اند "
- به علاوه ، تغییرات فن آوری محیط ذخیره سازی به سرعت در حال ظهور میباشد ،برای مثال میتوان از ترکیب چند سرور با هزینه پایین و ارتباط نودهای آن به صورت انعطاف پذیر(در طول زمان به حجم و گنجایش آن افزود ) یک انباره داده ایجاد نمود.
دیسک سخت
- دیسک سخت حداقل تا سال 2020 به عنوان اولین محیط ذخیره سازی جایگه خود را حفظ خواهد کرد ، دیسک در حال حاضر به عنوان اصلی ترین و ارزان و سهل الوصول ترین را ذخیره سازی داده مورد اتکا است . پروفسور استیون سوانسون استاد دانشگاه سن دیه گو کالیفرنیا، (UCSD) : " دیسک سخت یک مزیت غیر قابل بحث از نظر هزینه نگهداری برای هر بیت حجم داده دارد ، هیچ افق روشنی برای جابجایی تکنولوژی دیگر به جای دیسک سخت وجود ندارد" تولید کنندگان این محصول نیز از گذشته در فکر و اجای افزایش ظرفیت دیسک سخت میباشند.
- کومار میگوید ظرفیت دیسکهای سخت در سال 2014 به 5 ترابایت خواهد رسید این ظرفیت در سال 2013 4 ترابایت است. سه روش جدید ذخیزه سازی داده در حال معرفی میباشند.
Nanolithography
- در این فن آوری با استفاده از نانو تکنولوژی شبیه لیتوگافی عمل کرده و حجم ذخیره روی دیسک 2 نوآوری افزایش پیدا می کند. Nanoimprinting and molecular self-assembly با ایجاد سلولهای ذخیره کوچکتر باعث افزایش تراکم ناحیه ای روی دیسک به دو برابر میشود.
Helium drives
- HGST تا پایانسال 2013 قرار است اولین دیسک خود را که به جای هوا داخل آن با گاز هلیوم پر میشود را ارائه نماید این عمل باعث کاهش حرکت روی پلاتر(حلقه) دیسک میگردد ، بنابراین هر دیسک به جای 6 صفحه میتواند شامل 7 صفحه گردد ، کاهش بار مکانیکی باعث افزایش کارایی و راندمان نوشتن بیتها در کنار هم میگردد بنا بر نظر تحلیل گر شکت فق در این صورت افزایش ظرفیت 25% تا 50% را خواهیم داشت ، علاوه بر این کاهش 23% مصرف انرژی ازدیگر مزیت این فنآوی می باشد. IHS در این مورد پیش بینی کرده فروش دیسکهای هلیوم تا آخر سال 2016 به رقم 100 میلیون خواهد رسید.
(Heat-assisted magnetic recording (HAMR
- HAMR آخرین دستاورد در حال تولید دیسک است که قابلیت افزایش ظزفیت ذخیره سازی را دارد . این روش از لیزر جهت پایداری بال در ابزارذخیره سازی استفاده میکند . این دیسکها از آلیاژ آهن و پلاتین و سایر آلیاژ هایی که قادر به ذخیره سازی بیشری ازمواد فعلی هستند ساخته شده اند ، اما اینمواد بایستی گرم شوند تا بتوانند به حدکافی برای ذخیره داده مغناطیسی گردند . در آزمایشگاه شرکت seagate با استفاده از فنآوری HAMR توانایی ذخیره سازی 1TB روی هر اینچ مربع بدست آمده است در صورتی که این فضا در حال حاضر 620GB رابیشتر ذخیره نمیکند و این به معنی 60% رشد ذخیره سازی در یکواحد را حاصل می کند . شرکت seagate پیش بینی ظرفیت 6TB در آینده نزدیک و 60TB در محصولات تولیدی سال 2016 بر پایه فن آوری HAMR را دارد.
حافظه حالت جامد Solid state Memory
یکچالش بزرگ درکارکردبا داده های بزرگ برای سازمانها سرعت کار با این حجم داده می باشد. دیسکهایحالت جامد SSD از این جهت که شامل ابزارمکانیکی نیستند میتواند با سرعت بالاتری دسترسی به داده رافراهم نماید(البته این دیسکها به علت هزینه بالا و تخریب سریع به علت تعداد نوشتن محدود ) که بیشتر برای خواندن داده مورد استفاده قرار می گیرند . به تعبیری این حافظه کارگری مفید در خدمت داده های بزرگ ی باشند. بهره وری استفاده از SSD بیشتر برای داده های نامنظم از قبیل شبکه های اجتماعی می باشد. SSD تقریبا از نظر قیمت 10 برابر دیسکهای معمولی هزینه خواهد داشت اما با این حال وقتی ظرفیت آن افزایش یابدمشتری خود را بدست می آورد . محققین در حال کار بر روی تکنیکهای جدید 3D برای ارتقای ظرفیت ذخیره ساز SSD هستند. که اعلام شده اولین محصول 3D NAND در سال 2015 به بازار خواهد آمد .گروه دیگر از فروشندگان حافظه مثل توشیبا وSanDisk روی حافظه مبتی بر ReRam درحال فعالیتمی باشند. ReRam بر مبنای اعمال یک جریان الکتریکی بر روی مواد کار میکند این مقاومت باعث میشود بتوان داده های باینری را روی سطح خواند و یانوشت.
- شرکتهای در حالتحقیق امیدوارند که این محصول بین سالهای 2017 - 2018 عمومی گردد.
ذخیره سازی ابری Cloud storage
ذخیره سازی موضوعی Object storage
مسیر و توان انتقال داده Data buses
منبع ذخیره نوری Optical storage
موانع ذخیره سازی STORAGE BARRIERS
پردازش موازی جستجوی کلید مورد نظر در محیط نامشخص
- XML به صورت طبیعی برای بیان داده هایی بکار میرود که یک عدم قطعیت در آن موجود است. برایبهبود کارایی کلید جستجو در این محیط نامشخص ،ما از یک مدل دیویی برای Indexing عناصر XML استفاده میکنیم که یک روش رمز گذاری مبتنی بر پیشوند است ،شما وقتی با یک داده بزرگ کارمیکنید که طول عناصر کد دیویی آن هم بزرگ می باشدبه طور ملموسی بهره وری پایینی از روابط بین عناصر حادث خواهد شد که احتیاج به فضای ذخیره سازی بزرگ بوجود میآید . بنابراین داده های بزرگ و پیپیده شما دچار تنگنامی گردد در اینجاست که باید با استفاده از ترکیب مدیریت داده ها (partition) و استفاده از پردازش موازی اطلاعات را در زمان مناسب استخراج کرد . قطعات مختلف XML در شبکه های توزیع شده ذخیره میشود و امکان پردازش موازی به روش (SLCAs) یافتن کوچکترین ،پایینترین ، ریشه مشترک ارتباط را فراهم کرده و خروجی بالاترین احتمال درستی را دارد.
10 دسته بندی اول منابع و فن آوری استخراج دادهای بزرگ [2]
Social network profiles
Social influencers
Activity-generated data
Software as a Service (SaaS) and cloud applications
Public
Hadoop MapReduce application results
Data warehouse appliances
Columnar/NoSQL data sources
Network and in-stream monitoring technologies
Legacy documents
منابع
- 1 ) ماهنامه شبكه شماره 133 با عنوان جنبش NoSQL
- 2 )http://www.zdnet.com/article/top-10-categories-for-big-data-sources-and-mining-technologies
- 3) Storage Challenge : Where Will All That Big Data Go? :Neal Leavitt : 2013 IEEE
- 4) Parallel Processing the Keyword Search in Uncertain Environment : Bo Ning, Xiaoping Zhou, Yimin Shi : 2012 IEEE
- 5) VSFS: A Searchable Distributed File System : Lei Xu,Ziling Huang ,Hong Jiang, Lei Tian, David Swanson :2014 IEEE
- 6) A New Exploration to Build Flash-based Storage Systems by Co-Designing File System and FTL: Wenwei Qiu, Xiang Chen, Nong Xiao, Fang Liu, Zhiguang Chen : 2013 IEEE