پروژه پژوهشی - Big Data: تفاوت میان نسخهها
خط ۲۳: | خط ۲۳: | ||
* کومار از شرکت اینتل : " فن اوری های جدید کارایی را با از بین بردن افزونگی داده و همچنین فشرده سازی داده افزایش داده اند " | * کومار از شرکت اینتل : " فن اوری های جدید کارایی را با از بین بردن افزونگی داده و همچنین فشرده سازی داده افزایش داده اند " | ||
* به علاوه ، تغییرات فن آوری محیط ذخیره سازی به سرعت در حال ظهور میباشد ،برای مثال میتوان از ترکیب چند سرور با هزینه پایین و ارتباط نودهای آن به صورت انعطاف پذیر(در طول زمان به حجم و گنجایش آن افزود ) یک انباره داده ایجاد نمود. | * به علاوه ، تغییرات فن آوری محیط ذخیره سازی به سرعت در حال ظهور میباشد ،برای مثال میتوان از ترکیب چند سرور با هزینه پایین و ارتباط نودهای آن به صورت انعطاف پذیر(در طول زمان به حجم و گنجایش آن افزود ) یک انباره داده ایجاد نمود. | ||
=== دیسک سخت === | |||
== 10 دسته بندی اول منابع و فن آوری استخراج دادهای بزرگ [2] == | == 10 دسته بندی اول منابع و فن آوری استخراج دادهای بزرگ [2] == |
نسخهٔ ۱۶ فوریهٔ ۲۰۱۵، ساعت ۱۱:۰۶
چکیده
مقدمه
دادههاي عظیم چیست
عبارت Big Data مدتها است که برای اشاره به حجمهاي عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل ميشوند مورد استفاده قرار ميگیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعههای دادهاي بزرگی استفاده ميشود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا ميکند که با استفاده از تحلیل حجمهاي بیشتری از دادهها، ميتوان تحلیلهاي بهتر و پيشرفتهتري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد و نتایج مناسبتری را دریافتکرد. بيشتر تحلیلهای مورد نیاز در پردازش دادههاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، کانکتومیک (علوم مرتبط با نگاشت سیستمعصبی)، شبیهسازیهاي پیچیده فیزیک، تحقیقات زیستشناسی و محیطی، جستوجوی اینترنت، تحلیلهاي اقتصادی و مالی و تجاری مورد استفاده قرار ميگیرد. حجم دادههاي ذخیرهشده در مجموعههاي دادهاي Big Data، عموماً بهخاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهاي موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم وغيره با سرعت خیرهکنندهاي در حال افزایش است، به طوری که در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد دادههايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است! -- [1]
چالش محیط ذخیره سازی
- اطلاعات بزرگ در محیط فناوری اطلاعات فرصت های هیجان انگیز زیادی برای سازمان ها ایجاد کرده است،اماآنها اول باید تصمیم بگیرند این مجموعه عظیم اطلاعات در کجا باید نگهداری شود.
رشد داده ها به عبارتی سیل افزایش داده ها
- یک تحقیق بازار توسط شرکت آبردین نشان میدهد که رشد داده به طور متوسط حدود 35 درصد سالانه در سال های اخیر میباشد براساس این برآورد تقریبا درهر 2 سال نیاز است فضای ذخیره سازی 2 برابر شود بنابراین این یک مشکل بزرگ خواهد بود که سازمان با این سونامی اطلاعات چه کند. تکنولوژی محیط ذخیره سازی هم در آینده نزدیک برای این مسئله راه حلی ندارد ، از طرفی نیازهای جدید اطلاعات که درخواست داده های تا 15 سال قبل را دارند بنابراین باید فناوری های پیشتاز ذخیره سازی در توسعه ظرفیت نگهداری داده کارهای اساسی انجام دهند
- ابر ذخیره سازی ُCLOUD Storage بواسطه انعطاف پذیری در مقیاس رشد زیر ساخت مناسبی می باشد.
- راه کار موجود برای افزایش سرعت دسترسی از طریق (solid-state drives (SSD قابل حصول است.
با این حال، تلاش برای کنار آمدن با حجم رو به رشد داده با چالش روبرو خواهد شد.
توسعه کسب و کار
از دلایل اصلی که چرا داده حجم در حال افزایش است میتوان به کسب و کار های جدید مانند برنامه های کاربردی موبایل. بیش دستگاه های متصل به اینترنت. و منابع آنلاین بیشتر از اطلاعات، مانند رسانه های اجتماعی اشاره نمود که باعث ایجاد کانال های بیشتری را برای جمع آوری داده ها از مشتریان میشود ، که بعضی از اینها بر اساس توافقات بین شرکای تجاری نیز به اشتراک گذاشته میشوند
نیاز به تجزیه تحلیل بازار
با توجه به بررسی کومار اینتل، بسیاری از شرکت ها جمع آوری داده ها برای تجزیه و تحلیل برای کمک به افزایش مکارایی محصولات خود و یا به دست آوردن مزیت رقابتی بازار و همچنین استفاده از دستگاه تولید داده ایجاد شده توسط منابع مانند سنسور به جهت رفتار سنجی مشتریان را مدنظر قرار دادهاند
داده های بدون ساختار
مقدار اطلاعات بدون ساختار به سرعت در حال افزایش است. در این مورد میتوان به داده های ویدیو کیفیت بالا و تصاویر گرفته شده توسط دستگاه های تلفن همراه با دوربین که روزانه در حال افزایش است ، اشاره کرد
مقابله با سیل
- چندین روش برای مقابله با این حجم داده وجود دارد، ابزاری مثل Apache Hadoop میتوانند به این رشد داده و اطلاعات ذخیره شده کمک نمایند، در این مورد Currie Munce معون مدیر تولید دیسکهای SDD شرکت HGST میگوید " Hadoop یک نرم افزار متن باز است که به شما اجازه میدهد با یک نرم افزار ساده از طریق دسته های داده به وسیله پردازش خوشه ای از داد ها استفاده نمایید " .
- کومار از شرکت اینتل : " فن اوری های جدید کارایی را با از بین بردن افزونگی داده و همچنین فشرده سازی داده افزایش داده اند "
- به علاوه ، تغییرات فن آوری محیط ذخیره سازی به سرعت در حال ظهور میباشد ،برای مثال میتوان از ترکیب چند سرور با هزینه پایین و ارتباط نودهای آن به صورت انعطاف پذیر(در طول زمان به حجم و گنجایش آن افزود ) یک انباره داده ایجاد نمود.
دیسک سخت
10 دسته بندی اول منابع و فن آوری استخراج دادهای بزرگ [2]
Social network profiles
Social influencers
Activity-generated data
Software as a Service (SaaS) and cloud applications
Public
Hadoop MapReduce application results
Data warehouse appliances
Columnar/NoSQL data sources
Network and in-stream monitoring technologies
Legacy documents
منابع
- 1 ) ماهنامه شبكه شماره 133 با عنوان جنبش NoSQL
- 2 )http://www.zdnet.com/article/top-10-categories-for-big-data-sources-and-mining-technologies
- 3) Storage Challenge : Where Will All That Big Data Go? :Neal Leavitt : 2013 IEEE