پروژه پژوهشی - Big Data
چکیده
مقدمه
دادههاي عظیم چیست
عبارت Big Data مدتها است که برای اشاره به حجمهاي عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل ميشوند مورد استفاده قرار ميگیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعههای دادهاي بزرگی استفاده ميشود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا ميکند که با استفاده از تحلیل حجمهاي بیشتری از دادهها، ميتوان تحلیلهاي بهتر و پيشرفتهتري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد و نتایج مناسبتری را دریافتکرد. بيشتر تحلیلهای مورد نیاز در پردازش دادههاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، کانکتومیک (علوم مرتبط با نگاشت سیستمعصبی)، شبیهسازیهاي پیچیده فیزیک، تحقیقات زیستشناسی و محیطی، جستوجوی اینترنت، تحلیلهاي اقتصادی و مالی و تجاری مورد استفاده قرار ميگیرد. حجم دادههاي ذخیرهشده در مجموعههاي دادهاي Big Data، عموماً بهخاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهاي موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم وغيره با سرعت خیرهکنندهاي در حال افزایش است، به طوری که در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد دادههايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است! -- [1]
چالش محیط ذخیره سازی
- اطلاعات بزرگ در محیط فناوری اطلاعات فرصت های هیجان انگیز زیادی برای سازمان ها ایجاد کرده است،اماآنها اول باید تصمیم بگیرند این مجموعه عظیم اطلاعات در کجا باید نگهداری شود.
رشد داده ها
- یک تحقیق بازار توسط شرکت آبردین نشان میدهد که رشد داده به طور متوسط حدود 35 درصد سالانه در سال های اخیر میباشد براساس این برآورد تقریبا درهر 2 سال نیاز است فضای ذخیره سازی 2 برابر شود بنابراین این یک مشکل بزرگ خواهد بود که سازمان با این سونامی اطلاعات چه کند. تکنولوژی محیط ذخیره سازی هم در آینده نزدیک برای این مسئله راه حلی ندارد ، از طرفی نیازهای جدید اطلاعات که درخواست داده های تا 15 سال قبل را دارند بنابراین باید فناوری های پیشتاز ذخیره سازی در توسعه ظرفیت نگهداری داده کارهای اساسی انجام دهند این مهم توسط ابر ذخیره سازی ُCLOUD Storage
10 دسته بندی اول منابع و فن آوری استخراج دادهای بزرگ [2]
Social network profiles
Social influencers
Activity-generated data
Software as a Service (SaaS) and cloud applications
Public
Hadoop MapReduce application results
Data warehouse appliances
Columnar/NoSQL data sources
Network and in-stream monitoring technologies
Legacy documents
منابع
- 1 ) ماهنامه شبكه شماره 133 با عنوان جنبش NoSQL
- 2 )http://www.zdnet.com/article/top-10-categories-for-big-data-sources-and-mining-technologies
- 3) Storage Challenge : Where Will All That Big Data Go? :Neal Leavitt : 2013 IEEE