پروژه پژوهشی - Big Data

از OCCC Wiki
پرش به ناوبری پرش به جستجو

داده‌هاي عظیم چیست

عبارت Big Data مدت‌ها است که برای اشاره به حجم‌هاي عظیمی از داده‌‌ها که توسط سازمان‌های بزرگی مانند گوگل یا ناسا ذخیره و تحلیل مي‌شوند مورد استفاده قرار مي‌گیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعه‌­های داده‌اي بزرگی استفاده مي‌شود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاه‌هاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع داده‌‌ها مربوط به برداشت و جمع‌آوری، ذخیره‌سازی، جست‌وجو، اشتراک‌گذاری، تحلیل و نمایش آن‌ها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا مي‌کند که با استفاده از تحلیل حجم‌هاي بیشتری از داده‌ها، مي‌توان تحلیل‌هاي بهتر و پيشرفته‌تري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی‌ و امنیتی، انجام داد و نتایج مناسب‌تری را دریافت‌کرد. بيشتر تحلیل‌های مورد نیاز در پردازش داده‌هاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، کانکتومیک (علوم مرتبط با نگاشت سیستم‌عصبی)، شبیه‌سازی‌هاي پیچیده فیزیک، تحقیقات زیست‌شناسی و محیطی، جست‌وجوی اینترنت، تحلیل‌هاي اقتصادی و مالی و تجاری مورد استفاده قرار مي‌گیرد. حجم داده‌هاي ذخیره‌شده در مجموعه‌هاي داده‌اي Big Data، عموماً به‌خاطر تولید و جمع‌آوری داده‌‌ها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشی‌هاي موبایل، حسگرهای محیطی، لاگ نرم‌افزارهای مختلف، دوربین‌ها، میکروفون‌ها، دستگاه‌هاي تشخیص RFID، شبکه‌هاي حسگر بی‌سیم وغيره با سرعت خیره‌کننده‌اي در حال افزایش است، به طوری که در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد داده‌هايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است! -- [1]

10 دسته بندی اول منابع و فن آوری استخراج دادهای بزرگ

Social network profiles

Social influencers

Activity-generated data

Software as a Service (SaaS) and cloud applications

Public

Hadoop MapReduce application results

Data warehouse appliances

Columnar/NoSQL data sources

Network and in-stream monitoring technologies

Legacy documents

منابع