Big Data: تفاوت میان نسخهها
خط ۷۴: | خط ۷۴: | ||
== لینک های مرتبط == | == لینک های مرتبط == | ||
* [[کلان داده]] | |||
* [[مجازی سازی داده]] | |||
* [[کارگروه BigData]] | * [[کارگروه BigData]] | ||
* [https://trello.com/b/FCAfB1Qc/occc-bigdata بورد مربوط به فعالیت های کارگروه کلان داده] | * [https://trello.com/b/FCAfB1Qc/occc-bigdata بورد مربوط به فعالیت های کارگروه کلان داده] |
نسخهٔ ۱۵ اکتبر ۲۰۱۴، ساعت ۱۴:۴۲
این مطلب در حال تکمیل است. شما نیز میتوانید در تکمیل آن مشارکت داشته باشید
عبارت Big Data مدتها است که برای اشاره به حجمهاي عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل ميشوند مورد استفاده قرار ميگیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعههای دادهاي بزرگی استفاده ميشود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا ميکند که با استفاده از تحلیل حجمهاي بیشتری از دادهها، ميتوان تحلیلهاي بهتر و پيشرفتهتري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد و نتایج مناسبتری را دریافتکرد. بيشتر تحلیلهای مورد نیاز در پردازش دادههاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، شبیهسازیهاي پیچیده فیزیک، تحقیقات زیستشناسی و محیطی، جستوجوی اینترنت، تحلیلهاي اقتصادی و مالی و تجاری مورد استفاده قرار ميگیرد. حجم دادههاي ذخیرهشده در مجموعههاي دادهاي Big Data، عموماً بهخاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهاي موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم وغيره با سرعت خیرهکنندهاي در حال افزایش است. در این ارائه ضمن بررسی مفاهیم پایه ای در بزرگ داده، به بررسی راه حل های موجود برای مدیریت و بهره برداری از این نوع داده ها خواهیم پرداخت.
چالش های حوزه کلان داده
در بحث کلان داده، ما نیاز داریم که داده ها را به منظور استخراج اطلاعات، کشف دانش و در نهایت تصمیم گیری در خصوص مسائل مختلف کاربردی به صورت صحیح مدیریت کنیم. مدیریت داده ها عموما شامل 5 فعالیت اصلی میباشد.
1- جمع آوری
2- ذخیره سازی
3- جستجو
4- به اشتراک گذاری
5- تحلیل
تا کنون چالشهای زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان میکنند. این چالش ها در ابتدا سه بعد اصلی حجم داده، نرخ تولید و تنوع به عنوان 3V’s مطرح شدند ولی در ادامه چالش های بیشتری در ادبیات موضوع توسط محققان مطرح شده است:
- حجم داده (Volume): حجم داده ها به صورت نمایی در حال رشد می باشد. منابع مختلفی نظیر شبکه های اجتماعی، لاگ سرورهای وب، جریان های ترافیک، تصاویر ماهواره ای، جریان های صوتی، تراکنش های بانکی، محتوای صفحات وب، اسناد دولتی و ... وجود دارد که حجم داده بسیار زیادی تولید می کنند.
- نرخ تولید (Velocity): داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید می شوند. بسیاری از کاربردها نیاز دارند به محض ورود داده به درخواست کاربر پاسخ دهند. ممکن است در برخی موارد نتوانیم به اندازه کافی صبر کنیم تا مثلا یک گزارش در سیستم برای مدت طولانی پردازش شود.
- تنوع (Variety): انواع منابع داده و تنوع در نوع داده بسیار زیاد می باشد که در نتیجه ساختارهای داده ای بسیار زیادی وجود دارد. مثلا در وب، افراد از نرم افزارها و مرورگرهای مختلفی برای ارسال اطلاعات استفاده می کنند. بسیاری از اطلاعات مستقیما از انسان دریافت میشود و بنابراین وجود خطا اجتناب ناپذیر است. این تنوع سبب میشود جامعیت داده تحت تاثیر قرار بگیرد. زیرا هرچه تنوع بیشتری وجود داشته باشد، احتمال بروز خطای بیشتری نیز وجود خواهد داشت.
- صحت (Veracity): با توجه به اینکه داده ها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلا در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشت. البته بعضی از تحقیقات این چالش را به معنای حفظ همه مشخصه های داده اصلی بیان کرده اند که باید حفظ شود تا بتوان کیفیت و صحت داده را تضمین کرد. البته تعریف دوم در مولدهای کلان داده صدق میکند تا بتوان داده ای تولید کرد که نشان دهنده ویژگی های داده اصلی باشد.
- اعتبار (Validity): با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.
- نوسان (Volatility): این موضوع به سیاست تجاری در خصوص نگهداری اطلاعات برمیگردد. بدلیل نوسان اطلاعات، در یک کاربرد ساده تجارت الکترونیک، شاید نگهداری اطلاعات فروش بیش از یک سال اهمیتی نداشته باشد. ولی در کلان داده معمولا میبایست داده ها برای مدت زمان طولانی نگهداری شوند. در کاربردهایی نظیر تحلیل ارز و بورس، نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلما هزینه های پیاده سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.
- نمایش (Visualization): یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد از طریق روش های تحلیلی و بصری سازی مناسب اطلاعات امکان پذیری است.
- ارزش (Value): این موضوع دلالت بر این دارد که آیا هزینه ای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تجاری و تصمیم گیری دارد یا نه. معمولا داده ها میتوانند در تایر های مختلف جابجا شوند. لایه های بالاتر به معنای ارزش بیشتر داده می باشند. بنابراین برخی از سازمانها میتوانند هزینه بالای نگهداری مربوط به تایرهای بالاتر را قبول کنند.
ابزارها و فناوری ها
ابزارها و فناوری های مرتبط به این شرح می باشد:
- مجازی سازی داده
- SmartData
- Hadoop
- NoSQL
- Graph DB
- MapGraph
- Owncloud
- Swift
- Dropbox
- Box.net
- Google Drive
- Amazon S3
- MapReduce
- Cloud Dataflow
- Trove
- Sahara
- Clustrix
- SQL
- MySQL
- Postgress
- Memcache
- Riak
- HBase
- Cassandra
- Python
- Oracle
- DB2
- Vert.x
- OpenShift
اگر ابزار یا فناوری دیگری بنظر شما وجود دارد به این لیست اضافه کنید یا برای موارد موجود شرح بیشتری در صفحه مربوط به آنها اضافه نمایید.
کدام پایگاه داده NoSQL بهتر است؟
معیارهای زیادی برای انتخاب یک پایگاه داده NoSQL وجود دارد. از جمله موارد مهم در انتخاب پایگاه داده مناسب در نظر گرفتن تئوری CAP متناسب با کاربرد و نیازمندی های آن است. همچنین این سایت میتواند دید مناسبی در خصوص پارامترهای مختلف به شما بدهد.
لینک های مرتبط
- کلان داده
- مجازی سازی داده
- کارگروه BigData
- بورد مربوط به فعالیت های کارگروه کلان داده
- بررسی چالش واقعی سازمانها در رابطه با کلان داده ها و بررسی دقیقتر مدلهای کلان داده
- پیاده سازی سیستم های اطلاعاتی با حجم دیتای بالا و پراکندگی جغرافیایی بر بستر ابر
- ارائه راهکارهایی جهت رفع مشکل پراکندگی جغرافیایی
- تحلیلی در خصوص وضعیت ذخیره سازی در سال 2014