Intelligent services for Big Data science

چکیده

همانگونه که مشخص است داده های حجیم توجه بسیاری از محققین را در زمینه های اطلاعات ,علوم ,سیاست گزاری ها و تصمیم گیری های مهم در دولت ها و موسسات تجاری به خود اختصاص داده است .همانگون که سرعت تولید داده ها در دهه های اخیر افزایش می یابد ,داده های بیش از اندازه به یکی از معضلات جوامع تبدیل شده است .ولی به هر حال اطلاعات مهم و با ارزشی درون این داده های حجیم نهان شده است . شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

مقدمه

امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر گارتنر "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

بررسی ادبیات موضوع

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

بدنه تحقیق

فرصت ها و چالش های Big Data

فرصت ها

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود . تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود . بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

چالش ها

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد . کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .

ضبط کردن و ذخیره سازی داده ها

مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند . داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم . معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

ارسال داده ها

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی برای حفظ درستی داده ها خواهد شد. الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

ترمیم داده ها

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده‌کاوی است مهیا می‌شوند.

تجزیه و تحلیل داده ها

اولین مشخصه داده های حجیم , حجم بالای آنهاست بنابراین بزرگترین و مهمترین چالش در زمان تجزیه و تحلیل داده ها گسترش پذیری آنست .در دهه های اخیر محققین توجه زیادی در زمینه سرعت دادن به الگوریتم های تجزیه و تحلیل کرده اند تا از پس افزایش حجم داده ها با توجه به سریعتر شدن پردازشگر ها برآیند .در حالی که سرعت پردازشی پردازشگر ها روز به روز بهبود می یابد و همچنین استفاده از پردازشگرهای چند هسته ای متداول شده است این مزیت امکان استفاده در جهت توسعه پردازشها و محاسبات همزمان و موازی دارد . امنیت داده ها در این زمینه نیازمند توجه زیادیی می باشد .مشکلات امنیتی شامل حفاظت امنیتی داده ها ,حفاظت از حقوق معنوی داده ها ,حفاظت از حریم خصوصی ,حفاظت از رازهای تجارت و اطلاعات مالی می باشد . در حوزه داده های حجیم مشکلات به چند دلیل متفاوت می باشند ,اندازه داده های حجیم بزرگ است و رویکرد های حفاظتی مختلفی را می طلبد ,همچنین بار کاری بیشتری را تحمیل می نماید و از طرف دیگر با توجه به اینکه داده های حجیم معمولا به صورت توزیعی ذخیره می شوند مشکلات مربوط به شبکه نیز می بایست در نظر گرفته شود .

تجسم داده ها

هدف اصلی از تجسم داده ها نمایش اطلاعات بصورت شهودی و موثر توسط نمودار های مختلف است .برای انتقال آسان اطلاعات نهان در مجموعه داده های حجیم ,داشتن فرمهای زیبا و جذاب و همچنین کاربری از ملزومات می باشد .برای داده های حجیم اجرای مجسم داده ها به دلیل اندازه بزرگ آنها و ابعاد بالای آنها مشکلتر می باشد .به همین دلیل ابزارهای کنونی نمایش داده های حجیم دارای کارایی , گسترش پذیری و پاسخ دهی پایینی هستند . با وجود چالشهای ذکر شده میتوان خوشبینانه دید مثبتی روی چالشها و مزایای این کار داشت .میتوانیم این اطمینان را داشته باشیم که امکان غلبه بر تمامی موانع را توسط روشها و فن آوری های در حال توسعه داریم .برخی این اعتتقاد را دارند که استفاده از داده های حجیم به سرانجام نمی رسد و در خصوص اینکه آیا در تصمیمات به کمک ما خواهند آمد شک دارند .اما به هر حال چشم انداز این مسیر مثبت بوده و روشها و فن اوری های این زمینه در حال توسعه می باشند .

احتیاجات Big Data برای محیط هوشمند

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

تحرک و مکان

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

مجاورت

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

ضمانت های بلادرنگ

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

پشتیبانی از عیب و نقص ارتباطات

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

دسترسی کارآمد به داده

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

پشتیبانی از ذخیره سازی کارآمد

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شود و تاریخچه داده نیز باید برای قابلیت ردیابی و پردازش و داده‌کاوی نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

اصول طراحی سیستم های Big Data

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

اصل 1 : معماری و چارچوب خوب ضروری و در اولویت است.

اصل 2 : پشتیبانی از انواع روشهای تحلیلی.

اصل 3 : سایز و اندازه واحدی برای Big Data وجود ندارد.

اصل 4 : اضافه کردن تجزیه و تحلیل به داده .

اصل 5 : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

اصل 6 : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

اصل 7 : هماهنگی بین پردازش واحد های داده مورد نیاز است.

تکنیک هایی برای حل مشکلات Big Data

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین،[[ابزارهای داده‌کاوی]] جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

محاسبات گرانولار (یا محاسبات دانه ای)

محاسبات ابری (رایانش ابری)

سیستم های محاسباتی بیولوژیکی

محاسبات کوانتومی

نتیجه گیری

ورود به عصر داده های حجیم که دوره جدیدی برای نوع اوری ها ,رقابت ها و تولیدات می باشد ما را در برابر موج جدید تحولات علمی قرار داده است .خوشبختانه ما شاهد پیشرفتهای عظیمی در علوم هستیم .در این مقاله ما مروری بر مشکلات داده های عظیم داشتیم و همچنین فرصت ها و چالش های آن را مورد بررسی قرار دادیم .همچنین اصول طراحی چنین سیستم هایی مورد بررسی قرار گرفت و روشهایی هوشمند نیز برای حل مشکلات آن ذکر گردید .اما به هر حال این روشها در حال توسعه می باشند و در اینده شاهد پیشرفتهای عظیمی در این حوزه خواهیم بود .پیشرفتهای سریع توسعه فن اوری های محاسبات ابری و تجزیه و تحلیل داده ها منجر به افزایش توانایی ذخیره سازی داده ها ,مدیریت و پردازش انها شده است .صنایع زیادی چون سیستم های ناوبری ,سیستم های ذخیره کننده اطاعات خودرو ها ,تلفن های هوشمند و ... امکان درگیر شدن در آینده تحقیقات جهت تولید نرم افزارها و داده های اضافه را دارند .

مراجع

1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)