Intelligent services for Big Data science

از OCCC Wiki
پرش به ناوبری پرش به جستجو

چکیده

شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

مقدمه

امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر گارتنر "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

بررسی ادبیات موضوع

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

بدنه تحقیق

فرصت ها و چالش های Big Data

فرصت ها

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .

تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی  قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .

چالش ها

...


احتیاجات Big Data برای شهر هوشمند

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

  • تحرک و مکان

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

  • مجاورت

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

  • ضمانت های بلادرنگ

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

  • پشتیبانی از عیب و نقص ارتباطات

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

  • دسترسی کارآمد به داده

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

  • پشتیبانی از ذخیره سازی کارآمد

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.


بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

اصول طراحی سیستم های Big Data

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

  • اصل 1 : معماری و چارچوب خوب ضروری و در اولویت است.
  • اصل 2 : پشتیبانی از انواع روشهای تحلیلی.
  • اصل 3 : سایز و اندازه واحدی برای Big Data وجود ندارد.
  • اصل 4 : اضافه کردن تجزیه و تحلیل به داده .
  • اصل 5 : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.
  • اصل 6 : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.
  • اصل 7 : هماهنگی بین پردازش واحد های داده مورد نیاز است.


تکنیک هایی برای حل مشکلات Big Data

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

  • محاسبات گرانولار (یا محاسبات دانه ای)
  • محاسبات ابری (رایانش ابری)
  • سیستم های محاسباتی بیولوژیکی
  • محاسبات کوانتومی

نتیجه گیری

نتیجه ای که در نهایت حاصل شده است.

مراجع

1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)