OCCC Wiki - مشارکت‌های کاربر [fa]

Intelligent services for Big Data science

2015-02-24T08:52:01Z

Amiiiiir: /* نتیجه گیری */

== چکیده ==
همانگونه که مشخص است داده های حجیم توجه بسیاری از محققین را در زمینه های اطلاعات ,علوم ,سیاست گزاری ها و تصمیم گیری های مهم در دولت ها و موسسات تجاری به خود اختصاص داده است .همانگون که سرعت تولید داده ها در دهه های اخیر افزایش می یابد ,داده های بیش از اندازه به یکی از معضلات جوامع تبدیل شده است .ولی به هر حال اطلاعات مهم و با ارزشی درون این داده های حجیم نهان شده است .
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده کاوی است مهیا می شوند .

===== تجزیه و تحلیل داده ها =====

اولین مشخصه داده های حجیم , حجم بالای آنهاست بنابراین بزرگترین و مهمترین چالش در زمان تجزیه و تحلیل داده ها گسترش پذیری آنست .در دهه های اخیر محققین توجه زیادی در زمینه سرعت دادن به الگوریتم های تجزیه و تحلیل کرده اند تا از پس افزایش حجم داده ها با توجه به سریعتر شدن پردازشگر ها برآیند .در حالی که سرعت پردازشی پردازشگر ها روز به روز بهبود می یابد و همچنین استفاده از پردازشگرهای چند هسته ای متداول شده است این مزیت امکان استفاده در جهت توسعه پردازشها و محاسبات همزمان و موازی دارد .
امنیت داده ها در این زمینه نیازمند توجه زیادیی می باشد .مشکلات امنیتی شامل حفاظت امنیتی داده ها ,حفاظت از حقوق معنوی داده ها ,حفاظت از حریم خصوصی ,حفاظت از رازهای تجارت و اطلاعات مالی می باشد . در حوزه داده های حجیم مشکلات به چند دلیل متفاوت می باشند ,اندازه داده های حجیم بزرگ است و رویکرد های حفاظتی مختلفی را می طلبد ,همچنین بار کاری بیشتری را تحمیل می نماید و از طرف دیگر با توجه به اینکه داده های حجیم معمولا به صورت توزیعی ذخیره می شوند مشکلات مربوط به شبکه نیز می بایست در نظر گرفته شود .

===== تجسم داده ها =====

هدف اصلی از تجسم داده ها نمایش اطلاعات بصورت شهودی و موثر توسط نمودار های مختلف است .برای انتقال آسان اطلاعات نهان در مجموعه داده های حجیم ,داشتن فرمهای زیبا و جذاب و همچنین کاربری از ملزومات می باشد .برای داده های حجیم اجرای مجسم داده ها به دلیل اندازه بزرگ آنها و ابعاد بالای آنها مشکلتر می باشد .به همین دلیل ابزارهای کنونی نمایش داده های حجیم دارای کارایی , گسترش پذیری و پاسخ دهی پایینی هستند .
با وجود چالشهای ذکر شده میتوان خوشبینانه دید مثبتی روی چالشها و مزایای این کار داشت .میتوانیم این اطمینان را داشته باشیم که امکان غلبه بر تمامی موانع را توسط روشها و فن آوری های در حال توسعه داریم .برخی این اعتتقاد را دارند که استفاده از داده های حجیم به سرانجام نمی رسد و در خصوص اینکه آیا در تصمیمات به کمک ما خواهند آمد شک دارند .اما به هر حال چشم انداز این مسیر مثبت بوده و روشها و فن اوری های این زمینه در حال توسعه می باشند .

=== احتیاجات Big Data برای محیط هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

==== ''تحرک و مکان'' ====

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

==== ''مجاورت'' ====

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

==== ''ضمانت های بلادرنگ'' ====

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

==== ''پشتیبانی از عیب و نقص ارتباطات'' ====

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

==== ''دسترسی کارآمد به داده'' ====

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

==== ''پشتیبانی از ذخیره سازی کارآمد'' ====

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
ورود به عصر داده های حجیم که دوره جدیدی برای نوع اوری ها ,رقابت ها و تولیدات می باشد ما را در برابر موج جدید تحولات علمی قرار داده است .خوشبختانه ما شاهد پیشرفتهای عظیمی در علوم هستیم .در این مقاله ما مروری بر مشکلات داده های عظیم داشتیم و همچنین فرصت ها و چالش های آن را مورد بررسی قرار دادیم .همچنین اصول طراحی چنین سیستم هایی مورد بررسی قرار گرفت و روشهایی هوشمند نیز برای حل مشکلات آن ذکر گردید .اما به هر حال این روشها در حال توسعه می باشند و در اینده شاهد پیشرفتهای عظیمی در این حوزه خواهیم بود .پیشرفتهای سریع توسعه فن اوری های محاسبات ابری و تجزیه و تحلیل داده ها منجر به افزایش توانایی ذخیره سازی داده ها ,مدیریت و پردازش انها شده است .صنایع زیادی چون سیستم های ناوبری ,سیستم های ذخیره کننده اطاعات خودرو ها ,تلفن های هوشمند و ... امکان درگیر شدن در آینده تحقیقات جهت تولید نرم افزارها و داده های اضافه را دارند .

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-24T08:01:27Z

Amiiiiir: /* نتیجه گیری */

== چکیده ==
همانگونه که مشخص است داده های حجیم توجه بسیاری از محققین را در زمینه های اطلاعات ,علوم ,سیاست گزاری ها و تصمیم گیری های مهم در دولت ها و موسسات تجاری به خود اختصاص داده است .همانگون که سرعت تولید داده ها در دهه های اخیر افزایش می یابد ,داده های بیش از اندازه به یکی از معضلات جوامع تبدیل شده است .ولی به هر حال اطلاعات مهم و با ارزشی درون این داده های حجیم نهان شده است .
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده کاوی است مهیا می شوند .

===== تجزیه و تحلیل داده ها =====

اولین مشخصه داده های حجیم , حجم بالای آنهاست بنابراین بزرگترین و مهمترین چالش در زمان تجزیه و تحلیل داده ها گسترش پذیری آنست .در دهه های اخیر محققین توجه زیادی در زمینه سرعت دادن به الگوریتم های تجزیه و تحلیل کرده اند تا از پس افزایش حجم داده ها با توجه به سریعتر شدن پردازشگر ها برآیند .در حالی که سرعت پردازشی پردازشگر ها روز به روز بهبود می یابد و همچنین استفاده از پردازشگرهای چند هسته ای متداول شده است این مزیت امکان استفاده در جهت توسعه پردازشها و محاسبات همزمان و موازی دارد .
امنیت داده ها در این زمینه نیازمند توجه زیادیی می باشد .مشکلات امنیتی شامل حفاظت امنیتی داده ها ,حفاظت از حقوق معنوی داده ها ,حفاظت از حریم خصوصی ,حفاظت از رازهای تجارت و اطلاعات مالی می باشد . در حوزه داده های حجیم مشکلات به چند دلیل متفاوت می باشند ,اندازه داده های حجیم بزرگ است و رویکرد های حفاظتی مختلفی را می طلبد ,همچنین بار کاری بیشتری را تحمیل می نماید و از طرف دیگر با توجه به اینکه داده های حجیم معمولا به صورت توزیعی ذخیره می شوند مشکلات مربوط به شبکه نیز می بایست در نظر گرفته شود .

===== تجسم داده ها =====

هدف اصلی از تجسم داده ها نمایش اطلاعات بصورت شهودی و موثر توسط نمودار های مختلف است .برای انتقال آسان اطلاعات نهان در مجموعه داده های حجیم ,داشتن فرمهای زیبا و جذاب و همچنین کاربری از ملزومات می باشد .برای داده های حجیم اجرای مجسم داده ها به دلیل اندازه بزرگ آنها و ابعاد بالای آنها مشکلتر می باشد .به همین دلیل ابزارهای کنونی نمایش داده های حجیم دارای کارایی , گسترش پذیری و پاسخ دهی پایینی هستند .
با وجود چالشهای ذکر شده میتوان خوشبینانه دید مثبتی روی چالشها و مزایای این کار داشت .میتوانیم این اطمینان را داشته باشیم که امکان غلبه بر تمامی موانع را توسط روشها و فن آوری های در حال توسعه داریم .برخی این اعتتقاد را دارند که استفاده از داده های حجیم به سرانجام نمی رسد و در خصوص اینکه آیا در تصمیمات به کمک ما خواهند آمد شک دارند .اما به هر حال چشم انداز این مسیر مثبت بوده و روشها و فن اوری های این زمینه در حال توسعه می باشند .

=== احتیاجات Big Data برای محیط هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

==== ''تحرک و مکان'' ====

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

==== ''مجاورت'' ====

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

==== ''ضمانت های بلادرنگ'' ====

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

==== ''پشتیبانی از عیب و نقص ارتباطات'' ====

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

==== ''دسترسی کارآمد به داده'' ====

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

==== ''پشتیبانی از ذخیره سازی کارآمد'' ====

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
ورود به عصر داده های حجیم که دوره جدیدی برای نوع اوری ها ,رقابت ها و تولیدات می باشد ما را در برابر موج جدید تحولات علمی قرار داده است .خوشبختانه ما شاهد پیشرفتهای عظیمی در علوم هستیم .در این مقاله ما مروری بر مشکلات داده های عظیم داشتیم و همچنین فرصت ها و چالش های آن را مورد بررسی قرار دادیم .

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-24T07:51:47Z

Amiiiiir: /* چکیده */

== چکیده ==
همانگونه که مشخص است داده های حجیم توجه بسیاری از محققین را در زمینه های اطلاعات ,علوم ,سیاست گزاری ها و تصمیم گیری های مهم در دولت ها و موسسات تجاری به خود اختصاص داده است .همانگون که سرعت تولید داده ها در دهه های اخیر افزایش می یابد ,داده های بیش از اندازه به یکی از معضلات جوامع تبدیل شده است .ولی به هر حال اطلاعات مهم و با ارزشی درون این داده های حجیم نهان شده است .
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده کاوی است مهیا می شوند .

===== تجزیه و تحلیل داده ها =====

اولین مشخصه داده های حجیم , حجم بالای آنهاست بنابراین بزرگترین و مهمترین چالش در زمان تجزیه و تحلیل داده ها گسترش پذیری آنست .در دهه های اخیر محققین توجه زیادی در زمینه سرعت دادن به الگوریتم های تجزیه و تحلیل کرده اند تا از پس افزایش حجم داده ها با توجه به سریعتر شدن پردازشگر ها برآیند .در حالی که سرعت پردازشی پردازشگر ها روز به روز بهبود می یابد و همچنین استفاده از پردازشگرهای چند هسته ای متداول شده است این مزیت امکان استفاده در جهت توسعه پردازشها و محاسبات همزمان و موازی دارد .
امنیت داده ها در این زمینه نیازمند توجه زیادیی می باشد .مشکلات امنیتی شامل حفاظت امنیتی داده ها ,حفاظت از حقوق معنوی داده ها ,حفاظت از حریم خصوصی ,حفاظت از رازهای تجارت و اطلاعات مالی می باشد . در حوزه داده های حجیم مشکلات به چند دلیل متفاوت می باشند ,اندازه داده های حجیم بزرگ است و رویکرد های حفاظتی مختلفی را می طلبد ,همچنین بار کاری بیشتری را تحمیل می نماید و از طرف دیگر با توجه به اینکه داده های حجیم معمولا به صورت توزیعی ذخیره می شوند مشکلات مربوط به شبکه نیز می بایست در نظر گرفته شود .

===== تجسم داده ها =====

هدف اصلی از تجسم داده ها نمایش اطلاعات بصورت شهودی و موثر توسط نمودار های مختلف است .برای انتقال آسان اطلاعات نهان در مجموعه داده های حجیم ,داشتن فرمهای زیبا و جذاب و همچنین کاربری از ملزومات می باشد .برای داده های حجیم اجرای مجسم داده ها به دلیل اندازه بزرگ آنها و ابعاد بالای آنها مشکلتر می باشد .به همین دلیل ابزارهای کنونی نمایش داده های حجیم دارای کارایی , گسترش پذیری و پاسخ دهی پایینی هستند .
با وجود چالشهای ذکر شده میتوان خوشبینانه دید مثبتی روی چالشها و مزایای این کار داشت .میتوانیم این اطمینان را داشته باشیم که امکان غلبه بر تمامی موانع را توسط روشها و فن آوری های در حال توسعه داریم .برخی این اعتتقاد را دارند که استفاده از داده های حجیم به سرانجام نمی رسد و در خصوص اینکه آیا در تصمیمات به کمک ما خواهند آمد شک دارند .اما به هر حال چشم انداز این مسیر مثبت بوده و روشها و فن اوری های این زمینه در حال توسعه می باشند .

=== احتیاجات Big Data برای محیط هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

==== ''تحرک و مکان'' ====

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

==== ''مجاورت'' ====

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

==== ''ضمانت های بلادرنگ'' ====

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

==== ''پشتیبانی از عیب و نقص ارتباطات'' ====

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

==== ''دسترسی کارآمد به داده'' ====

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

==== ''پشتیبانی از ذخیره سازی کارآمد'' ====

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-20T06:24:11Z

Amiiiiir: /* دسترسی کارآمد به داده = */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده کاوی است مهیا می شوند .

===== تجزیه و تحلیل داده ها =====

اولین مشخصه داده های حجیم , حجم بالای آنهاست بنابراین بزرگترین و مهمترین چالش در زمان تجزیه و تحلیل داده ها گسترش پذیری آنست .در دهه های اخیر محققین توجه زیادی در زمینه سرعت دادن به الگوریتم های تجزیه و تحلیل کرده اند تا از پس افزایش حجم داده ها با توجه به سریعتر شدن پردازشگر ها برآیند .در حالی که سرعت پردازشی پردازشگر ها روز به روز بهبود می یابد و همچنین استفاده از پردازشگرهای چند هسته ای متداول شده است این مزیت امکان استفاده در جهت توسعه پردازشها و محاسبات همزمان و موازی دارد .
امنیت داده ها در این زمینه نیازمند توجه زیادیی می باشد .مشکلات امنیتی شامل حفاظت امنیتی داده ها ,حفاظت از حقوق معنوی داده ها ,حفاظت از حریم خصوصی ,حفاظت از رازهای تجارت و اطلاعات مالی می باشد . در حوزه داده های حجیم مشکلات به چند دلیل متفاوت می باشند ,اندازه داده های حجیم بزرگ است و رویکرد های حفاظتی مختلفی را می طلبد ,همچنین بار کاری بیشتری را تحمیل می نماید و از طرف دیگر با توجه به اینکه داده های حجیم معمولا به صورت توزیعی ذخیره می شوند مشکلات مربوط به شبکه نیز می بایست در نظر گرفته شود .

===== تجسم داده ها =====

هدف اصلی از تجسم داده ها نمایش اطلاعات بصورت شهودی و موثر توسط نمودار های مختلف است .برای انتقال آسان اطلاعات نهان در مجموعه داده های حجیم ,داشتن فرمهای زیبا و جذاب و همچنین کاربری از ملزومات می باشد .برای داده های حجیم اجرای مجسم داده ها به دلیل اندازه بزرگ آنها و ابعاد بالای آنها مشکلتر می باشد .به همین دلیل ابزارهای کنونی نمایش داده های حجیم دارای کارایی , گسترش پذیری و پاسخ دهی پایینی هستند .
با وجود چالشهای ذکر شده میتوان خوشبینانه دید مثبتی روی چالشها و مزایای این کار داشت .میتوانیم این اطمینان را داشته باشیم که امکان غلبه بر تمامی موانع را توسط روشها و فن آوری های در حال توسعه داریم .برخی این اعتتقاد را دارند که استفاده از داده های حجیم به سرانجام نمی رسد و در خصوص اینکه آیا در تصمیمات به کمک ما خواهند آمد شک دارند .اما به هر حال چشم انداز این مسیر مثبت بوده و روشها و فن اوری های این زمینه در حال توسعه می باشند .

=== احتیاجات Big Data برای محیط هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

==== ''تحرک و مکان'' ====

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

==== ''مجاورت'' ====

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

==== ''ضمانت های بلادرنگ'' ====

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

==== ''پشتیبانی از عیب و نقص ارتباطات'' ====

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

==== ''دسترسی کارآمد به داده'' ====

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

==== ''پشتیبانی از ذخیره سازی کارآمد'' ====

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-20T06:23:42Z

Amiiiiir: /* احتیاجات Big Data برای محیط هوشمند */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده کاوی است مهیا می شوند .

===== تجزیه و تحلیل داده ها =====

اولین مشخصه داده های حجیم , حجم بالای آنهاست بنابراین بزرگترین و مهمترین چالش در زمان تجزیه و تحلیل داده ها گسترش پذیری آنست .در دهه های اخیر محققین توجه زیادی در زمینه سرعت دادن به الگوریتم های تجزیه و تحلیل کرده اند تا از پس افزایش حجم داده ها با توجه به سریعتر شدن پردازشگر ها برآیند .در حالی که سرعت پردازشی پردازشگر ها روز به روز بهبود می یابد و همچنین استفاده از پردازشگرهای چند هسته ای متداول شده است این مزیت امکان استفاده در جهت توسعه پردازشها و محاسبات همزمان و موازی دارد .
امنیت داده ها در این زمینه نیازمند توجه زیادیی می باشد .مشکلات امنیتی شامل حفاظت امنیتی داده ها ,حفاظت از حقوق معنوی داده ها ,حفاظت از حریم خصوصی ,حفاظت از رازهای تجارت و اطلاعات مالی می باشد . در حوزه داده های حجیم مشکلات به چند دلیل متفاوت می باشند ,اندازه داده های حجیم بزرگ است و رویکرد های حفاظتی مختلفی را می طلبد ,همچنین بار کاری بیشتری را تحمیل می نماید و از طرف دیگر با توجه به اینکه داده های حجیم معمولا به صورت توزیعی ذخیره می شوند مشکلات مربوط به شبکه نیز می بایست در نظر گرفته شود .

===== تجسم داده ها =====

هدف اصلی از تجسم داده ها نمایش اطلاعات بصورت شهودی و موثر توسط نمودار های مختلف است .برای انتقال آسان اطلاعات نهان در مجموعه داده های حجیم ,داشتن فرمهای زیبا و جذاب و همچنین کاربری از ملزومات می باشد .برای داده های حجیم اجرای مجسم داده ها به دلیل اندازه بزرگ آنها و ابعاد بالای آنها مشکلتر می باشد .به همین دلیل ابزارهای کنونی نمایش داده های حجیم دارای کارایی , گسترش پذیری و پاسخ دهی پایینی هستند .
با وجود چالشهای ذکر شده میتوان خوشبینانه دید مثبتی روی چالشها و مزایای این کار داشت .میتوانیم این اطمینان را داشته باشیم که امکان غلبه بر تمامی موانع را توسط روشها و فن آوری های در حال توسعه داریم .برخی این اعتتقاد را دارند که استفاده از داده های حجیم به سرانجام نمی رسد و در خصوص اینکه آیا در تصمیمات به کمک ما خواهند آمد شک دارند .اما به هر حال چشم انداز این مسیر مثبت بوده و روشها و فن اوری های این زمینه در حال توسعه می باشند .

=== احتیاجات Big Data برای محیط هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

==== ''تحرک و مکان'' ====

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

==== ''مجاورت'' ====

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

==== ''ضمانت های بلادرنگ'' ====

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

==== ''پشتیبانی از عیب و نقص ارتباطات'' ====

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

==== ''دسترسی کارآمد به داده'' =====

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

==== ''پشتیبانی از ذخیره سازی کارآمد'' ====

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-20T06:21:34Z

Amiiiiir: /* احتیاجات Big Data برای شهر هوشمند */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده کاوی است مهیا می شوند .

===== تجزیه و تحلیل داده ها =====

اولین مشخصه داده های حجیم , حجم بالای آنهاست بنابراین بزرگترین و مهمترین چالش در زمان تجزیه و تحلیل داده ها گسترش پذیری آنست .در دهه های اخیر محققین توجه زیادی در زمینه سرعت دادن به الگوریتم های تجزیه و تحلیل کرده اند تا از پس افزایش حجم داده ها با توجه به سریعتر شدن پردازشگر ها برآیند .در حالی که سرعت پردازشی پردازشگر ها روز به روز بهبود می یابد و همچنین استفاده از پردازشگرهای چند هسته ای متداول شده است این مزیت امکان استفاده در جهت توسعه پردازشها و محاسبات همزمان و موازی دارد .
امنیت داده ها در این زمینه نیازمند توجه زیادیی می باشد .مشکلات امنیتی شامل حفاظت امنیتی داده ها ,حفاظت از حقوق معنوی داده ها ,حفاظت از حریم خصوصی ,حفاظت از رازهای تجارت و اطلاعات مالی می باشد . در حوزه داده های حجیم مشکلات به چند دلیل متفاوت می باشند ,اندازه داده های حجیم بزرگ است و رویکرد های حفاظتی مختلفی را می طلبد ,همچنین بار کاری بیشتری را تحمیل می نماید و از طرف دیگر با توجه به اینکه داده های حجیم معمولا به صورت توزیعی ذخیره می شوند مشکلات مربوط به شبکه نیز می بایست در نظر گرفته شود .

===== تجسم داده ها =====

هدف اصلی از تجسم داده ها نمایش اطلاعات بصورت شهودی و موثر توسط نمودار های مختلف است .برای انتقال آسان اطلاعات نهان در مجموعه داده های حجیم ,داشتن فرمهای زیبا و جذاب و همچنین کاربری از ملزومات می باشد .برای داده های حجیم اجرای مجسم داده ها به دلیل اندازه بزرگ آنها و ابعاد بالای آنها مشکلتر می باشد .به همین دلیل ابزارهای کنونی نمایش داده های حجیم دارای کارایی , گسترش پذیری و پاسخ دهی پایینی هستند .
با وجود چالشهای ذکر شده میتوان خوشبینانه دید مثبتی روی چالشها و مزایای این کار داشت .میتوانیم این اطمینان را داشته باشیم که امکان غلبه بر تمامی موانع را توسط روشها و فن آوری های در حال توسعه داریم .برخی این اعتتقاد را دارند که استفاده از داده های حجیم به سرانجام نمی رسد و در خصوص اینکه آیا در تصمیمات به کمک ما خواهند آمد شک دارند .اما به هر حال چشم انداز این مسیر مثبت بوده و روشها و فن اوری های این زمینه در حال توسعه می باشند .

=== احتیاجات Big Data برای محیط هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-18T10:02:02Z

Amiiiiir: /* تجسم داده ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده کاوی است مهیا می شوند .

===== تجزیه و تحلیل داده ها =====

اولین مشخصه داده های حجیم , حجم بالای آنهاست بنابراین بزرگترین و مهمترین چالش در زمان تجزیه و تحلیل داده ها گسترش پذیری آنست .در دهه های اخیر محققین توجه زیادی در زمینه سرعت دادن به الگوریتم های تجزیه و تحلیل کرده اند تا از پس افزایش حجم داده ها با توجه به سریعتر شدن پردازشگر ها برآیند .در حالی که سرعت پردازشی پردازشگر ها روز به روز بهبود می یابد و همچنین استفاده از پردازشگرهای چند هسته ای متداول شده است این مزیت امکان استفاده در جهت توسعه پردازشها و محاسبات همزمان و موازی دارد .
امنیت داده ها در این زمینه نیازمند توجه زیادیی می باشد .مشکلات امنیتی شامل حفاظت امنیتی داده ها ,حفاظت از حقوق معنوی داده ها ,حفاظت از حریم خصوصی ,حفاظت از رازهای تجارت و اطلاعات مالی می باشد . در حوزه داده های حجیم مشکلات به چند دلیل متفاوت می باشند ,اندازه داده های حجیم بزرگ است و رویکرد های حفاظتی مختلفی را می طلبد ,همچنین بار کاری بیشتری را تحمیل می نماید و از طرف دیگر با توجه به اینکه داده های حجیم معمولا به صورت توزیعی ذخیره می شوند مشکلات مربوط به شبکه نیز می بایست در نظر گرفته شود .

===== تجسم داده ها =====

هدف اصلی از تجسم داده ها نمایش اطلاعات بصورت شهودی و موثر توسط نمودار های مختلف است .برای انتقال آسان اطلاعات نهان در مجموعه داده های حجیم ,داشتن فرمهای زیبا و جذاب و همچنین کاربری از ملزومات می باشد .برای داده های حجیم اجرای مجسم داده ها به دلیل اندازه بزرگ آنها و ابعاد بالای آنها مشکلتر می باشد .به همین دلیل ابزارهای کنونی نمایش داده های حجیم دارای کارایی , گسترش پذیری و پاسخ دهی پایینی هستند .
با وجود چالشهای ذکر شده میتوان خوشبینانه دید مثبتی روی چالشها و مزایای این کار داشت .میتوانیم این اطمینان را داشته باشیم که امکان غلبه بر تمامی موانع را توسط روشها و فن آوری های در حال توسعه داریم .برخی این اعتتقاد را دارند که استفاده از داده های حجیم به سرانجام نمی رسد و در خصوص اینکه آیا در تصمیمات به کمک ما خواهند آمد شک دارند .اما به هر حال چشم انداز این مسیر مثبت بوده و روشها و فن اوری های این زمینه در حال توسعه می باشند .

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-18T09:41:05Z

Amiiiiir: /* تجزیه و تحلیل داده ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده کاوی است مهیا می شوند .

===== تجزیه و تحلیل داده ها =====

اولین مشخصه داده های حجیم , حجم بالای آنهاست بنابراین بزرگترین و مهمترین چالش در زمان تجزیه و تحلیل داده ها گسترش پذیری آنست .در دهه های اخیر محققین توجه زیادی در زمینه سرعت دادن به الگوریتم های تجزیه و تحلیل کرده اند تا از پس افزایش حجم داده ها با توجه به سریعتر شدن پردازشگر ها برآیند .در حالی که سرعت پردازشی پردازشگر ها روز به روز بهبود می یابد و همچنین استفاده از پردازشگرهای چند هسته ای متداول شده است این مزیت امکان استفاده در جهت توسعه پردازشها و محاسبات همزمان و موازی دارد .
امنیت داده ها در این زمینه نیازمند توجه زیادیی می باشد .مشکلات امنیتی شامل حفاظت امنیتی داده ها ,حفاظت از حقوق معنوی داده ها ,حفاظت از حریم خصوصی ,حفاظت از رازهای تجارت و اطلاعات مالی می باشد . در حوزه داده های حجیم مشکلات به چند دلیل متفاوت می باشند ,اندازه داده های حجیم بزرگ است و رویکرد های حفاظتی مختلفی را می طلبد ,همچنین بار کاری بیشتری را تحمیل می نماید و از طرف دیگر با توجه به اینکه داده های حجیم معمولا به صورت توزیعی ذخیره می شوند مشکلات مربوط به شبکه نیز می بایست در نظر گرفته شود .

===== تجسم داده ها =====

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-18T09:40:21Z

Amiiiiir: /* تجزیه و تحلیل داده ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده کاوی است مهیا می شوند .

===== تجزیه و تحلیل داده ها =====

اولین مشخصه داده های حجیم , حجم بالای آنهاست بنابراین بزرگترین و مهمترین چالش در زمان تجزیه و تحلیل داده ها گسترش پذیری آنست .در دهه های اخیر محققین توجه زیادی در زمینه سرعت دادن به الگوریتم های تجزیه و تحلیل کرده اند تا از پس افزایش حجم داده ها با توجه به سریعتر شدن پردازشگر ها برآیند .در حالی که سرعت پردازشی پردازشگر ها روز به روز بهبود می یابد و همچنین استفاده از پردازشگرهای چند هسته ای متداول شده است این مزیت امکان استفاده در جهت توسعه پردازشها و محاسبات همزمان و موازی دارد .
امنیت داده ها در این زمینه نیازمند توجه زیادیی می باشد .مشکلات امنیتی شامل حفاظت امنیتی داده ها ,حفاظت از حقوق معنوی داده ها ,حفاظت از حریم خصوصی ,حفاظت از رازهای تجارت و اطلاعات مالی می باشد . در حوزه داده های حجیم مشکلات به چند دلیل متفاوت می باشند ,اندازه داده های حجیم بزرگ است و رویکرد های حفاظتی مختلفی را می طلبد ,همچنین بار کاری بیشتری را تحمیل می نماید و از طرف دیگر با توجه به اینکه داده های حجیم معمولا به صورت توزیعی ذخیره می شوند مشکلات مربوط به شبکه نیز می بایست در نظر گرفته شود .

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-17T08:30:29Z

Amiiiiir: /* چالش ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده کاوی است مهیا می شوند .

===== تجزیه و تحلیل داده ها =====

اولین مشخصه داده های حجیم , حجم آنهاست بنابراین بزرگترین و مهمترین چالش در زمان تجزیه و تحلیل داده ها گسترش پذیری آنست .در دهه های اخیر محققین توجه زیادی در زمینه سرعت دادن به الگوریتم های تجزیه و تحلیل کرده اند تا از پس افزایش حجم داده ها و سریعتر شدن پردازشگر ها برآیند .

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-17T08:14:03Z

Amiiiiir: /* ترمیم داده ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

منظور از ترمیم داده ها کشف و بازیابی داده ها ,اطمینان از کیفیت داده ها ,افزودن ارزش ,استفاده مجدد و نمایش آن در طول زمان می باشد .این زمینه درگیر شماری از زیرمجموعه ها شامل تشخیص هویت ,بایگانی , مدیریت , حفاظت ,بازیابی و نمایش می باشد .ابزارهای مدیریت دیتابیس های کنونی توانایی پردازش داده های حجیم را که در حال رشد و پیچیده تر شدن است را ندارند .دیدگاه کلاسیک مدیریت داده های ساختاریافته شامل دو قسمت می باشد ,یکی مدل ذخیره سازی مجموعه داده هاست و دیگری دیتابیسهای رابطه ای برای بازیابی داده هاست .پردازش داده های قبل از ذخیره سازی مانند پاکسازی داده ها ,تبدیل و دسته بندی آنها از الزامات است .پس از این اقدامات داده برای مرحله بعدی که داده کاوی است مهیا می شوند .

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-17T07:16:59Z

Amiiiiir: /* چالش ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

===== ارسال داده ها =====

ذخیره سازی ابری داده ها عموما برای توسعه تکنولوژی های ابری استفاده می شوند .همانگونه که می دانیم ظرفیت پهنای باند شبکه می تواند به عنوان گلوگاه در سیستم های پردازشی توزیعی و ابری می باشد ,مخصوصا زمانی که حجم داده های ارسالی بزرگ باشد .از طرف دیگر ذخیره سازی ابری منجر به مشکلات امنیتی داده ها به عنوان نیازمندی اصلی جهت حفظ درستی داده ها خواهد شد .الگوهای مختلفی به عنوان سیستم های متفاوت و مدل های امنیتی در این خصوص پیشنهاد شده اند .

===== ترمیم داده ها =====

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-17T07:04:23Z

Amiiiiir: /* ضبط کردن و ذخیره سازی داده ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .امکان استفاده همزمان از سیستم ها و گذردهی ثابت برای هر سرور یکی از نیازمندیهای سیستمهای پردازشی توزیعی می باشد که سیستم های ذخیره سازی کنونی دارای ضعف در هر دو مورد هستند .

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-17T06:59:05Z

Amiiiiir: /* ضبط کردن و ذخیره سازی داده ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .داده های حجیم با وجود مشکل عدم تطبیق سرعت پردازنده ها با رسانه انتقال داده ها می بایست به صورت مطمئن و آسان در دسترس باشد .گرچه فن اوری های جدید ذخیره سازی مانند درایو های SSD (Solid State Drive) و حافظه های PCM(Phase Change Memory) میتوانند در جهت کم کردن مشکلات کمک نمایند ,اما برای رسیدن به نقطه ایده آل خیلی فاصله دارند .فن آوری های کنونی ذخیره سازی داده ها نمیتوانند همزمان کارایی هر دو نوع روش انتقال داده ها یعنی روشهای ترتیبی و اتفاقی را دارا باشد . بنابراین لازم است در مورد روش های طراحی سیستمهای ذخیره سازی برای داده های حجیم تجدید نظر نماییم .
معماری های ذخیره سازی تجاری مانند DAS(Direct-attached storage) , NAS(Network-attached Storage) ,SAN (Storage area Network) وجود دارند .اما به هر حال تمامی آنها دارای مشکلات و محدودیتهایی برای استفاده در سیستمهای توزیعی بزرگ هستند .

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-17T06:35:54Z

Amiiiiir: /* چالش ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
===== ضبط کردن و ذخیره سازی داده ها =====
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-17T06:33:56Z

Amiiiiir: /* چالش ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .در این بخش خلاصه ای از چالشهای پیش رو را بیان خواهیم کرد .
ضبط کردن و ذخیره سازی داده ها
مجموعه داده ها از نظر اندازه به دلیل جمع آوری گسترده داده ها از طریق دستگاههای متحرک ,فن آوری های حسگر مختلف ,گزارش نرم افزارها ,دوربین ها ,میکروفن ها ,کنترلر های RFID و شبکه های حسگر بی سیم رشد قابل ملاحظه ای دارد .روزانه حجم بالایی از داده ها تولید می شود ,توانایی جهانی تکنولوژیک ذخیره داده ها برای ذخیره سازی اطلاعات تقریبا هر سه سال دو برابر می شود .در خیلی از زمینه ها مانند مالی و پزشکی به دلیل عدم وجود فضای کافی برای ذخیره سازی داده ها حجم زیادی از داده ها را از بین می برند .دادهای حجیمی که با هزینه بالایی تهیه شده نادیده گرفته میشوند .
داده های حجیم راه های جمع آوری و ذخیره سازی داده ها از جمله دستگاههای ذخیره سازی ,معماری ذخیره داده ها و مکانیزم های ذخیره سازی را تغییر داده است . در همین راستا نیازمند نوآوری های جدید برای ایجاد رسانه های با سرعت بالاتر برای دستگاههای ذخیره ساز هستیم .دسترس پذیری یالاترین اولویت را در فرایند استخراج اطلاعات دارد .

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-16T08:43:00Z

Amiiiiir: /* چالش ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .
کارایی CPUها بر اساس قانون Moore هر 18ماه دوبرابر می گردد و همچنین کارایی دیسک درایوها نیز تقریبا با همین نرخ افزایش می یابد .اما به هر حال در چندین دهه گذشته سرعت چرخش دیسک درایوها با شیب ملایمی افزایش یافته است .حاصل این عدم تعادل در پیشرفت افزایش تقریبی و کند سرعت کلی سیستم می گردد .علاوه بر این با توجه به رشد نمایی اطلاعات روشهای پردازش داده ها با رشد به مراتب کمتری در سرعت روبروست .با وجود نرم افزارها و روشهای فراوان پردازش داده های حجیم تاکنون مشکلات پردازشی به صورت ایده ال مرتفع نشده است .

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-16T08:29:15Z

Amiiiiir: /* چالش ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

فرصت ها همواره چالشها را نیز به دنبال خود دارند .از یک طرف داده های حجیم فرصت های جذابی را به همراه دارند و از طرف دیگر با چالشهای فراوانی روبرو خواهیم شد .در هنگام سر و کار داشتن با مشکلاتی از قبیل بدست آوردن داده ها ,ذخیره سازی ,جستجوی داده ها, به اشتراک گذاری داده ها, تحلیل داده ها و نمایش خروجی آنها مواجه خواهیم بود .در صورتی که نتوانیم بر آنها فائق آییم داده های حجیم همانند طلایی خواهد بود که ما توانایی کشف آن را نداریم .یکی از مشکلاتی که معماری کامپیوترها چندین دهه با آن درگیر است قابلیت پردازش بالای پردازشگرها در مقابل ضعف ورودی ها و خروجی ها می باشد .این مشکل کماکان مانعی برای توسعه پردازش داده های حجیم می باشد .

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-13T03:21:08Z

Amiiiiir: /* فرصت ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

...

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-13T03:20:41Z

Amiiiiir: /* فرصت ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .
بر اساس تحقیقات انجام شده استفاده موثر از داده های حجیم در ایجاد تحول در اقتصاد و ارائه موج جدید رشد تولیدات بسیار تاثیرگذار است .بدست اوردن اطلاعات ارزشمند از داده های حجیم امروزه به رقابت بین سازمانها تبدیل شده که برای جذب نیروهای متخصص در این زمینه از هم پیشی می گیرند .محققین ,سیاست گزاران و تصمیم گیران می بایست کاربرد داده های حجیم را برای آشکار کردن موج جدید پیشرفت را در زمینه خود مشخص نمایند .مزایای استفاده از داده های حجیم در بخش های مختلف تجارت در شکل زیر نمایش داده شده است .

==== چالش ها ====

...

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-10T23:31:26Z

Amiiiiir: /* فرصت ها */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند. بعنوان مثال می توان از اطلاعات جمع آوری شده توسط دوربین های کنار جاده ای مثل اطلاعات شرایط ترافیکی، رفتار رانندگی با هدف کاهش مصرف سوخت و کاهش تولید دی اکسید کربن استفاده کرد. پس در این حالت، داده بزرگ پدیده ای است که قطعاً تأثیر مستقیمی روی کیفیت زندگی کسانی دارد که زندگی در شهر را انتخاب کرده اند. شهر های هوشمند فردا بر سنسورهای درون زیرساخت شهری تکیه خواهند کرد. پیش بینی ها می گوید تا سال 2016 شهرها مناطقی میشوند که بیش از 4.1 ترا بایت در روز در کیلومتر مربع داده تولید می کنند. مدیریت مؤثر این مقدار داده در حال حاضر یک چالش است. در مقاله های مختلف راه حل هایی برای حمایت از نسل بعدی داده های بزرگ ارائه شده است. CAPIM یک پلت فرم طراحی شده برای خودکارسازی روند جمع آوری و ادغام و تجمیع اطلاعات در مقیاس بزرگ می باشد که برای یکپارچه سازی داده هایی از قبیل محل، پروفایل، مشخصات کاربر و محیط طراحی شده است. یک اجرا از سیستم حمل و نقل هوشمند ارائه شده که بر مبنای CAPIM طراحی شده است ارائه شده تا به کاربران و مسئولان شهری کمک کند مشکلات ترافیکی شهرهای بزرگ را بهبود دهند. و در جایی یک راه حل برای مدیریت مؤثر ذخیره سازی کارای داده در یک مقیاس بزرگ ارائه شده. ترکیب این خدمات، برای برنامه های کاربردی شهر هوشمند و ارائه هوشمند خدمات با استفاده از اطلاعات جمع آوری شده یک پشتیبانی ایجاد میکند.

== مقدمه ==
امروزه بطور روزانه داده های بسیار زیادی تولید میشود. آنقدر که حدود 90٪ داده های جهان امروز فقط در دو سال اخیر تولید شده است. این داده ها از سنسورهای مورد استفاده برای جمع آوری اطلاعات آب و هوا، سیگنال های GPS تلفن همراه و ... بدست می آید. این داده همان داده بزرگ یا Big Data می باشد. Big Data تبدیل به یکی از زمینه های تحقیقاتی حال و آینده شده است. در سال های اخیر '''گارتنر''' "ده روند فناوری راهبردی برای 2013" و "ده روند فناوری برای 5 سال آینده" را لیست کرده و Big Data د هر دو لیست آمده است. اگر بگوییم Big Data زمینه های بسیاری از جمله کسب و کار، تحقیقات علمی و مدیریت عمومی را متحول کرده است، اشتباه نگفته ایم.

Big Data راهی که ما در انجام تجارت، مدیریت و تحقیقات اتخاذ کرده ایم را تغییر داده است. علم داده با حجم بالا به خصوص در محاسبات داده با حجم بالا با هدف فراهم کردن ابزارهایی جهت مدیریت مشکلات Big Data در حال ورود به جهان است. هزاران سال قبل دانشمندان پدیده های طبیعی را تنها بر مبنای شواهد تجربی انسانی توصیف می کردند. بنابراین علم آن زمان، علم تجربی نامیده شده است. پس از آن علم نظری صدها سال پیش پدید آمد. مانند قوانین نیوتن و قوانین کپلر. با این حال به دلیل مشکلات و پیچیدگی بسیاری از پدیده ها دانشمندان بایستی به شبیه سازی های علمی روی می آوردند، چراکه تجزیه و تحلیل تئوری بسیار پیچیده بوده و گاهی غیر ممکن و دور از دسترس است. پس شاخه سوم علم یعنی شاخه محاسباتی متولد و مجموعه داده های بزرگ و بزرگتری تولید شد. بنابراین علم داده بزرگ بعنوان شاخه چهارم علم بوجود آمد.

Big Data چیزی بیشتر از موضوع سایز و اندازه داده بوده و فرصتی برای پیدا کردن دیدگاه و بینش درخصوص انواع جدید و در حال ظهور داده و محتوا است تا تجارت و کسب و کار را چابک تر ساخته و پاسخگوی سؤالاتی باشد که پیش از این خارج از دسترس بوده است. تابحال هیچ راه عملی برای استفاده از این فرصت وجود نداشته اما امروزه ما شاهد رشد نمایی حجم و جزئیات داده های بدست آمده از سازمان ها، ظهور چند رسانه ای، رسانه های اجتماعی، شبکه های اجتماعی آنلاین (OSN) و ابزارها و وسایلی که روزانه به شبکه متصل شده و تبادل داده دارند (IoT)، می باشیم. باوجود این همه اطلاعات، در بسیاری از موارد در قابلیت های کشف دانش و اطلاعات با ارزش از حجم انبوهی از داده ها، علم از دنیای واقعی عقب مانده است.

برای Big Data تا کنون تعاریف زیادی ارائه شده اما در سال 2012، گارتنر تعریف دقیق تری ارائه کرده است: « Big Data دارایی های اطلاعاتی با حجم بالا، سرعت بالا و یا تنوع زیاد هستند که نیاز به شکل جدید از پردازش دارد تا قادر به تصمیم گیری پیشرفته و بهینه سازی پردازش باشد ». بطور کلی، یک مجموعه داده می تواند Big Data نامیده شود اگر قابلیت انجام ضبط، گزینش، تجزیه و تحلیل و تجسم روی آن با فناوری هی فعلی وجود داشته باشد.

بسیاری از چالش های Big Data توسط برنامه های آینده تولید میشود که در آن کاربران و ماشین ها به همکاری هوشمند با یکدیگر نیاز خواهند داشت. در آینده ای نزدیک، اطلاعات در تمامی محیط اطراف ما در دسترس خواهد بود و به راحتترین و مناسب ترین راه خدمت رسانی خواهد شد. بعنوان مثال، هنگامی که ازدحام ترافیکی رخ می دهد بطور خودکار مطلع خواهیم شد و ماشین قادر خواهد بود برای بهینه سازی مسیر رانندگی ما تصمیم گیری کند، یا یخچال می تواند زمانیکه تاریخ مصرف شیر تمام میشود اطلاع دهد. تکنولوژی و فناوری بخش های بیشتر و بیشتری از زندگی روزمره ما را در بر خواهد گرفت و در نهایت، تکنولوژی های جدید به مرحله ای از توسعه می رسند که می توانند بطور قابل توجهی زندگی شهرنشینان را بهبود بخشند. با استفاده بیشتر و بیشتر از برنامه های هوشمند طراحی شده جهت حرکت به سمت توسعه پایدار، شهرها در حال تبدیل شدن به اکوسیستم های مصنوعی جانداران هوشمند دیجیتال می باشند.

با این حال، امروزه هیچ مدل منحصر بفردی برای یک شهر هوشمند وجود ندارد و هر شهرستان به طریق خاص خود و با پروژه ها و اهداف متفاوت به این مفهوم نزدیک میشود. از ویژگی های آشکار این نکنولوژی های جدید این است که جریان عظیمی از اطلاعات مکانی و زمانی را تولید می کند. بسیاری از مجموعه داده هایی که محققان و دانشمندن تا کنون قادر به استخراج معنی از آنها بوده اند در مقایسه با داده ای که توسط برنامه های شهر هوشمند تولید میشود بسیار کوچک بوده است. تحرک مردم در یک شهر بزرگ که در آن چیزی نزدیک به 3 میلیون مسافر در روز با استفاده از حمل و نقل عمومی جابجا می شوند را در نظر بگیرید. اگر بتوانیم داده مربوط به مکان این مسافران را برای استخراج اطلاعات معنی دار جمع آوری کنیم، با فناوری که امروزه در دسترس است بسیاری از این داده ها را می تواند تجمیع کرده و کاهش داد. اما از آنجا که چنین داده هایی بطور مداوم تولید شده و در دسترس اشت، همه چیز پیچیده تر خواهد شدو باید راه حل هایی برای ذخیره سازی و مدیریت مقادیر بسیار زیاد داده وجود داشته باشد.

حرکت ما به سمت دورانی که حجم بی سابقه ای از داده و قدرت محاسباتی وجود دارد، تنها برای تجارت و کسب و کار مفید نمی باشد. این داده و اطلاعات می تواند به شهروندان نیز کمک کند تا به دولت و سازمانهای دولی براحتی دسترسی داشته باشند و پاسخ نیاز های خود را از آنها گرفته و سرویس ها و خدمات جدید برای کمک به خودشان ایجاد کنند. در واقع همه این ها یک بخش از جهانی است که در تمام ابعاد در حال دیجیتالی شدن می باشد. مردم با استفاده از داده ها و بازنمایی های دیجیتال می توانند براحتی درک و شناخت خود را توسعه داده و ایده هایی نو جهت بهبود آینده زندگی شهری و اجتماعی طراحی کنند.

== بررسی ادبیات موضوع ==

حضور فراگیر دستگاه های سیار و موبایل و سنسورهای همه گیر (مانند چیزی که در شهرهای هوشمند امروزی وجود دارد)، باعث می شود تا به پلت فرم های محاسباتی مقیاس پذیر جهت ذخیره سازی و پردازش مقادیر بسیار زیاد جریان داده تولید شده نیاز باشد. به دلیل پیچیدگی ارتباط و مواجه شدن با مقادیر زیاد داده، پیش از این چندین پلت فرم برای سویس دهی برنامه های شهر هوشمند و پنهان کردن پیچیدگی مربوط به چگونگی جمع آوری، ذخیره و پردازش اطلاعات زمینه توسعه داده شده است. به این ترتیب رای ایجاد کننده شهر هوشمند تنها اجرای منطق کسب و کار لازم باقی مانده است.

چندین معماری به منظور پشتیبانی از سیستم های آگاه از زمینه ارائه شده است. یکی از اولین روش های پیاده سازی شده context toolkit است که به منظور دستیابی، تجمیع و تفسیر اطلاعات زمینه که از جفت های (کلید/مقدار) برای مدل کردن داده زمینه استفاده می کند، یک معماری متشکل از ماژول های کاربردی مختلف ارائه می دهد. روشهای دیگر مثل CASS یک معماری لایه میانی ارائه می دهند که از یک مدل داده رابطه ای برای نشان دادن داده زمینه استفاده می کند. JCAF یک چارچوب و یک محیط زمان اجراست بری ایجاد و گسترش برننامه های محاسبات زمینه که از یک مدل شیء گرا برای ارائه داده زمینه استفاده می کند. این سه رویکرد برای تبدیل داده های خام به داده زمینه سطح بالاتر از مفسرها استفاده می کنند، اما این تغییر ها نمی تواند خیلی پیچیده باشد چرا که هیچ مکانیزم استنتاجی وجود ندارد.

میان افزار CoBra یک رویکرد متفاوت را ارائه می دهد که در آن از عامل های نرم افزاری به منظور جمع آوری و پردازش داده زمینه در محیط یک اتاق جلسه هوشمند استفاده شده است. SOCAM از سه لایه متفاوت استفاده می کند به نام های لایه حسگری، لایه میان افزار و لایه کاربرد. با این حال، این میان افزار ها تنها برای کار با مجموعه محدودی از داده طراحی شده اند و داده زمینه تنها در کارهای اندکی در رابطه با رایانش ابری مورد بحث قرار گرفته است. برای مثال Boloor و همکاران تخصیص درخواست پویا و برنامه ریزی را برای برنامه های کاربردی آگاه از زمینه در دیتا سنترهایی که از لحاظ جغرافیایی توزیع شده هستند، مورد مطالعه قرار داده است.اما بحث در مورد مسائل خاص و احتیاجات و نیازمندی های آگاهی از زمینه برای ذخیره Big Data عملا در کارهای واقعی فراموش شده و مورد بحث قرار نگرفته است.

این میان افزار ها و سایر میان افزارهای مشابه، از محاسبات متحرک و فراگیر بر مبنای اطلاعات زمینه پشتیبانی می کنند. همه آنها یکسری روشهایی برای تطبیق با تغییرات در زمینه و روشهایی برای جمع آوری اطلاعات زمینه فراهم می کنند، اما از موجودیت های مختلف استفاده کرده و نقاط تمرکز آنها متفاوت است.

== بدنه تحقیق ==

=== فرصت ها و چالش های Big Data ===

==== فرصت ها ====

اخیرا چندین آژانس دولتی آمریکا چون موسسه ملی سلامت (NIH) و بنیاد ملی علوم (NSF) ثابت کرده اند که مزایای استفاده از داده های حجیم برای تصمیم گیری های بر اساس داده های آنی در پیشرفت های آینده بسیار موثر خواهد بود .همچنین تلاشهای زیادی برای توسعه فن اوری ها و تکنیکهایی جهت تسهیل ماموریت شان پس از اینکه از سوی دولت داده های متنوع و حجیمی به آنها ارجاع داده شد, انجام داده اند . این داده های متنوع و ابتکاری برای بوجود آوردن توانایی ها جدید در حوزه علوم اطلاعاتی و تصمیم گیری بسیار مفید خواهند بود .
تحقیقات نشان می دهند که در همه زمینه های دارای اولویت ملی ناگزیر به ایجاد ارتباط بین داده های حجیم و اطلاعاتی قابل استخراج از آنها هستیم .این دادها می توانند اساس کار بسیاری از فعالیت ها را تحت تاثیر قرار دهد مانند پروژه های ریزبنایی داده پردازی ,تولید پلتفرمها , روشهای حل مشکلات علوم پایه و مهندسی و همچنین مزایای آن در علوم اجتماعی قابل تامل خواهد بود .

==== چالش ها ====

...

=== احتیاجات Big Data برای شهر هوشمند ===

برنامه های شهر هوشمند به شدت وابسته به چارچوب و زمینه اجرایی آنهاست. اصطلاح "زمینه" توسط نویسنده های مختلف به صورت محیط اطراف تعامل بین کاربر و برنامه کاربردی، اطلاعات راجع به فعالیت یا وظیفه ای که کاربر در حال انجام دادن آن است و یا اطلاعات مورد نیاز برای مشخص کردن وضعیت یک موجودیت در نظر گرفته شده است. بطور کلی تر "زمینه" هر اطلاعاتی است که می تواند توسط یک سیستم برای شناسایی وضعیت یک موجودیت (شخص،مکان یا شیء) بدست آمده باشد یا پردازش شده باشد و رفتار سیستم را با آن وضعیت تطبیق دهد. این اطلاعات می تواند سیگنال GPS گوشی های هوشمند کاربران باشد که با استفاده از آن سیستم می تواند به مکان فعلی کاربر پی ببرد.

یک پلت فرم آگاه از زمینه که برای مدیریت اطلاعات زمینه در یک مقیاس بزرگ طراحی شده باید با الزامات خاص متعددی سر و کار داشته باشد:

* ''تحرک و مکان''

یک برنامه آگاه از زمینه می تواند به کاربران جهت تقویت و تکمیل اصل وجودی خود کمک کند. در این حالت، کاربر ممکن است علاقه مند به دریافت اطلاعاتی راجع به مکانها یا ساختمانهای همسایه باشد (بعنوان مثال در یک برنامه گردشگری). فرض می کنیم کاربران بطور کلی در حال حرکت هستند و داده زمینه معمولی شامل عناصری مانند مکان فعلی، زمان فعلی و وضعیت فعلی کاربر می باشد.

* ''مجاورت''

مجاورت و همسایگی نیز برای تأمین منابع و راه اندازی خدمات دارای اهمیت است. مقدار داده بطور بالقوه بیش از حد بزرگ است و بطور کامل روی دستگاه های سیار کاربر قابل خدمت رسانی نمی باشد. بنابراین انتخاب مناسب ترین و مرتبط ترین داده زمینه از محیط اطراف ترجیح داده میشود.

* ''ضمانت های بلادرنگ''

برنامه های کاربردی آگاه از زمینه باید ضمانت های بلادرنگ برای تأمین داده فراهم کند. کاربران نباید رویدادهایی را که در گذشته دور رخ داده است دریافت کنند(اگر رویداد قدیمی باشد منسوخ می شود). برای مثال، اگر یک توریست به دنبال دریافت اطلاعات راجع به یک هدف در قسمت خاصی از شهر باشد، با دریافت داده چیزهای دیگر در سایر قسمت های شهر راضی نخواهد شد چرا که برنامه کاربردی در حال جواب دادن درخواستهایی است که چندی پیش ایجاد شده است.

* ''پشتیبانی از عیب و نقص ارتباطات''

ما وجود عیوب زیرساخت های ارتباطات بیسیم امروزه را تصدیق می کنیم. در حقیقت هیچ برنامهکاربردی نباید فرض کند که کاربر همیشه به اینترنت متصل است (ممکن است اتصال بیسیم همیشه در دسترس نباشد یا ممکن است اتصال ارزان تمام نشود). بنابراین پلت فرم آگاه از زمینه باید حتی وقتی اتصالی در دسترس نیست هم استفاده از داده های زمینه را امکانپذیر سازد. در چنین شرایطی میتوان از جایگزین هایی مثل استفاده فرصت طلبانه از داده در دسترس توسط سایرین از cache های توزیع شده استفاده کرد.

* ''دسترسی کارآمد به داده''

یک برنامه کاربردی باید دسترسی کارآمد به داده را از نظر سرعت دسترسی و نیز پشتیبانی برای پرس و جوهای پیچیده اجازه دهد. برنامه های کاربردی باید قادر باشند منافع خود را با استفاده از پرس و جوهای پیچیده، در اشکال فیلترهای زبان طبیعی بیان کند. برای مثال برنامه کاربردی باید قادر باشد به درخواست داده با استفاده از یک عبارت مثل "دریافت پیش بینی مکان دوستانی که در شهر هستند" و یا "دریافت پیش بینی ترافیک جاده در یک خیابان خاص" باشد.

* ''پشتیبانی از ذخیره سازی کارآمد''

یک پلت فرم آگاه از زمینه باید امکان کشف منابع (مثل سنسور و خدماتی مثل آب و هوا)، دسترسی به داده و تجمیع اطلاعات را فراهم کند. همچنین باید مقیاس پذیر نیز باشد. برای یک برنامه ترافیکی، معمولا بطور بالقوه شامل میلیون ها کاربر می باشد که داده sense شده توسط آنها باید بطور مداوم ذخیره شودو تاریخچه داده نیز باید برای قابلیت ردیابیو پردازش و داده کاوری نگهداری شود.

بطور خلاصه، برنامه های کاربردی آگاه از زمینه در رابطه با حجم بالای داده و دسترسی سریع به داده ملزومات و نیازمندی های مشترکی دارند. چنین ملزوماتی باید توسط خدمات ارائه شده در سطح پلت فرم ارضاء شود.بدیهی است دستیابی به مدیریت داده بسیار مقیاس پذیر، یک چالش مهم و بحرانی است. رایانش ابری با مدل های هزینه ای و محاسباتی خود به این چالش پاسخ می دهد.

=== اصول طراحی سیستم های Big Data ===

تجزیه و تحلیل Big Data پیچیده تر از سیستم های تجزیه و تحلیل داده سنتی می باشد. پس چگونه کارها و وظایف داده متراکم را پیاده سازی کنیم بطوریکه بهره وری رضایت بخشی بویژه به صورت بلادرنگ داشته باشیم؟ پاسخ در توانایی موازی سازی گسترده الگوریتم های تحلیلی است به گونه ای که تمام پردازش ها بطور کامل در حافظه رخ داده و مقیاس پذیر است. وقتی میخواهیم از Big Data بهره ببریم نه تنها نیاز است تکنولوژی های جدیدی توسعه دهیم، بلکه به شیوه های تفکر جدید نیز نیازمندیم. در طراحی سیستم های تجزیه و تحلیل Big Data بطور خلاصه 7 اصل لازم است که بدون آنها تجزیه و تحلیل Big Data در یک سیستم توزیع شده دست نیافتنی خواهد بود:

* ''اصل 1 :'' معماری و چارچوب خوب ضروری و در اولویت است.

* ''اصل 2'' : پشتیبانی از انواع روشهای تحلیلی.

* ''اصل 3'' : سایز و اندازه واحدی برای Big Data وجود ندارد.

* ''اصل 4'' : اضافه کردن تجزیه و تحلیل به داده .

* ''اصل 5'' : پردازش باید برای محاسبات داخل حافظه توزیع پذیر باشد.

* ''اصل 6'' : ذخیره سازی داده باید برای ذخیره سازی داخل حافظه توزیع پذیر باشد.

* ''اصل 7'' : هماهنگی بین پردازش واحد های داده مورد نیاز است.

=== تکنیک هایی برای حل مشکلات Big Data ===

هدف تکنیک ها و تکنولوژی های پیشرفته برای توسعه علم Big Data، پیشبرد و اختراع روشهای علمی تر و پیچیده تر برای مدیریت، تجزیه و تحلیل، تجسم و بهره برداری از دنش آموزنده از مجموعه داده های بزرگ، متنوع، توزیع شده و ناهمگن می باشد. هدف نهایی ترویج توسعه و نوآوری علوم Big Data است تا در نهایت تحولات اقتصادی و اجتماعی در سطحی که پیش از این غیر ممکن بوده است از این نوآوری بهره مند گردد. تکنیک ها و تکنولوژی های Big Data باید موجب توسعه ابزار ها و الگوریتم های تحلیل داده جدیدی به منظور تسهیل زیرساخت داده مقیاس پذیر، قابل دسترس و پایدار شود تا به افزایش درک فرآیندها و تعاملات انسانی و اجتماعی منجر شود. همانطور که گفتیم، ابزارها، تکنیک ها و زیرساخت های نوین Big Data قادر خواهند بود در علم، مهندسی، پزشکی، تجارت، آموزش و پرورش و امنیت ملی به موفقیت هایی رسیده و نوآوری ایجاد کنند و همچنین زیرساخت هایی جهت رقابت در دهه های آینده پایه گذاری نمایند.

تکنیک های آماری و ریاضی نوین، ابزارهای داده کاوی جدید، الگوریتم های پیشرفته یادگیری ماشین و نیز سایر رشته های تحلیلی داده در آینده بخوبی تثبیت خواهند شد. در نتیجه، تعدادی از سازمان ها به منظور تسهیل امور و مأموریت خود در حال توسعه استراتژی های Big Data هستند. این سازمانها روی منافع مشترک تحقیقات Big Data د سرتاسر جهان تمرکز می کنند. چندین تکنیک که در حال حاضر برای مهار Big Data مورد استفاده قرار میگیرد عبارتست از:

* محاسبات گرانولار (یا محاسبات دانه ای)

* محاسبات ابری (رایانش ابری)

* سیستم های محاسباتی بیولوژیکی

* محاسبات کوانتومی

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-02-10T23:16:57Z

Amiiiiir: /* فرصت ها */

سامانه رزرو بارنامه الکترونیکی

2015-01-30T21:09:04Z

Amiiiiir: /* مراحل توسعه محصولات */

* موضوع : سامانه رزرو بارنامه الکترونیکی
* تهیه کننده : امیر قصری

== خلاصه اجرایی ==
شرکت های باربری ,رانندگان و ارسال کنندگان کالاها می توانند برای ارسال بار به سرتا سر کشور از این سامانه استفاده کنند .

== معرفی شرکت (تصویر شرکت) ==

* شرکت ایران بر
* شرکتی است که در آینده تشکیل خواهد شد .
* مرکزیت این شرکت در یکی از شهرهای بزرگ کشور که بار فراوانی برای ترانزیت دارد خواهد بود .
شهر بندرعباس به عنوان دفتر مرکزی این شهر انتخاب خواهد شد .
* این شرکت به عنوان یک شرکت در عرصه باربری کشور ثبت و در برخی از شهرهای کشور می تواند دارای نمایندگی باشد .

== چشم انداز ==
تبدیل شرکت به بزرگترین و جامعترین شرکت موفق ملی در حوزه حم و نقل کالا که به تمامی افراد در حوزه حمل و نقل کالا خدمات رسانی می کند .

== ماموریت ==
ماموریت این شرکت فراهم آورددن بستر برای فعالان حوزه حمل و نقل کالاست که به سهولت بتوانند بارهای ارسالی را به سرتاسر کشور انتقال دهند .

== اهداف ==
اهداف بازاریابی و تبلیغات:
- جهت گسترش خدمات شرکت در تمامی شهرهای کشور تبلیغات به میزان 20 میلیون تومان در سال اول ( شامل 5 میلیون تومان تبلیغات اینترنتی و 10 میلیون تومان تبلیغات فیزیکی و 5 میلیون تومان جهت تبلیغات اس ام اسی)

اهداف مالی:
- رسیدن به سود خالص 20 میلیون تومان در سال اول راه اندازی شرکت( بر اساس هزینه باربری درصدی از هر بارنامه به عنوان کارمزد کسر خواهد گردید .)

- بازگشت کامل سرمایه در سال دوم راه اندازی سایت

اهداف پرسنلی:
- جذب نیروهای متخصص و ایده پرداز جهت گسترش خدمات شرکت .

اهداف تحقیق و توسعه:
- امکان گسترش بسترهای ارائه خدمت به سایر لوازم چون دستکاههای موبایل .

== معرفی محصولات و خدمات ==
* خدمات شركت صرفا ارائه سيستم رزرو بار بصورت آنلاين مي باشد كه تمامي فعالان حوزه حمل و نقل كالا و بار مي توانند از اين سيستم براي افزايش بهره وري استفاده نمايند .
* رانندگان و شركتهاي حمل و نقلي براي بروز و آسان كردن روال رزرو بار از اين سيستم استفاده خواهند نمود .
* ويژگي منحصر به فرد اين روش بروز بودن ، جامع بودن و آسان بودن رزرو بار مي باشد .
* مزاياي استفاده كاهش هزينه هاي رانندگان و شركتهاي باربري به دليل اينكه در شرايط عادي امكان رويت بارهاي كل كشور برايشان ميسر نميباشد و در صورت عدم آگاهي ميبايشت مدتها براي پيدا كردن بار منتظر بمانند .
* در ابتدا مي بايست سامانه طراحي و راه اندازي گردد و تمامي اقدامات امنيتي و جاذبه داشتن آن صورت پذيرد .سپس به صورت آزمايشي راه اندازي گرديده و به مرور اشكالات رفع و بازاريابي براي گسترش استفاده از سيستم آغاز گردد .

== محصولات جایگزین ==
جايگزين اين روش ،روش سنتي متداول مي باشد كه صاحب بار به شركت باربري مراجعه نموده و براي ارسال بار خود درخواست مي دهد و شركت نيز به رانندگاني كه به آن مراجعه مي كنند پيشنهاد را ارائه مي دهد و راننده در صورت موافقت اقدام به بارگيري و ارسال بار مي نمايد . كه اين روش به دليل سرعت پايين و هزينه هاي اطلاع رساني بالا مقرون به صرفه نمي باشد .
ضمنا با روش رزرو آنلاين بار راننده اي كه قصد حمل بار به شهرستان خاصي را دارد مي تواند براي برگشت خود از قبل برنامه ريزي نمايد و بار برگشتي خود را از قبل رزرو نمايد تا زمان انتظار در شهرمقصد كاهش يابد .

== تحلیل صنعت مادر ==

* صنعت مورد استفاده در اين سيستم صنعت حمل و نقل كشور مي باشد كه ما در اين سامانه بر روي حمل بار تمركز مي كنيم .
* صنعت حمل و نقل به سه دسته حمل و نقل مسافر ، حمل و نقل كالاي داخل كشور حمل و نقل بين المللي تقسيم ميشود .
* به دليل وجود كشور ما در منطقه ستراتژيك براي جابجايي بار اين امر اهميت زيادي دارد .
* بزرگترين و مهمترين بازيگردان هاي اين صنعت راندگان و شركتهاي حمل و نقل مي باشد .
* رانندگان درگير مسائلي جون عدم وجود بار از مسير مقصد به نقاط ديگر كشور و همچنين سوخت خودرو ها هستند
* با توجه به سرمايه گذاري كلان شركت در زمينه حمل كالا چشم انداز روشني براي اين صنعت مي تون متصور شد .

== تحلیل صنعت خود ==
در اين قسمت پس از آنکه جايگاه صنعت مادر مشخص گرديد، بايستي جايگاه صنعت خود را در صنعت مادر مشخص کرده و آينده صنعت خود را ترسيم نمائيد. همچنين در اين قسمت بايستي، محصول خود را از نظر تاريخچه تکنولوژي مورد بررسي قرار دهيد و اينکه محصول شما قبلاً با چه تکنولوژِي توليد مي شده، اکنون چه تکنولوژي آن را توليد مي کند و در آينده چگونه توليد خواهد شد و آيا تکنولوژي مورد استفاده شما در آينده نيز استفاده خواهد شد و يا احتمال منسوخ شدن آن وجود دارد.

== تحلیل بازار ==
در دو يا چند صفحه به سوالات زير پاسخ دهيد:
* منظور از بازار حوزه حمل و نقل جابجايي كالا در سرتاسر كشور مي باشد .
* اندازه بازار به دليل وجود بارهاي فراوان و فعالان بسيار حوزه حمل و نقل گسترده مي باشد .
* اين شرکت پاسخگوي نياز رزرو بار از سرتاسر كشور خواهد بود .
* ميتوان بر اساس نوع وسله نقليه كابران را به دسته هاي مختلف تقسيم نمود .مثلا تريلي هاي انتقال سوخت يا بارهاي فاسد شدني يا بارهاي ترافيكي حجيم .
* مشتريان هدف رانندگان و صاحبان بار مي باشند .

* برای تضمین فروش خدمات میبایست مجوز لازم از ادارت حمل ونقل گرفته شود و هماهنگی های لازم برای استفاده از سیستم را انجام داد .
* برای بازاریابی و گسترش خدمات رسانی در کشور میبایست در پایانه ها ی باربری تبلیغات برای استفاده از سیستم صورت پذیرد .و همچنین تخفیفاتی برای کاربران اولیه در نظر گرفت .

== تحلیل رقبا ==
خدمت ارائه شده توسط این شرکت خدمتی جدید است که رقیبی جدی در صحنه ارتباطات آنلاین ندارد و تنها رقبای این شرکت ,شرکتهای باربری می باشند که بصورت سنتی اقدام به ارائه خدمت می نمایند که در صورت انجام به موقع خدمت امکان پیشی گرفتن از سایرین وجود خواهد داشت .

== تدوین استراتژی ==
استراتژي ها جواب اين سؤال هستند كه چه عواملي در طول زمان سبب موفقيت اين فعاليت خواهند شد. براي اين منظور، ابتدا بايد نقاط قوت و ضعف، فرصت ها و تهديدهاي خود و رقبا را تعيين کنيد سپس به کمک آن، استراتژي هاي خود را در مورد مسائل ذيل تهيه نمائيد:
* قيمت گذاري
* مشتريان
* رقبا
* بازاريابي
* بازار هدف
* توزيع
* تکنولوژي
* تبليغات
* ماليات
* قوانين محلي و دولتي
* شرايط اقتصادي

== مراحل توسعه محصولات ==
پس از راه افتادن و اقبال به سامانه می توان امکاناتی چون امکان ارائه بیمه و ... از طریق سایت را نیز فراهم نمود .

== تحلیل مالی ==
اگر طرح تجاري شما را به يک کيک تشبيه کنيم قسمت اطلاعات مالي آن بايستي همانند خامة روي آن باشد!!!

شما يک ايده تجاري خوب را طرح ريزي کرده ايد، اثبات کرديد که يک نياز واقعي در بازار وجود دارد، نشان داديد که چگونه ايده ها را اجرا مي کنيد، بيان کرديد که تيم شما آماده است که ريسک ها را مديريت کند و اکنون شما نشان خواهيد داد که هر کدامتان قرار است چه مقدار پول توليد کند.

توجه داشته باشيد، چنانچه ايده شما چندان غني نباشد، يا يک بازار خوب براي ايده شما وجود ندارد، يا از نظر اجرائي ضعيف هستيد، يا تيم مديريتي شما با کفايت نيست، طرح مالي شما محکوم به شکست خواهد شد. اگر شما تا اينجاي کار خواننده طرح را متقاعد نکرده باشيد مطمئناً با اطلاعات مالي که در ادامه خواهيد آورد نيز متقاعد نخواهد شد.
با اين وجود، بسيار مهم است که اطلاعات مالي شما قوي و خوش ساختار باشد. اگر شما نتوانيد نشان دهيد که ايده شما مي تواند پول(زيادي) نصيبتان کند، خواننده بلافاصله علاقة خود را از دست خواهد داد. به منظور تدوين قسمت مالي طرح خود، قوياً توصيه مي کنم که با استفاده از برنامه توسعه و فعاليت خود، يک جدول زماني از فعاليت ها و توسعه هاي آتي خود ترسيم کنيد.

از روي جدول زماني فعاليت هاي آتي، شما مي توانيد نمودار جريان نقدي (Cash Flow) و صورت-هاي مالي (نظير صورت حساب سود و زيان و ترازنامه) را حداقل براي 3 سال آتي (و گاهي تا 5سال) تدوين کنيد.

با يک حساب سرانگشتي، حسابهاي مالي شما بايستي تا نقطه اي از آينده ادامه داشته باشد که در آن نقطه، تجارت شما به يک تعادل نسبي در انجام امور خود دست يافته باشد.در سال اول، صورت هاي مالي فعاليت ها، هزينه ها و در آمدها بايستي ماه به ماه باشد، چرا که جريان هاي نقدي در گام هاي اولية هر شروعي بحراني و حياتي است. در سال هاي دوم و سوم صورتهاي مالي بايستي به چهار قسمت در سال تقسيم شود، و در سال هاي چهارم و پنجم بصورت ساليانه بيان شود.

صورتهاي مالي خود را در 3 حالت، "محتمل ترين حالت"، "خوش بينانه ترين حالت" و "بدبينانه ترين حالت" تنظيم نمائيد. چرا که اين امکان را به شما و خواننده مي دهد تا حد بالا و پائين ريسک طرح خود و نيز ريسک پذيري و ريسک گريزي شما را کشف نمايد. مطمئن شويد که هزينه ها و درآمدهاي قسمت مالي با ساير قسمت هاي طرح تجاريتان همخواني و تناسب داشته باشد. براي مثال اگر شما گفته ايد که 3 شعبه در سال دوم راه اندازي مي کنيد ولي صورت هاي مالي نشان مي دهد که 5 شعبه، خواننده به سرعت تجانس و تطابق طرح تان را زير سوال خواهد برد.

خلاصه مالي طرح شما بايستي شرح و توضيحي بر صورتهاي مالي تان باشد، صورت هاي مالي اصلي را در ادامه ضميمه کنيد.

زمان و حجم سرمايه گذاري لازم جهت اجراي طرحتان را شرح دهيد. سپس نشان دهيد که اين يک سرمايه گذاري خوب است و اين کار را با اثبات مطلوب بودن منفعت ها، دارائي ها، نرخ بازگشت سرمايه، ... ، انجام دهيد.

در ادامه مشخص نمائيد که سرمايه لازم را چگونه تأمين خواهيد کرد. براي مثال چه مقدار از آن را خود و شرکايتان پرداخت خواهند کرد و چه مقدار از آن را از طريق گرفتن تسهيلات از بانک يا مرکز رشد تامين خواهيد نمود.

اگر بخواهيد قسمت تحليل مالي طرح تجاري خود را با جزئيات بيشتري تشريح کنيد در واقع خروجي آن يک طرح توجيهي خواهد بود.

== تحلیل ریسک ==
در اين قسمت بايستي شاخص هايي که در طرح شما به عنوان ريسک مطرح مي شوند ليست کرده و ميزان اثر گذاري هر يک در طرح خود را آناليز حساسيت کنيد.

== طرح فنی ==
طرح فنی بیانگر اکوسیستم طرح کسب و کار شما می باشد که در آن کلیه اجزا و سیستم های فنی (مبتنی بر تجارت الکترونیک) در ارتباط با مشتری، تامین کنندگان و سایر موجودیت های محیطی توصیف شده و چگونگی ارتباط بین آنها مشخص می شود. بنابراین یک شمای تصویری از بعد فنی برای طرح کسب و کار در این قسمت ارایه دهید.

سامانه رزرو بارنامه الکترونیکی

2015-01-30T20:27:53Z

Amiiiiir: /* تحلیل رقبا */

* موضوع : سامانه رزرو بارنامه الکترونیکی
* تهیه کننده : امیر قصری

== خلاصه اجرایی ==
شرکت های باربری ,رانندگان و ارسال کنندگان کالاها می توانند برای ارسال بار به سرتا سر کشور از این سامانه استفاده کنند .

== معرفی شرکت (تصویر شرکت) ==

* شرکت ایران بر
* شرکتی است که در آینده تشکیل خواهد شد .
* مرکزیت این شرکت در یکی از شهرهای بزرگ کشور که بار فراوانی برای ترانزیت دارد خواهد بود .
شهر بندرعباس به عنوان دفتر مرکزی این شهر انتخاب خواهد شد .
* این شرکت به عنوان یک شرکت در عرصه باربری کشور ثبت و در برخی از شهرهای کشور می تواند دارای نمایندگی باشد .

== چشم انداز ==
تبدیل شرکت به بزرگترین و جامعترین شرکت موفق ملی در حوزه حم و نقل کالا که به تمامی افراد در حوزه حمل و نقل کالا خدمات رسانی می کند .

== ماموریت ==
ماموریت این شرکت فراهم آورددن بستر برای فعالان حوزه حمل و نقل کالاست که به سهولت بتوانند بارهای ارسالی را به سرتاسر کشور انتقال دهند .

== اهداف ==
اهداف بازاریابی و تبلیغات:
- جهت گسترش خدمات شرکت در تمامی شهرهای کشور تبلیغات به میزان 20 میلیون تومان در سال اول ( شامل 5 میلیون تومان تبلیغات اینترنتی و 10 میلیون تومان تبلیغات فیزیکی و 5 میلیون تومان جهت تبلیغات اس ام اسی)

اهداف مالی:
- رسیدن به سود خالص 20 میلیون تومان در سال اول راه اندازی شرکت( بر اساس هزینه باربری درصدی از هر بارنامه به عنوان کارمزد کسر خواهد گردید .)

- بازگشت کامل سرمایه در سال دوم راه اندازی سایت

اهداف پرسنلی:
- جذب نیروهای متخصص و ایده پرداز جهت گسترش خدمات شرکت .

اهداف تحقیق و توسعه:
- امکان گسترش بسترهای ارائه خدمت به سایر لوازم چون دستکاههای موبایل .

== معرفی محصولات و خدمات ==
* خدمات شركت صرفا ارائه سيستم رزرو بار بصورت آنلاين مي باشد كه تمامي فعالان حوزه حمل و نقل كالا و بار مي توانند از اين سيستم براي افزايش بهره وري استفاده نمايند .
* رانندگان و شركتهاي حمل و نقلي براي بروز و آسان كردن روال رزرو بار از اين سيستم استفاده خواهند نمود .
* ويژگي منحصر به فرد اين روش بروز بودن ، جامع بودن و آسان بودن رزرو بار مي باشد .
* مزاياي استفاده كاهش هزينه هاي رانندگان و شركتهاي باربري به دليل اينكه در شرايط عادي امكان رويت بارهاي كل كشور برايشان ميسر نميباشد و در صورت عدم آگاهي ميبايشت مدتها براي پيدا كردن بار منتظر بمانند .
* در ابتدا مي بايست سامانه طراحي و راه اندازي گردد و تمامي اقدامات امنيتي و جاذبه داشتن آن صورت پذيرد .سپس به صورت آزمايشي راه اندازي گرديده و به مرور اشكالات رفع و بازاريابي براي گسترش استفاده از سيستم آغاز گردد .

== محصولات جایگزین ==
جايگزين اين روش ،روش سنتي متداول مي باشد كه صاحب بار به شركت باربري مراجعه نموده و براي ارسال بار خود درخواست مي دهد و شركت نيز به رانندگاني كه به آن مراجعه مي كنند پيشنهاد را ارائه مي دهد و راننده در صورت موافقت اقدام به بارگيري و ارسال بار مي نمايد . كه اين روش به دليل سرعت پايين و هزينه هاي اطلاع رساني بالا مقرون به صرفه نمي باشد .
ضمنا با روش رزرو آنلاين بار راننده اي كه قصد حمل بار به شهرستان خاصي را دارد مي تواند براي برگشت خود از قبل برنامه ريزي نمايد و بار برگشتي خود را از قبل رزرو نمايد تا زمان انتظار در شهرمقصد كاهش يابد .

== تحلیل صنعت مادر ==

* صنعت مورد استفاده در اين سيستم صنعت حمل و نقل كشور مي باشد كه ما در اين سامانه بر روي حمل بار تمركز مي كنيم .
* صنعت حمل و نقل به سه دسته حمل و نقل مسافر ، حمل و نقل كالاي داخل كشور حمل و نقل بين المللي تقسيم ميشود .
* به دليل وجود كشور ما در منطقه ستراتژيك براي جابجايي بار اين امر اهميت زيادي دارد .
* بزرگترين و مهمترين بازيگردان هاي اين صنعت راندگان و شركتهاي حمل و نقل مي باشد .
* رانندگان درگير مسائلي جون عدم وجود بار از مسير مقصد به نقاط ديگر كشور و همچنين سوخت خودرو ها هستند
* با توجه به سرمايه گذاري كلان شركت در زمينه حمل كالا چشم انداز روشني براي اين صنعت مي تون متصور شد .

== تحلیل صنعت خود ==
در اين قسمت پس از آنکه جايگاه صنعت مادر مشخص گرديد، بايستي جايگاه صنعت خود را در صنعت مادر مشخص کرده و آينده صنعت خود را ترسيم نمائيد. همچنين در اين قسمت بايستي، محصول خود را از نظر تاريخچه تکنولوژي مورد بررسي قرار دهيد و اينکه محصول شما قبلاً با چه تکنولوژِي توليد مي شده، اکنون چه تکنولوژي آن را توليد مي کند و در آينده چگونه توليد خواهد شد و آيا تکنولوژي مورد استفاده شما در آينده نيز استفاده خواهد شد و يا احتمال منسوخ شدن آن وجود دارد.

== تحلیل بازار ==
در دو يا چند صفحه به سوالات زير پاسخ دهيد:
* منظور از بازار حوزه حمل و نقل جابجايي كالا در سرتاسر كشور مي باشد .
* اندازه بازار به دليل وجود بارهاي فراوان و فعالان بسيار حوزه حمل و نقل گسترده مي باشد .
* اين شرکت پاسخگوي نياز رزرو بار از سرتاسر كشور خواهد بود .
* ميتوان بر اساس نوع وسله نقليه كابران را به دسته هاي مختلف تقسيم نمود .مثلا تريلي هاي انتقال سوخت يا بارهاي فاسد شدني يا بارهاي ترافيكي حجيم .
* مشتريان هدف رانندگان و صاحبان بار مي باشند .

* برای تضمین فروش خدمات میبایست مجوز لازم از ادارت حمل ونقل گرفته شود و هماهنگی های لازم برای استفاده از سیستم را انجام داد .
* برای بازاریابی و گسترش خدمات رسانی در کشور میبایست در پایانه ها ی باربری تبلیغات برای استفاده از سیستم صورت پذیرد .و همچنین تخفیفاتی برای کاربران اولیه در نظر گرفت .

== تحلیل رقبا ==
خدمت ارائه شده توسط این شرکت خدمتی جدید است که رقیبی جدی در صحنه ارتباطات آنلاین ندارد و تنها رقبای این شرکت ,شرکتهای باربری می باشند که بصورت سنتی اقدام به ارائه خدمت می نمایند که در صورت انجام به موقع خدمت امکان پیشی گرفتن از سایرین وجود خواهد داشت .

== تدوین استراتژی ==
استراتژي ها جواب اين سؤال هستند كه چه عواملي در طول زمان سبب موفقيت اين فعاليت خواهند شد. براي اين منظور، ابتدا بايد نقاط قوت و ضعف، فرصت ها و تهديدهاي خود و رقبا را تعيين کنيد سپس به کمک آن، استراتژي هاي خود را در مورد مسائل ذيل تهيه نمائيد:
* قيمت گذاري
* مشتريان
* رقبا
* بازاريابي
* بازار هدف
* توزيع
* تکنولوژي
* تبليغات
* ماليات
* قوانين محلي و دولتي
* شرايط اقتصادي

== مراحل توسعه محصولات ==
در اين قسمت مشخص مي کنيد که آيا در ادامه فعاليت خود توسعه اي را در برنامه داريد. اين توسعه ها شامل چه مواردي مي شود آيا محصول ديگري را نيز مي خواهيد در آينده توليد کنيد و يا خدمات ديگري را عرضه نمائيد؟ نحوه توسعه و گسترش آتي خود را بصورت برنامه زماني بلند مدت نشان دهيد.

== تحلیل مالی ==
اگر طرح تجاري شما را به يک کيک تشبيه کنيم قسمت اطلاعات مالي آن بايستي همانند خامة روي آن باشد!!!

شما يک ايده تجاري خوب را طرح ريزي کرده ايد، اثبات کرديد که يک نياز واقعي در بازار وجود دارد، نشان داديد که چگونه ايده ها را اجرا مي کنيد، بيان کرديد که تيم شما آماده است که ريسک ها را مديريت کند و اکنون شما نشان خواهيد داد که هر کدامتان قرار است چه مقدار پول توليد کند.

توجه داشته باشيد، چنانچه ايده شما چندان غني نباشد، يا يک بازار خوب براي ايده شما وجود ندارد، يا از نظر اجرائي ضعيف هستيد، يا تيم مديريتي شما با کفايت نيست، طرح مالي شما محکوم به شکست خواهد شد. اگر شما تا اينجاي کار خواننده طرح را متقاعد نکرده باشيد مطمئناً با اطلاعات مالي که در ادامه خواهيد آورد نيز متقاعد نخواهد شد.
با اين وجود، بسيار مهم است که اطلاعات مالي شما قوي و خوش ساختار باشد. اگر شما نتوانيد نشان دهيد که ايده شما مي تواند پول(زيادي) نصيبتان کند، خواننده بلافاصله علاقة خود را از دست خواهد داد. به منظور تدوين قسمت مالي طرح خود، قوياً توصيه مي کنم که با استفاده از برنامه توسعه و فعاليت خود، يک جدول زماني از فعاليت ها و توسعه هاي آتي خود ترسيم کنيد.

از روي جدول زماني فعاليت هاي آتي، شما مي توانيد نمودار جريان نقدي (Cash Flow) و صورت-هاي مالي (نظير صورت حساب سود و زيان و ترازنامه) را حداقل براي 3 سال آتي (و گاهي تا 5سال) تدوين کنيد.

با يک حساب سرانگشتي، حسابهاي مالي شما بايستي تا نقطه اي از آينده ادامه داشته باشد که در آن نقطه، تجارت شما به يک تعادل نسبي در انجام امور خود دست يافته باشد.در سال اول، صورت هاي مالي فعاليت ها، هزينه ها و در آمدها بايستي ماه به ماه باشد، چرا که جريان هاي نقدي در گام هاي اولية هر شروعي بحراني و حياتي است. در سال هاي دوم و سوم صورتهاي مالي بايستي به چهار قسمت در سال تقسيم شود، و در سال هاي چهارم و پنجم بصورت ساليانه بيان شود.

صورتهاي مالي خود را در 3 حالت، "محتمل ترين حالت"، "خوش بينانه ترين حالت" و "بدبينانه ترين حالت" تنظيم نمائيد. چرا که اين امکان را به شما و خواننده مي دهد تا حد بالا و پائين ريسک طرح خود و نيز ريسک پذيري و ريسک گريزي شما را کشف نمايد. مطمئن شويد که هزينه ها و درآمدهاي قسمت مالي با ساير قسمت هاي طرح تجاريتان همخواني و تناسب داشته باشد. براي مثال اگر شما گفته ايد که 3 شعبه در سال دوم راه اندازي مي کنيد ولي صورت هاي مالي نشان مي دهد که 5 شعبه، خواننده به سرعت تجانس و تطابق طرح تان را زير سوال خواهد برد.

خلاصه مالي طرح شما بايستي شرح و توضيحي بر صورتهاي مالي تان باشد، صورت هاي مالي اصلي را در ادامه ضميمه کنيد.

زمان و حجم سرمايه گذاري لازم جهت اجراي طرحتان را شرح دهيد. سپس نشان دهيد که اين يک سرمايه گذاري خوب است و اين کار را با اثبات مطلوب بودن منفعت ها، دارائي ها، نرخ بازگشت سرمايه، ... ، انجام دهيد.

در ادامه مشخص نمائيد که سرمايه لازم را چگونه تأمين خواهيد کرد. براي مثال چه مقدار از آن را خود و شرکايتان پرداخت خواهند کرد و چه مقدار از آن را از طريق گرفتن تسهيلات از بانک يا مرکز رشد تامين خواهيد نمود.

اگر بخواهيد قسمت تحليل مالي طرح تجاري خود را با جزئيات بيشتري تشريح کنيد در واقع خروجي آن يک طرح توجيهي خواهد بود.

== تحلیل ریسک ==
در اين قسمت بايستي شاخص هايي که در طرح شما به عنوان ريسک مطرح مي شوند ليست کرده و ميزان اثر گذاري هر يک در طرح خود را آناليز حساسيت کنيد.

== طرح فنی ==
طرح فنی بیانگر اکوسیستم طرح کسب و کار شما می باشد که در آن کلیه اجزا و سیستم های فنی (مبتنی بر تجارت الکترونیک) در ارتباط با مشتری، تامین کنندگان و سایر موجودیت های محیطی توصیف شده و چگونگی ارتباط بین آنها مشخص می شود. بنابراین یک شمای تصویری از بعد فنی برای طرح کسب و کار در این قسمت ارایه دهید.

سامانه رزرو بارنامه الکترونیکی

2015-01-30T20:21:35Z

Amiiiiir: /* تحلیل بازار */

* موضوع : سامانه رزرو بارنامه الکترونیکی
* تهیه کننده : امیر قصری

== خلاصه اجرایی ==
شرکت های باربری ,رانندگان و ارسال کنندگان کالاها می توانند برای ارسال بار به سرتا سر کشور از این سامانه استفاده کنند .

== معرفی شرکت (تصویر شرکت) ==

* شرکت ایران بر
* شرکتی است که در آینده تشکیل خواهد شد .
* مرکزیت این شرکت در یکی از شهرهای بزرگ کشور که بار فراوانی برای ترانزیت دارد خواهد بود .
شهر بندرعباس به عنوان دفتر مرکزی این شهر انتخاب خواهد شد .
* این شرکت به عنوان یک شرکت در عرصه باربری کشور ثبت و در برخی از شهرهای کشور می تواند دارای نمایندگی باشد .

== چشم انداز ==
تبدیل شرکت به بزرگترین و جامعترین شرکت موفق ملی در حوزه حم و نقل کالا که به تمامی افراد در حوزه حمل و نقل کالا خدمات رسانی می کند .

== ماموریت ==
ماموریت این شرکت فراهم آورددن بستر برای فعالان حوزه حمل و نقل کالاست که به سهولت بتوانند بارهای ارسالی را به سرتاسر کشور انتقال دهند .

== اهداف ==
اهداف بازاریابی و تبلیغات:
- جهت گسترش خدمات شرکت در تمامی شهرهای کشور تبلیغات به میزان 20 میلیون تومان در سال اول ( شامل 5 میلیون تومان تبلیغات اینترنتی و 10 میلیون تومان تبلیغات فیزیکی و 5 میلیون تومان جهت تبلیغات اس ام اسی)

اهداف مالی:
- رسیدن به سود خالص 20 میلیون تومان در سال اول راه اندازی شرکت( بر اساس هزینه باربری درصدی از هر بارنامه به عنوان کارمزد کسر خواهد گردید .)

- بازگشت کامل سرمایه در سال دوم راه اندازی سایت

اهداف پرسنلی:
- جذب نیروهای متخصص و ایده پرداز جهت گسترش خدمات شرکت .

اهداف تحقیق و توسعه:
- امکان گسترش بسترهای ارائه خدمت به سایر لوازم چون دستکاههای موبایل .

== معرفی محصولات و خدمات ==
* خدمات شركت صرفا ارائه سيستم رزرو بار بصورت آنلاين مي باشد كه تمامي فعالان حوزه حمل و نقل كالا و بار مي توانند از اين سيستم براي افزايش بهره وري استفاده نمايند .
* رانندگان و شركتهاي حمل و نقلي براي بروز و آسان كردن روال رزرو بار از اين سيستم استفاده خواهند نمود .
* ويژگي منحصر به فرد اين روش بروز بودن ، جامع بودن و آسان بودن رزرو بار مي باشد .
* مزاياي استفاده كاهش هزينه هاي رانندگان و شركتهاي باربري به دليل اينكه در شرايط عادي امكان رويت بارهاي كل كشور برايشان ميسر نميباشد و در صورت عدم آگاهي ميبايشت مدتها براي پيدا كردن بار منتظر بمانند .
* در ابتدا مي بايست سامانه طراحي و راه اندازي گردد و تمامي اقدامات امنيتي و جاذبه داشتن آن صورت پذيرد .سپس به صورت آزمايشي راه اندازي گرديده و به مرور اشكالات رفع و بازاريابي براي گسترش استفاده از سيستم آغاز گردد .

== محصولات جایگزین ==
جايگزين اين روش ،روش سنتي متداول مي باشد كه صاحب بار به شركت باربري مراجعه نموده و براي ارسال بار خود درخواست مي دهد و شركت نيز به رانندگاني كه به آن مراجعه مي كنند پيشنهاد را ارائه مي دهد و راننده در صورت موافقت اقدام به بارگيري و ارسال بار مي نمايد . كه اين روش به دليل سرعت پايين و هزينه هاي اطلاع رساني بالا مقرون به صرفه نمي باشد .
ضمنا با روش رزرو آنلاين بار راننده اي كه قصد حمل بار به شهرستان خاصي را دارد مي تواند براي برگشت خود از قبل برنامه ريزي نمايد و بار برگشتي خود را از قبل رزرو نمايد تا زمان انتظار در شهرمقصد كاهش يابد .

== تحلیل صنعت مادر ==

* صنعت مورد استفاده در اين سيستم صنعت حمل و نقل كشور مي باشد كه ما در اين سامانه بر روي حمل بار تمركز مي كنيم .
* صنعت حمل و نقل به سه دسته حمل و نقل مسافر ، حمل و نقل كالاي داخل كشور حمل و نقل بين المللي تقسيم ميشود .
* به دليل وجود كشور ما در منطقه ستراتژيك براي جابجايي بار اين امر اهميت زيادي دارد .
* بزرگترين و مهمترين بازيگردان هاي اين صنعت راندگان و شركتهاي حمل و نقل مي باشد .
* رانندگان درگير مسائلي جون عدم وجود بار از مسير مقصد به نقاط ديگر كشور و همچنين سوخت خودرو ها هستند
* با توجه به سرمايه گذاري كلان شركت در زمينه حمل كالا چشم انداز روشني براي اين صنعت مي تون متصور شد .

== تحلیل صنعت خود ==
در اين قسمت پس از آنکه جايگاه صنعت مادر مشخص گرديد، بايستي جايگاه صنعت خود را در صنعت مادر مشخص کرده و آينده صنعت خود را ترسيم نمائيد. همچنين در اين قسمت بايستي، محصول خود را از نظر تاريخچه تکنولوژي مورد بررسي قرار دهيد و اينکه محصول شما قبلاً با چه تکنولوژِي توليد مي شده، اکنون چه تکنولوژي آن را توليد مي کند و در آينده چگونه توليد خواهد شد و آيا تکنولوژي مورد استفاده شما در آينده نيز استفاده خواهد شد و يا احتمال منسوخ شدن آن وجود دارد.

== تحلیل بازار ==
در دو يا چند صفحه به سوالات زير پاسخ دهيد:
* منظور از بازار حوزه حمل و نقل جابجايي كالا در سرتاسر كشور مي باشد .
* اندازه بازار به دليل وجود بارهاي فراوان و فعالان بسيار حوزه حمل و نقل گسترده مي باشد .
* اين شرکت پاسخگوي نياز رزرو بار از سرتاسر كشور خواهد بود .
* ميتوان بر اساس نوع وسله نقليه كابران را به دسته هاي مختلف تقسيم نمود .مثلا تريلي هاي انتقال سوخت يا بارهاي فاسد شدني يا بارهاي ترافيكي حجيم .
* مشتريان هدف رانندگان و صاحبان بار مي باشند .

* برای تضمین فروش خدمات میبایست مجوز لازم از ادارت حمل ونقل گرفته شود و هماهنگی های لازم برای استفاده از سیستم را انجام داد .
* برای بازاریابی و گسترش خدمات رسانی در کشور میبایست در پایانه ها ی باربری تبلیغات برای استفاده از سیستم صورت پذیرد .و همچنین تخفیفاتی برای کاربران اولیه در نظر گرفت .

== تحلیل رقبا ==
در يک يا دو صفحه, بايستي موقعيت محصول يا خدمت در بازار تشريح شود. اين که رقباي اصلي (بالفعل) شرکت چه کساني هستند؟ و محصولات آن ها چيست؟ چرا و چگونه محصولات و خدمات شرکت آن ها از رقبا متمايز مي شود؟ رقباي بالقوه شما چه کساني هستند؟ چه چالش ها و انگيزاننده هايي جهت ورود رقباي بالقوه به بازار شما وجود دارد.

در اين قسمت بايستي يک تحليل SWOT از شرکت خود و رقبا ترسيم کنيد. اين تحليل شامل نقاط ضعف، قوت، فرصت ها و تهديدهاي پيش روي شما و نيز رقبايتان است. (به عنوان مثال يکي از فرصت هاي شما مي تواند تحريم واردات کالايي باشد که شما قصد توليد آن را داريد و نقطه ضعف شما نداشتن پول زياد، نقطه قوت شما، داشتن پرسنلي با توان علمي بالا و ... است) اين تحليل را بصورت جدول تهيه کنيد تا امکان تحليل آن ها وجود داشته باشد. با مقايسه نقاط ضعف و قوت و فرصت و تهديد خود و رقبا، استراتژِهاي شرکت خود را در زمينه هاي مختلف براي جلوگيري از ورود رقباي بيشتر و نيز حفظ مزاياي رقابتي خود استخراج کنيد.

== تدوین استراتژی ==
استراتژي ها جواب اين سؤال هستند كه چه عواملي در طول زمان سبب موفقيت اين فعاليت خواهند شد. براي اين منظور، ابتدا بايد نقاط قوت و ضعف، فرصت ها و تهديدهاي خود و رقبا را تعيين کنيد سپس به کمک آن، استراتژي هاي خود را در مورد مسائل ذيل تهيه نمائيد:
* قيمت گذاري
* مشتريان
* رقبا
* بازاريابي
* بازار هدف
* توزيع
* تکنولوژي
* تبليغات
* ماليات
* قوانين محلي و دولتي
* شرايط اقتصادي

== مراحل توسعه محصولات ==
در اين قسمت مشخص مي کنيد که آيا در ادامه فعاليت خود توسعه اي را در برنامه داريد. اين توسعه ها شامل چه مواردي مي شود آيا محصول ديگري را نيز مي خواهيد در آينده توليد کنيد و يا خدمات ديگري را عرضه نمائيد؟ نحوه توسعه و گسترش آتي خود را بصورت برنامه زماني بلند مدت نشان دهيد.

== تحلیل مالی ==
اگر طرح تجاري شما را به يک کيک تشبيه کنيم قسمت اطلاعات مالي آن بايستي همانند خامة روي آن باشد!!!

شما يک ايده تجاري خوب را طرح ريزي کرده ايد، اثبات کرديد که يک نياز واقعي در بازار وجود دارد، نشان داديد که چگونه ايده ها را اجرا مي کنيد، بيان کرديد که تيم شما آماده است که ريسک ها را مديريت کند و اکنون شما نشان خواهيد داد که هر کدامتان قرار است چه مقدار پول توليد کند.

توجه داشته باشيد، چنانچه ايده شما چندان غني نباشد، يا يک بازار خوب براي ايده شما وجود ندارد، يا از نظر اجرائي ضعيف هستيد، يا تيم مديريتي شما با کفايت نيست، طرح مالي شما محکوم به شکست خواهد شد. اگر شما تا اينجاي کار خواننده طرح را متقاعد نکرده باشيد مطمئناً با اطلاعات مالي که در ادامه خواهيد آورد نيز متقاعد نخواهد شد.
با اين وجود، بسيار مهم است که اطلاعات مالي شما قوي و خوش ساختار باشد. اگر شما نتوانيد نشان دهيد که ايده شما مي تواند پول(زيادي) نصيبتان کند، خواننده بلافاصله علاقة خود را از دست خواهد داد. به منظور تدوين قسمت مالي طرح خود، قوياً توصيه مي کنم که با استفاده از برنامه توسعه و فعاليت خود، يک جدول زماني از فعاليت ها و توسعه هاي آتي خود ترسيم کنيد.

از روي جدول زماني فعاليت هاي آتي، شما مي توانيد نمودار جريان نقدي (Cash Flow) و صورت-هاي مالي (نظير صورت حساب سود و زيان و ترازنامه) را حداقل براي 3 سال آتي (و گاهي تا 5سال) تدوين کنيد.

با يک حساب سرانگشتي، حسابهاي مالي شما بايستي تا نقطه اي از آينده ادامه داشته باشد که در آن نقطه، تجارت شما به يک تعادل نسبي در انجام امور خود دست يافته باشد.در سال اول، صورت هاي مالي فعاليت ها، هزينه ها و در آمدها بايستي ماه به ماه باشد، چرا که جريان هاي نقدي در گام هاي اولية هر شروعي بحراني و حياتي است. در سال هاي دوم و سوم صورتهاي مالي بايستي به چهار قسمت در سال تقسيم شود، و در سال هاي چهارم و پنجم بصورت ساليانه بيان شود.

صورتهاي مالي خود را در 3 حالت، "محتمل ترين حالت"، "خوش بينانه ترين حالت" و "بدبينانه ترين حالت" تنظيم نمائيد. چرا که اين امکان را به شما و خواننده مي دهد تا حد بالا و پائين ريسک طرح خود و نيز ريسک پذيري و ريسک گريزي شما را کشف نمايد. مطمئن شويد که هزينه ها و درآمدهاي قسمت مالي با ساير قسمت هاي طرح تجاريتان همخواني و تناسب داشته باشد. براي مثال اگر شما گفته ايد که 3 شعبه در سال دوم راه اندازي مي کنيد ولي صورت هاي مالي نشان مي دهد که 5 شعبه، خواننده به سرعت تجانس و تطابق طرح تان را زير سوال خواهد برد.

خلاصه مالي طرح شما بايستي شرح و توضيحي بر صورتهاي مالي تان باشد، صورت هاي مالي اصلي را در ادامه ضميمه کنيد.

زمان و حجم سرمايه گذاري لازم جهت اجراي طرحتان را شرح دهيد. سپس نشان دهيد که اين يک سرمايه گذاري خوب است و اين کار را با اثبات مطلوب بودن منفعت ها، دارائي ها، نرخ بازگشت سرمايه، ... ، انجام دهيد.

در ادامه مشخص نمائيد که سرمايه لازم را چگونه تأمين خواهيد کرد. براي مثال چه مقدار از آن را خود و شرکايتان پرداخت خواهند کرد و چه مقدار از آن را از طريق گرفتن تسهيلات از بانک يا مرکز رشد تامين خواهيد نمود.

اگر بخواهيد قسمت تحليل مالي طرح تجاري خود را با جزئيات بيشتري تشريح کنيد در واقع خروجي آن يک طرح توجيهي خواهد بود.

== تحلیل ریسک ==
در اين قسمت بايستي شاخص هايي که در طرح شما به عنوان ريسک مطرح مي شوند ليست کرده و ميزان اثر گذاري هر يک در طرح خود را آناليز حساسيت کنيد.

== طرح فنی ==
طرح فنی بیانگر اکوسیستم طرح کسب و کار شما می باشد که در آن کلیه اجزا و سیستم های فنی (مبتنی بر تجارت الکترونیک) در ارتباط با مشتری، تامین کنندگان و سایر موجودیت های محیطی توصیف شده و چگونگی ارتباط بین آنها مشخص می شود. بنابراین یک شمای تصویری از بعد فنی برای طرح کسب و کار در این قسمت ارایه دهید.

سامانه رزرو بارنامه الکترونیکی

2015-01-30T06:49:09Z

Amiiiiir: /* اهداف */

* موضوع : سامانه رزرو بارنامه الکترونیکی
* تهیه کننده : امیر قصری

== خلاصه اجرایی ==
شرکت های باربری ,رانندگان و ارسال کنندگان کالاها می توانند برای ارسال بار به سرتا سر کشور از این سامانه استفاده کنند .

== معرفی شرکت (تصویر شرکت) ==

* شرکت ایران بر
* شرکتی است که در آینده تشکیل خواهد شد .
* مرکزیت این شرکت در یکی از شهرهای بزرگ کشور که بار فراوانی برای ترانزیت دارد خواهد بود .
شهر بندرعباس به عنوان دفتر مرکزی این شهر انتخاب خواهد شد .
* این شرکت به عنوان یک شرکت در عرصه باربری کشور ثبت و در برخی از شهرهای کشور می تواند دارای نمایندگی باشد .

== چشم انداز ==
تبدیل شرکت به بزرگترین و جامعترین شرکت موفق ملی در حوزه حم و نقل کالا که به تمامی افراد در حوزه حمل و نقل کالا خدمات رسانی می کند .

== ماموریت ==
ماموریت این شرکت فراهم آورددن بستر برای فعالان حوزه حمل و نقل کالاست که به سهولت بتوانند بارهای ارسالی را به سرتاسر کشور انتقال دهند .

== اهداف ==
اهداف بازاریابی و تبلیغات:
- جهت گسترش خدمات شرکت در تمامی شهرهای کشور تبلیغات به میزان 20 میلیون تومان در سال اول ( شامل 5 میلیون تومان تبلیغات اینترنتی و 10 میلیون تومان تبلیغات فیزیکی و 5 میلیون تومان جهت تبلیغات اس ام اسی)

اهداف مالی:
- رسیدن به سود خالص 20 میلیون تومان در سال اول راه اندازی شرکت( بر اساس هزینه باربری درصدی از هر بارنامه به عنوان کارمزد کسر خواهد گردید .)

- بازگشت کامل سرمایه در سال دوم راه اندازی سایت

اهداف پرسنلی:
- جذب نیروهای متخصص و ایده پرداز جهت گسترش خدمات شرکت .

اهداف تحقیق و توسعه:
- امکان گسترش بسترهای ارائه خدمت به سایر لوازم چون دستکاههای موبایل .

== معرفی محصولات و خدمات ==
محصولات و خدمات بايستي بدون در نظر گرفتن اين که مشتري با آن آشنا هست يا نه، توصيف شود. اين قسمت پاسخ به اين سوالات است:
* محصولات و خدمات دقيقاً چه هستند و چه نيستند؟
* چه کسي آنرا مي خرد و چرا؟
* ويژگي منحصر به فرد آن ها چيست؟
* مزاياي حاصل از خريد آن ها چيست؟
* چه کاربردهايي دارد؟
* محصول در کدام مرحله از عمر خود قرار دارد؟
* تمامي مراحل توليد از ابتداي تحقيقات تا توليد انبوه را بصورت يک برنامه زماني نشان دهيد.

== محصولات جایگزین ==
در اين زير بخش مشخص مي نماييد که محصولات جايگزين محصول شما چه هستند و مزاياي رقابتي (قيمت، کيفيت، ...) محصول شما نسبت به آن ها چيست و بالعکس

== تحلیل صنعت مادر ==
در اين قسمت بايستي صنعت مادر محصول خود را شناسايي و آن را تحليل کنيد. به عنوان مثال صنعت مادر توليد بيسکويت مي تواند توليد مواد غذايي باشد.
* صنعتي که ما در آن کار مي کنيم, چگونه تعريف مي شود؟
* چگونه اين صنعت تقسيم بندي مي شود و چگونه هر بخش تعريف مي شود؟
* روندهاي جاري و توسعه مهم آن چيست؟
* بزرگترين و مهمترين بازيگردانان آن چه کساني هستند؟
* چه مسائلي را تجربه مي کند؟
* چه پديده هاي ملي و بين المللي آن را تحت تاثير قرار مي دهند؟
* پيش بيني رشد آن چقدر است؟
از آنجا که صنعت مورد نظر شما زيرمجموعه صنعت مادر است، با تحليل آن مي توان آينده صنعت مورد نظر شما را متصور شد.

== تحلیل صنعت خود ==
در اين قسمت پس از آنکه جايگاه صنعت مادر مشخص گرديد، بايستي جايگاه صنعت خود را در صنعت مادر مشخص کرده و آينده صنعت خود را ترسيم نمائيد. همچنين در اين قسمت بايستي، محصول خود را از نظر تاريخچه تکنولوژي مورد بررسي قرار دهيد و اينکه محصول شما قبلاً با چه تکنولوژِي توليد مي شده، اکنون چه تکنولوژي آن را توليد مي کند و در آينده چگونه توليد خواهد شد و آيا تکنولوژي مورد استفاده شما در آينده نيز استفاده خواهد شد و يا احتمال منسوخ شدن آن وجود دارد.

== تحلیل بازار ==
در دو يا چند صفحه به سوالات زير پاسخ دهيد:
* تعريف بازار
* اندازه بازار و ميزان رشد
* اين شرکت پاسخگوي چه نيازهايي از بازار مي باشد؟
* نحوه تقيسم بندي بازار
* مشتريان هدف ما چه کساني هستند؟
(در اين قسمت مي توانيد مشتريان را طبقه بندي کنيد و آمار مربوط به هر طبقه را گزارش دهيد و اينکه شما چه سهمي از هر بخش از بازار را در نظر گرفته ايد که مي خواهيد پوشش دهيد)
* روندهاي مهم در بازار
* شرکت ما چه محصولات و خدماتي را عرضه مي کند؟ سبد فروش شما شامل چه محصولات ديگري است که به عنوان يک بافر جهت اطمينان از گردش پولي شرکت از آن ها استفاده مي کنيد.
* ميزان فروش جاري و محصولات فعلي شرکت چه هستند؟
* مرزهاي فعلي کسب و کار ما چيست؟
* تضمين فروش شما چيست؟ آيا تفاهمنامه، پيش قرارداد يا هرآنچه مشخص نمايد که محصول شما به فروش خواهد رسيد در اختيار داريد؟
* استراتژِ هاي معرفي، بازاريابي، فروش، قيمت گذاري و تبليغات شما چيست؟ به عنوان مثال براي بازاريابي چه استراتژِ ي هايي را مدنظر قرار مي دهيد؟ بازاريابي از طريق مصاحبه حضوري؟ روابط قوي در بازار مربوطه؟ ....

== تحلیل رقبا ==
در يک يا دو صفحه, بايستي موقعيت محصول يا خدمت در بازار تشريح شود. اين که رقباي اصلي (بالفعل) شرکت چه کساني هستند؟ و محصولات آن ها چيست؟ چرا و چگونه محصولات و خدمات شرکت آن ها از رقبا متمايز مي شود؟ رقباي بالقوه شما چه کساني هستند؟ چه چالش ها و انگيزاننده هايي جهت ورود رقباي بالقوه به بازار شما وجود دارد.

در اين قسمت بايستي يک تحليل SWOT از شرکت خود و رقبا ترسيم کنيد. اين تحليل شامل نقاط ضعف، قوت، فرصت ها و تهديدهاي پيش روي شما و نيز رقبايتان است. (به عنوان مثال يکي از فرصت هاي شما مي تواند تحريم واردات کالايي باشد که شما قصد توليد آن را داريد و نقطه ضعف شما نداشتن پول زياد، نقطه قوت شما، داشتن پرسنلي با توان علمي بالا و ... است) اين تحليل را بصورت جدول تهيه کنيد تا امکان تحليل آن ها وجود داشته باشد. با مقايسه نقاط ضعف و قوت و فرصت و تهديد خود و رقبا، استراتژِهاي شرکت خود را در زمينه هاي مختلف براي جلوگيري از ورود رقباي بيشتر و نيز حفظ مزاياي رقابتي خود استخراج کنيد.

== تدوین استراتژی ==
استراتژي ها جواب اين سؤال هستند كه چه عواملي در طول زمان سبب موفقيت اين فعاليت خواهند شد. براي اين منظور، ابتدا بايد نقاط قوت و ضعف، فرصت ها و تهديدهاي خود و رقبا را تعيين کنيد سپس به کمک آن، استراتژي هاي خود را در مورد مسائل ذيل تهيه نمائيد:
* قيمت گذاري
* مشتريان
* رقبا
* بازاريابي
* بازار هدف
* توزيع
* تکنولوژي
* تبليغات
* ماليات
* قوانين محلي و دولتي
* شرايط اقتصادي

== مراحل توسعه محصولات ==
در اين قسمت مشخص مي کنيد که آيا در ادامه فعاليت خود توسعه اي را در برنامه داريد. اين توسعه ها شامل چه مواردي مي شود آيا محصول ديگري را نيز مي خواهيد در آينده توليد کنيد و يا خدمات ديگري را عرضه نمائيد؟ نحوه توسعه و گسترش آتي خود را بصورت برنامه زماني بلند مدت نشان دهيد.

== تحلیل مالی ==
اگر طرح تجاري شما را به يک کيک تشبيه کنيم قسمت اطلاعات مالي آن بايستي همانند خامة روي آن باشد!!!

شما يک ايده تجاري خوب را طرح ريزي کرده ايد، اثبات کرديد که يک نياز واقعي در بازار وجود دارد، نشان داديد که چگونه ايده ها را اجرا مي کنيد، بيان کرديد که تيم شما آماده است که ريسک ها را مديريت کند و اکنون شما نشان خواهيد داد که هر کدامتان قرار است چه مقدار پول توليد کند.

توجه داشته باشيد، چنانچه ايده شما چندان غني نباشد، يا يک بازار خوب براي ايده شما وجود ندارد، يا از نظر اجرائي ضعيف هستيد، يا تيم مديريتي شما با کفايت نيست، طرح مالي شما محکوم به شکست خواهد شد. اگر شما تا اينجاي کار خواننده طرح را متقاعد نکرده باشيد مطمئناً با اطلاعات مالي که در ادامه خواهيد آورد نيز متقاعد نخواهد شد.
با اين وجود، بسيار مهم است که اطلاعات مالي شما قوي و خوش ساختار باشد. اگر شما نتوانيد نشان دهيد که ايده شما مي تواند پول(زيادي) نصيبتان کند، خواننده بلافاصله علاقة خود را از دست خواهد داد. به منظور تدوين قسمت مالي طرح خود، قوياً توصيه مي کنم که با استفاده از برنامه توسعه و فعاليت خود، يک جدول زماني از فعاليت ها و توسعه هاي آتي خود ترسيم کنيد.

از روي جدول زماني فعاليت هاي آتي، شما مي توانيد نمودار جريان نقدي (Cash Flow) و صورت-هاي مالي (نظير صورت حساب سود و زيان و ترازنامه) را حداقل براي 3 سال آتي (و گاهي تا 5سال) تدوين کنيد.

با يک حساب سرانگشتي، حسابهاي مالي شما بايستي تا نقطه اي از آينده ادامه داشته باشد که در آن نقطه، تجارت شما به يک تعادل نسبي در انجام امور خود دست يافته باشد.در سال اول، صورت هاي مالي فعاليت ها، هزينه ها و در آمدها بايستي ماه به ماه باشد، چرا که جريان هاي نقدي در گام هاي اولية هر شروعي بحراني و حياتي است. در سال هاي دوم و سوم صورتهاي مالي بايستي به چهار قسمت در سال تقسيم شود، و در سال هاي چهارم و پنجم بصورت ساليانه بيان شود.

صورتهاي مالي خود را در 3 حالت، "محتمل ترين حالت"، "خوش بينانه ترين حالت" و "بدبينانه ترين حالت" تنظيم نمائيد. چرا که اين امکان را به شما و خواننده مي دهد تا حد بالا و پائين ريسک طرح خود و نيز ريسک پذيري و ريسک گريزي شما را کشف نمايد. مطمئن شويد که هزينه ها و درآمدهاي قسمت مالي با ساير قسمت هاي طرح تجاريتان همخواني و تناسب داشته باشد. براي مثال اگر شما گفته ايد که 3 شعبه در سال دوم راه اندازي مي کنيد ولي صورت هاي مالي نشان مي دهد که 5 شعبه، خواننده به سرعت تجانس و تطابق طرح تان را زير سوال خواهد برد.

خلاصه مالي طرح شما بايستي شرح و توضيحي بر صورتهاي مالي تان باشد، صورت هاي مالي اصلي را در ادامه ضميمه کنيد.

زمان و حجم سرمايه گذاري لازم جهت اجراي طرحتان را شرح دهيد. سپس نشان دهيد که اين يک سرمايه گذاري خوب است و اين کار را با اثبات مطلوب بودن منفعت ها، دارائي ها، نرخ بازگشت سرمايه، ... ، انجام دهيد.

در ادامه مشخص نمائيد که سرمايه لازم را چگونه تأمين خواهيد کرد. براي مثال چه مقدار از آن را خود و شرکايتان پرداخت خواهند کرد و چه مقدار از آن را از طريق گرفتن تسهيلات از بانک يا مرکز رشد تامين خواهيد نمود.

اگر بخواهيد قسمت تحليل مالي طرح تجاري خود را با جزئيات بيشتري تشريح کنيد در واقع خروجي آن يک طرح توجيهي خواهد بود.

== تحلیل ریسک ==
در اين قسمت بايستي شاخص هايي که در طرح شما به عنوان ريسک مطرح مي شوند ليست کرده و ميزان اثر گذاري هر يک در طرح خود را آناليز حساسيت کنيد.

== طرح فنی ==
طرح فنی بیانگر اکوسیستم طرح کسب و کار شما می باشد که در آن کلیه اجزا و سیستم های فنی (مبتنی بر تجارت الکترونیک) در ارتباط با مشتری، تامین کنندگان و سایر موجودیت های محیطی توصیف شده و چگونگی ارتباط بین آنها مشخص می شود. بنابراین یک شمای تصویری از بعد فنی برای طرح کسب و کار در این قسمت ارایه دهید.

سامانه رزرو بارنامه الکترونیکی

2015-01-30T06:37:27Z

Amiiiiir: /* ماموریت */

* موضوع : سامانه رزرو بارنامه الکترونیکی
* تهیه کننده : امیر قصری

== خلاصه اجرایی ==
شرکت های باربری ,رانندگان و ارسال کنندگان کالاها می توانند برای ارسال بار به سرتا سر کشور از این سامانه استفاده کنند .

== معرفی شرکت (تصویر شرکت) ==

* شرکت ایران بر
* شرکتی است که در آینده تشکیل خواهد شد .
* مرکزیت این شرکت در یکی از شهرهای بزرگ کشور که بار فراوانی برای ترانزیت دارد خواهد بود .
شهر بندرعباس به عنوان دفتر مرکزی این شهر انتخاب خواهد شد .
* این شرکت به عنوان یک شرکت در عرصه باربری کشور ثبت و در برخی از شهرهای کشور می تواند دارای نمایندگی باشد .

== چشم انداز ==
تبدیل شرکت به بزرگترین و جامعترین شرکت موفق ملی در حوزه حم و نقل کالا که به تمامی افراد در حوزه حمل و نقل کالا خدمات رسانی می کند .

== ماموریت ==
ماموریت این شرکت فراهم آورددن بستر برای فعالان حوزه حمل و نقل کالاست که به سهولت بتوانند بارهای ارسالی را به سرتاسر کشور انتقال دهند .

== اهداف ==
اهداف را به شكل مقاصد ويژه و قابل اندازه گيري و دستيابي مي نويسيم. اين اهداف بصورت موردي بيان مي شود. دسته بندي اين اهداف بصورت زير است:
* اهداف فروش و بازاريابي
* اهداف مالي
* اهداف پرسنلي
* اهداف توليد
* اهداف تحقيق و توسعه
در هر دسته، بايد شاخص هاي سنجش آن هدف نيز بيان و بررسي شود.

== معرفی محصولات و خدمات ==
محصولات و خدمات بايستي بدون در نظر گرفتن اين که مشتري با آن آشنا هست يا نه، توصيف شود. اين قسمت پاسخ به اين سوالات است:
* محصولات و خدمات دقيقاً چه هستند و چه نيستند؟
* چه کسي آنرا مي خرد و چرا؟
* ويژگي منحصر به فرد آن ها چيست؟
* مزاياي حاصل از خريد آن ها چيست؟
* چه کاربردهايي دارد؟
* محصول در کدام مرحله از عمر خود قرار دارد؟
* تمامي مراحل توليد از ابتداي تحقيقات تا توليد انبوه را بصورت يک برنامه زماني نشان دهيد.

== محصولات جایگزین ==
در اين زير بخش مشخص مي نماييد که محصولات جايگزين محصول شما چه هستند و مزاياي رقابتي (قيمت، کيفيت، ...) محصول شما نسبت به آن ها چيست و بالعکس

== تحلیل صنعت مادر ==
در اين قسمت بايستي صنعت مادر محصول خود را شناسايي و آن را تحليل کنيد. به عنوان مثال صنعت مادر توليد بيسکويت مي تواند توليد مواد غذايي باشد.
* صنعتي که ما در آن کار مي کنيم, چگونه تعريف مي شود؟
* چگونه اين صنعت تقسيم بندي مي شود و چگونه هر بخش تعريف مي شود؟
* روندهاي جاري و توسعه مهم آن چيست؟
* بزرگترين و مهمترين بازيگردانان آن چه کساني هستند؟
* چه مسائلي را تجربه مي کند؟
* چه پديده هاي ملي و بين المللي آن را تحت تاثير قرار مي دهند؟
* پيش بيني رشد آن چقدر است؟
از آنجا که صنعت مورد نظر شما زيرمجموعه صنعت مادر است، با تحليل آن مي توان آينده صنعت مورد نظر شما را متصور شد.

== تحلیل صنعت خود ==
در اين قسمت پس از آنکه جايگاه صنعت مادر مشخص گرديد، بايستي جايگاه صنعت خود را در صنعت مادر مشخص کرده و آينده صنعت خود را ترسيم نمائيد. همچنين در اين قسمت بايستي، محصول خود را از نظر تاريخچه تکنولوژي مورد بررسي قرار دهيد و اينکه محصول شما قبلاً با چه تکنولوژِي توليد مي شده، اکنون چه تکنولوژي آن را توليد مي کند و در آينده چگونه توليد خواهد شد و آيا تکنولوژي مورد استفاده شما در آينده نيز استفاده خواهد شد و يا احتمال منسوخ شدن آن وجود دارد.

== تحلیل بازار ==
در دو يا چند صفحه به سوالات زير پاسخ دهيد:
* تعريف بازار
* اندازه بازار و ميزان رشد
* اين شرکت پاسخگوي چه نيازهايي از بازار مي باشد؟
* نحوه تقيسم بندي بازار
* مشتريان هدف ما چه کساني هستند؟
(در اين قسمت مي توانيد مشتريان را طبقه بندي کنيد و آمار مربوط به هر طبقه را گزارش دهيد و اينکه شما چه سهمي از هر بخش از بازار را در نظر گرفته ايد که مي خواهيد پوشش دهيد)
* روندهاي مهم در بازار
* شرکت ما چه محصولات و خدماتي را عرضه مي کند؟ سبد فروش شما شامل چه محصولات ديگري است که به عنوان يک بافر جهت اطمينان از گردش پولي شرکت از آن ها استفاده مي کنيد.
* ميزان فروش جاري و محصولات فعلي شرکت چه هستند؟
* مرزهاي فعلي کسب و کار ما چيست؟
* تضمين فروش شما چيست؟ آيا تفاهمنامه، پيش قرارداد يا هرآنچه مشخص نمايد که محصول شما به فروش خواهد رسيد در اختيار داريد؟
* استراتژِ هاي معرفي، بازاريابي، فروش، قيمت گذاري و تبليغات شما چيست؟ به عنوان مثال براي بازاريابي چه استراتژِ ي هايي را مدنظر قرار مي دهيد؟ بازاريابي از طريق مصاحبه حضوري؟ روابط قوي در بازار مربوطه؟ ....

== تحلیل رقبا ==
در يک يا دو صفحه, بايستي موقعيت محصول يا خدمت در بازار تشريح شود. اين که رقباي اصلي (بالفعل) شرکت چه کساني هستند؟ و محصولات آن ها چيست؟ چرا و چگونه محصولات و خدمات شرکت آن ها از رقبا متمايز مي شود؟ رقباي بالقوه شما چه کساني هستند؟ چه چالش ها و انگيزاننده هايي جهت ورود رقباي بالقوه به بازار شما وجود دارد.

در اين قسمت بايستي يک تحليل SWOT از شرکت خود و رقبا ترسيم کنيد. اين تحليل شامل نقاط ضعف، قوت، فرصت ها و تهديدهاي پيش روي شما و نيز رقبايتان است. (به عنوان مثال يکي از فرصت هاي شما مي تواند تحريم واردات کالايي باشد که شما قصد توليد آن را داريد و نقطه ضعف شما نداشتن پول زياد، نقطه قوت شما، داشتن پرسنلي با توان علمي بالا و ... است) اين تحليل را بصورت جدول تهيه کنيد تا امکان تحليل آن ها وجود داشته باشد. با مقايسه نقاط ضعف و قوت و فرصت و تهديد خود و رقبا، استراتژِهاي شرکت خود را در زمينه هاي مختلف براي جلوگيري از ورود رقباي بيشتر و نيز حفظ مزاياي رقابتي خود استخراج کنيد.

== تدوین استراتژی ==
استراتژي ها جواب اين سؤال هستند كه چه عواملي در طول زمان سبب موفقيت اين فعاليت خواهند شد. براي اين منظور، ابتدا بايد نقاط قوت و ضعف، فرصت ها و تهديدهاي خود و رقبا را تعيين کنيد سپس به کمک آن، استراتژي هاي خود را در مورد مسائل ذيل تهيه نمائيد:
* قيمت گذاري
* مشتريان
* رقبا
* بازاريابي
* بازار هدف
* توزيع
* تکنولوژي
* تبليغات
* ماليات
* قوانين محلي و دولتي
* شرايط اقتصادي

== مراحل توسعه محصولات ==
در اين قسمت مشخص مي کنيد که آيا در ادامه فعاليت خود توسعه اي را در برنامه داريد. اين توسعه ها شامل چه مواردي مي شود آيا محصول ديگري را نيز مي خواهيد در آينده توليد کنيد و يا خدمات ديگري را عرضه نمائيد؟ نحوه توسعه و گسترش آتي خود را بصورت برنامه زماني بلند مدت نشان دهيد.

== تحلیل مالی ==
اگر طرح تجاري شما را به يک کيک تشبيه کنيم قسمت اطلاعات مالي آن بايستي همانند خامة روي آن باشد!!!

شما يک ايده تجاري خوب را طرح ريزي کرده ايد، اثبات کرديد که يک نياز واقعي در بازار وجود دارد، نشان داديد که چگونه ايده ها را اجرا مي کنيد، بيان کرديد که تيم شما آماده است که ريسک ها را مديريت کند و اکنون شما نشان خواهيد داد که هر کدامتان قرار است چه مقدار پول توليد کند.

توجه داشته باشيد، چنانچه ايده شما چندان غني نباشد، يا يک بازار خوب براي ايده شما وجود ندارد، يا از نظر اجرائي ضعيف هستيد، يا تيم مديريتي شما با کفايت نيست، طرح مالي شما محکوم به شکست خواهد شد. اگر شما تا اينجاي کار خواننده طرح را متقاعد نکرده باشيد مطمئناً با اطلاعات مالي که در ادامه خواهيد آورد نيز متقاعد نخواهد شد.
با اين وجود، بسيار مهم است که اطلاعات مالي شما قوي و خوش ساختار باشد. اگر شما نتوانيد نشان دهيد که ايده شما مي تواند پول(زيادي) نصيبتان کند، خواننده بلافاصله علاقة خود را از دست خواهد داد. به منظور تدوين قسمت مالي طرح خود، قوياً توصيه مي کنم که با استفاده از برنامه توسعه و فعاليت خود، يک جدول زماني از فعاليت ها و توسعه هاي آتي خود ترسيم کنيد.

از روي جدول زماني فعاليت هاي آتي، شما مي توانيد نمودار جريان نقدي (Cash Flow) و صورت-هاي مالي (نظير صورت حساب سود و زيان و ترازنامه) را حداقل براي 3 سال آتي (و گاهي تا 5سال) تدوين کنيد.

با يک حساب سرانگشتي، حسابهاي مالي شما بايستي تا نقطه اي از آينده ادامه داشته باشد که در آن نقطه، تجارت شما به يک تعادل نسبي در انجام امور خود دست يافته باشد.در سال اول، صورت هاي مالي فعاليت ها، هزينه ها و در آمدها بايستي ماه به ماه باشد، چرا که جريان هاي نقدي در گام هاي اولية هر شروعي بحراني و حياتي است. در سال هاي دوم و سوم صورتهاي مالي بايستي به چهار قسمت در سال تقسيم شود، و در سال هاي چهارم و پنجم بصورت ساليانه بيان شود.

صورتهاي مالي خود را در 3 حالت، "محتمل ترين حالت"، "خوش بينانه ترين حالت" و "بدبينانه ترين حالت" تنظيم نمائيد. چرا که اين امکان را به شما و خواننده مي دهد تا حد بالا و پائين ريسک طرح خود و نيز ريسک پذيري و ريسک گريزي شما را کشف نمايد. مطمئن شويد که هزينه ها و درآمدهاي قسمت مالي با ساير قسمت هاي طرح تجاريتان همخواني و تناسب داشته باشد. براي مثال اگر شما گفته ايد که 3 شعبه در سال دوم راه اندازي مي کنيد ولي صورت هاي مالي نشان مي دهد که 5 شعبه، خواننده به سرعت تجانس و تطابق طرح تان را زير سوال خواهد برد.

خلاصه مالي طرح شما بايستي شرح و توضيحي بر صورتهاي مالي تان باشد، صورت هاي مالي اصلي را در ادامه ضميمه کنيد.

زمان و حجم سرمايه گذاري لازم جهت اجراي طرحتان را شرح دهيد. سپس نشان دهيد که اين يک سرمايه گذاري خوب است و اين کار را با اثبات مطلوب بودن منفعت ها، دارائي ها، نرخ بازگشت سرمايه، ... ، انجام دهيد.

در ادامه مشخص نمائيد که سرمايه لازم را چگونه تأمين خواهيد کرد. براي مثال چه مقدار از آن را خود و شرکايتان پرداخت خواهند کرد و چه مقدار از آن را از طريق گرفتن تسهيلات از بانک يا مرکز رشد تامين خواهيد نمود.

اگر بخواهيد قسمت تحليل مالي طرح تجاري خود را با جزئيات بيشتري تشريح کنيد در واقع خروجي آن يک طرح توجيهي خواهد بود.

== تحلیل ریسک ==
در اين قسمت بايستي شاخص هايي که در طرح شما به عنوان ريسک مطرح مي شوند ليست کرده و ميزان اثر گذاري هر يک در طرح خود را آناليز حساسيت کنيد.

== طرح فنی ==
طرح فنی بیانگر اکوسیستم طرح کسب و کار شما می باشد که در آن کلیه اجزا و سیستم های فنی (مبتنی بر تجارت الکترونیک) در ارتباط با مشتری، تامین کنندگان و سایر موجودیت های محیطی توصیف شده و چگونگی ارتباط بین آنها مشخص می شود. بنابراین یک شمای تصویری از بعد فنی برای طرح کسب و کار در این قسمت ارایه دهید.

سامانه رزرو بارنامه الکترونیکی

2015-01-30T06:34:39Z

Amiiiiir: /* چشم انداز */

* موضوع : سامانه رزرو بارنامه الکترونیکی
* تهیه کننده : امیر قصری

== خلاصه اجرایی ==
شرکت های باربری ,رانندگان و ارسال کنندگان کالاها می توانند برای ارسال بار به سرتا سر کشور از این سامانه استفاده کنند .

== معرفی شرکت (تصویر شرکت) ==

* شرکت ایران بر
* شرکتی است که در آینده تشکیل خواهد شد .
* مرکزیت این شرکت در یکی از شهرهای بزرگ کشور که بار فراوانی برای ترانزیت دارد خواهد بود .
شهر بندرعباس به عنوان دفتر مرکزی این شهر انتخاب خواهد شد .
* این شرکت به عنوان یک شرکت در عرصه باربری کشور ثبت و در برخی از شهرهای کشور می تواند دارای نمایندگی باشد .

== چشم انداز ==
تبدیل شرکت به بزرگترین و جامعترین شرکت موفق ملی در حوزه حم و نقل کالا که به تمامی افراد در حوزه حمل و نقل کالا خدمات رسانی می کند .

== ماموریت ==
شرح مأموريت بيان مي كند كه چرا اين كالا يا خدمات را توليد مي كنيم يا اصلا چرا اينكار را شروع كرده ايم. بهتر است مأموریت را در قالب يک جمله بصورت زير بيان کرد:
مأموريت (نام شركت) فراهم كردن (توصيف كالا وخدمات) براي مشتريان است. اين (توصيف كالا و خدمات) ميتواند (امتياز كالا و خدمات براي مشتري تشريح شود).

== اهداف ==
اهداف را به شكل مقاصد ويژه و قابل اندازه گيري و دستيابي مي نويسيم. اين اهداف بصورت موردي بيان مي شود. دسته بندي اين اهداف بصورت زير است:
* اهداف فروش و بازاريابي
* اهداف مالي
* اهداف پرسنلي
* اهداف توليد
* اهداف تحقيق و توسعه
در هر دسته، بايد شاخص هاي سنجش آن هدف نيز بيان و بررسي شود.

== معرفی محصولات و خدمات ==
محصولات و خدمات بايستي بدون در نظر گرفتن اين که مشتري با آن آشنا هست يا نه، توصيف شود. اين قسمت پاسخ به اين سوالات است:
* محصولات و خدمات دقيقاً چه هستند و چه نيستند؟
* چه کسي آنرا مي خرد و چرا؟
* ويژگي منحصر به فرد آن ها چيست؟
* مزاياي حاصل از خريد آن ها چيست؟
* چه کاربردهايي دارد؟
* محصول در کدام مرحله از عمر خود قرار دارد؟
* تمامي مراحل توليد از ابتداي تحقيقات تا توليد انبوه را بصورت يک برنامه زماني نشان دهيد.

== محصولات جایگزین ==
در اين زير بخش مشخص مي نماييد که محصولات جايگزين محصول شما چه هستند و مزاياي رقابتي (قيمت، کيفيت، ...) محصول شما نسبت به آن ها چيست و بالعکس

== تحلیل صنعت مادر ==
در اين قسمت بايستي صنعت مادر محصول خود را شناسايي و آن را تحليل کنيد. به عنوان مثال صنعت مادر توليد بيسکويت مي تواند توليد مواد غذايي باشد.
* صنعتي که ما در آن کار مي کنيم, چگونه تعريف مي شود؟
* چگونه اين صنعت تقسيم بندي مي شود و چگونه هر بخش تعريف مي شود؟
* روندهاي جاري و توسعه مهم آن چيست؟
* بزرگترين و مهمترين بازيگردانان آن چه کساني هستند؟
* چه مسائلي را تجربه مي کند؟
* چه پديده هاي ملي و بين المللي آن را تحت تاثير قرار مي دهند؟
* پيش بيني رشد آن چقدر است؟
از آنجا که صنعت مورد نظر شما زيرمجموعه صنعت مادر است، با تحليل آن مي توان آينده صنعت مورد نظر شما را متصور شد.

== تحلیل صنعت خود ==
در اين قسمت پس از آنکه جايگاه صنعت مادر مشخص گرديد، بايستي جايگاه صنعت خود را در صنعت مادر مشخص کرده و آينده صنعت خود را ترسيم نمائيد. همچنين در اين قسمت بايستي، محصول خود را از نظر تاريخچه تکنولوژي مورد بررسي قرار دهيد و اينکه محصول شما قبلاً با چه تکنولوژِي توليد مي شده، اکنون چه تکنولوژي آن را توليد مي کند و در آينده چگونه توليد خواهد شد و آيا تکنولوژي مورد استفاده شما در آينده نيز استفاده خواهد شد و يا احتمال منسوخ شدن آن وجود دارد.

== تحلیل بازار ==
در دو يا چند صفحه به سوالات زير پاسخ دهيد:
* تعريف بازار
* اندازه بازار و ميزان رشد
* اين شرکت پاسخگوي چه نيازهايي از بازار مي باشد؟
* نحوه تقيسم بندي بازار
* مشتريان هدف ما چه کساني هستند؟
(در اين قسمت مي توانيد مشتريان را طبقه بندي کنيد و آمار مربوط به هر طبقه را گزارش دهيد و اينکه شما چه سهمي از هر بخش از بازار را در نظر گرفته ايد که مي خواهيد پوشش دهيد)
* روندهاي مهم در بازار
* شرکت ما چه محصولات و خدماتي را عرضه مي کند؟ سبد فروش شما شامل چه محصولات ديگري است که به عنوان يک بافر جهت اطمينان از گردش پولي شرکت از آن ها استفاده مي کنيد.
* ميزان فروش جاري و محصولات فعلي شرکت چه هستند؟
* مرزهاي فعلي کسب و کار ما چيست؟
* تضمين فروش شما چيست؟ آيا تفاهمنامه، پيش قرارداد يا هرآنچه مشخص نمايد که محصول شما به فروش خواهد رسيد در اختيار داريد؟
* استراتژِ هاي معرفي، بازاريابي، فروش، قيمت گذاري و تبليغات شما چيست؟ به عنوان مثال براي بازاريابي چه استراتژِ ي هايي را مدنظر قرار مي دهيد؟ بازاريابي از طريق مصاحبه حضوري؟ روابط قوي در بازار مربوطه؟ ....

== تحلیل رقبا ==
در يک يا دو صفحه, بايستي موقعيت محصول يا خدمت در بازار تشريح شود. اين که رقباي اصلي (بالفعل) شرکت چه کساني هستند؟ و محصولات آن ها چيست؟ چرا و چگونه محصولات و خدمات شرکت آن ها از رقبا متمايز مي شود؟ رقباي بالقوه شما چه کساني هستند؟ چه چالش ها و انگيزاننده هايي جهت ورود رقباي بالقوه به بازار شما وجود دارد.

در اين قسمت بايستي يک تحليل SWOT از شرکت خود و رقبا ترسيم کنيد. اين تحليل شامل نقاط ضعف، قوت، فرصت ها و تهديدهاي پيش روي شما و نيز رقبايتان است. (به عنوان مثال يکي از فرصت هاي شما مي تواند تحريم واردات کالايي باشد که شما قصد توليد آن را داريد و نقطه ضعف شما نداشتن پول زياد، نقطه قوت شما، داشتن پرسنلي با توان علمي بالا و ... است) اين تحليل را بصورت جدول تهيه کنيد تا امکان تحليل آن ها وجود داشته باشد. با مقايسه نقاط ضعف و قوت و فرصت و تهديد خود و رقبا، استراتژِهاي شرکت خود را در زمينه هاي مختلف براي جلوگيري از ورود رقباي بيشتر و نيز حفظ مزاياي رقابتي خود استخراج کنيد.

== تدوین استراتژی ==
استراتژي ها جواب اين سؤال هستند كه چه عواملي در طول زمان سبب موفقيت اين فعاليت خواهند شد. براي اين منظور، ابتدا بايد نقاط قوت و ضعف، فرصت ها و تهديدهاي خود و رقبا را تعيين کنيد سپس به کمک آن، استراتژي هاي خود را در مورد مسائل ذيل تهيه نمائيد:
* قيمت گذاري
* مشتريان
* رقبا
* بازاريابي
* بازار هدف
* توزيع
* تکنولوژي
* تبليغات
* ماليات
* قوانين محلي و دولتي
* شرايط اقتصادي

== مراحل توسعه محصولات ==
در اين قسمت مشخص مي کنيد که آيا در ادامه فعاليت خود توسعه اي را در برنامه داريد. اين توسعه ها شامل چه مواردي مي شود آيا محصول ديگري را نيز مي خواهيد در آينده توليد کنيد و يا خدمات ديگري را عرضه نمائيد؟ نحوه توسعه و گسترش آتي خود را بصورت برنامه زماني بلند مدت نشان دهيد.

== تحلیل مالی ==
اگر طرح تجاري شما را به يک کيک تشبيه کنيم قسمت اطلاعات مالي آن بايستي همانند خامة روي آن باشد!!!

شما يک ايده تجاري خوب را طرح ريزي کرده ايد، اثبات کرديد که يک نياز واقعي در بازار وجود دارد، نشان داديد که چگونه ايده ها را اجرا مي کنيد، بيان کرديد که تيم شما آماده است که ريسک ها را مديريت کند و اکنون شما نشان خواهيد داد که هر کدامتان قرار است چه مقدار پول توليد کند.

توجه داشته باشيد، چنانچه ايده شما چندان غني نباشد، يا يک بازار خوب براي ايده شما وجود ندارد، يا از نظر اجرائي ضعيف هستيد، يا تيم مديريتي شما با کفايت نيست، طرح مالي شما محکوم به شکست خواهد شد. اگر شما تا اينجاي کار خواننده طرح را متقاعد نکرده باشيد مطمئناً با اطلاعات مالي که در ادامه خواهيد آورد نيز متقاعد نخواهد شد.
با اين وجود، بسيار مهم است که اطلاعات مالي شما قوي و خوش ساختار باشد. اگر شما نتوانيد نشان دهيد که ايده شما مي تواند پول(زيادي) نصيبتان کند، خواننده بلافاصله علاقة خود را از دست خواهد داد. به منظور تدوين قسمت مالي طرح خود، قوياً توصيه مي کنم که با استفاده از برنامه توسعه و فعاليت خود، يک جدول زماني از فعاليت ها و توسعه هاي آتي خود ترسيم کنيد.

از روي جدول زماني فعاليت هاي آتي، شما مي توانيد نمودار جريان نقدي (Cash Flow) و صورت-هاي مالي (نظير صورت حساب سود و زيان و ترازنامه) را حداقل براي 3 سال آتي (و گاهي تا 5سال) تدوين کنيد.

با يک حساب سرانگشتي، حسابهاي مالي شما بايستي تا نقطه اي از آينده ادامه داشته باشد که در آن نقطه، تجارت شما به يک تعادل نسبي در انجام امور خود دست يافته باشد.در سال اول، صورت هاي مالي فعاليت ها، هزينه ها و در آمدها بايستي ماه به ماه باشد، چرا که جريان هاي نقدي در گام هاي اولية هر شروعي بحراني و حياتي است. در سال هاي دوم و سوم صورتهاي مالي بايستي به چهار قسمت در سال تقسيم شود، و در سال هاي چهارم و پنجم بصورت ساليانه بيان شود.

صورتهاي مالي خود را در 3 حالت، "محتمل ترين حالت"، "خوش بينانه ترين حالت" و "بدبينانه ترين حالت" تنظيم نمائيد. چرا که اين امکان را به شما و خواننده مي دهد تا حد بالا و پائين ريسک طرح خود و نيز ريسک پذيري و ريسک گريزي شما را کشف نمايد. مطمئن شويد که هزينه ها و درآمدهاي قسمت مالي با ساير قسمت هاي طرح تجاريتان همخواني و تناسب داشته باشد. براي مثال اگر شما گفته ايد که 3 شعبه در سال دوم راه اندازي مي کنيد ولي صورت هاي مالي نشان مي دهد که 5 شعبه، خواننده به سرعت تجانس و تطابق طرح تان را زير سوال خواهد برد.

خلاصه مالي طرح شما بايستي شرح و توضيحي بر صورتهاي مالي تان باشد، صورت هاي مالي اصلي را در ادامه ضميمه کنيد.

زمان و حجم سرمايه گذاري لازم جهت اجراي طرحتان را شرح دهيد. سپس نشان دهيد که اين يک سرمايه گذاري خوب است و اين کار را با اثبات مطلوب بودن منفعت ها، دارائي ها، نرخ بازگشت سرمايه، ... ، انجام دهيد.

در ادامه مشخص نمائيد که سرمايه لازم را چگونه تأمين خواهيد کرد. براي مثال چه مقدار از آن را خود و شرکايتان پرداخت خواهند کرد و چه مقدار از آن را از طريق گرفتن تسهيلات از بانک يا مرکز رشد تامين خواهيد نمود.

اگر بخواهيد قسمت تحليل مالي طرح تجاري خود را با جزئيات بيشتري تشريح کنيد در واقع خروجي آن يک طرح توجيهي خواهد بود.

== تحلیل ریسک ==
در اين قسمت بايستي شاخص هايي که در طرح شما به عنوان ريسک مطرح مي شوند ليست کرده و ميزان اثر گذاري هر يک در طرح خود را آناليز حساسيت کنيد.

== طرح فنی ==
طرح فنی بیانگر اکوسیستم طرح کسب و کار شما می باشد که در آن کلیه اجزا و سیستم های فنی (مبتنی بر تجارت الکترونیک) در ارتباط با مشتری، تامین کنندگان و سایر موجودیت های محیطی توصیف شده و چگونگی ارتباط بین آنها مشخص می شود. بنابراین یک شمای تصویری از بعد فنی برای طرح کسب و کار در این قسمت ارایه دهید.

سامانه رزرو بارنامه الکترونیکی

2015-01-29T23:40:07Z

Amiiiiir: /* معرفی شرکت (تصویر شرکت) */

* موضوع : سامانه رزرو بارنامه الکترونیکی
* تهیه کننده : امیر قصری

== خلاصه اجرایی ==
شرکت های باربری ,رانندگان و ارسال کنندگان کالاها می توانند برای ارسال بار به سرتا سر کشور از این سامانه استفاده کنند .

== معرفی شرکت (تصویر شرکت) ==

* شرکت ایران بر
* شرکتی است که در آینده تشکیل خواهد شد .
* مرکزیت این شرکت در یکی از شهرهای بزرگ کشور که بار فراوانی برای ترانزیت دارد خواهد بود .
شهر بندرعباس به عنوان دفتر مرکزی این شهر انتخاب خواهد شد .
* این شرکت به عنوان یک شرکت در عرصه باربری کشور ثبت و در برخی از شهرهای کشور می تواند دارای نمایندگی باشد .

== چشم انداز ==
چشم انداز بايد ايده تان را طوري بيان كند كه داراي شور و هيجان باشد. چشم انداز بايد پر محتوا و آرماني باشد. بايد ذهن را تحريك كند و در عين حال از كار شما تصوير واضحي بدهد. اگر نتوانيد در چشم انداز عمق علاقه تان را منعكس كنيد، ديگران به راحتي مجذوب طرحتان نخواهند شد. بهتر است چشم انداز را در قالب يک جمله بصورت زير بيان کرد:

رشد يا تبديل (نام شركت) به يك (نوع يا تعريف تجارت) موفق (محلي، منطقه اي ، ملي، بين المللي) در مدت (زمان مورد نظر) كه به (تعريف مشتريان)، (توصيف كالا و خدمات) را ارائه كند.

== ماموریت ==
شرح مأموريت بيان مي كند كه چرا اين كالا يا خدمات را توليد مي كنيم يا اصلا چرا اينكار را شروع كرده ايم. بهتر است مأموریت را در قالب يک جمله بصورت زير بيان کرد:
مأموريت (نام شركت) فراهم كردن (توصيف كالا وخدمات) براي مشتريان است. اين (توصيف كالا و خدمات) ميتواند (امتياز كالا و خدمات براي مشتري تشريح شود).

== اهداف ==
اهداف را به شكل مقاصد ويژه و قابل اندازه گيري و دستيابي مي نويسيم. اين اهداف بصورت موردي بيان مي شود. دسته بندي اين اهداف بصورت زير است:
* اهداف فروش و بازاريابي
* اهداف مالي
* اهداف پرسنلي
* اهداف توليد
* اهداف تحقيق و توسعه
در هر دسته، بايد شاخص هاي سنجش آن هدف نيز بيان و بررسي شود.

== معرفی محصولات و خدمات ==
محصولات و خدمات بايستي بدون در نظر گرفتن اين که مشتري با آن آشنا هست يا نه، توصيف شود. اين قسمت پاسخ به اين سوالات است:
* محصولات و خدمات دقيقاً چه هستند و چه نيستند؟
* چه کسي آنرا مي خرد و چرا؟
* ويژگي منحصر به فرد آن ها چيست؟
* مزاياي حاصل از خريد آن ها چيست؟
* چه کاربردهايي دارد؟
* محصول در کدام مرحله از عمر خود قرار دارد؟
* تمامي مراحل توليد از ابتداي تحقيقات تا توليد انبوه را بصورت يک برنامه زماني نشان دهيد.

== محصولات جایگزین ==
در اين زير بخش مشخص مي نماييد که محصولات جايگزين محصول شما چه هستند و مزاياي رقابتي (قيمت، کيفيت، ...) محصول شما نسبت به آن ها چيست و بالعکس

== تحلیل صنعت مادر ==
در اين قسمت بايستي صنعت مادر محصول خود را شناسايي و آن را تحليل کنيد. به عنوان مثال صنعت مادر توليد بيسکويت مي تواند توليد مواد غذايي باشد.
* صنعتي که ما در آن کار مي کنيم, چگونه تعريف مي شود؟
* چگونه اين صنعت تقسيم بندي مي شود و چگونه هر بخش تعريف مي شود؟
* روندهاي جاري و توسعه مهم آن چيست؟
* بزرگترين و مهمترين بازيگردانان آن چه کساني هستند؟
* چه مسائلي را تجربه مي کند؟
* چه پديده هاي ملي و بين المللي آن را تحت تاثير قرار مي دهند؟
* پيش بيني رشد آن چقدر است؟
از آنجا که صنعت مورد نظر شما زيرمجموعه صنعت مادر است، با تحليل آن مي توان آينده صنعت مورد نظر شما را متصور شد.

== تحلیل صنعت خود ==
در اين قسمت پس از آنکه جايگاه صنعت مادر مشخص گرديد، بايستي جايگاه صنعت خود را در صنعت مادر مشخص کرده و آينده صنعت خود را ترسيم نمائيد. همچنين در اين قسمت بايستي، محصول خود را از نظر تاريخچه تکنولوژي مورد بررسي قرار دهيد و اينکه محصول شما قبلاً با چه تکنولوژِي توليد مي شده، اکنون چه تکنولوژي آن را توليد مي کند و در آينده چگونه توليد خواهد شد و آيا تکنولوژي مورد استفاده شما در آينده نيز استفاده خواهد شد و يا احتمال منسوخ شدن آن وجود دارد.

== تحلیل بازار ==
در دو يا چند صفحه به سوالات زير پاسخ دهيد:
* تعريف بازار
* اندازه بازار و ميزان رشد
* اين شرکت پاسخگوي چه نيازهايي از بازار مي باشد؟
* نحوه تقيسم بندي بازار
* مشتريان هدف ما چه کساني هستند؟
(در اين قسمت مي توانيد مشتريان را طبقه بندي کنيد و آمار مربوط به هر طبقه را گزارش دهيد و اينکه شما چه سهمي از هر بخش از بازار را در نظر گرفته ايد که مي خواهيد پوشش دهيد)
* روندهاي مهم در بازار
* شرکت ما چه محصولات و خدماتي را عرضه مي کند؟ سبد فروش شما شامل چه محصولات ديگري است که به عنوان يک بافر جهت اطمينان از گردش پولي شرکت از آن ها استفاده مي کنيد.
* ميزان فروش جاري و محصولات فعلي شرکت چه هستند؟
* مرزهاي فعلي کسب و کار ما چيست؟
* تضمين فروش شما چيست؟ آيا تفاهمنامه، پيش قرارداد يا هرآنچه مشخص نمايد که محصول شما به فروش خواهد رسيد در اختيار داريد؟
* استراتژِ هاي معرفي، بازاريابي، فروش، قيمت گذاري و تبليغات شما چيست؟ به عنوان مثال براي بازاريابي چه استراتژِ ي هايي را مدنظر قرار مي دهيد؟ بازاريابي از طريق مصاحبه حضوري؟ روابط قوي در بازار مربوطه؟ ....

== تحلیل رقبا ==
در يک يا دو صفحه, بايستي موقعيت محصول يا خدمت در بازار تشريح شود. اين که رقباي اصلي (بالفعل) شرکت چه کساني هستند؟ و محصولات آن ها چيست؟ چرا و چگونه محصولات و خدمات شرکت آن ها از رقبا متمايز مي شود؟ رقباي بالقوه شما چه کساني هستند؟ چه چالش ها و انگيزاننده هايي جهت ورود رقباي بالقوه به بازار شما وجود دارد.

در اين قسمت بايستي يک تحليل SWOT از شرکت خود و رقبا ترسيم کنيد. اين تحليل شامل نقاط ضعف، قوت، فرصت ها و تهديدهاي پيش روي شما و نيز رقبايتان است. (به عنوان مثال يکي از فرصت هاي شما مي تواند تحريم واردات کالايي باشد که شما قصد توليد آن را داريد و نقطه ضعف شما نداشتن پول زياد، نقطه قوت شما، داشتن پرسنلي با توان علمي بالا و ... است) اين تحليل را بصورت جدول تهيه کنيد تا امکان تحليل آن ها وجود داشته باشد. با مقايسه نقاط ضعف و قوت و فرصت و تهديد خود و رقبا، استراتژِهاي شرکت خود را در زمينه هاي مختلف براي جلوگيري از ورود رقباي بيشتر و نيز حفظ مزاياي رقابتي خود استخراج کنيد.

== تدوین استراتژی ==
استراتژي ها جواب اين سؤال هستند كه چه عواملي در طول زمان سبب موفقيت اين فعاليت خواهند شد. براي اين منظور، ابتدا بايد نقاط قوت و ضعف، فرصت ها و تهديدهاي خود و رقبا را تعيين کنيد سپس به کمک آن، استراتژي هاي خود را در مورد مسائل ذيل تهيه نمائيد:
* قيمت گذاري
* مشتريان
* رقبا
* بازاريابي
* بازار هدف
* توزيع
* تکنولوژي
* تبليغات
* ماليات
* قوانين محلي و دولتي
* شرايط اقتصادي

== مراحل توسعه محصولات ==
در اين قسمت مشخص مي کنيد که آيا در ادامه فعاليت خود توسعه اي را در برنامه داريد. اين توسعه ها شامل چه مواردي مي شود آيا محصول ديگري را نيز مي خواهيد در آينده توليد کنيد و يا خدمات ديگري را عرضه نمائيد؟ نحوه توسعه و گسترش آتي خود را بصورت برنامه زماني بلند مدت نشان دهيد.

== تحلیل مالی ==
اگر طرح تجاري شما را به يک کيک تشبيه کنيم قسمت اطلاعات مالي آن بايستي همانند خامة روي آن باشد!!!

شما يک ايده تجاري خوب را طرح ريزي کرده ايد، اثبات کرديد که يک نياز واقعي در بازار وجود دارد، نشان داديد که چگونه ايده ها را اجرا مي کنيد، بيان کرديد که تيم شما آماده است که ريسک ها را مديريت کند و اکنون شما نشان خواهيد داد که هر کدامتان قرار است چه مقدار پول توليد کند.

توجه داشته باشيد، چنانچه ايده شما چندان غني نباشد، يا يک بازار خوب براي ايده شما وجود ندارد، يا از نظر اجرائي ضعيف هستيد، يا تيم مديريتي شما با کفايت نيست، طرح مالي شما محکوم به شکست خواهد شد. اگر شما تا اينجاي کار خواننده طرح را متقاعد نکرده باشيد مطمئناً با اطلاعات مالي که در ادامه خواهيد آورد نيز متقاعد نخواهد شد.
با اين وجود، بسيار مهم است که اطلاعات مالي شما قوي و خوش ساختار باشد. اگر شما نتوانيد نشان دهيد که ايده شما مي تواند پول(زيادي) نصيبتان کند، خواننده بلافاصله علاقة خود را از دست خواهد داد. به منظور تدوين قسمت مالي طرح خود، قوياً توصيه مي کنم که با استفاده از برنامه توسعه و فعاليت خود، يک جدول زماني از فعاليت ها و توسعه هاي آتي خود ترسيم کنيد.

از روي جدول زماني فعاليت هاي آتي، شما مي توانيد نمودار جريان نقدي (Cash Flow) و صورت-هاي مالي (نظير صورت حساب سود و زيان و ترازنامه) را حداقل براي 3 سال آتي (و گاهي تا 5سال) تدوين کنيد.

با يک حساب سرانگشتي، حسابهاي مالي شما بايستي تا نقطه اي از آينده ادامه داشته باشد که در آن نقطه، تجارت شما به يک تعادل نسبي در انجام امور خود دست يافته باشد.در سال اول، صورت هاي مالي فعاليت ها، هزينه ها و در آمدها بايستي ماه به ماه باشد، چرا که جريان هاي نقدي در گام هاي اولية هر شروعي بحراني و حياتي است. در سال هاي دوم و سوم صورتهاي مالي بايستي به چهار قسمت در سال تقسيم شود، و در سال هاي چهارم و پنجم بصورت ساليانه بيان شود.

صورتهاي مالي خود را در 3 حالت، "محتمل ترين حالت"، "خوش بينانه ترين حالت" و "بدبينانه ترين حالت" تنظيم نمائيد. چرا که اين امکان را به شما و خواننده مي دهد تا حد بالا و پائين ريسک طرح خود و نيز ريسک پذيري و ريسک گريزي شما را کشف نمايد. مطمئن شويد که هزينه ها و درآمدهاي قسمت مالي با ساير قسمت هاي طرح تجاريتان همخواني و تناسب داشته باشد. براي مثال اگر شما گفته ايد که 3 شعبه در سال دوم راه اندازي مي کنيد ولي صورت هاي مالي نشان مي دهد که 5 شعبه، خواننده به سرعت تجانس و تطابق طرح تان را زير سوال خواهد برد.

خلاصه مالي طرح شما بايستي شرح و توضيحي بر صورتهاي مالي تان باشد، صورت هاي مالي اصلي را در ادامه ضميمه کنيد.

زمان و حجم سرمايه گذاري لازم جهت اجراي طرحتان را شرح دهيد. سپس نشان دهيد که اين يک سرمايه گذاري خوب است و اين کار را با اثبات مطلوب بودن منفعت ها، دارائي ها، نرخ بازگشت سرمايه، ... ، انجام دهيد.

در ادامه مشخص نمائيد که سرمايه لازم را چگونه تأمين خواهيد کرد. براي مثال چه مقدار از آن را خود و شرکايتان پرداخت خواهند کرد و چه مقدار از آن را از طريق گرفتن تسهيلات از بانک يا مرکز رشد تامين خواهيد نمود.

اگر بخواهيد قسمت تحليل مالي طرح تجاري خود را با جزئيات بيشتري تشريح کنيد در واقع خروجي آن يک طرح توجيهي خواهد بود.

== تحلیل ریسک ==
در اين قسمت بايستي شاخص هايي که در طرح شما به عنوان ريسک مطرح مي شوند ليست کرده و ميزان اثر گذاري هر يک در طرح خود را آناليز حساسيت کنيد.

== طرح فنی ==
طرح فنی بیانگر اکوسیستم طرح کسب و کار شما می باشد که در آن کلیه اجزا و سیستم های فنی (مبتنی بر تجارت الکترونیک) در ارتباط با مشتری، تامین کنندگان و سایر موجودیت های محیطی توصیف شده و چگونگی ارتباط بین آنها مشخص می شود. بنابراین یک شمای تصویری از بعد فنی برای طرح کسب و کار در این قسمت ارایه دهید.

Intelligent services for Big Data science

2015-01-27T17:57:18Z

Amiiiiir: /* مقدمه */

Intelligent services for Big Data science

2015-01-27T17:56:48Z

Amiiiiir: /* مقدمه */

Intelligent services for Big Data science

2015-01-27T17:50:59Z

Amiiiiir: /* مقدمه */

Intelligent services for Big Data science

2015-01-25T23:07:03Z

Amiiiiir: /* مقدمه */

Intelligent services for Big Data science

2015-01-25T23:03:51Z

Amiiiiir: /* مقدمه */

Intelligent services for Big Data science

2015-01-25T22:34:15Z

Amiiiiir: /* مقدمه */

Intelligent services for Big Data science

2015-01-20T06:31:36Z

Amiiiiir: /* چکیده */

Intelligent services for Big Data science

2015-01-20T06:22:44Z

Amiiiiir: /* چکیده */

Intelligent services for Big Data science

2015-01-20T06:10:18Z

Amiiiiir: /* چکیده */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاط داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند

== مقدمه ==
خلاصه ای از بررسی خود موضوع اصلی و تعاریف موجود در آن و ...

== بررسی ادبیات موضوع ==
کارهایی که در ارتباط با عنوان تحقیق مورد بررسی قرار گرفته است ...

== بدنه تحقیق ==
تحلیل هایی که توسط محقق صورت گرفته است (نظیر مقایسه و ارزیابی)

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)

Intelligent services for Big Data science

2015-01-20T06:09:50Z

Amiiiiir: /* چکیده */

== چکیده ==
شهر ها مناطقی هستند که شدیداً تحت تأثیر داده های بزرگ می باشند. برنامه ریزان و طراحان شهری و نهادهای مدیریتی فقط نیاز دارند ابزار مناسبی در دسترس داشته باشند تا از تمام نقاز داده ای که یه شهر تولید می کند در راستای بهبود زندگی مردم استفاده کنند

== مقدمه ==
خلاصه ای از بررسی خود موضوع اصلی و تعاریف موجود در آن و ...

== بررسی ادبیات موضوع ==
کارهایی که در ارتباط با عنوان تحقیق مورد بررسی قرار گرفته است ...

== بدنه تحقیق ==
تحلیل هایی که توسط محقق صورت گرفته است (نظیر مقایسه و ارزیابی)

== نتیجه گیری ==
نتیجه ای که در نهایت حاصل شده است.

== مراجع ==
1- Dobre, Ciprian, and Fatos Xhafa. "Intelligent services for big data science."Future Generation Computer Systems 37 (2014): 267-281.

2- Assunção, Marcos D., et al. "Big Data computing and clouds: Trends and future directions." Journal of Parallel and Distributed Computing (2014).

3- Hsu, Chia-Yu, et al. "Development of a cloud-based service framework for energy conservation in a sustainable intelligent transportation system."International Journal of Production Economics (2014).

4- Demirkan, Haluk, and Dursun Delen. "Leveraging the capabilities of service-oriented decision support systems: Putting analytics and big data in cloud."Decision Support Systems 55.1 (2013): 412-421.

5- C.L. Philip Chen, C.-Y. Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data", Information Sciences. (2014)