همایش کلان داده دی ۱۳۹۳:نشست زیرساخت ها و بسترهای داده های عظیم: تفاوت میان نسخه‌ها

از OCCC Wiki
پرش به ناوبری پرش به جستجو
خط ۱۶۵: خط ۱۶۵:


==مقاله 5 ==
==مقاله 5 ==
عنوان مقاله :
عنوان مقاله :
'''تحلیل داده های عظیم به عنوان سرویس : مدلی برای ارائه خدمات تحلیل داده های عظیم'''
نام ارائه دهنده :
نام ارائه دهنده :
امیر صحافی- مهدی نظری چراغلو
''' موضوع ارائه'''
در این ارائه به تعریف Big Data و همچنین رایانش ابری پرداخته شد و مزایای استفاده از رایانش ابری برای داده های عظیم عنوان شد.
''' چالش مطرح شده '''
*با توجه به گستردگی خدمات فناوری اطلاعات در کشور، داده ها  هم در حال رشد اند . لازم است این اطلاعات پردازش شوند و دانش سودمندی از آنها تولید شود.
*شرکتها برای تحلیل داده ها نیاز به منابع دارند و خرید منابع برای آنها به صرفه نیست.
چرخه ای متصور است که از تحلیل داده های عظیم آغا ز می شود و نهایتا به بصری سازی این داده ها می انجامد.
*روش های قبلی برای داده های عظیم جوابگو نیست و باید سراغ ابزارها، الگوریتم ها ،دیتابیس ها و روشهای پردازشی جدیدی برویم.
''' راه حلهای ارائه شده برای آن چالش'''
*در عصر حاضر رایانش ابری مدل رایانشی فراگیری است و با توجه به نیاز به پردازش داده های عظیم، می توان از این تکنولوژی بهره برد
*در واقع هادوپ نقطه عطف رایانش ابری و Big Data است.
** در Big Data نیاز داریم که کوئری هایی روی محیط های توزیع شده اجرا شده و نتایج به سرعت برگردند.
** رایانش ابری با تعمیم هادوپ می تواند ما را به این هدف برساند.
** هادوپ دو بخش اصلی دارد که بر این اساس سرویسهای مختلفی هم عرضه شده است.
*** HDFS
*** Map – Reduce
*برای تحلیل داده ها نیازمند ذخیره سازی ایم. میتوان از هر کدام از سطوح سرویس یا مدل های استقرار ابر با توجه به سیاست های سازمان استفاده کرد.
** برای مراکز نظامی که محرمانگی مهم است میتوان از ابر خصوصی استفاده کرد
** برای زمانی که داده ها خارج از سازمان اند اشتراک ابرهای مختلف  مناسب است.
''نتیجه گیری :''
استفاده از مدلهای ابری مخصوصا ابر عمومی علاوه بر صرفه اقتصادی که دارد می تواند برای کسب و کارهای متوسط و کوچک خیلی مفید واقع شود. پس ابر به ذخیره سازی و پردازش و بصری سازی کمک می کند. با توجه به سیاست سازمان می توان از انواع مدلهای ابر استفاده کرد.
''' بحثهای پیرامونی ونظرحضارواساتید'''
*سوال : گفته شد که هادوپ کند است خوب spark هم که بر پایه هادوپ است هم کند است؟
** خیر ، spark بر پایه ی هادوپ نیست. Spark برای نصب به یک distributed file system نیاز دارد که می تواند هادوپ یا هر چیز دیگری باشد.
''' نکات کاربردی هرارائه'''
*رایانش ابری تعریف واحدی ندارد و در این ارائه تعریف NIST از آن مطرح شد
**طبق این تعریف 4 مدل استقرار ابر، 3 مدل سرویس و 5 ویژگی آن بیان شد.
*در واقع در رایانش ابری می توانیم هر چیز را به عنوان سرویس داشته باشیم(XaaS) . حتی Hadoop as a service هم مطرح شده است.
*داده های عظیم با سه  V یعنی حجم بالا سرعت (تولید و پردازش) بالا و تنوع بالا شناخته می شوند.


= بحث و تبادل نظر و جمع بندی=
= بحث و تبادل نظر و جمع بندی=

نسخهٔ ‏۲۴ ژانویهٔ ۲۰۱۵، ساعت ۱۰:۰۸

مستند شده توسط:

مقالات ارائه شده

مقاله 1

عنوان مقاله: Big Data View of Communication Network

نام ارائه دهنده: بابک حسین خلج

موضوع ارائه  : Big data و تاثیر آن در بهبود شبکه مخابراتی

چالش مطرح شده

  1. با توجه به پیدایش بخث big data و لزوم کار با این داده ها، اپراتور ها به شدت از جهت مالی تحت فشار هستند و باید از هر ابزاری برای بهبود کارایی شبکه استفاده کنند. سوال مطرح شده این است که چگونه اطلاعات شبکه مخابراتی را از دید تکنیکی بهبود ببخشیم؟
  • مباحث privacy , probing و پراکندگی انواع داده در این شبکه ها هم باید مورد توجه قرار گیرد.

راه حلهای ارائه شده برای آن چالش

  1. استفاده از ابزارهای Big data
  2. اطلاعات با استفاده از Cloud پردازش شوند و منبع درآمد باشند. تا الان هیچ اپراتوری به این سوال جواب نداده است که چگونه از این اطلاعات استفاده کنند.

باید نگاه جدیدی به شبکه داشت و از self organizing network( SON) استفاده کرد که به صورت هوشمند شبکه را کنترل می کنند.

  • مباحث کلیدی که در Big data مطرح است عبارتند از Database، پردازش موازی، آموزش ماشین، پردازش تصویر،ابزار ریاضی و ...
  • قدم اول پیاده سازی ایده این است که بفهمیم منبع داده ها کجا هستند و ما در چه مقیاسی میخواهیم داده ها را داشته باشیم
  • قدم دوم پیاده سازی این است که چگونه و با چه ابزاری این داده ها را استخراج کنیم (پردازش سیگنال، پردازش تصویر، .. )
  • قدم سوم این است که چه action ی انجام دهیم و چگونه و در چه جایی از این اطلاعات استفاده کنیم .
  • نتیجه گیری : با توجه به این حجم عظیم داده در شبکه های مخابراتی و ابزارهایی که جدیدا برای بحث big data مطرح شده است از جمله رایاش ابری و هوش تجاری، میبایست روشهایی برای پردازش این داده ها با بیشترین سود ارائه داد.


بحثهای پیرامونی ونظرحضارواساتید

  • سوال مطرح شده : آیا استفاده از یک نود مرکزی روی ابر برای پردازش این حجم عظیم داده هزینه بر نیست؟
  • پاسخ : همه داده ها به سمت ابر نمی رود. باید یک لایه میانی قرار داشته باشد که اطلاعات پیش پردازش و خلاصه شوند و اطلاعات مفید به سمت ابر بروند.

نکات کاربردی هرارائه

مزیتی که در بحث شبکه های موبایل وجود دارد این است که اطلاعات خودشان به صورت دیجیتال اند و دیگر اطلاعات کاغذی نداریم که بخواهیم به دیجیتال تبدیل کنیم در حوزه شبکه های مخابراتی افراد در حوزه های مختلف باهم ارتباط دارند که می توان از دانش آنها برای ارائه روش بهره برداری کرد.

مقاله 2

عنوان مقاله:

زیرساخت شبکه ای مورد نیاز کاربردهای داده های عظیم در مراکز داد ه

نام ارائه دهنده: محمد مهدی تاجیکی

موضوع ارائه

در این مقاله به بررسی نیازمندی های شبکه های داده های عظیم در بحث مدیریت جریان داده ها پرداخته شد

چالش مطرح شده

داده ها در حال افزایش اند و به صورت داده های کلان تبدیل شده اند . استفاده از این داده ها می تواند مزایای فراوانی را در بر داشته باشد. مسئله اصلی ذخیره سازی و پردازش این داده هاست.

قبلا ترافیک موجود در شبکه ها به صورت شمالی جنوبی بوده است یعنی بین چندین کلاینت و 1 سرور . اما در حال حاضر این ترافیک به صورت شرقی غربی شده است. ویژگی های دیگر شبکه انتقال داده های عظیم عبارتند از : ترافیک انفجاری، حجم زاید داده ، مدت زمان زیاد داده ها در شبکه اند، ازدحام ازآنجاییکه بحث توزیع شده مطرح است، انتقال داده مهم می شود. همچنین ازدحام ، کاهش بهره وری و تاخیر به علت حجم بالای داده اتفاق می افتد. باید روش های متناسب با این داده ها را در شبکه به کار برد.

راه حلهای ارائه شده برای آن چالش

  • در بحث مجازی سازی و رایانش ابری باید از سوییچینگ فابریک استفاده شود. یعنی بین هر دو نود چند مسیر داشته باشیم .
  • تا کنون روشهایی برای مدیریت لایه دسترسی و مدیریت ستون فقرات و مهندسی ترافیک شبکه شبکه وجود داشته است. این روش ها دید کلی به توپولوژی شبکه نداشتند و مشکلاتی را در داده های عظیم در بر خواهند داشت.
  • روش prob : این روش برای مدیریت ترافیک است و مبتنی بر میزبان عمل می کند و از تکنیک نمونه برداری بسته ها استفاده می کند و مسیرهای جدید رامعرفی می کند تا تداخل پایین بیاید.
  • شبکه های SDN : برای مدیریت شبکه است. در واقع صفحه کنترل را از صفحه داده جدا می کند. داده ها به سمت کنترل کننده می روند و کنترل کننده مشخص می کند که هر داده از چه مسیری برود.

نکات کاربردی :

با استفاده از Big Data، گوگل توانست شیوع آنفولانزا را پیش بینی کند.

مقاله 3

عنوان مقاله : Big Data Analytics: Platforms and applications

نام ارائه دهنده : سینا سوهانگیر

موضوع ارائه

در رابطه با اپلیکیشن های Big Data صحبت می کند. اپلیکیشن های آنلاین در این ارائه صحبت می شود. در نهایت روش های موجود برای مدیریت Big Data بحث می شود.

چالش مطرح شده

  • اپلیکیشن هایی داریم که با داده هایی در حد Big Data مواجه هستند از جمله داده های تراکنش ها، advertizing و شبکه های اجتماعی . در این کاربردها داده ها بسیار حجم بالایی دارند و همچنین حاوی اطلاعات مفید و مهمی هستند که باید استخراج شوند. حتی در ایران هم مابا Big data مواجه هستیم.
  • دو نوع آنالیز داده وجود دارد.
    • آنالیز رتبه 1 : هر point را برای خودش در نظر می گیریم.
    • آنالیز رتبه 2 : آنالیز آیتم به آیتم، یوزر به آیتم ، یوزر به یوزر (شبکه های اجتماعی) . در این بخش از آنالیز است که مفهوم Big Data اهمیت پیدا می کند.
      • در واقع اولین اپلیکیشن Big Data همان Advertizing است چون برای آنالیز رتبه 1 هم نیاز به Big Data دارد. یعنی لازم داریم که داده های یک کاربر را بررسی کنیم که مثلا چه چیزهایی را باهم خریداری می کند و دفعات بعد به او پیشنهاد دهیم.
      • اغلب کاربردها برای آنالیز رتبه 1 نیاز به Big Data ندارند بلکه در آنالیز رتبه 2 است که Big Data مهم می شود.

راه حلهای ارائه شده برای آن چالش

  • ابزارهایی که تا کنون برای Big Data مطرح بوده است عبارتند از :
  1. Distributed file system : گوگل از این روش استفاده کرده است. هادوپ هم بر همین اساس است.
  2. Distributed file system : این ابزارها معمولا متن بازند. Hbase در این بخش است.
  3. Distributed computing : Map Reduce ، Dremel و Spark در این بخش قرار گرفته اند.
  4. Cluster Management : هادوپ اصلا این بخش را ندارد.
  • باید از ابزارهای جدید و به روز برای Big Data استفاده کرد چراکه ابزارهای سابق کارایی لازم را ندارند. درحال حاضر دو پلتفرم متن باز Spark از شرکت DataBricks و Mesos از شرکت mesosphere مطرح هستند که باید به آنها پرداخته شود.

بحثهای پیرامونی ونظرحضارواساتید

  • سوال : گفته شد که هادوپ کند است خوب spark هم که بر پایه هادوپ است هم کند است؟
    • خیر ، spark بر پایه ی هادوپ نیست. Spark برای نصب به یک distributed file system نیاز دارد که می تواند هادوپ یا هر چیز دیگری باشد.

نکات کاربردی هرارائه

Spark* از زبان اسکالا استفاده می کند برنامه ها در این زبان بسیار کوتاه است. برنامه هایی که با spark نوشته شده اند برای اثبات این بوده که این زبان بسیار کد کمی لازم دارد

مقاله 4

عنوان مقاله:

اسکادی مپ ردیوس: روشی جهت حل کارای مسائل بر پایه نگاشت- کاهش

نام ارائه دهنده:

محمد حسین برخورداری- مهدی نیامنش

موضوع ارائه

در این ارائه یکی از روش های کار با Big Data مطرح می شود و برای برطرف ساختن مشکلات وارد بر این روش راهکاری ارائه می گردد.

چالش مطرح شده

  • با توجه به سرعت تولید داده وهمچنین حجم زیاد آن، لازم است روش هایی جهت مدیریت کارای این داده ها وجود داشته باشد. Map –Reduce یا نگاشت – کاهش یک مدل برنامه نویسی است که می توان مسائل کلان داده را با آن حل کرد.
  • نگاشت کاهش یک سری مشکلاتی را در بردارد
    • اولین مشکل این است که گلوگاه در شبکه ایجاد می شود. چراکه سرعت نود خیلی بالاتر از سرعت شبکه است.
    • مشکل دوم که درواقع از همان مشکل اول ناشی می شود، عدم استفاده کارا از سخت افزار است.
    • این دو مشکل به صورت پیش فرض در همه نگاشت کاهش ها وجود دارد.
  • هدف این است که بتوانیم کارایی را در نگاشت کاهش رعایت کنیم.
    • کارایی با کاهش هزینه شبکه ، حل مسئله با سرعت بیشتر و استفاده بهتر از سخت افزار حاصل می شود.

. راه حلهای ارائه شده برای آن چالش

  • اگر هر گره اطلاعات خودش را داشته باشد و نیاز به ارتباطات شبکه ای نداشته باشد در واقع گره مستقل باشد، برای کاراسازی مناسب است.
  • تا کنون روشها ی مختلفی برای کاراسازی نگاشت کاهش ارائه شده است که عبارتند از :
    • تخصیص بهینه کارها بین گره ها  : در این روش چک می کند که داده کجاست و با توجه به آن کارها را به گره ها اختصاص می دهد.
    • بهینه سازی پرس و جو : با استفاده از یک زبان ساخت یافته مانند Hive
    • پشتیبانی از حلقه : R map-reduce و spark حلقه را وارد نگاشت-کاهش کردند
    • بهینه سازی بی درنگ : بی درنگ پردازش انجام می دهد.
    • بهبود کارایی شبکه ای : هزینه شبکه را کاهش می دهد.
      • روش ارائه شده در این مقاله هم در این دسته قرار می گیرد.


  • حل مسئله نگاشت کاهش از دو جنبه صورت می گیرد
    • داده ها:
      • در روش پیشنهادی، داده ها به فرمت یکسان در می آیند، نود ها داده های مشابهی دارند و وابسته به داده خودشان می شوند و نیازی به تبادل اطلاعات در شبکه نداریم.
      • همچنین باید تکرار در شبکه محدود شود.
    • عملیات بر روی داده ها :
      • استفاده از یک نگاشتگر ناغربالگر که هیچکدام از کلید ها حذف نشوند.


لذا روش پیشنهادی در گام های زیر ارائه می شود :

  • گام اول : ایجاد قالب یکنواخت برای داده
  • گام دوم : استفاده از نگاشتگر ناغربالگر
  • گام سوم : محدود کردن تکرار به سطح اول

با این روش چند مسئله از جمله مسئله یافتن کوتاهترین مسیر حل شده است.

بحثهای پیرامونی ونظرحضارواساتید

  • سوال : گفته شد که هادوپ کند است خوب spark هم که بر پایه هادوپ است هم کند است؟
    • خیر ، spark بر پایه ی هادوپ نیست. Spark برای نصب به یک distributed file system نیاز دارد که می تواند هادوپ یا هر چیز دیگری باشد.

نکات کاربردی هرارائه

  • Maper  : ورودی های کلید مقدار را میگیرد و کلید مقدار میانی تولید می کند.
    • ممکن است چندین لایه Maper داشته باشیم که منظور از maper –ِ لایه اول ، maper ای است که داده اولیه به ان وارد می شود.
  • Reducer : کلید مقدار میانی را میگیرد و به نهایی تبدیل می کند.
  • منظور از تکرار در تکنیک نگاشت کاهش : یعنی هر کدام مسائل که احتیاج دارند نتایج نهایی دوباره به نگاشتگر داده شود.


مقاله 5

عنوان مقاله :

تحلیل داده های عظیم به عنوان سرویس : مدلی برای ارائه خدمات تحلیل داده های عظیم

نام ارائه دهنده :

امیر صحافی- مهدی نظری چراغلو


موضوع ارائه

در این ارائه به تعریف Big Data و همچنین رایانش ابری پرداخته شد و مزایای استفاده از رایانش ابری برای داده های عظیم عنوان شد.

چالش مطرح شده

  • با توجه به گستردگی خدمات فناوری اطلاعات در کشور، داده ها هم در حال رشد اند . لازم است این اطلاعات پردازش شوند و دانش سودمندی از آنها تولید شود.
  • شرکتها برای تحلیل داده ها نیاز به منابع دارند و خرید منابع برای آنها به صرفه نیست.

چرخه ای متصور است که از تحلیل داده های عظیم آغا ز می شود و نهایتا به بصری سازی این داده ها می انجامد.

  • روش های قبلی برای داده های عظیم جوابگو نیست و باید سراغ ابزارها، الگوریتم ها ،دیتابیس ها و روشهای پردازشی جدیدی برویم.

راه حلهای ارائه شده برای آن چالش

  • در عصر حاضر رایانش ابری مدل رایانشی فراگیری است و با توجه به نیاز به پردازش داده های عظیم، می توان از این تکنولوژی بهره برد
  • در واقع هادوپ نقطه عطف رایانش ابری و Big Data است.
    • در Big Data نیاز داریم که کوئری هایی روی محیط های توزیع شده اجرا شده و نتایج به سرعت برگردند.
    • رایانش ابری با تعمیم هادوپ می تواند ما را به این هدف برساند.
    • هادوپ دو بخش اصلی دارد که بر این اساس سرویسهای مختلفی هم عرضه شده است.
      • HDFS
      • Map – Reduce


  • برای تحلیل داده ها نیازمند ذخیره سازی ایم. میتوان از هر کدام از سطوح سرویس یا مدل های استقرار ابر با توجه به سیاست های سازمان استفاده کرد.
    • برای مراکز نظامی که محرمانگی مهم است میتوان از ابر خصوصی استفاده کرد
    • برای زمانی که داده ها خارج از سازمان اند اشتراک ابرهای مختلف مناسب است.

نتیجه گیری :

استفاده از مدلهای ابری مخصوصا ابر عمومی علاوه بر صرفه اقتصادی که دارد می تواند برای کسب و کارهای متوسط و کوچک خیلی مفید واقع شود. پس ابر به ذخیره سازی و پردازش و بصری سازی کمک می کند. با توجه به سیاست سازمان می توان از انواع مدلهای ابر استفاده کرد.

بحثهای پیرامونی ونظرحضارواساتید

  • سوال : گفته شد که هادوپ کند است خوب spark هم که بر پایه هادوپ است هم کند است؟
    • خیر ، spark بر پایه ی هادوپ نیست. Spark برای نصب به یک distributed file system نیاز دارد که می تواند هادوپ یا هر چیز دیگری باشد.

نکات کاربردی هرارائه

  • رایانش ابری تعریف واحدی ندارد و در این ارائه تعریف NIST از آن مطرح شد
    • طبق این تعریف 4 مدل استقرار ابر، 3 مدل سرویس و 5 ویژگی آن بیان شد.
  • در واقع در رایانش ابری می توانیم هر چیز را به عنوان سرویس داشته باشیم(XaaS) . حتی Hadoop as a service هم مطرح شده است.
  • داده های عظیم با سه V یعنی حجم بالا سرعت (تولید و پردازش) بالا و تنوع بالا شناخته می شوند.

بحث و تبادل نظر و جمع بندی

لینک های مرتبط