همایش کلان داده دی ۱۳۹۳:نشست زیرساخت ها و بسترهای داده های عظیم: تفاوت میان نسخه‌ها

از OCCC Wiki
پرش به ناوبری پرش به جستجو
خط ۱۰۳: خط ۱۰۳:
Spark* از زبان اسکالا استفاده می کند برنامه ها در این زبان بسیار کوتاه است. برنامه هایی که با spark نوشته شده اند برای اثبات این بوده که این زبان بسیار کد کمی لازم دارد
Spark* از زبان اسکالا استفاده می کند برنامه ها در این زبان بسیار کوتاه است. برنامه هایی که با spark نوشته شده اند برای اثبات این بوده که این زبان بسیار کد کمی لازم دارد


==مقاله 3==
==مقاله 4==
عنوان مقاله:
عنوان مقاله:


نام ارائه دهنده:
نام ارائه دهنده:


= بحث و تبادل نظر و جمع بندی=
= بحث و تبادل نظر و جمع بندی=

نسخهٔ ‏۲۴ ژانویهٔ ۲۰۱۵، ساعت ۰۷:۲۵

مستند شده توسط:

مقالات ارائه شده

مقاله 1

عنوان مقاله: Big Data View of Communication Network

نام ارائه دهنده: بابک حسین خلج

موضوع ارائه  : Big data و تاثیر آن در بهبود شبکه مخابراتی

چالش مطرح شده

  1. با توجه به پیدایش بخث big data و لزوم کار با این داده ها، اپراتور ها به شدت از جهت مالی تحت فشار هستند و باید از هر ابزاری برای بهبود کارایی شبکه استفاده کنند. سوال مطرح شده این است که چگونه اطلاعات شبکه مخابراتی را از دید تکنیکی بهبود ببخشیم؟
  • مباحث privacy , probing و پراکندگی انواع داده در این شبکه ها هم باید مورد توجه قرار گیرد.

راه حلهای ارائه شده برای آن چالش

  1. استفاده از ابزارهای Big data
  2. اطلاعات با استفاده از Cloud پردازش شوند و منبع درآمد باشند. تا الان هیچ اپراتوری به این سوال جواب نداده است که چگونه از این اطلاعات استفاده کنند.

باید نگاه جدیدی به شبکه داشت و از self organizing network( SON) استفاده کرد که به صورت هوشمند شبکه را کنترل می کنند.

  • مباحث کلیدی که در Big data مطرح است عبارتند از Database، پردازش موازی، آموزش ماشین، پردازش تصویر،ابزار ریاضی و ...
  • قدم اول پیاده سازی ایده این است که بفهمیم منبع داده ها کجا هستند و ما در چه مقیاسی میخواهیم داده ها را داشته باشیم
  • قدم دوم پیاده سازی این است که چگونه و با چه ابزاری این داده ها را استخراج کنیم (پردازش سیگنال، پردازش تصویر، .. )
  • قدم سوم این است که چه action ی انجام دهیم و چگونه و در چه جایی از این اطلاعات استفاده کنیم .
  • نتیجه گیری : با توجه به این حجم عظیم داده در شبکه های مخابراتی و ابزارهایی که جدیدا برای بحث big data مطرح شده است از جمله رایاش ابری و هوش تجاری، میبایست روشهایی برای پردازش این داده ها با بیشترین سود ارائه داد.


بحثهای پیرامونی ونظرحضارواساتید

  • سوال مطرح شده : آیا استفاده از یک نود مرکزی روی ابر برای پردازش این حجم عظیم داده هزینه بر نیست؟
  • پاسخ : همه داده ها به سمت ابر نمی رود. باید یک لایه میانی قرار داشته باشد که اطلاعات پیش پردازش و خلاصه شوند و اطلاعات مفید به سمت ابر بروند.

نکات کاربردی هرارائه

مزیتی که در بحث شبکه های موبایل وجود دارد این است که اطلاعات خودشان به صورت دیجیتال اند و دیگر اطلاعات کاغذی نداریم که بخواهیم به دیجیتال تبدیل کنیم در حوزه شبکه های مخابراتی افراد در حوزه های مختلف باهم ارتباط دارند که می توان از دانش آنها برای ارائه روش بهره برداری کرد.

مقاله 2

عنوان مقاله:

زیرساخت شبکه ای مورد نیاز کاربردهای داده های عظیم در مراکز داد ه

نام ارائه دهنده: محمد مهدی تاجیکی

موضوع ارائه

در این مقاله به بررسی نیازمندی های شبکه های داده های عظیم در بحث مدیریت جریان داده ها پرداخته شد

چالش مطرح شده

داده ها در حال افزایش اند و به صورت داده های کلان تبدیل شده اند . استفاده از این داده ها می تواند مزایای فراوانی را در بر داشته باشد. مسئله اصلی ذخیره سازی و پردازش این داده هاست.

قبلا ترافیک موجود در شبکه ها به صورت شمالی جنوبی بوده است یعنی بین چندین کلاینت و 1 سرور . اما در حال حاضر این ترافیک به صورت شرقی غربی شده است. ویژگی های دیگر شبکه انتقال داده های عظیم عبارتند از : ترافیک انفجاری، حجم زاید داده ، مدت زمان زیاد داده ها در شبکه اند، ازدحام ازآنجاییکه بحث توزیع شده مطرح است، انتقال داده مهم می شود. همچنین ازدحام ، کاهش بهره وری و تاخیر به علت حجم بالای داده اتفاق می افتد. باید روش های متناسب با این داده ها را در شبکه به کار برد.

راه حلهای ارائه شده برای آن چالش

  • در بحث مجازی سازی و رایانش ابری باید از سوییچینگ فابریک استفاده شود. یعنی بین هر دو نود چند مسیر داشته باشیم .
  • تا کنون روشهایی برای مدیریت لایه دسترسی و مدیریت ستون فقرات و مهندسی ترافیک شبکه شبکه وجود داشته است. این روش ها دید کلی به توپولوژی شبکه نداشتند و مشکلاتی را در داده های عظیم در بر خواهند داشت.
  • روش prob : این روش برای مدیریت ترافیک است و مبتنی بر میزبان عمل می کند و از تکنیک نمونه برداری بسته ها استفاده می کند و مسیرهای جدید رامعرفی می کند تا تداخل پایین بیاید.
  • شبکه های SDN : برای مدیریت شبکه است. در واقع صفحه کنترل را از صفحه داده جدا می کند. داده ها به سمت کنترل کننده می روند و کنترل کننده مشخص می کند که هر داده از چه مسیری برود.

نکات کاربردی :

با استفاده از Big Data، گوگل توانست شیوع آنفولانزا را پیش بینی کند.

مقاله 3

عنوان مقاله : Big Data Analytics: Platforms and applications

نام ارائه دهنده : سینا سوهانگیر

موضوع ارائه

در رابطه با اپلیکیشن های Big Data صحبت می کند. اپلیکیشن های آنلاین در این ارائه صحبت می شود. در نهایت روش های موجود برای مدیریت Big Data بحث می شود.

چالش مطرح شده

  • اپلیکیشن هایی داریم که با داده هایی در حد Big Data مواجه هستند از جمله داده های تراکنش ها، advertizing و شبکه های اجتماعی . در این کاربردها داده ها بسیار حجم بالایی دارند و همچنین حاوی اطلاعات مفید و مهمی هستند که باید استخراج شوند. حتی در ایران هم مابا Big data مواجه هستیم.
  • دو نوع آنالیز داده وجود دارد.
    • آنالیز رتبه 1 : هر point را برای خودش در نظر می گیریم.
    • آنالیز رتبه 2 : آنالیز آیتم به آیتم، یوزر به آیتم ، یوزر به یوزر (شبکه های اجتماعی) . در این بخش از آنالیز است که مفهوم Big Data اهمیت پیدا می کند.
      • در واقع اولین اپلیکیشن Big Data همان Advertizing است چون برای آنالیز رتبه 1 هم نیاز به Big Data دارد. یعنی لازم داریم که داده های یک کاربر را بررسی کنیم که مثلا چه چیزهایی را باهم خریداری می کند و دفعات بعد به او پیشنهاد دهیم.
      • اغلب کاربردها برای آنالیز رتبه 1 نیاز به Big Data ندارند بلکه در آنالیز رتبه 2 است که Big Data مهم می شود.

راه حلهای ارائه شده برای آن چالش

  • ابزارهایی که تا کنون برای Big Data مطرح بوده است عبارتند از :
  1. Distributed file system : گوگل از این روش استفاده کرده است. هادوپ هم بر همین اساس است.
  2. Distributed file system : این ابزارها معمولا متن بازند. Hbase در این بخش است.
  3. Distributed computing : Map Reduce ، Dremel و Spark در این بخش قرار گرفته اند.
  4. Cluster Management : هادوپ اصلا این بخش را ندارد.
  • باید از ابزارهای جدید و به روز برای Big Data استفاده کرد چراکه ابزارهای سابق کارایی لازم را ندارند. درحال حاضر دو پلتفرم متن باز Spark از شرکت DataBricks و Mesos از شرکت mesosphere مطرح هستند که باید به آنها پرداخته شود.

بحثهای پیرامونی ونظرحضارواساتید

  • سوال : گفته شد که هادوپ کند است خوب spark هم که بر پایه هادوپ است هم کند است؟
    • خیر ، spark بر پایه ی هادوپ نیست. Spark برای نصب به یک distributed file system نیاز دارد که می تواند هادوپ یا هر چیز دیگری باشد.

نکات کاربردی هرارائه

Spark* از زبان اسکالا استفاده می کند برنامه ها در این زبان بسیار کوتاه است. برنامه هایی که با spark نوشته شده اند برای اثبات این بوده که این زبان بسیار کد کمی لازم دارد

مقاله 4

عنوان مقاله:

نام ارائه دهنده:

بحث و تبادل نظر و جمع بندی

لینک های مرتبط