همایش کلان داده دی ۱۳۹۳:نشست زیرساخت ها و بسترهای داده های عظیم

از OCCC Wiki
پرش به ناوبری پرش به جستجو

مستند شده توسط: زهره گلی

مقالات ارائه شده

مقاله ۱

عنوان مقاله: Big Data View of Communication Network

نام ارائه دهنده: بابک حسین خلج

موضوع ارائه  : Big data و تاثیر آن در بهبود شبکه مخابراتی

چالش مطرح شده

  1. با توجه به پیدایش بخث big data و لزوم کار با این داده ها، اپراتور ها به شدت از جهت مالی تحت فشار هستند و باید از هر ابزاری برای بهبود کارایی شبکه استفاده کنند. سوال مطرح شده این است که چگونه اطلاعات شبکه مخابراتی را از دید تکنیکی بهبود ببخشیم؟
  • مباحث privacy , probing و پراکندگی انواع داده در این شبکه ها هم باید مورد توجه قرار گیرد.

راه حلهای ارائه شده برای آن چالش

  1. استفاده از ابزارهای Big data
  2. اطلاعات با استفاده از Cloud پردازش شوند و منبع درآمد باشند. تا الان هیچ اپراتوری به این سوال جواب نداده است که چگونه از این اطلاعات استفاده کنند.

باید نگاه جدیدی به شبکه داشت و از self organizing network( SON) استفاده کرد که به صورت هوشمند شبکه را کنترل می کنند.

  • مباحث کلیدی که در Big data مطرح است عبارتند از Database، پردازش موازی، آموزش ماشین، پردازش تصویر،ابزار ریاضی و ...
  • قدم اول پیاده سازی ایده این است که بفهمیم منبع داده ها کجا هستند و ما در چه مقیاسی میخواهیم داده ها را داشته باشیم
  • قدم دوم پیاده سازی این است که چگونه و با چه ابزاری این داده ها را استخراج کنیم (پردازش سیگنال، پردازش تصویر، .. )
  • قدم سوم این است که چه action ی انجام دهیم و چگونه و در چه جایی از این اطلاعات استفاده کنیم .
  • نتیجه گیری : با توجه به این حجم عظیم داده در شبکه های مخابراتی و ابزارهایی که جدیدا برای بحث big data مطرح شده است از جمله رایاش ابری و هوش تجاری، میبایست روشهایی برای پردازش این داده ها با بیشترین سود ارائه داد.


بحثهای پیرامونی ونظرحضارواساتید

  • سوال مطرح شده : آیا استفاده از یک نود مرکزی روی ابر برای پردازش این حجم عظیم داده هزینه بر نیست؟
  • پاسخ : همه داده ها به سمت ابر نمی رود. باید یک لایه میانی قرار داشته باشد که اطلاعات پیش پردازش و خلاصه شوند و اطلاعات مفید به سمت ابر بروند.

نکات کاربردی هرارائه

مزیتی که در بحث شبکه های موبایل وجود دارد این است که اطلاعات خودشان به صورت دیجیتال اند و دیگر اطلاعات کاغذی نداریم که بخواهیم به دیجیتال تبدیل کنیم در حوزه شبکه های مخابراتی افراد در حوزه های مختلف باهم ارتباط دارند که می توان از دانش آنها برای ارائه روش بهره برداری کرد.

مقاله ۲

عنوان مقاله:

زیرساخت شبکه ای مورد نیاز کاربردهای داده های عظیم در مراکز داده

نام ارائه دهنده: محمد مهدی تاجیکی

موضوع ارائه

در این مقاله به بررسی نیازمندی های شبکه های داده های عظیم در بحث مدیریت جریان داده ها پرداخته شد

چالش مطرح شده

داده ها در حال افزایش اند و به صورت داده های کلان تبدیل شده اند . استفاده از این داده ها می تواند مزایای فراوانی را در بر داشته باشد. مسئله اصلی ذخیره سازی و پردازش این داده هاست.

قبلا ترافیک موجود در شبکه ها به صورت شمالی جنوبی بوده است یعنی بین چندین کلاینت و 1 سرور . اما در حال حاضر این ترافیک به صورت شرقی غربی شده است. ویژگی های دیگر شبکه انتقال داده های عظیم عبارتند از : ترافیک انفجاری، حجم زاید داده ، مدت زمان زیاد داده ها در شبکه اند، ازدحام ازآنجاییکه بحث توزیع شده مطرح است، انتقال داده مهم می شود. همچنین ازدحام ، کاهش بهره وری و تاخیر به علت حجم بالای داده اتفاق می افتد. باید روش های متناسب با این داده ها را در شبکه به کار برد.

راه حلهای ارائه شده برای آن چالش

  • در بحث مجازی سازی و رایانش ابری باید از سوییچینگ فابریک استفاده شود. یعنی بین هر دو نود چند مسیر داشته باشیم .
  • تا کنون روشهایی برای مدیریت لایه دسترسی و مدیریت ستون فقرات و مهندسی ترافیک شبکه شبکه وجود داشته است. این روش ها دید کلی به توپولوژی شبکه نداشتند و مشکلاتی را در داده های عظیم در بر خواهند داشت.
  • روش prob : این روش برای مدیریت ترافیک است و مبتنی بر میزبان عمل می کند و از تکنیک نمونه برداری بسته ها استفاده می کند و مسیرهای جدید رامعرفی می کند تا تداخل پایین بیاید.
  • شبکه های SDN : برای مدیریت شبکه است. در واقع صفحه کنترل را از صفحه داده جدا می کند. داده ها به سمت کنترل کننده می روند و کنترل کننده مشخص می کند که هر داده از چه مسیری برود.

نکات کاربردی :

با استفاده از Big Data، گوگل توانست شیوع آنفولانزا را پیش بینی کند.

مقاله ۳

عنوان مقاله : Big Data Analytics: Platforms and applications

نام ارائه دهنده : سینا سوهانگیر

موضوع ارائه

در رابطه با اپلیکیشن های کلان داده(Big Data) صحبت می کند. اپلیکیشن های آنلاین در این ارائه صحبت می شود. در نهایت روش های موجود برای مدیریت کلان داده بحث می شود.

چالش مطرح شده

  • اپلیکیشن هایی داریم که با داده هایی در حد کلان داده مواجه هستند از جمله داده های تراکنش ها، تبلیغات و شبکه های اجتماعی . در این کاربردها داده ها بسیار حجم بالایی دارند و همچنین حاوی اطلاعات مفید و مهمی هستند که باید استخراج شوند. حتی در ایران هم ما با Big data مواجه هستیم.
  • دو نوع آنالیز داده وجود دارد.
    • آنالیز رتبه 1 : هر point را برای خودش در نظر می گیریم.
    • آنالیز رتبه 2 : آنالیز آیتم به آیتم، یوزر به آیتم ، یوزر به یوزر (شبکه های اجتماعی) . در این بخش از آنالیز است که مفهوم کلان داده اهمیت پیدا می کند.
      • در واقع اولین اپلیکیشن کلان داده همان تبلیغات است چون برای آنالیز رتبه 1 هم نیاز به کلان داده دارد. یعنی لازم داریم که داده های یک کاربر را بررسی کنیم که مثلا چه چیزهایی را باهم خریداری می کند و دفعات بعد به او پیشنهاد دهیم.
      • اغلب کاربردها برای آنالیز رتبه 1 نیاز به کلان داده ندارند بلکه در آنالیز رتبه 2 است که کلان داده مهم می شود.

راه حلهای ارائه شده برای آن چالش

  • ابزارهایی که تا کنون برای Big Data مطرح بوده است عبارتند از :
  1. Distributed file system : گوگل از این روش استفاده کرده است. هادوپ هم بر همین اساس است.
  2. Distributed Data Base : این ابزارها معمولا متن بازند. Hbase در این بخش است.
  3. Distributed computing : ابزارهایی مانند MapReduce ، Dremel و اسپارک(SPARK) برای این منظور طراحی و ارائه شده اند.
  4. Cluster Management : هادوپ اصلا این بخش را ندارد.
  • باید از ابزارهای جدید و به روز برای کلان داده استفاده کرد چراکه ابزارهای سابق کارایی لازم را ندارند. درحال حاضر دو پلتفرم متن باز اسپارک از شرکت DataBricks و Mesos از شرکت mesosphere مطرح هستند که باید به آنها پرداخته شود.

بحث‌های پیرامونی ونظرحضار و اساتید

  • سوال : گفته شد که هادوپ کند است خوب اسپارک هم که بر پایه هادوپ است هم کند است؟
    • خیر ، اسپارک بر پایه ی هادوپ نیست. اسپارک برای نصب به یک distributed file system نیاز دارد که می تواند هادوپ یا هر چیز دیگری باشد.

نکات کاربردی هرارائه

  • اسپارک از زبان اسکالا استفاده می کند برنامه ها در این زبان بسیار کوتاه است. برنامه هایی که با اسپارک نوشته شده اند برای اثبات این بوده که این زبان بسیار کد کمی لازم دارد

مقاله ۴

عنوان مقاله:

اسکادی مپ ردیوس: روشی جهت حل کارای مسائل بر پایه نگاشت- کاهش

نام ارائه دهنده:

محمد حسین برخورداری- مهدی نیامنش

موضوع ارائه

در این ارائه یکی از روش های کار با Big Data مطرح می شود و برای برطرف ساختن مشکلات وارد بر این روش راهکاری ارائه می گردد.

چالش مطرح شده

  • با توجه به سرعت تولید داده وهمچنین حجم زیاد آن، لازم است روش هایی جهت مدیریت کارای این داده ها وجود داشته باشد. Map –Reduce یا نگاشت – کاهش یک مدل برنامه نویسی است که می توان مسائل کلان داده را با آن حل کرد.
  • نگاشت کاهش یک سری مشکلاتی را در بردارد
    • اولین مشکل این است که گلوگاه در شبکه ایجاد می شود. چراکه سرعت نود خیلی بالاتر از سرعت شبکه است.
    • مشکل دوم که درواقع از همان مشکل اول ناشی می شود، عدم استفاده کارا از سخت افزار است.
    • این دو مشکل به صورت پیش فرض در همه نگاشت کاهش ها وجود دارد.
  • هدف این است که بتوانیم کارایی را در نگاشت کاهش رعایت کنیم.
    • کارایی با کاهش هزینه شبکه ، حل مسئله با سرعت بیشتر و استفاده بهتر از سخت افزار حاصل می شود.

. راه حلهای ارائه شده برای آن چالش

  • اگر هر گره اطلاعات خودش را داشته باشد و نیاز به ارتباطات شبکه ای نداشته باشد در واقع گره مستقل باشد، برای کاراسازی مناسب است.
  • تا کنون روشها ی مختلفی برای کاراسازی نگاشت کاهش ارائه شده است که عبارتند از :
    • تخصیص بهینه کارها بین گره ها  : در این روش چک می کند که داده کجاست و با توجه به آن کارها را به گره ها اختصاص می دهد.
    • بهینه سازی پرس و جو : با استفاده از یک زبان ساخت یافته مانند Hive
    • پشتیبانی از حلقه : R map-reduce و spark حلقه را وارد نگاشت-کاهش کردند
    • بهینه سازی بی درنگ : بی درنگ پردازش انجام می دهد.
    • بهبود کارایی شبکه ای : هزینه شبکه را کاهش می دهد.
      • روش ارائه شده در این مقاله هم در این دسته قرار می گیرد.


  • حل مسئله نگاشت کاهش از دو جنبه صورت می گیرد
    • داده ها:
      • در روش پیشنهادی، داده ها به فرمت یکسان در می آیند، نود ها داده های مشابهی دارند و وابسته به داده خودشان می شوند و نیازی به تبادل اطلاعات در شبکه نداریم.
      • همچنین باید تکرار در شبکه محدود شود.
    • عملیات بر روی داده ها :
      • استفاده از یک نگاشتگر ناغربالگر که هیچکدام از کلید ها حذف نشوند.


لذا روش پیشنهادی در گام های زیر ارائه می شود :

  • گام اول : ایجاد قالب یکنواخت برای داده
  • گام دوم : استفاده از نگاشتگر ناغربالگر
  • گام سوم : محدود کردن تکرار به سطح اول

با این روش چند مسئله از جمله مسئله یافتن کوتاهترین مسیر حل شده است.

بحثهای پیرامونی ونظرحضارواساتید

  • سوال : گفته شد که هادوپ کند است خوب spark هم که بر پایه هادوپ است هم کند است؟
    • خیر ، spark بر پایه ی هادوپ نیست. Spark برای نصب به یک distributed file system نیاز دارد که می تواند هادوپ یا هر چیز دیگری باشد.

نکات کاربردی هرارائه

  • Maper  : ورودی های کلید مقدار را میگیرد و کلید مقدار میانی تولید می کند.
    • ممکن است چندین لایه Maper داشته باشیم که منظور از maper –ِ لایه اول ، maper ای است که داده اولیه به ان وارد می شود.
  • Reducer : کلید مقدار میانی را میگیرد و به نهایی تبدیل می کند.
  • منظور از تکرار در تکنیک نگاشت کاهش : یعنی هر کدام مسائل که احتیاج دارند نتایج نهایی دوباره به نگاشتگر داده شود.

مقاله ۵

عنوان مقاله :

تحلیل داده های عظیم به عنوان سرویس : مدلی برای ارائه خدمات تحلیل داده های عظیم

نام ارائه دهنده :

امیر صحافی- مهدی نظری چراغلو


موضوع ارائه

در این ارائه به تعریف Big Data و همچنین رایانش ابری پرداخته شد و مزایای استفاده از رایانش ابری برای داده های عظیم عنوان شد.

چالش مطرح شده

  • با توجه به گستردگی خدمات فناوری اطلاعات در کشور، داده ها هم در حال رشد اند . لازم است این اطلاعات پردازش شوند و دانش سودمندی از آنها تولید شود.
  • شرکتها برای تحلیل داده ها نیاز به منابع دارند و خرید منابع برای آنها به صرفه نیست.

چرخه ای متصور است که از تحلیل داده های عظیم آغا ز می شود و نهایتا به بصری سازی این داده ها می انجامد.

  • روش های قبلی برای داده های عظیم جوابگو نیست و باید سراغ ابزارها، الگوریتم ها ،دیتابیس ها و روشهای پردازشی جدیدی برویم.

راه حلهای ارائه شده برای آن چالش

  • در عصر حاضر رایانش ابری مدل رایانشی فراگیری است و با توجه به نیاز به پردازش داده های عظیم، می توان از این تکنولوژی بهره برد
  • در واقع هادوپ نقطه عطف رایانش ابری و Big Data است.
    • در Big Data نیاز داریم که کوئری هایی روی محیط های توزیع شده اجرا شده و نتایج به سرعت برگردند.
    • رایانش ابری با تعمیم هادوپ می تواند ما را به این هدف برساند.
    • هادوپ دو بخش اصلی دارد که بر این اساس سرویسهای مختلفی هم عرضه شده است.
      • HDFS
      • Map – Reduce


  • برای تحلیل داده ها نیازمند ذخیره سازی ایم. میتوان از هر کدام از سطوح سرویس یا مدل های استقرار ابر با توجه به سیاست های سازمان استفاده کرد.
    • برای مراکز نظامی که محرمانگی مهم است میتوان از ابر خصوصی استفاده کرد
    • برای زمانی که داده ها خارج از سازمان اند اشتراک ابرهای مختلف مناسب است.

نتیجه گیری :

استفاده از مدلهای ابری مخصوصا ابر عمومی علاوه بر صرفه اقتصادی که دارد می تواند برای کسب و کارهای متوسط و کوچک خیلی مفید واقع شود. پس ابر به ذخیره سازی و پردازش و بصری سازی کمک می کند. با توجه به سیاست سازمان می توان از انواع مدلهای ابر استفاده کرد.

بحثهای پیرامونی ونظرحضارواساتید

  • سوال : گفته شد که هادوپ کند است خوب spark هم که بر پایه هادوپ است هم کند است؟
    • خیر ، spark بر پایه ی هادوپ نیست. Spark برای نصب به یک distributed file system نیاز دارد که می تواند هادوپ یا هر چیز دیگری باشد.

نکات کاربردی هرارائه

  • رایانش ابری تعریف واحدی ندارد و در این ارائه تعریف NIST از آن مطرح شد
    • طبق این تعریف 4 مدل استقرار ابر، 3 مدل سرویس و 5 ویژگی آن بیان شد.
  • در واقع در رایانش ابری می توانیم هر چیز را به عنوان سرویس داشته باشیم(XaaS) . حتی Hadoop as a service هم مطرح شده است.
  • داده های عظیم با سه V یعنی حجم بالا سرعت (تولید و پردازش) بالا و تنوع بالا شناخته می شوند.


مقاله ۶

عنوان مقاله :

زیرساخت های نسل آینده برای کلان داده

ارائه دهنده : حسن یگانه

موضوع ارائه

در این ارائه به بررسی ضرورت های معماری و زیرساخت شبکه برای داده های عظیم پرداخته شد.

چالش مطرح شده

  • ما با بحث کلان داده مواجه هستیم و این داده ها تفاوت هایی با داده های قبلی دارند . با توجه به این قضیه با چالش زیرساخت مواجه هستیم. باید برای کار با این داده ها نیازمندی های لازم را فراهم کنیم تا موقع نیاز به راحتی داده ها را پردازش و تحلیل کنیم.
  • با ید بتوان در لحظه این داده های عظیم را جمع آوری و تحلیل کرد تا بتوان در کسب و کار از آنها بهره برد.
  • جریان های ترافیکی که در Big Data مطرح است در شبکه های سنتی نبوده . در Big Data ترافیک شرقی غربی است. چون داده ها به صورت توزیع شده ذخیره می شوند اما شبکه های سنتی ترافیک کلاینت سروری داشتند.
  • در Big Data با روابط داده ای پیچیده، حجم زیاد داده ، داده های غیر ساخت یافته و جریان ترافیکی متفاوت مواجه هستیم.
  • باید زیرساخت مناسب با این ویژگی ها در نظر گرفته شود. باید توجه داشت که این خصوصیات چکونه روی بحث سوییچ ها و روتر ها اثر گذار است. نیاز به زیرساخت قابل توسعه می باشد.
  • اگر ارتباطات شبکه خوب نباشد نمی توان برای Big Data استفاده کرد.

راه حلهای ارائه شده برای آن چالش

  • هنوز الگوی مشخصی برای Big Data ارائه نشده است.
  • معماری شبکه باید ویژگی های زیر را داشته باشد :
    • محلی بودن داده : زیرساخت باید بتواند عملکرد بهینه با سرعت بالا را فراهم کند
    • مقیاس پذیری : باید معماری قابل توسعه باشد
    • ترافیک شرق به غرب : باید پهنای باند بالا ، تاخیر کم و اتصال مستقیم گره ها را داشته باشد.
  • زیرساخت ارائه شده باید شامل ویژگی های زیر باشد :
    • استقلال مکانی : خوشه های کلان داده را هر کجا که مایل بودیم قرار دهیم
    • مقیاس پذیری : نودها قابل افزایش باشند.
    • کارایی
    • افزایش پهنای باند و تاخیر کم
    • همگرایی
    • سادگی اجرا
    • لایه بندی : قابلیت ارتباط با پایگاه داده های سنتی را داشته باشد
    • امکان توسعه افقی
    • مجازی سازی سوییچینگ فابریک : بین هر دو سوییج یک گام بیشتر نباشد.

مقاله ۷

عنوان مقاله : Energy conservation in big data infrastructure : a concise study of data center

ارائه دهنده : هومن ضرابی


موضوع ارائه  :

در این مقاله پیرامون ذخیره سازی انرژی در اپلیکیشن های Big Data و به طور خاص ذخیره سازی انرژی در مراکز داده پرداخته می شود.

چالش مطرح شده

  • در بحث داده های کلان باید کارایی خیلی بالا باشد، خدمات با سرعت ارائه شودتا ارزش داده ها از بین نرود. کارایی که بالا می رود به دنبال آن مصرف انرژی هم بالا میرود.
  • مراکز داده انرژی زیادی را در حال حاضر مصرف می کنند.برای مثال یک مرکز داده 1200 کیلووات در ساعت انرژی مصرف می کند.
  • از 100 درصد انرژی یک مرکز داده، 10 درصد در UPS ها، 50 درصد در بخش IT و 40 درصد نیز برای خنک کردن آنها استفاده می شود.
  • باید راهکارهایی برای صرفه جویی در این مصرف ارائه شود.


راه حلهای ارائه شده برای آن چالش

  • برای کاهش انرژی راهکارهای زیر مطرح شدند :
    • باید از انرژی هایی مثل انرژی خورشیدی استفاده شود.می توان دو مرکز داده داشت، یکی به سمت مغرب و دیگری به سمت مشرق و با توجه به حرکت خورشید در ساعات خاص روز از این مراکز استفاده کرد.
    • استفاده از یک UPS کارا، کارایی را از 80 درصد به 95 درصد افزایش می دهد.
    • مدیریت انرژی در بخش IT صورت گیرد. سرورها در زمان هایی که بلا استفاده اند خاموش شده و بار آنها روی سرور های دیگر منتقل شود.
    • استفاده از مجازی سازی : می توان در زمان های بیکاری یک سرور ، خدمات توسط سرور دیگر ارائه شود. مثلا در یک زمان خاص یکی از سرورها خاموش شود..
      • معمولا استفاده از سرور 25/. است . هر چه قدر بار سرور بیشتر باشد کارامد تراست.
      • اگر سرور هیچ کاری هم انجام ندهد 50 درصد انرژی مصرف می کند.
      • لذا اگر بتوانیم کارها را روی یک سرور جمع کنیم به میزان چشمگیری در مصرف انرژی صرفه جویی کرده ایم.
  • استفاده از تکنیک های خنک سازی : از راهکارهایی مختلفی که برای چیدمان سرور ها و FAN های آنها در نظر گرفته شده است استفاده کنیم.

بحثهای پیرامونی ونظرحضارواساتید

  • سوال مطرح شده : آیا دیتا سنتر در ایران وجود دارد :
    • بله به صورت گوچک ، مثلا مخابرات، شرکت Pars Online و .. دیتاسنتر هایی دارند اما اینهادر حد Big Data نیستند.
  • سوال : آیا خاموش کردن سرور ها منطقی است با توجه به اینکه ممکن است دچار آسیب شوند ؟
    • می توان بار را پیش بینی کرد و با توجه به آن برنامه ریزی کرد
  • پیشنهاد : میتوان از گرمای ایجاد شده توسط سرور ها برای کارهای دیگر استفاده کرد.

بحث و تبادل نظر و جمع بندی

جمع بندی نشست زیرساخت ها و بستر های داده های عظیم

در این نشست به مسائلی زیر پرداخته شد :

  • زیرساخت ها و معماری داده های کلان
  • مصرف انرژی
  • چالش های مطرح شده در شبکه
  • اینکه چه بستری بهتر است استفاده شود.


شرکت زیر ساخت در حال گسترش شبکه است. باید رویکردها مطرح شود و بکار گرفته شوند تا مشخص شود وزارتخانه چه اقداماتی باید انجام دهد. لذا این نشست تشکیل شده است که مسائل داده های کلان بررسی شوند.

  • سوال مطرح شده توسط حضار : آیا وقت آن رسیده است که به سمت داده های کلان برویم؟
    • بله در دنیا سه حوزه مهم وجود دارد که زیاد روی آنها کار می شود . Internet of Thing، cloud computing و Big data . متاسفانه ایران در بحث Cloud عقب است. مسلما کشور ما با توجه به جمعیت زیاد و نیازمندی های مختلفی که در حوزه بهداشت، آموزش و .. دارد باید وارد بحث Big Data شود و از این داده ها استفاده کند. البته باید به این احساس برسیم که باید از این موارد استفاده کنیم.
    • سیاست گذاری ها به اینصورت است که در برنامه جدید توسعه این مباحث در نظر گرفته شده است.
از این همایش باید جمع بندی کرد که نیازمندی های ورود به این موارد چیست.
 این حوزه از رویکردهای مختلف بررسی می شود و برای برنامه ریزی به وزارتخانه ارسال می شود.

لینک های مرتبط