همایش کلان داده دی ۱۳۹۳:نشست کابردها و راهکارهای مدیریت داده های عظیم

از OCCC Wiki
پرش به ناوبری پرش به جستجو

مستند شده توسط: معصومه رضائی جم

مقالات ارائه شده

مقاله ۱

عنوان مقاله: ارائه مدل مفهومی روندها و حوزه های تحقیقاتی داده های عظیم

نام ارائه دهنده: دکتر علیرضا یاری

چالش مطرح شده

حوزه های تحقیقاتی در کلان داده چیست؟

خلاصه مطالب ارائه شده

به رشد بسیار سریع داده ها و جایگاه و اهمیت مباحث کلان داده در دنیا اشاره شد و مباحثی از جمله تعریف، خواص سه گانه و خواهش هفتگانه آن بیان گردید که قبلا در صفحه تعاریف کلان داده در ویکی مطرح شده است.

راه حل های ارائه شده

مدل مفهومی در حوزه کلان داده پیشنهاد می شود تا به وسیله آن نگاه های مختلفی که به کلان داده وجود دارد نشان داده شود. این مدل دارای 2 سطح است. یکی در سطح اول یعنی سطح فنی که مراحل، سیاست ها ، فرآیندها و متدولوژی ها را بیان می کند و سطح دوم یعنی سطح کلان که در نگاه کلانتر، نیازمندی های محیطی، کاربردها، سناریو، سرویس ها و از این قبیل را مورد بررسی قرار می دهد.

سطح اول یا همان سطح فنی: مراحل شامل تولید ، دریافت و انتقال ، ذخیره سازی ، تحلیل است. که فرایند دریافت شامل جمع آوری ، انتقال ، پیش پردازش است و فرایند تحلیل شامل ایجاد منابع داده ، مدیریت و نگهداری داده ، مدلسازی داده ، تحلیل نتیجه و نمایش آن می باشد. همچنین تحلیل دارای سیاستهایی است که شامل انواع توصیفی ، پیش بینی ، تجویزی می باشد. متدولوژی های این سطح متشکل است از : داده كاوي - بهينه سازي - تشخيص الگو - يادگيري ماشين - شبكه عصبي - پردازش سيگنال - آمار و رياضيات محض

سطح دوم یا همان سطح کلان: بعنوان نمونه در این سطح موارد زیر مطرح است: ذينفعان در آن عبارتند از توليدکنندگان داده هاي عظيم- سياستگذاران-توسعه دهندگان- سرويس‌دهندگان- مخاطبين سرویس ها در آن عبارتند از آناليز آفلاين به عنوان سرويس - آناليز برخط و پيوسته به عنوان سرويس - پايگاه داده به عنوان سرويس - داده به عنوان سرويس - دانش به عنوان سرويس - اطلاعات به عنوان سرويس - هوشمندي به عنوان سرويس اقلام نوع داده عبارتند از ساخت يافته: داراي اسکيما و مدلهاي از قبل تعريف شده - غير ساخت يافته: بدون هيچ مدل از پيش تعريف شده - نيمه ساخت يافته: فاقد مدل ساخت يافته - ترکيب: انواع متفاوت داده در کنار يکديگر


چالشها و فرصتهاي پيش رو در مواجهه با داده هاي عظيم

چالشها عبارتند از :

  • امنيت
  • بودجه
  • نيروي انساني ماهر در پياده سازي و به کارگيري داده عظيم
  • دشواري در يکپارچگي با سيستم­هاي فعلي
  • فروشندگان محدود در اين حوزه
  • همچنين عدم آمادگي سازمان

مهمترین فاکتورهای موفقیت عبارتند از:

  • توجه به بين رشته اي بودن پديده داده عظيم
  • تعامل تيم هاي کسب و کار و فناوري اطلاعات
  • برخورداري از حمايت مديران ارشد


زمينه هاي نوين تحقيقاتي داده هاي عظيم

زيرساخت ها و بسترهاي داده هاي عظيم - امنيت، مسائل حقوقي و استانداردهاي داده هاي عظيم - مدل ها، الگوريتم ها و راهکارهاي ذخيره، دسترسي، جستجو، تحليل، پالايش، پردازش، کاوش و مديريت داده هاي عظيم - سرمايه گذاري، راهبرد و الگوهاي مهاجرت به داده هاي عظيم - مديريت مصرف انرژي در داده هاي عظيم


بحث‌های پیرامونی و نظر حضار و اساتید:

به دنبال راهکارها و روش های مناسبی باشیم تا داده های عطیم را هوشمندانه تر ذخیره کنیم تا بهره گیری از آنها بهتر گردد. بهتر است به جای عبارت "دانش بعنوان سرویس" از عبارت "استفاده از دانش بعنوان سرویس" بهره بگیریم.

مقاله ۲

عنوان مقاله: مدیریت داده های عظیم در موتورهای جستجو

نام ارائه دهنده: دکتر علیمحمد زارع بیدکی

چالش مطرح شده

چالشهای دنیای وب از جمله حجم زياد اطلاعات با رشد نمايي (11 ميليارد صفحه در 2005 (ايران ده ميليون)، 150 ميليارد صفحه در 2014 ( ايران ششصد ميليون)) و همچنین محيط پويا (صفحات جديد با نرخ 8درصد در هفته توليد ميشوند، 20 درصد صفحات موجود بعد از يكسال قابل دسترس نيستند، محيطي با اطلاعات متنوع HTML، DOC، PDF، MP3 و غيره)

خلاصه مطالب ارائه شده

در این ارائه بر روی موتور جستجو پارسی جو تمرکز شد و آمارها بصورت زیر ارائه گردید: پوشش پانصد ميليون سند فارسي - داراي خزشگري به نام ايساتيس با قدرت خزش دو ميليارد سند به صورت متوالي - هوشمند در تشخيص اسناد مهم - خزش دوره اي در بازه هاي منظم - نمايه سازي و پردازش سريع اطلاعات - طراحيِ مبتني بر بستر توزيع شده و مقياس پذير - استفاده از پردازشگر هوشمند زبان فارسي - طراحي و پياده سازي يك خطاياب هوشمند - پياده سازي پردازشگر متون فارسي - استفاده از روش رتبه بندي كارا - بهينه سازي و ارتقاء مداوم الگوريتم -

همچنین به پردازش گراف وب با گراف با پانصد ميليون گره و بيش از ده ميليارد يال، اجراي الگوريتم هاي رتبه بندي مبتني بر گراف (محبوبيت) و اجراي الگوريتم هاي تشخيص صفحات اسپم اشاره گردید که اینها همگی نیازمند کار با داده ای در حجم عظیم و کلان است.

راه‌حل‌های ارائه‌شده برای چالش مطرح‌شده

در این ارائه راه حل مدونی برای این چالش ها مطرح نشد و بیشتر بر روی مقیاس بزرگ داده صحبت شد.

بحث‌های پیرامونی و نظر حضار و اساتید

عدم ارائه راه حل توسط ارائه دهنده را به عنوان نقصی بر ارائه مطرح نمودند.

مقاله ۳

عنوان مقاله: داده های عظیم در دوران پساژنوم

نام ارائه دهنده: دکتر مهدی صادقی

چالش مطرح‌شده

استفاده از کلان داده در زیست شناسی به امری ضروری و غیر قابل اجتناب تبدیل شده است. زیرا در زیست شناسی نیز به شدت تکنولوژی رشد پیدا کرده است و به همین دلیل داده به شدت بسیار زیادی تولید می گردد که قطعا این حجم عظیم داده باید آنالیز شده و از آن معنا استخراج گردد. بعنوان نمونه اطلاعات تنها یک ژنوم انسان در حدود چند میلیارد کاراکتر است. این داده در واقع حافظه سلول ماست و بدن انسان شبکه عظیمی از این سلول هاست.

خلاصه مطالب ارائه شده

اطلاعات بسیاری در باره پیچیدگی و وسعت اطلاعات ژنوم ارائه شد تا تصدیقی بر عظیم بودن، پیچیدگی و تنوع اطلاعات آن باشد. علم زیست شناسی به سمتی پیش می رود که در آینده نزدیک در دنیا هر کس داروی مخصوص به خود را خواهد داشت که این دارو با توجه به اطلاعات ژنوم او تجویز خواهد شد. بدین منظور روزانه اطلاعات سلامت فرد که در حدود چند پتا بایت است پردازش می گردد. آنالیز این داده عظیم می تواند مواردی چون طول عمر بیمار، بیماری های آینده و ... را پیش بینی نماید که البته نگرانی برای حقوقدانان محسوب می شود.

راه‌حل‌های ارائه‌شده برای چالش مطرح‌شده

در واقع این ارائه بر روی کاربرد و نقش مهم کلان داده در زیست شناسی تمرکز کرده بود و به دنبال راه حلی نبود.

نکته کاربردی

باید همواره توجه داشت که چنین حجم عظیمی از داده نیازمند این است که حتما در حین تولید آن الگوها استخراج گردند تا جمع آوری و پردازش آن هوشمندانه تر صورت گیرد.

مقاله ۴

عنوان مقاله: ارائه مدل داده مناسب برای داده های عظیم

نام ارائه دهنده: دکتر علی اصغر صفایی

چالش مطرح‌شده

ارائه یک مدل داده پیشنهادی که برای کلان داده مناسب و کارآمد باشد در حالیکه مدل های سنتی برای داده های جدید، کاربردهای جدید و ارتباطات جدید، ضعیف بوده و مقیاس پذیر نیستند.

خلاصه مطالب ارائه شده

مدل هاي داده مورد استفاده براي داده هاي عظيم به 3 دسته تقسیم می شوند:

  1. رابطه اي و شيء-رابطه اي که دارای خواص ساخت یافته، ضعف در پشتيباني از ارتباط ها، عدم مقياس پذيري می باشد.
  2. XML که انعطاف پذير اما با امنيت پايين و همچنین دارای ساختار درختواره می باشد.
  3. (NoSQL (Column, Document, Key-value, Graph که پشتيباني از ارتباط ها، نسبتاً مقياس پذير، در اغلب کاربردهای فعلي داده هاي عظيم نظير شبکه هاي اجتماعي از جمله ویژگی های آن است.

راه‌حل‌های ارائه‌شده برای چالش مطرح‌شده

در روش پیشنهادی برای رسیدن به ویژگی های یک مدل داده مناسب و خوب، مدلی با نام گراف تو در تو معرفی می گردد که مبتني بر مدل گراف بوده و هر نمونه در قالب يک گره است که با ساير نمونه ها در ارتباط است (انواع گوناگون ارتباط). همچنین هر گره خود مي تواند شامل داده، يا زيرگره باشد (تعريف بازگشتي). در آن هرگره شامل داده ذخيره شده براي آن موجوديت (صفت هاي خاصه) در قالب هاي ساختيافته (Row)، نيمه ساختيافته (المان XML) يا غيرساختيافته (يک document مثلاً از نوع متني) می باشد. بعلاوه هر گره می تواند شامل زيرگره هايي ديگر (با استفاده از نوع داده ارجاع (ref)) نیز باشد.

برای مدل پیشنهادی می توان مزایایی از قبیل مقياس پذيری از نظر اندازه (Volume) و همچنین جغرافيا، انعطاف پذيري در پشتيباني انواع داده (Variety)، سازگاري با مدل هاي داده سنتي (رابطه اي، شيء-رابطه اي)، کارايي در پيمايش سريع و راحت ارتباط ها (بين گره ها و زيرگره ها) (Velocity) و نسبتاً ساده بودن را ادعا کرد.

مقاله ۵

عنوان مقاله: خوشه‌بندی انعطاف‌پذیر مبتنی بر چگالی داده‌های عظیم شبکه

نام ارائه دهنده: مهندس سعید عادل مهربان

چالش مطرح‌شده

چالش‌های پردازش داده‌های عظیم همچون محدودیت ذخیره‌سازی، محدودیت پردازشی و خرابی گره‌ها مورد توجه قرار گرفته که خوشه‌بندی داده‌های عظیم و توسعهٔ روش‌های کلاسیک برای سکّوهای پردازش داده‌های عظیم برای رفع این چالش ها به عنوان هدف مطرح است.

راه‌حل‌های ارائه‌شده برای چالش مطرح‌شده

الگوریتمی که ارائه می گردد دارای ویژگی های زیر است:

  • روش خوشه‌بندی مبتنی بر چگالی (تمرکز بر خوشه‌هایی با چگالی متفاوت) KNNCA
  • چارچوب پردازش توزیع‌شده نگاشت‌کاهش و توسعهٔ روش خوشه‌بندی MR-KNNCA
  • رویکرد انتخابی تقسیم فضا و خوشه‌بندی محلّی و استفاده از آمار موجود در داده‌ها جهت تقسیم فضا

بنابراین مراحل زیر را دنبال می کند:

  1. تقسیم فضا جهت ممکن کردن پردازش داده‌ها در یک گره
  2. خوشه‌بندی داده‌های هر قسمت در یک گره
  3. ادغام نتایج خوشه‌های قسمت‌های مختلف

بحث‌های پیرامونی و نظر حضار و اساتید

دیتا ست تولیدی برای ارزیابی روش خیلی معتبر نیست.

مقاله ۶

عنوان مقاله: تحلیل داده های عظیم ثبت وقایع موتور جستجوی بومی با هدف رفتارشناسی و ذائقه سنجی کاربران فارسی زبان

نام ارائه دهنده: مهندس مریم محمودی

چالش مطرح شده

شناخت رفتار و علائق كاربران فارسي زبان در وب و توليد ابزار ارزيابي و نظارت بر موتور جستجوي بومي هدف این پژوهش بوده است که برای این منظور چالش های پیش رو حجم بالاي داده‏ ها، استخراج اطلاعات مفيد از ميان انبوهي از داده‏هاي لاگ و سرعت پاسخگويي بالا از جمله آنها می باشد.

خلاصه مطالب ارائه شده

نتايج تحليل­ها نشان می دهد که به طور متوسط طول پرس ­وجوي مورد استفاده كاربران فارسي­ زبان بيشتر از طول پرس­ وجوي كاربران غيرفارسي­ زبان است. كاربران اين موتور جستجو بيشتر از سرويس متني استفاده مي­كنند و علاقمند به جستجوي موضوعات خبري، تفريحي، و اقتصادي مي­باشند.همچنین مراجعات بستر موبايل متوسط آمار كليك قابل توجهي دارد. باید دانست که داده ­هاي فايل ثبت وقايع حاوي اطلاعات ارزشمندي هستند كه براي فعالان و برنامه ­ريزان حوزه فناوري اطلاعات، تجارت الكترونيك، دولت­الكترونيك قابل استفاده است.


راه حل های ارائه شده

به طور کلي به منظور تحليل رفتار کاربران موتور جستجوي پارسي­جو از طريق داده­هاي فايل ثبت وقايع، پنج مرحله جمع‌آوري داده، استخراج و پاكسازي داده­ها، يكپارچه­سازي و جمع­بندي داده­ ها،‌ تحليل داده­ها، و تفسير داده صورت گرفت. با توجه به حجم انبوه داده­هاي فايل ثبت وقايع و متعاقباً پردازش­هاي سنگين، در مراحل پاكسازي و استخراج اطلاعات از داده­ها از بستر هدوپ استفاده شده است.

مقاله ۷

عنوان مقاله: ارائه مدلی جهت خوشه بندی جریان صفحات وب برای موتورهای جستجو با استفاده از محیط های توزیع شده

نام ارائه دهنده: مهندس سعید رحمانی

چالش مطرح شده

آیا می توان برای خوشه بندی صفحات وب، از مدلی مبتنی بر توزیع شدگی بهره گرفت؟

راه حل های ارائه شده

الگوریتمی با نام FICA را برای رتبه بندی گره های گراف پیشنهاد کرده اند که برای پیاده سازی آن از مپ ردیوس بهره می گیرند.

بحث و تبادل نظر و جمع بندی

دریافت پروپوزال و چالش از افراد حاضر در صنعت در چنین همایش هایی امکانپذیر و مفید خواهد بود. بعلاوه باید به دنبال راهکارهایی برای جذب اعتماد صنعت جهت ورود به حوزه کلان داده باشیم تا بتوانیم ضمن دریافت نیازها و چالش های آن ها، برای استفاده از راهکارهای کلان داده آنها را تشویق نماییم. البته متاسفانه به علت کمبود زمان و کاهش تعداد حاضرین، بحث تکمیلی درباره ی اینگونه راهکارها انجام نشد. همچنین به نکاتی از قبیل افزایش تعداد روزهای همایش در عوض فشردگی برنامه ها نیز اشاره گردید.


لینک های مرتبط