همایش کلان داده دی ۱۳۹۳:نشست کابردها و راهکارهای مدیریت داده های عظیم

از OCCC Wiki
پرش به ناوبری پرش به جستجو

مستند شده توسط: معصومه رضائی جم

مقالات ارائه شده

مقاله 1

عنوان مقاله: ارائه مدل مفهومی روندها و حوزه های تحقیقاتی داده های عظیم

نام ارائه دهنده: دکتر علیرضا یاری

چالش مطرح شده: حوزه های تحقیقاتی در کلان داده چیست؟

خلاصه مطالب ارائه شده: به رشد بسیار سریع داده ها و جایگاه و اهمیت مباحث کلان داده در دنیا اشاره شد و مباحثی از جمله تعریف، خواص سه گانه و خواهش هفتگانه آن بیان گردید که قبلا در صفحه تعاریف کلان داده در ویکی مطرح شده است.

راه حل های ارائه شده: مدل مفهومی در حوزه کلان داده پیشنهاد می شود تا به وسیله آن نگاه های مختلفی که به کلان داده وجود دارد نشان داده شود. این مدل دارای 2 سطح است. یکی در سطح اول یعنی سطح فنی که مراحل، سیاست ها ، فرآیندها و متدولوژی ها را بیان می کند و سطح دوم یعنی سطح کلان که در نگاه کلانتر، نیازمندی های محیطی، کاربردها، سناریو، سرویس ها و از این قبیل را مورد بررسی قرار می دهد. سطح اول یا همان سطح فنی: مراحل شامل تولید ، دریافت و انتقال ، ذخیره سازی ، تحلیل است. که فرایند دریافت شامل جمع آوری ، انتقال ، پیش پردازش است و فرایند تحلیل شامل ایجاد منابع داده ، مدیریت و نگهداری داده ، مدلسازی داده ، تحلیل نتیجه و نمایش آن می باشد. همچنین تحلیل دارای سیاستهایی است که شامل انواع توصیفی ، پیش بینی ، تجویزی می باشد. متدولوژی های این سطح متشکل است از : داده كاوي - بهينه سازي - تشخيص الگو - يادگيري ماشين - شبكه عصبي - پردازش سيگنال - آمار و رياضيات محض

سطح دوم یا همان سطح کلان بعنوان نمونه در این سطح موارد زیر مطرح است: ذينفعان در آن عبارتند از توليدکنندگان داده هاي عظيم- سياستگذاران-توسعه دهندگان- سرويس‌دهندگان- مخاطبين سرویس ها در آن عبارتند از آناليز آفلاين به عنوان سرويس - آناليز برخط و پيوسته به عنوان سرويس - پايگاه داده به عنوان سرويس - داده به عنوان سرويس - دانش به عنوان سرويس - اطلاعات به عنوان سرويس - هوشمندي به عنوان سرويس اقلام نوع داده عبارتند از ساخت يافته: داراي اسکيما و مدلهاي از قبل تعريف شده - غير ساخت يافته: بدون هيچ مدل از پيش تعريف شده - نيمه ساخت يافته: فاقد مدل ساخت يافته - ترکيب: انواع متفاوت داده در کنار يکديگر


چالشها و فرصتهاي پيش رو در مواجهه با داده هاي عظيم چالشها عبارتند از : امنيت بودجه نيروي انساني ماهر در پياده سازي و به کارگيري داده عظيم دشواري در يکپارچگي با سيستم­هاي فعلي فروشندگان محدود در اين حوزه همچنين عدم آمادگي سازمان

مهمترین فاکتورهای موفقیت عبارتند از: توجه به بين رشته اي بودن پديده داده عظيم تعامل تيم هاي کسب و کار و فناوري اطلاعات برخورداري از حمايت مديران ارشد


زمينه هاي نوين تحقيقاتي داده هاي عظيم زيرساخت ها و بسترهاي داده هاي عظيم - امنيت، مسائل حقوقي و استانداردهاي داده هاي عظيم - مدل ها، الگوريتم ها و راهکارهاي ذخيره، دسترسي، جستجو، تحليل، پالايش، پردازش، کاوش و مديريت داده هاي عظيم - سرمايه گذاري، راهبرد و الگوهاي مهاجرت به داده هاي عظيم - مديريت مصرف انرژي در داده هاي عظيم


بحث‌های پیرامونی و نظر حضار و اساتید: به دنبال راهکارها و روش های مناسبی باشیم تا داده های عطیم را هوشمندانه تر ذخیره کنیم تا بهره گیری از آنها بهتر گردد. بهتر است به جای عبارت "دانش بعنوان سرویس" از عبارت "استفاده از دانش بعنوان سرویس" بهره بگیریم.

مقاله 2

عنوان مقاله: مدیریت داده های عظیم در موتورهای جستجو

نام ارائه دهنده: دکتر علیمحمد زارع بیدکی

چالش مطرح شده: چالشهای دنیای وب از جمله حجم زياد اطلاعات با رشد نمايي (11 ميليارد صفحه در 2005 (ايران ده ميليون)، 150 ميليارد صفحه در 2014 ( ايران ششصد ميليون)) و همچنین محيط پويا (صفحات جديد با نرخ 8درصد در هفته توليد ميشوند، 20 درصد صفحات موجود بعد از يكسال قابل دسترس نيستند، محيطي با اطلاعات متنوع HTML، DOC، PDF، MP3 و غيره)

خلاصه مطالب ارائه شده: در این ارائه بر روی موتور جستجو پارسی جو تمرکز شد و آمارها بصورت زیر ارائه گردید: پوشش پانصد ميليون سند فارسي - داراي خزشگري به نام ايساتيس با قدرت خزش دو ميليارد سند به صورت متوالي - هوشمند در تشخيص اسناد مهم - خزش دوره اي در بازه هاي منظم - نمايه سازي و پردازش سريع اطلاعات - طراحيِ مبتني بر بستر توزيع شده و مقياس پذير - استفاده از پردازشگر هوشمند زبان فارسي - طراحي و پياده سازي يك خطاياب هوشمند - پياده سازي پردازشگر متون فارسي - استفاده از روش رتبه بندي كارا - بهينه سازي و ارتقاء مداوم الگوريتم -

همچنین به پردازش گراف وب با گراف با پانصد ميليون گره و بيش از ده ميليارد يال، اجراي الگوريتم هاي رتبه بندي مبتني بر گراف (محبوبيت) و اجراي الگوريتم هاي تشخيص صفحات اسپم اشاره گردید که اینها همگی نیازمند کار با داده ای در حجم عظیم و کلان است.

راه‌حل‌های ارائه‌شده برای چالش مطرح‌شده در این ارائه راه حل مدونی برای این چالش ها مطرح نشد و بیشتر بر روی مقیاس بزرگ داده صحبت شد.

بحث‌های پیرامونی و نظر حضار و اساتید حضار عدم ارائه راه حل توسط ارائه دهنده را به عنوان نقصی بر ارائه مطرح نمودند.

مقاله 3

عنوان مقاله: داده های عظیم در دوران پساژنوم

نام ارائه دهنده: دکتر مهدی صادقی

چالش مطرح‌شده استفاده از کلان داده در زیست شناسی به امری ضروری و غیر قابل اجتناب تبدیل شده است. زیرا در زیست شناسی نیز به شدت تکنولوژی رشد پیدا کرده است و به همین دلیل داده به شدت بسیار زیادی تولید می گردد که قطعا این حجم عظیم داده باید آنالیز شده و از آن معنا استخراج گردد. بعنوان نمونه اطلاعات تنها یک ژنوم انسان در حدود چند میلیارد کاراکتر است. این داده در واقع حافظه سلول ماست و بدن انسان شبکه عظیمی از این سلول هاست.

خلاصه مطالب ارائه شده اطلاعات بسیاری در باره پیچیدگی و وسعت اطلاعات ژنوم ارائه شد تا تصدیقی بر عظیم بودن، پیچیدگی و تنوع اطلاعات آن باشد. علم زیست شناسی به سمتی پیش می رود که در آینده نزدیک در دنیا هر کس داروی مخصوص به خود را خواهد داشت که این دارو با توجه به اطلاعات ژنوم او تجویز خواهد شد. بدین منظور روزانه اطلاعات سلامت فرد که در حدود چند پتا بایت است پردازش می گردد. آنالیز این داده عظیم می تواند مواردی چون طول عمر بیمار، بیماری های آینده و ... را پیش بینی نماید که البته نگرانی برای حقوقدانان محسوب می شود.

راه‌حل‌های ارائه‌شده برای چالش مطرح‌شده در واقع این ارائه بر روی کاربرد و نقش مهم کلان داده در زیست شناسی تمرکز کرده بود و به دنبال راه حلی نبود.

نکته کاربردی باید همواره توجه داشت که چنین حجم عظیمی از داده نیازمند این است که حتما در حین تولید آن الگوها استخراج گردند تا جمع آوری و پردازش آن هوشمندانه تر صورت گیرد.


مقاله 4

عنوان مقاله: ارائه مدل داده مناسب برای داده های عظیم

نام ارائه دهنده: دکتر علی اصغر صفایی

چالش مطرح‌شده ارائه یک مدل داده پیشنهادی که برای کلان داده مناسب و کارآمد باشد در حالیکه مدل های سنتی برای داده های جدید، کاربردهای جدید و ارتباطات جدید، ضعیف بوده و مقیاس پذیر نیستند.

خلاصه مطالب ارائه شده مدل هاي داده مورد استفاده براي داده هاي عظيم به 3 دسته تقسیم می شوند: 1.رابطه اي و شيء-رابطه اي که دارای خواص ساخت یافته، ضعف در پشتيباني از ارتباط ها، عدم مقياس پذيري می باشد. 2.XML که انعطاف پذير اما با امنيت پايين و همچنین دارای ساختار درختواره می باشد. 3. (NoSQL (Column, Document, Key-value, Graph که پشتيباني از ارتباط ها، نسبتاً مقياس پذير، در اغلب کاربردهای فعلي داده هاي عظيم نظير شبکه هاي اجتماعي از جمله ویژگی های آن است.

راه‌حل‌های ارائه‌شده برای چالش مطرح‌شده در روش پیشنهادی برای رسیدن به ویژگی های یک مدل داده مناسب و خوب، مدلی با نام گراف تو در تو معرفی می گردد که مبتني بر مدل گراف بوده و هر نمونه در قالب يک گره است که با ساير نمونه ها در ارتباط است (انواع گوناگون ارتباط). همچنین هر گره خود مي تواند شامل داده، يا زيرگره باشد (تعريف بازگشتي). در آن هرگره شامل داده ذخيره شده براي آن موجوديت (صفت هاي خاصه) در قالب هاي ساختيافته (Row)، نيمه ساختيافته (المان XML) يا غيرساختيافته (يک document مثلاً از نوع متني) می باشد. بعلاوه هر گره می تواند شامل زيرگره هايي ديگر (با استفاده از نوع داده ارجاع (ref)) نیز باشد.

برای مدل پیشنهادی می توان مزایایی از قبیل مقياس پذيری از نظر اندازه (Volume) و همچنین جغرافيا، انعطاف پذيري در پشتيباني انواع داده (Variety)، سازگاري با مدل هاي داده سنتي (رابطه اي، شيء-رابطه اي)، کارايي در پيمايش سريع و راحت ارتباط ها (بين گره ها و زيرگره ها) (Velocity) و نسبتاً ساده بودن را ادعا کرد.

بحث و تبادل نظر و جمع بندی

لینک های مرتبط