همایش کلان داده دی ۱۳۹۳:نشست کابردها و راهکارهای مدیریت داده های عظیم: تفاوت میان نسخه‌ها

از OCCC Wiki
پرش به ناوبری پرش به جستجو
بدون خلاصۀ ویرایش
خط ۷۹: خط ۷۹:


==مقاله 3==
==مقاله 3==
عنوان مقاله:
عنوان مقاله: داده های عظیم در دوران پساژنوم


نام ارائه دهنده:
نام ارائه دهنده: دکتر مهدی صادقی


'''چالش مطرح‌شده'''
استفاده از کلان داده در زیست شناسی به امری ضروری و غیر قابل اجتناب تبدیل شده است. زیرا در زیست شناسی نیز به شدت تکنولوژی رشد پیدا کرده است و به همین دلیل داده به شدت بسیار زیادی تولید می گردد که قطعا این حجم عظیم داده باید آنالیز شده و از آن معنا استخراج گردد. بعنوان نمونه اطلاعات تنها یک ژنوم انسان در حدود چند میلیارد کاراکتر است. این داده در واقع حافظه سلول ماست و بدن انسان شبکه عظیمی از این سلول هاست.
'''خلاصه مطالب ارائه شده'''
در این ارائه اطلاعات بسیاری در باره پیچیدگی و وسعت اطلاعات ژنوم ارائه شد تا تصدیقی بر عظیم بودن، پیچیدگی و تنوع اطلاعات آن باشد.
علم زیست شناسی به سمتی پیش می رود که در آینده نزدیک در دنیا هر کس داروی مخصوص به خود را خواهد داشت که این دارو با توجه به اطلاعات ژنوم او تجویز خواهد شد. بدین منظور روزانه اطلاعات سلامت فرد که در حدود چند پتا بایت است پردازش می گردد.
آنالیز این داده عظیم می تواند مواردی چون طول عمر بیمار، بیماری های آینده و ... را پیش بینی نماید که البته نگرانی برای حقوقدانان محسوب می شود.
'''راه‌حل‌های ارائه‌شده برای چالش مطرح‌شده'''
در واقع این ارائه بر روی کاربرد و نقش مهم کلان داده در زیست شناسی تمرکز کرده بود و به دنبال راه حلی نبود.
'''نکته کاربردی'''
باید همواره توجه داشت که چنین حجم عظیمی از داده نیازمند این است که حتما در '''حین تولید''' آن '''الگوها استخراج''' گردند تا جمع آوری و پردازش آن هوشمندانه تر صورت گیرد.


= بحث و تبادل نظر و جمع بندی=
= بحث و تبادل نظر و جمع بندی=

نسخهٔ ‏۲۴ ژانویهٔ ۲۰۱۵، ساعت ۱۳:۳۶

مستند شده توسط: معصومه رضائی جم

مقالات ارائه شده

مقاله 1

عنوان مقاله: ارائه مدل مفهومی روندها و حوزه های تحقیقاتی داده های عظیم

نام ارائه دهنده: دکتر علیرضا یاری

چالش مطرح شده: حوزه های تحقیقاتی در کلان داده چیست؟

خلاصه مطالب ارائه شده: به رشد بسیار سریع داده ها و جایگاه و اهمیت مباحث کلان داده در دنیا اشاره شد و مباحثی از جمله تعریف، خواص سه گانه و خواهش هفتگانه آن بیان گردید که قبلا در صفحه تعاریف کلان داده در ویکی مطرح شده است.

راه حل های ارائه شده: مدل مفهومی در حوزه کلان داده پیشنهاد می شود تا به وسیله آن نگاه های مختلفی که به کلان داده وجود دارد نشان داده شود. این مدل دارای 2 سطح است. یکی در سطح اول یعنی سطح فنی که مراحل، سیاست ها ، فرآیندها و متدولوژی ها را بیان می کند و سطح دوم یعنی سطح کلان که در نگاه کلانتر، نیازمندی های محیطی، کاربردها، سناریو، سرویس ها و از این قبیل را مورد بررسی قرار می دهد. سطح اول یا همان سطح فنی: مراحل شامل تولید ، دریافت و انتقال ، ذخیره سازی ، تحلیل است. که فرایند دریافت شامل جمع آوری ، انتقال ، پیش پردازش است و فرایند تحلیل شامل ایجاد منابع داده ، مدیریت و نگهداری داده ، مدلسازی داده ، تحلیل نتیجه و نمایش آن می باشد. همچنین تحلیل دارای سیاستهایی است که شامل انواع توصیفی ، پیش بینی ، تجویزی می باشد. متدولوژی های این سطح متشکل است از : داده كاوي - بهينه سازي - تشخيص الگو - يادگيري ماشين - شبكه عصبي - پردازش سيگنال - آمار و رياضيات محض

سطح دوم یا همان سطح کلان بعنوان نمونه در این سطح موارد زیر مطرح است: ذينفعان در آن عبارتند از توليدکنندگان داده هاي عظيم- سياستگذاران-توسعه دهندگان- سرويس‌دهندگان- مخاطبين سرویس ها در آن عبارتند از آناليز آفلاين به عنوان سرويس - آناليز برخط و پيوسته به عنوان سرويس - پايگاه داده به عنوان سرويس - داده به عنوان سرويس - دانش به عنوان سرويس - اطلاعات به عنوان سرويس - هوشمندي به عنوان سرويس اقلام نوع داده عبارتند از ساخت يافته: داراي اسکيما و مدلهاي از قبل تعريف شده - غير ساخت يافته: بدون هيچ مدل از پيش تعريف شده - نيمه ساخت يافته: فاقد مدل ساخت يافته - ترکيب: انواع متفاوت داده در کنار يکديگر


چالشها و فرصتهاي پيش رو در مواجهه با داده هاي عظيم چالشها عبارتند از : امنيت بودجه نيروي انساني ماهر در پياده سازي و به کارگيري داده عظيم دشواري در يکپارچگي با سيستم­هاي فعلي فروشندگان محدود در اين حوزه همچنين عدم آمادگي سازمان

مهمترین فاکتورهای موفقیت عبارتند از: توجه به بين رشته اي بودن پديده داده عظيم تعامل تيم هاي کسب و کار و فناوري اطلاعات برخورداري از حمايت مديران ارشد


زمينه هاي نوين تحقيقاتي داده هاي عظيم زيرساخت ها و بسترهاي داده هاي عظيم - امنيت، مسائل حقوقي و استانداردهاي داده هاي عظيم - مدل ها، الگوريتم ها و راهکارهاي ذخيره، دسترسي، جستجو، تحليل، پالايش، پردازش، کاوش و مديريت داده هاي عظيم - سرمايه گذاري، راهبرد و الگوهاي مهاجرت به داده هاي عظيم - مديريت مصرف انرژي در داده هاي عظيم


بحث‌های پیرامونی و نظر حضار و اساتید: به دنبال راهکارها و روش های مناسبی باشیم تا داده های عطیم را هوشمندانه تر ذخیره کنیم تا بهره گیری از آنها بهتر گردد. بهتر است به جای عبارت "دانش بعنوان سرویس" از عبارت "استفاده از دانش بعنوان سرویس" بهره بگیریم.

مقاله 2

عنوان مقاله: مدیریت داده های عظیم در موتورهای جستجو

نام ارائه دهنده: دکتر علیمحمد زارع بیدکی

چالش مطرح شده: چالشهای دنیای وب از جمله حجم زياد اطلاعات با رشد نمايي (11 ميليارد صفحه در 2005 (ايران ده ميليون)، 150 ميليارد صفحه در 2014 ( ايران ششصد ميليون)) و همچنین محيط پويا (صفحات جديد با نرخ 8درصد در هفته توليد ميشوند، 20 درصد صفحات موجود بعد از يكسال قابل دسترس نيستند، محيطي با اطلاعات متنوع HTML، DOC، PDF، MP3 و غيره)

خلاصه مطالب ارائه شده: در این ارائه بر روی موتور جستجو پارسی جو تمرکز شد و آمارها بصورت زیر ارائه گردید: پوشش پانصد ميليون سند فارسي - داراي خزشگري به نام ايساتيس با قدرت خزش دو ميليارد سند به صورت متوالي - هوشمند در تشخيص اسناد مهم - خزش دوره اي در بازه هاي منظم - نمايه سازي و پردازش سريع اطلاعات - طراحيِ مبتني بر بستر توزيع شده و مقياس پذير - استفاده از پردازشگر هوشمند زبان فارسي - طراحي و پياده سازي يك خطاياب هوشمند - پياده سازي پردازشگر متون فارسي - استفاده از روش رتبه بندي كارا - بهينه سازي و ارتقاء مداوم الگوريتم -

همچنین به پردازش گراف وب با گراف با پانصد ميليون گره و بيش از ده ميليارد يال، اجراي الگوريتم هاي رتبه بندي مبتني بر گراف (محبوبيت) و اجراي الگوريتم هاي تشخيص صفحات اسپم اشاره گردید که اینها همگی نیازمند کار با داده ای در حجم عظیم و کلان است.

راه‌حل‌های ارائه‌شده برای چالش مطرح‌شده در این ارائه راه حل مدونی برای این چالش ها مطرح نشد و بیشتر بر روی مقیاس بزرگ داده صحبت شد.

بحث‌های پیرامونی و نظر حضار و اساتید حضار عدم ارائه راه حل توسط ارائه دهنده را به عنوان نقصی بر ارائه مطرح نمودند.

مقاله 3

عنوان مقاله: داده های عظیم در دوران پساژنوم

نام ارائه دهنده: دکتر مهدی صادقی

چالش مطرح‌شده استفاده از کلان داده در زیست شناسی به امری ضروری و غیر قابل اجتناب تبدیل شده است. زیرا در زیست شناسی نیز به شدت تکنولوژی رشد پیدا کرده است و به همین دلیل داده به شدت بسیار زیادی تولید می گردد که قطعا این حجم عظیم داده باید آنالیز شده و از آن معنا استخراج گردد. بعنوان نمونه اطلاعات تنها یک ژنوم انسان در حدود چند میلیارد کاراکتر است. این داده در واقع حافظه سلول ماست و بدن انسان شبکه عظیمی از این سلول هاست.

خلاصه مطالب ارائه شده در این ارائه اطلاعات بسیاری در باره پیچیدگی و وسعت اطلاعات ژنوم ارائه شد تا تصدیقی بر عظیم بودن، پیچیدگی و تنوع اطلاعات آن باشد. علم زیست شناسی به سمتی پیش می رود که در آینده نزدیک در دنیا هر کس داروی مخصوص به خود را خواهد داشت که این دارو با توجه به اطلاعات ژنوم او تجویز خواهد شد. بدین منظور روزانه اطلاعات سلامت فرد که در حدود چند پتا بایت است پردازش می گردد. آنالیز این داده عظیم می تواند مواردی چون طول عمر بیمار، بیماری های آینده و ... را پیش بینی نماید که البته نگرانی برای حقوقدانان محسوب می شود.

راه‌حل‌های ارائه‌شده برای چالش مطرح‌شده در واقع این ارائه بر روی کاربرد و نقش مهم کلان داده در زیست شناسی تمرکز کرده بود و به دنبال راه حلی نبود.

نکته کاربردی باید همواره توجه داشت که چنین حجم عظیمی از داده نیازمند این است که حتما در حین تولید آن الگوها استخراج گردند تا جمع آوری و پردازش آن هوشمندانه تر صورت گیرد.

بحث و تبادل نظر و جمع بندی

لینک های مرتبط