وضعيت موجود دنيا و كشور ايران در حوزه کلان داده
ظهور فناوری ها اغلب دارای مبانی فلسفی بسیاری است که روند توسعه و دگرگونی آنها را توجیه می کند. بنابراین شناخت این مبانی فلسفی میتواند نقش مهمی در تدوین نقشه راه توسعه هر فناوری داشته باشد. مجموعه هایی که در این موضوع اندیشه کافی کرده باشند، توسعه هر فناوری را بر اساس یک ضرورت و یا یک نیاز واقعی که دارای توجیه کافی از ابعاد مختلف می باشد دنبال میکنند و مسیر توسعه آن بر اساس نیازهای واقعی خود اصلاح می کنند.
کشورهای دنباله رو، اغلب بدون شناخت این مبانی فلسفی و نظری، سعی می کنند ضرورت حرکت از مسیر طی شده توسط دیگران را برای رسیدن به یک وضع مطلوب توجیه کنند و یا از الگوهای مشابه پیروی کنند، فارغ از اینکه نیاز واقعی خود را شناسایی کرده باشند و مبانی فلسفی آن را شکل دهند. در این گزارش سعی شده است با این نگاه به تدوین مبانی اولیه فلسفه مورد نیاز برای تدوین سندی کلان در حوزه کلان داده بپردازیم. حال آنکه حرکت در این مسیر فراتر از یک همایش و برگزاری چند نشست تخصصی است و باید با تامل بیشتری همراه باشد.
وضعیت کلان داده در دنیا
از جمله مهمترین فعالیت هایی که در حال حاضر در بحث کلان داده در دنیا در حال انجام است، برنامه ریزی برای استانداردسازی و ایجاد یک فهم مشترک بین موجودیت های درگیر است که بر اساس آن بتوانند نسبت به تدوین نقشه راه کلان داده به عنوان یک فناوری اقدام کنند. تا کنون چندين برنامه براي استانداردسازي حوزه کلان داده اجرا شده است که مهمترین آنها در ادامه توضیح داده شده است.
در سال 2012 در مجموعه CSA کارگروهي با هدف شناسايي تکنيک هاي مقياس پذير براي مشکلاتي امنيتي و حريم خصوصي داده-محور ايجاد شد که تاکنون گزارش هاي متعددي از اين کارگروه منتشر شده است. انتظار مي رود که خروجي هاي اين کارگروه بتواند در شفاف کردن تجارب موفق براي امنيت و حريم خصوصي در کلان داده موثر باشد، همچنين صنعت و دولت ايالات متحده را در پذيرش آن تجارب موفق راهنمايي کند. فعاليت هاي مرکز استاندارد آمريکا (NIST) نيز از اواسط 2012 با يک برنامه کارگاهی شروع شد و يک سال بعد کارگروهي را بصورت عمومي ايجاد کرد. هدف اين کارگروه ايجاد يک توافق عمومي و مشترک در تعاريف، ارتباط بين موجوديت ها، معماري مرجع و نقشه راه فناوري براي تکنيک هاي تحليلي و زيرساخت هاي فناوري مي باشد تا بصورت امن و موثر بتواند از پذيرش کلان-داده پشتيباني کند. کميته مديريت داده در ISO/IEC JTC1 نيز مطالعاتي بر روي نسل بعدي تکنيک هاي تحليلي شروع کرد که طي گزارشي در [12] آن را منتشر کرده است. موسسه W3C هم چندين کارگروه روي موضوعات مختلف کلان داده تشکيل داده است، ولي هنوز گزارشي از طرف آنها منتشر نشده است. در ادامه به بررسي دقيق تر فعاليت مرکز NIST به عنوان يک نهاد حاکميتي و اثرگذار در سطح کلان مي پردازيم.
فعاليت های انجام شده در NIST
اين مجموعه راهبري تدوين نقشه راه فناوري کلان داده را در سطح جهانی بر عهده گرفته است. در اين نقشه راه اولويت هاي کلان در حوزه هاي مختلف تعامل پذيري، قابليت حمل، قابليت استفاده مجدد و قابليت گسترش براي تکنيک هاي تحليلي و نيز فناوري هاي زيرساختي کلان داده مشخص خواهد شد. به اين منظور، کارگروهي براي تدوين استانداردهاي حوزه کلان داده مشتمل بر موارد زير ايجاد شده است:
- تدوين تعاريف مشترک و واحد از کلان داده
- تهيه يک دسته بندی از کلان داده به منظور شناخت مسايل مختلف مطرح در کلان داده و ارتباط بين آنها
- تهيه نيازمندي هاي فني و غيرفني مرتبط با کلان داده
- تهيه نيازمندي هاي امنيتي و نيازمندي هاي مرتبط با حريم خصوصي
- تهيه يک معماري مرجع از کلان داده
- تهيه نقشه راه فناوري کلان داده
تهيه نقشه راه يک فناوري مي تواند نقش موثري در جهت دهي فعاليت ها و برنامه ريزي ها داشته باشد تا بتوان براي مراحل مختلف بلوغ فناوري برنامه ريزي کرد. براي انجام اين کار نياز به ايجاد يک فهم مشترک مي باشد. تدوين تعاريف واحد و استاندارد سبب ايجاد يک فهم مشترک بين همه طرفين درگير مي شود و مي تواند از بروز بسياري از ابهامات جلوگيري کند. پس از ايجاد اين فهم مشترک است که مي توان نسبت به توصيف موجوديت هاي مختلف و دسته بندي آنها اقدام کرد. اين اقدام ديد خوبي براي شناخت مسايل مختلف مطرح در کلان داده و ارتباط بين آنها ايجاد ميکند و به شناخت نيازمندي هاي فني، غيرفني و امنيتي منجر می شود. با مشخص کردن ارتباط بين اجزا و نيازمندي ها و ارتباط بين آنها مي توان به يک معماري مرجع دست پيدا کرد که قادر باشد همه نيازمندي ها را در بر گيرد.
بررسی چند پروژه کلان مرتبط با کلان داده
در اين بخش چند نمونه از فعاليت هايي که در ارتباط با کلان-داده و مرتبط با موضوعات امنيتی يا استانداردسازی، بطور خاص در سطوح حاکميتی راهبری مي شوند ارائه شده است. مطالعه دقيق چنين فعاليت هايي مي تواند ديد بهتری برای برنامه ريزی بر روی کلان داده در کشور ايجاد کند.
داده باز
عنوان داده باز (داده آزاد - Open Data) به داده هايي اطلاق مي شود که به صورت رايگان و آزاد در اختيار همه قرار دارد تا بتوانند از آن استفاده کنند و در هر قالب دلخواهي بازنشر دهند. داده باز داراي محدوديت هاي مربوط به حق کپي، يا موارد محدودکننده مشابه آن نمي باشد و مفاهيم مشابهي با ديگر جنبش هاي "باز" نظير نرم افزارهای متن باز (Open Source) يا محتوای آزاد (Open Content) دارد. همانطور که در شکل زير نشان داده شده است، داده هاي باز اغلب از جنس کلان داده هستند، با اين حال مجموعه داده هاي کوچک نيز مي توانند بصورت باز منتشر شوند. به همين دليل اين دو تعريف از هم متمايز هستند.
ارتباط بين داده باز، کلان داده و ديگر انواع داده
داده باز ضمن اينکه بعد جديدي از عمليات تحليلي را به کلان داده اضافه کرده است و سبب افزايش نوآوري در آن شده است، باعث ايجاد مفاهيم جديدي نظير دولت باز (Open Government) نيز شده است. در حقيقت داده باز يکي از اصول هشتگانه دولت باز مي باشد که در صنايع مختلف مالي، سلامت، حمل و نقل، انرژي، آموزش و ... بطور بالقوه مي تواند حدود 3000 تا 5000 ميليارد دلار ارزش اقتصادي توليد کند. بسترسازي براي داده باز اصولا بايد توسط دولت ها انجام شود تا بتوان ارزش استخراج شده توسط داده ها را بصورت واقعي مورد استفاده قرار داد. از نمونه بسترهاي ايجاد شده در اين خصوص مي توان به پرتال هاي داده باز اشاره کرد که در دولت هاي مختلف اجرا شده است و برخي از آنها در شکل 5 معرفي شده اند.
نمونه پرتال های داده باز دولت ها و سازمان های مختلف
State / Org. | Website |
---|---|
Belgium | http://data.gov.be/ |
Ghana | http://data.gov.gh/ |
India | http://data.gov.in/ |
Kenya | https://www.opendata.go.ke/ |
Morocco | http://data.gov.ma/ |
Russia | http://opengovdata.ru/ |
UAE | http://government.ae/web/guest/uae-data |
UK | http://data.gov.uk/ |
US | http://www.data.gov/ |
EU | http://open-data.europa.eu/ |
OECD | http://stats.oecd.org/ |
UN | http://data.un.org/ |
UNHCR | http://data.unhcr.org/ |
World Bank | http://data.worldbank.org/ |
بررسی مدل اجرای داده باز در دولت های مختلف نشان دهنده الگوهای مختلفی در اجرا می باشد و هر کدام دارای تجربيات خاص خود هستند که بطور جداگانه حائز اهميت است و بايد مورد بررسی قرار بگيرد. برای مثال در دولت فدرال آمريکا اين برنامه زير مجموعه برنامه دولت باز مطرح شده است که خود آن نيز در برنامه FASTER پيگيری می شود، و در مجموع سازوکار منظمی برای اجرا و بهره برداری از آن ايجاد شده است.
رایانش ابری و کلان داده
از رايانش ابری در حال حاضر به عنوان صنعت همگانی پنجم ياد مي شود و مسير توسعه آن به سمتی است که کل زيرساخت های فناوری اطلاعات يک شهر يا کشور را برای ارايه فناوری های جديد (نظير اينترنت اشياء، رايانش سيار، خدمات سلامت، شبکه های حسگر، کلان داده) شامل می شود. با حرکت از سمت سيستم های سنتی به سمت رايانش ابری، ملاحظات مربوط به قرارگيری اطلاعات حساس در ابرها اهميت بيشتری پيدا کرده است و روشهای سنتی تامين امنيت برای اين مدل کافی نيستند. در DARPA چندين پروژه برای امن سازی ابرها و توسعه شبکه های ابری در مقياس بالا در حال اجرا است تا بلوغ کافی برای انجام محاسبات و کار با کلان داده در آنها ايجاد شود. برای مثال مي توان به پروژه های MRC، CORONET، CRASH و PROCEED اشاره کرد. پروژه کلان داده ديگری با عنوان PRISM توسط NSA از سال 2007 در حال اجرا است که بر اساس آن اين آژانس امنيتی مي تواند کليه داده های ذخيره شده در ابرها و داده های مربوط به ارتباطات اينترنتی آنها را جمع آوری و پردازش کند. از جمله ديگر پروژه های اين مرکز، ايجاد مرکز داده Utah بعنوان بزرگترين مرکز جاسوسی داده ها و اطلاعات می باشد و حدود ۲ ميليارد دلار تنها برای ايجاد آن هزينه شده است. از جمله جديدترين فعاليت های انجام شده که همگرايي رايانش ابری و کلان داده را به خوبی نشان مي دهد، مي توان به پروژه های PLINY و MUSE در DARPA اشاره کرد که عملا مجموعه همه بسترهای توسعه که تا کنون برای توسعه سيستم های متن باز مورد استفاده قرار مي گرفتند، حال برای توليد سيستم-های نرم افزاری بصورت سريع و مطمئن در اهداف مختلف از جمله نظامی مورد استفاده قرار می گيرند. همچنين پروژه کلان داده ديگری با عنوان DCGS-A وجود دارد که برای تحليل سريع اطلاعات در کاربردهای نظامی مورد استفاده قرار مي گيرد و توسط DARPA بصورت ابری در سطح دنيا در حال گسترش است و نمونه اوليه آن در سال 2011 در افغانستان مورد استفاده قرار گرفت. فعاليت های بسيار قابل توجه ديگری برای توسعه زيرساخت های ابری در کشورهای مختلف در سطوح کلان حاکميتی انجام شده است که با توجه به همگرايي رايانش ابری و کلان داده، ضرورت برنامه ريزی مناسب در اين خصوص بسيار حياتی است.
تنظيم مقررات (رگولاتوری)
يکی از پروژه هايي که در برنامه داده-دانش-عمل در مجموعه NITRD در حال اجرا است، مربوط به برنامه های تنظيم مقررات حدود 74 آژانس دولت فدرال آمريکا است. که با استراتژی باز اجرا می شود، به اين شکل که افراد مي توانند پيشنهادهای خود را ارسال کنند و ديگران در خصوص آن نظر دهند. اين پروژه اگرچه بطور مستقيم به موضوع امنيت يا استانداردسازی در حوزه کلان داده مرتبط نيست، اما به اين دليل که يکي از کاربردهای کلان داده را در سطح حاکميتی نشان مي دهد و برای بحث و نتيجه گيری بهتر قابل استفاده است، به عنوان آخرين مثال در اينجا مطرح شده است. ضمن اينکه حاوی تجربيات موفقی برای شناخت و استانداردسازی مفهوم کلان داده می باشد. در اين پروژه تحليل های قوی بر روی داده انجام مي شود تا بينش بيشتری در خصوص آنچه که در متن توضيحات است بدست آيد. به اين ترتيب که نظر افراد تحليل مي شود و گزارشهای تحليلی در خصوص نظرهای مشابه، نظرهای تکراری، نظرهای منحصر به فرد، عبارت های رايج مورد استفاده، نحوه توزيع ارايه نظرها در طول زمان و تحليل های مربوط به روند آنها انجام مي شود. اين پروژه و ديگر موارد شبيه به آن، نشان دهنده توجه دولت فدرال آمريکا به دريافت بازخورد در بخش های مختلف جهت بهبود مستمر خدمات دولت است که با توجه به ضعف فناوری-های پيشين، در صدد بهبود آنها با بکارگيری مفهوم کلان داده است. پس يکی از مفاهيم نهفته در کلان داده، تلاش برای بهبود وضعيت است و اين امر زمانی محقق می شود که سازوکار مناسب برای تبديل دانش بدست آمده به عمل نيز ايجاد شده باشد. به عبارت ديگر در کلان داده زمانيکه داده بيشتری وجود داشته باشد انتظار مي رود که بينش بيشتری نيز حاصل شود.
وضعیت کلان داده در ایران
از نظر فلسفی در حال حاضر در کشور با ضعف زنجیره فناوری اطلاعات مواجه هستیم. بطور خاص در بحث اینترنت، با سرعت و کیفیت پایین، نبود SLA، ضعف رگولاتوری، فقدان محتوای قابل عرضه و گردش ترافیک اطلاعاتی و داده ها به سمت بیرون مرزها میتوان اشاره کرد. بحث کلان داده در حالی در کشور مطرح شده است که هنوز روش های سنتی تحلیل داده در سلسله مراتب تصمیم گیری در کشور مورد استفاده قرار نگرفته است و حتی در بسیاری از بخش ها با نبود سیستم های اطلاعاتی، نبود شفافیت، و بطور خلاصه با ناتوانی در مدیریت اطلاعات مواجه هستیم. این مشکلات در مدلی با عنوان 4C نشان داده شده است:
- Cost (هزینه): نگاه به داده به عنوان یک منبع هزینه بجای یک منبع ارزش
- Community (جامعه): ضعف زنجیره فناوری اطلاعات بعنوان جامعه تولید کننده و مصرف کننده داده و فناوری
- Culture (فرهنگ): عدم استفاده از سیستم های اطلاعاتی و تحلیل داده در سازمان و وجود رویکردهای سنتی فناوری اطلاعات
- Control (کنترل): نگاه ابزاری به مساله بجای در نظر گرفتن نیاز واقعی برای کنترل و مدیریت مسائل مرتبط با داده
این موضوع سبب شده است که بحث کلان داده به موضوعی برای طرح همان مسائل سنتی با بکارگیری فناوری ها و ابزارهای مدرن تبدیل شود. به این ترتیب مشاهده میشود که حتی مسائلی ساده نظیر اتوماسیون یک فرآیند سازمانی یا بکارگیری ابزارهای هوش تجاری جهت انجام تحلیل در سازمان نیز بعنوان مسائلی کلان جلوه میکنند و تلاش برای حل آنها بعنوان نمونه هایی از مسائل کلان داده نشان داده میشود.