تاثیر مجازی سازی داده بر کیفیت داده

از OCCC Wiki
پرش به ناوبری پرش به جستجو


چکیده

به طور قطع هر مدیر شرکت و یا سازمانی که با هوش تجاری و پروژه های مربوط به ان دست و پنجه نرم کرده باشد میداند که مشکلات مربوط به ارتباطات داده ای و کیفیت داده تاثیرات منفی و هزینه بسیاری بر تطبیق داده ای دارد. راه حل یکارچه سازی که به صورت کلاسیک وجود دارد ایجاد یک Enterprise Data Warehouse است که از منابع مختلف اطلاعات خود را دریافت میکند.این روش اطمینان خاطری از یکتا بودن اطلاعات کسب و کار و تجمیع منابع داده ای برای پرس و جو ها و تحلیل اطلاعات ایجاد خواهد کرد.اما این روش محدودیتهای بسیار ی برای محیط های چابک و غیر متمرکز خواهد داشت.پس راه حل جایگزین که سریع و در عین حال گران قیمت نباشد چه خواهد بود؟

مجازی سازی داده راه حلی است که در طول سالها توسعه و گسترش لازم را پیدا کرده است.


چالش های اصلی کیفیت داده

به طور سنتی در رویکردی که نسبت به تضمین کیفیت داده وجود دارد فرض بر این است که تناقضات داده ای ،اشتباهات و تکمیل نبودن اطلاعات غیر قابل اجتناب هستند و تنها هنگامی که آنها را به صورت متمرکز در یک انبار داده طبقه بندی کرد میتوان از بهبود کیفیت انها اطمینان حاصل کرد.با این حال استخراج مکرر داده ها و تحول انها بدون توجه به منبع فراداده ای مسایل جدیدی را پیش روی سازمانها قرار داده است.

چالشهاي اصلي كيفيت داده به شرح زير هستند:

چالشهاي كيفيت داده

• تناقضات معنایی و ساختاری تناقض ساختاری

هنگامي اتفاق می افتد که داده اي در فرایند های مختلف با ساختار و نوع متفاوتی نمایانده شود.در حالت معنایی درک متفاوتی از یک داده واحد در فرایند های مختلف وجود دارد.

• تناقضات مربوط بر اعتبار سنجی

هنگامی که قواعد اعتبار سنجی که اولین مرحله آن توسط کاربر اتفاق می افتد در فرایند های مختلف متفاوت باشد.

• عملکرد تکراری

• بی نظمی داده ای


الحاق کردن مدیریت کیفیت داده به قسمتی از مجازی سازی داده ،مدیریت داده را با زیر ساخت برنامه های کاربردی یکپارچه میکند . مشخص کردن زود هنگام مسایل مربوط به داده در فرایند تولید اطلاعات ،فرایند پالایش و بازسازی را قبل از اینکه تاثیرات مخرب اتفاق بی افتد فعال میکند .


تعريف مجازي سازي داده

مجازی سازی فرایند تجرید داده در بین منابع مختلف اطلاعاتی مانند پایگاه های داده های رابطه ای،منابع اطلاعاتی که در غالب وب سرویس ها عرضه میشوند، XML Repository و نوع های دیگری که باید قابل دسترس باشند صرف نظر از اینکه در چه بستر فیزیکی و با چه ساختارهای متفاوتی نگهداری میشوند.

این اصطلاح بیشتر در بین فروشندگان نرم افزار استفاده میشود اما در حقیقت معنی خود را از واژه قدیمیتر Data Federation وام گرفته است. شکل روبرو نمای کلی از مجازی سازی داده را نشان میدهد:

یکپارچه سازی کیفیت داده با استفاده از مجازی سازی داده

از حدود دهه 80 میلادی تا کنون تغییرات زیادی در زمینه Data Federation به وجود آمده است. در سالهای اخیرData Federation با نام سرویس داده یا اطلاعات نامیده میشود.معماری سرویس گرا از D.F. به عنوان سرویس داده ای که منابع داده ای را پشت یک رابط پرس و جو انتزاعی میکند ،استفاده میکند.سرویس های داده ای پلتفرم یکپارچه سازی داده را به صورت بسیار قابل انعطافی پیشنهاد میدهند.این سرویس های داده ای بر مبنای نسل جدید از استانداردها و سرویس ها هستند که اجازه دسترسی به هر نوع داده که بر روی هر پلتفرمی قرار دارند را میدهند در ضمن رابط های کاربری بسیار متنوعی دارند و از استانداردهای دسترسی به داده نیز بهره میجویند.اما بهره استفاده از وب سرویس ها میتواند بیش از این باشد.مواردی مانند تک نسخه ای بودن حقیقت (single version of the truth)- هوش تجاری بلادرنگ،جستجو در میان کلیه اطلاعات سازمان و امنیت بسیار بالا در دسترسی به اطلاعات حساس را پشتیبانی میکنند.

مجازی سازی داده در سطح پیشرفته ،داده را از منابع مختلف (پایگاه های داده ومخازن داده و برنامه های کاربردی ) مجرد میکند و به صورت فراداده در پوشه ای نگهداری میکند که به عنوان تنها نقطه دسترسی به داده استفاده خواهد شد.

قابلیت هاي مجازي سازي

مجازي سازي داده

• داده ها به صورت قابل اطمینان و بدون تاثیر از ساختار و Syntax بومی داده به برنامه های کاربردی دیگر که به داده نیاز دارند ارائه میشود.

• به طور منطقی ذاذه ها از یک نقطه قابل دسترسی و گزارشگیری هستند.

• تغییر شکل داده ها

• Federation of data sets از منابع گوناگون و ناهمگون اطلاعات به دست می آید(داده های عملیاتی و داده های تاریخی)

• انعطاف پذیری در ارائه داده در قالب وب سرویس به محض درخواست کاربران

• ارائه داده های درخواستی در غالبی بدون تناقض برای برنامه های کاربردی به صورت relational view و یا وب سرویس

مراحل مجازي سازي داده

• شناسایی منابع داده و مشخصات آنها.اگر بیش از یک منبع وجود داشته باشد که داده مورد نظر را تولید کند باید منبعی که اطمینان بیشتر به آن وجود دارد انتخاب شود .ابزارهایی برای طراحی مدل داده(data model) وجود دارد

• استفاده از برنامه های کاربردی برای مدلسازی داده در مرحله دوم برای دریافت داده از منابع مختلف.

نرم افزار های مجرد سازی داده تنها از فراداده ای که از منابع اطلاعاتی استخراج شده است استفاده میکنند و جابجایی فیزیکی داده نیاز نیست.این روش هنگامی که مخازن داده توسط تامین کننده های خارجی در بیرون از سازمان نگهداری میشوند بسیار مفید خواهد بود.این روش پرس و جوهای بلادرنگ،جمع آوری و سازماندهی سریع داده، تحلیل های پیچیده را بدون نیاز به همزمانی منطقی و یا کپی کردن داده ها ممکن می سازد.

برای سازمانهایی که توان مالی بالایی ندارند و نیاز به راه حل سریع و ارزان قیمت دارند استفاده از مجرد سازی داده به جای استفاده ازابزارهای ETL برای ساخت انباره داده فیزیکی توصیه میشود. البته باید توجه داشت که مجرد سازی داده همیشه بهترین انتخاب نیست.برای سازمانهایی که درگیر مقادیر عظیمی از داده و transformation و پالایش پیچیده داده هستند این موضوع سیستم های مبدا را کند میکند. و همچنین جهت سازمانها یی که یک نسخه واحد از اطلاعات قابل اتکا وجود ندارد توصیه نمیشود.ولیکن مجرد سازی داده میتواند یکپارچه سازی انباره های سنتی داده را کامل کند.موارد زیر مثال های موفقی از ترکیب این دو تکنولوژی هستند

a. کاهش ریسک فعالیت گزارش گیری طی جابجایی انباره داده با اضافه کردن یک لایه مجازی بین انباره داده و لایه گزارش گیری

b. پیش اماده سازی داده برای ابزارهای ETL که همیشه به عنوان بهترین رهیافت جهت بارگذاری داده در انباره نیستند(مانند SAP و یا وب سرویس ها)

c. ساخت بازارهای داده مجازی به جای بازارهای داده فیزیکی

d. گسترش انبار داده موجود با افزایش منابع داده ای

e. کسترش master data سازمان که منجر به ایجاد دید مفهومی تری از فعالیت های سازمان میشود.

f. تجمیع (federation) چندین انبار داده فیزیکی در غالب یک انبار داده مجازی

g. یکپارچگی مجازی از انبارداده ها در معماری اطلاعاتی سازمان

h. ساخت سریع الگوی اولیه انبار داده

ابزارهای مجازی سازی

محبوبترین ابزارهای یکپارچه سازی که از data federation را ارائه میدهند شامل موارد زیر هستند

- SAP BusinessObjects Data Federator

- Sybase Data Federation

- IBM InfoSphere Federation Server

- Oracle Data Service Integrator

- SAS Enterprise Data integration Server

این ابزارها از استانداردهای مختلفی مانند REST, SOAP over HTTP, JMS,POX over HTTP, JSON over HTTP, JDBC, ADO.NET بهره میجویند و از روش های مختلفی شامل  :

query optimization strategies and techniques rule-based and cost-based :parallel processing, SQL pushdown, distributed joins, caching or advanced query optimization.

برای افزایش کارایی استفاده میکنند.

نتایج

سازمانهای مجهز به کسب و کار الکترونیکی در این چند سال دچار اخیر دچار تغییرات بسیار زیادی شده اند. در سالهای نه چندان دور استفاده از زیر ساخت شبکه های کامپیوتری و سیستم های اطلاعاتی برای قرار گرفتن در صف سازمانهای مجهز به کسب و کار الکترونیکی و رقابت در بازار کافی بود اما امروزه با مطرح شدن مسایلی مانند هوش تجاري و Data Governance اهمیت كيفيت داده در ایجاد مزیت رقابتی بین سازمانها پرداختن به آن را برای سازمانها، جهت باقی ماندن در فضای کسب و کار اجباری مینماید.بدين ترتيب اجبار سازمانها به بهبود کیفیت داده و معایب و مسایلی که ایجاد یک انباره واحد به وجود می آورد، آنها را به سمت استفاده از مجازی سازی داده ها سوق خواهد داد.


مراجع

Hopkins, Brian, Alex Cullen, Mike Gilpin, Boris Evelson, Gene Leganza, and Mackenzie Cahill. "Data virtualization reaches the critical mass." Forrester Report (2011).

Loshin, David. "Effecting data quality improvement through data virtualization." Knowledge Integrity, Inc (2010).

Elmore, Aaron J., Carlo Curino, Divyakant Agrawal, and Amr El Abbadi. "Towards database virtualization for database as a service." Proceedings of the VLDB Endowment 6, no. 11 (2013): 1194-1195.

Bologa, Ana Ramona, and Razvan Bologa. "A Perspective on the Benefits of Data Virtualization Technology." Informatica Economica 15, no. 4 (2011): 110-118.