بانك اطلاعات عناوين پايان نامه و پژوهش معرفي پايگاه هاي اطلاعات علمي بخش خدمات وب و seo بخش دانلود رايگان بخش دانلود پروپوزال بخش معرفي دانشگاههاي خارجي و شرايط تحصيل و بورس آنها

این ایمیل آدرس توسط سیستم ضد اسپم محافظت شده است. شما میباید جاوا اسکریپت خود را فعال نمایید

iranresearches-telegram

فروشگاه ایران پژوهان 

نگارش یافته توسط مدير محتواي ايران پژوهان مجموعه: علمي و پژوهشي
تعداد بازدید: 6366
چاپ

همه آنچه درباره داده کاوی باید بدانیم

این مطلب مفید از وبسایت   bme2.aut.ac.ir/.../data%20mining.  برای کابران محترم ایران پژوهان به امانت گرفته شده است.

مقدمه

 از سال 1950 به بعد که رایانه ، در تحلیل و ذخیره سازی داده ها به کار رفت ، حجم اطلاعات ذخیره شده درآن پس از حدود 20 سال دو برابر شد و همزمان  با پیشرفت فناوری اطلاعات ، حجم داده ها در پایگاه داده ها هر دو سال یک بار ، دو برابر شد و همچنان  باسرعت بیش تری نسبت به گذشته حجم اطلاعات  ذخیره شده بیش تروبیش تر می شود . با وجود شبکه جهانی وب ، سیستم  های یکپارچه اطلاعاتی ، سیستم های یکپارچه بانکی ، تجارت الکترونیکی و ... لحظه به لحظه به حجم داده ها  در پایگاه داده ها اضافه شده و باعث به وجود آمدن انبارهای ( توده های ) عظیمی از داده ها شده است ، به طوری که ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاه داده ها را بیش از پیش نمایان کرده است .

 

      شدت رقابت ها  در عرصه های علمی ، اجتماعی ، اقتصادی ، سیاسی و نظامی نیز اهمیت سرعت یا زمان دسترسی به اطلاعات را دو چندان کرده است . بنا براین نیاز به طراحی سیستم هایی که قادر به اکتشاف سریع اطلاعات مورد علاقه کاربران با تاکید بر حداقل مداخله انسانی باشند از یک سو و روی آوردن به روش های تحلیل متناسب با حجم داده های حجیم ازسوی دیگر ، به خوبــــــی احســاس می شود . در حال حاضر ، داده کاوی مهم ترین فناوری برای بهره وری موثر ، صحیح و سریع ازداده های حجیم است و اهمیت آن رو به فزونی است

داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین داده می باشد.  داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگو ها و مدلها برای انسانها قابل درک باشند.

داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.                 

داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند،اما دانش نهفته در داده ها قابل استفاده می باشد.

بنابراین بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود.

در داده کاوي معمولا به کشف الگوهاي مفيد از ميان داده ها اشاره مي شود . منظور از الگوي مفيد ، مدلي در داده ها است که ارتباط ميان يک زير مجموعه از داده ها را توصيف مي کند و معتبر ، ساده ، قابل فهم و جديد است .

تاریخچه  داده کاوی

     با توجه به وجود اطلاعات ارزشمند در پایگاه های  داده ای در اواخر دهه 80 میلادی ، تلاش برای استخراج و استفاده از اطلاعات پایگاه های  داده ای شروع شد . داده کاوی فرایندی است که در آغاز دهه 90 پا به عرصه ظهور گذاشته و با نگرشی نو ، به مسئله استخراج اطلاعــات از پایگـــاه داده ها می پردازد . در سال 1989 و 1991 کارگاه های کشف دانش از پایگاه داده ها توسط پیاتتسکی و همکارانش  و در فاصله سال های 1991 تا 1994 کارگاه های فوق ، توسط فایاد و پیا تتسکی و دیگران برگزار شد . به طور رسمی اصطلاح داده کاوی برای اولین بار توسط « فیاض »  در اولیـن کنفرانس بین المللی « کشف دانش و داده کاوی »  در سال 1995 مطرح شد . از سال 1995 داده کاوی به صورت جدی وارد مباحث آمار شد.و در سال 1996 ، اولین شماره مجله کشف دانش از پایگاه داده ها منتشر شد .

امروزه کنفرانس های مختلفی دراین زمینه در سراسر دنیا برگزار می شود . داده کاوی حاصل تحول تدریجی در طول تاریخ بوده و از اوایل دهه 90 همزمان با همه گیر شدن استفاده از پایگاه های داده ای به عنوان یک علم مطرح شده است.

موضوع داده کاوی چیست؟

      موضوع داده کاوی شناخت چیزهای جدید و با ارزش ، بالقوه مفید ، رابطه های منطقی و الگوهای موجود در داده ها  است در جوامع مختلف یافتن الگو های مفید در داده ها با عناوین متعددی ( مانند داده کاوی ) بیان می شود . برای مثال از عنوان هایی نظیر استخراج دانش ، کشف اطلاعات ، برداشت اطلاعات ، پردازش الگوهای داده ها می توان نام برد .

        عبارت « داده کاوی » توسط آمار شناسان ، محققان پایگاه های داده ها و سیستم های اطلاعات مدیریتی و جوامع بازرگانی به کار برده می شود . عبارت کشف دانش در پایگاه داده ها عموما برای اشاره به فرایند کلی کشف دانش مفید از داده هایی که داده کاوی گام مهمی دراین فرایند است ، مورد استفاده قرار می گیرد  گام های دیگری در فرایند کشف دانش در پایگاه داده ها نظیر آماده  کردن داده ها ، انتخاب داده ها ، تمیز کردن داده ها و درک درست از فرایند داده کاوی مــــوجب می شود تا اطلاعاتی که برای ما مفید هستند از داده ها استخراج شوند . داده کاوی از تحلیل های سنتی داده ها و رویکردهای آماری نشات  گرفته است به طوری که شامل فنون تحلیلی ای است که از شاخه های دیگری تشکیل شده است ، مانند :

    تحلیل های عددی در داده کاوی

     الگوهای سازگار و سطوحی از هوش مصنوعی مانند یادگیری ماشین

     شبکه های عصبی و الگوریتم های ژنتیک

     .....

                 با وجود این بسیاری از داد ه کاوی ها بر روش های سنتی و رویکردهای تحلیل داده های مبتنی بر فرضیه تکیه دارد . اساسا دو رویکرد برای داده کاوی وجود دارد که از  لحاظ ایجاد و طراحی مدل و یافتن الگوها  با هم فرق دارند اولین رویکرد که مربوط به ساخت مدل است ( جدا از مشکلاتی که ذاتا در مجموعه داده های بزرگ وجود دارد ) مشابه روش های کاوشگرانه آماری مرسوم است. دراین حالت هدف ایناست تا خلاصه های کلی ازمجموعه ای ازداده هـــا برای شناخت وتــوضیح خصوصیت های اصلی شکل توزیع به دست آوریم . مثال هایی از این قبیل مدل ها شامل تحلیل خوش های بخشی از مجموعه داده ها  مدل رگرسیونی برای پیشگویی و قاعده رده بندی با ساختار درختی است .

              نوع دوم رویکرد داده کاوی ، رویکرد تشخیص الگو است . این رویکرد سعی بر آن  دارد . تا انحراف هایی هرچند کوچک ( از حد مطلوب ) را تشخیص دهد ( که در هر صورت حائز اهمیت هستند ) ، تا الگوها و روند های غیر معمول نایان شود . مثال هایی نظیر الگو های نامعول ( برای تشخیص کلاهبرداری )  در استفاده از کارت های اعتباری و موضوع هایی  که  الگوهایی با ویژگی های نا مشابه با سایر الگو ها دارند از این نوع کاربد است . این دسته از راهبردها ست که موجب می شود تا داده کاوی به عنوان علم جستجوی اطلاعات با ارزش از بین توده عظیمی از داده ها به حساب آید . به طور کلی در پایگاه های داده ای کسب و کار ( تجاری ) ضعف درک الگو ها به خاطر پیچیدگی زیاد آن هاست . این پیچیدگی ها در اثر ناپیوسته بودن ، نامفهوم بودن و کامل نبودن به وجود می آیند. هر چند اکثر الگوریتم های داده کاوی می توانند اثر این گونه خصوصیت های نامربوط برا در تشخیص الگوی اصلی تمییز دهند ، ولی قدرت پیش گویی الگوریتم های داده کاوی با افزایش این انحراف ها کاهش می یابد .

تعاریف داده کاوی

نگاهی به ترجمه لغوی داده کاوی به ما در درک بهتر این واژه کمک می کند . واژه لاتین Mine به معنای استخراج از منابع نهفته و با ارزش زمین اطلاق می شود . ادغام این کلمه با Data  به معنی داده بر جستجویی عمیق از داده های قابل دسترس با حجم زیاد برای یافتن اطلاعات مفید که قبلا نهفته بودند ، تاکید دارد

 داده کای دارای تعریف های مختلفی است این تعریف ها به مقدار زیادی به پیش زمینه ها و نقطه نظرهای افراد بستگی دارد . هر نویسنده ، محقق و کابر با توجه به پیش زمینه ها و نقطه نظر های افراد بستگی دارد . هر نویسنده ، محقق و کاربر با توجه به دیدگــاه و نوع نگرش خود تعریف های مختلفی از داده کاوی ارائه کرده اند به عنوان مثال می توان به چند تعریف داده کاوی که در ادامه آمده است اشاره کرد:

                 داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید از پایگاه داده می باشد

                 داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد

                 داده کاوی استخراج نیمه اتوماتیک الگوها، تغییرات، وابستگی ها، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد.

     داده کاوي عبارت است از فرايند استخراج اطلاعات معتبر ، از پيش ناشناخته ، قابل فهم و قابل اعتماد از پايگاه داده هاي بزرگ و استفاده از آن در تصميم گيري در فعاليت هاي تجاري مهم.

     اصطلاح داده کاوي به فرايند نيم خودکار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود

     داده کاوي يعني جستجو در يک پايگاه داده ها براي يافتن الگوهايي ميان داده ها

چند مثال در موردمفهوم داده کاوی

یکی از نمونه های بارز داده کاوی را می توان در فروشگاه های زنجیره ای مشاهده نمود، که در آن سعی می شود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاه های زنجیره ای مشتاقند بدانند که چه محصولاتی با یکدیگر به فروش می روند.

برای مثال طی یک عملـیات داده کاوی گستـرده در یـک فروشـگاه زنجیره ای در آمریکای شمالی که بر روی حجـم عظیمـی از داده های فروش صورت گرفت، مشخص گردید که مردانی که برای خرید قنداق بچه به فروشگاه می روند معمولا آب جو نیز خریداری می کنند. همچنین مشخص گردید مشتریانی که تلویزیون خریداری می کنند، غالبا گلدان کریستالی نیز می خرند.

نمونه مشابه عملیات داده کاوی را می توان در یک شرکت بزرگ تولید و عرضه پوشاک در اروپا مشاهده نمود، به شکلی که نتایج داده کاوی مشخص می کرد که افرادی که کراوات های ابریشمی خریداری می کنند، در همان روز یا روزهای آینده گیره کراوات مشکی رنگ نیز خریداری می کنند.

به روشنی این مطلب قابل درک است که این نوع استفاده از داده کاوی می تواند فروشگاه ها را در برگزاری هوشمندانه فستیوال های فروش و نحوه ارائه اجناس به مشتریان یاری رساند.

نمونه دیگر استفاده از داده کاوی در زمینه فروش را می توان در یک شرکت بزرگ دوبلاژ و تکثیر و عرضه فیلم های سینمایی در آمریکای شمالی مشاهده نمود که در آن عملیات داده کاوی، روابط مشتریان و هنرپیشه های سینمایی و نیز گروه های مختلف مشتریان بر اساس سبک فیلم ها ( ترسناک، رمانتیک، حادثه ای و ...) مشخص گردید. بنابراین آن شرکت به صورت کاملا هوشمندانه می توانست مشتریان بالقوه فیلم های سینمایی را بر اساس علاقه مشتریان به هنرپیشه های مختلف و سبک های سینمایی شناسایی کند.

از دیگر زمینه های به کارگیری داده کاوی، استفاده بیمارستانها و کارخانه های داروسازی جهت کشف الگوها و مدلهای ناشناخته تاثیر دارو ها بر بیماری های مختلف و نیز بیماران گروه های سنی مختلف را می توان نام برد.

استفاده از داده کاوی در زمینه های مالی و بانکداری به شناخت مشتریان پر خطر و سودجو بر اساس معیار هایی از جمله سن ، درآمد، وضعیت سکونت، تحصیلات، شغل و غیره می انجامد.

تفاوت داده کاوی و آنالیز های آماری

داده کاوي با آنالیز های متداول آماری متفاوت است؛در زیرمی توان برخی از اصلی ترین تفاوت های داده کاوي و آنالیز آماری را مشاهده نمود:       

آنالیز آماری:

•  آمار شناسان همیشه با یک فرضیه شروع به کار می کنند.

•  آنها از داده های عددی استفاده می کنند.

•   آمارشناسان باید رابطه هایی را ایجاد کنند که به فرضیه آنها مربوط است.

•  آنها می توانند داده های نابجا و نادرست را در طول آنالیز مشخص کنند.

•  آنها می توانند نتایج کار خود را تفسیر و برای مدیران بیان کنند.

داده کاوی:

•  به فرضیه احتیاجی ندارد.

•  ابزارهای داده کاوی از انواع مختلف داده ، نه تنها عددی می توانند استفاده کنند.

•  الگوریتمهای داده کاوی به طور اتوماتیک روابط را ایجاد می کنند.

•  داده کاوی به داده های صحیح و درست نیاز دارد.

•  نتایج داده کاوی نسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد.

جهت درک بهتر تفاوت داده کاوی و آنالیزهای آماری به مثال زیر که در مورد شناخت کلاهبرداری های شرکت بیمه می باشد، توجه کنید.

روش آنالیز آماری در داده کاوی:

یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه گردد. بر اساس این فرضیه، مفسر به طرح یک سری سوال می پردازد تا این موضوع را بررسی کند. اگر نتایج حاصله مناسب نبود، مفسر فرضیه را اصلاح می کند و یا با انتخاب فرضیه دیگری مجددا شروع می کند. این روش نه تنها وقت گیر است بلکه به قدرت تجزیه و تحلیل مفسر نیز بستگی دارد. مهمتر از همه اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگری را که مفسر به آنها مظنون نشده و در فرضیه جا نداده ، پیدا نمی کند.

روش داده کاوی:

یک مفسر  سیستم های داده کاوی را ساخته  و  پس از طی مراحلی از جمله  جمع آوری داده ها،  یکپارچه سازی داده ها به انجام عملیات داده کاوی می پردازد. داده کاوی تمام الگوهای غیرعادی را که از حالت عادی و نرمال انحراف دارند و ممکن است منجر به کلاهبرداری شوند را پیدا می کند.

نتایج داده کاوی حالت های مختلفی را که مفسر باید در مراحل بعدی تحقیق کند، نشان می دهند. در نهایت مدل های به دست آمده می توانند مشتریانی را که امکان کلاهبرداری دارند، پیش بینی نمایند.

 

کاربردهاي داده کاوي

     خرده فروشي : از کاربردهاي کلاسيک داده کاوي است که مي توان به موارد زير اشاره کرد : 

     تعيين الگوهاي خريد مشتريان

     تجزيه و تحليل سبد خريد بازار

     پيشگويي ميزان خريد مشتريان از طريق پست(فروش الکترونيکي)

     بيمه :

     تجزيه و تحليل دعاوي

     پيشگويي ميزان خريد بيمه نامه هاي جديد توسط مشتريان

     پزشکي :

     تعيين نوع رفتار با بيماران و پيشگويي ميزان موفقيت اعمال جراحي

     تعيين ميزان موفقيت روشهاي درماني در برخورد با بيماريهاي سخت

     تشخيص بيماريها براساس انواع اطلاعات (تصاوير پزشکی، مشخصات بيمار احتمالی)

     تشخيص ناهنجاريهائی که توسط انسان به سختی قابل تشخيص خواهند بود

     بانکداري :

     پيش بيني الگوهاي کلاهبرداري از طريق کارتهاي اعتباري

     تشخيص مشتريان ثابت

     تعيين ميزان استفاده از کارتهاي اعتباري بر اساس گروههاي اجتماعي

     حوزه کاربردی فضا و سفرهای فضائی

     حجم بسيار زيادی از اطلاعات

     نويز بسيار بالا

     ارزش بسيار زياد دانش قابل استخراج

     پردازش اطلاعات جمع آوری شده از فضا

     پردازش اطلاعات مربوط به سفينه های فضائی

     ارائه دانش مفيد برای اتخاذ تصميم نهائی جهت پرتاب يا عدم پرتاب يک سفينه به فضا

فواید و نقش داده کاوی در فعالیت شرکتها

امروزه عملیات داده کاوی به صورت گسترده توسط تمامی شرکت هایی که مشتریان در کانون توجه آنها قرار دارند، استفاده می شود، از جمله فروشگاه ها، شرکت های مالی، ارتباطاتی، بازاریابی و غیره.  استفاده از داده کاوی به این شرکتها کمک می کند تا ارتباط عوامل داخلی از جمله قیمت، محل قرارگیری محصولات، مهارت کارمندان را با عوامل خارجی از جمله وضعیت اقتصادی، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند.

از آنجـائیـکه هـوش مصنوعی یکی از اصلی ترین  عنــاصـر داده کـــاوی  می باشد و با توجه به اینکه به کمک سیستم های کامپیوتری و پایگاه های داده، روزانه به میزان داده ها افزوده می شود، بنابراین استفاده هوشمندانه از دانش بالقوه ای که در این داده نهفته است در دنیای رقابتی امروز برای شرکت ها حیاتی می باشد.

داده کاوی پیش بینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقه های عمومی آنها را برای شرکت ها ممکن می سازد.

مراحل داده کاوی

مرحله اول: Business  Understanding

این مرحله مهمترین مرحله فرایند می باشد. در ابتدا بـاید صورت مسئله دانسته شود تا پروژه داده کاوی صورت پذیرد.همچنین باید تاثیرگذارهای بر روی پروژه مشخص شوند که چه کسانی می باشند. سپـس باید دانش بـاشد تا  

چگونگی عمل نیز مشخص شود.

مرحله دوم: Data  Understanding

این مرحله مربوط به مفهوم داده ها می باشد. شامل مراحل زیر می باشد:

     جمع آوری داده های اولیه واصلی 

     شرح وتوصیف داده ها

     کاوش داده ها

     تحقیق در مورد کیفیت داده ها

جمع آوری داده ها:

مسئله اصلی در این قسمت این است که :

    ((ما چه داده هایی را احتیاج داریم؟))

* این داده ها کجا هستند؟

*بزرگی داده های مورد نیاز چقدر باشد؟

* چه مدت طول می کشد تا به داده ها دسترسی پیدا کنیم؟

* آیا روش خاص ومنحصربفردی برای جمع آوری داده ها است؟

*آیا داده های بدست آمده مفید،مفهومی،موثر و بهره ور هستند؟

یکی از سوال هایی که جهت جمع آوری داده مطرح شد ،این بود که داده ها کجا هستند؟

منابع مورد نیاز داده ها شامل:

                            فایلهای Flat

                             Database ها

                             Database های نامتجانس وناهمگون

                             Database های ناشناس ونامشخص

 Database                       موروثی  و

 Datawarehouse                       انبار داده ها است.    

انبار داده: Data Warehouse (DWH)

سیستمی است که عمل تلفیق درآن انجام می گیرد.قابل تغییر نیست. به مدیران در گرفتن تصمیم گیری بهتر کمک می کنند. در این سیستم چند خاصیت وجود دارد؟

1- به مسائل به خصوصی درجنبه استراتژیک  می پردازد.(مشتریان،محصولات)

2- پس از ورود اعداد به سیستم می توان اعداد را خانه تکانی کرد.(یکسان سازی کدها، نام  ها و..)

3-پویا است وبایداطلاعات جدید وارد آن شود.

معماری DWH  :

اعداد در سیستم operative وجود دارندواعدادممکن است درچندتا از این DWH ها باشند. باید اول اعداد را تعریف کرده ، ببینیم درکجا قراردارند و بعداعدادمورد نیاز را به  DWH میانی می آوریم و بعد درمـرحله Staging اینکار انجام می شود و وقتی اعدادآماده شد ، Loud شده و به DWH می رود. سپس بعـد از خـانه تکانی ، با

اعـداد تمیز با سیستم ها وابـزارهای  Olap یا  mining یا  Reporting عمل می کنیم.

  بحث شرح وتوصیف داده ها:

        برخی از اندازه گیری های شخصیت داده ها شامل:

   *تعداد مشاهدات  :

observation یا مشاهدات در جاهای متفاوت با عناوین مختلفی نام برده شده که از آن جمله می توان به این موارد اشاره کرد: Case, data, object, entity, event, instance,  pattern, point, record, sample,…

    *تعداد صفات : Attribute

هر مشـاهده به وسیله یک یا چند صفت شـرح داده می شود. پس تعـداد صفات حتما باید کمتر از تعداد مشاهدات باشد. صفات یک مشاهده برای تعریف نوع وخاصیت مشاهده  لازم وضروری است.

  نام های دیگر Attribute به این شرح است:   Feature, Field, Variable, …                                   

  انواع صفات: انواع صفات بوسیله انواع مقیاس های اندازه گیری اعداد  تعریف می شوند.

انواع صفات از نظر مقیاس اندازه گیری:

Ratio                                 داده های نسبتی

Nominal                            داده های اسمی

Ordinal                              داده های ترتیبی

Interval                             داده های فاصله ای

 مقادیر اسمی:

   مانند نژاد .آیا این شخص زرد پوست است یا نه؟ فقط در همین حد می باشد و نمی توان روی آن عملیاتی انجام داد.

مقادیر ترتیبی :

برای تمیز دادن هر مشـاهده از دیگرمشاهدات است.

  A=B    or     A=B

  وهمچنین ترتیب ورتبه مشاهدات را نیز مشخص می کند. (بیشتر است یا کمتر، بهتر است یا بدتر و ...)

    A>B   or   A<B

     مقادیر فاصله ای:

   علاوه بر حالات قبل عمل تفاضل را نیز می توان بر روی داده ها انجام داد. در این حالت صفر، صفر مطلق نیست.

بعنوان مثال در مورد درجه حرارت هوا ، می توان گفت که این مقدار درجه هوا گرمترشده . ولی درجه حرارت صفر به این معنا نیست که هوا گرما وسرما ندارد.

مقادیر نسبتی :

  تمام خصوصیات مقیاس فاصله ای را دارد.بعلاوه آنکه صفر معنای کامل ومطلق دارد. مثلا اگر گفتیم درآمـد صفر است ،یعنی واقـعا هیچ  پولی وجود ندارد.

 انواع دیگر دسته بندی صفات:

discrete                             اعداد گسسته

continuous                        اعداد پیوسته

اعدادگسسته : مقادیر محدود ( مانند تعداد بچه )  یا نامحدود قابل   شمارش ( مانند شماره اعداد یا فراوانی ) هستند،

اغلب با اعداد طبیعی نشان داده می شوند ،   حالت خاص آن اعداد دوتایی binary می باشد.

اعدادپیوسته :    اعدادحقیقی هستند.  تمام مقادیر بین دو مقدار را هم می پذیرند(مانند وزن)

پارامترهای آماری ای که برای خلاصه کردن داده ها مورد نیاز است شامل موارد زیر است:

     فراوانی

     میانگین میانه

     مد

     ماکزیمم داده ها

     مینیمم داده ها

     دامنه یابرد داده ها

     واریانس

     انحراف معیار

     میانگین انحرافات

  مرحله سوم: Data  Preparation

این مرحله مربوط به آماده سازی داده ها می باشد و شامل مراحل زیر می باشد:

     انتخاب داده ها

     تمیز کردن داده ها

     تبدیل داده ها

     تلفیق داده ها

  بصورتی که کدگذاری و نام گذاری داده ها حالت استاندارد ویکسان داشته باشد.

Data  selecting انتخاب داده                            

در دو بخش انجام می گیرد: یکی زمانی است که تعداد صفات را کم می کنیم و دیگری زمانی که با کم کردن مشاهدات داده ها را انتخاب می کنیم که ما در اینجا به بخش دوم می پردازیم:

کم کردن تعداد مشاهدات به سه روش می باشد: 

     نمونه گیری                   Sampling   

     نمونه گیری هوشمند       Intelligent sampling

     یادگیری برای صرفنظر      Learn to forget

    درآمار،نمونه گیری تصادفی است که داده ها به صورت تصادفی انتخاب می گردند. ولی این تصادفی انتخاب کردن ممکن است که زیـان زیادی برای ما داشته باشد و ما خیلی از داده هـای با ارزشمان را از دست بدهیم. به عـنوان مثال اگر اخراج یکسری از افراد یک شرکت به صورت نمونه گیری تصادفی باشد، ممکن است یکسری ازکارمندهای حرفه ای وخبره را ازدست بدهیم. عمـل نمونه گیری به این دلیل است کـه حجم  بالای اطلاعات وداده ها قابل پردازش نیست. حجم نمونه باید به اندازه بهینه باشد. حجم نمونه به عنوان پارامتراضافی مدل است و میتوان آنرا آنقدرتغییرداد تابه حالت مطلوب برسیم.

نمونه گیری هوشمند:

در این حالت طوری نمونه گیری انجام می شود که طبق قوانین ومقرراتی باشد و ما اطلاعات اصلی را از دست ندهیم.

                                                                      با جایگذاری

      انواع روشهای نمونه گیری:

                                                                       بدون جایگذاری

درنمونه گیری تصادفی اساس براین است که هر کدام از مشاهدات احتمال معادل ومعلوم داشته  باشند که بتوانند در نمونه گیری ما انتخاب شوند.

وقتی تعداد جامعه خیلی زیاد باشد می توان از نمـونه گیری بدون جایگذاری استفاده کرد. روش انتخاب نمونه :

         (تعدادافراددرجامعه      )/(تعدادافراددرنمونه    ) K=                                

مشاهده اول بصورت تصـادفی بعنوان نقطه شـروع  انتخاب می گردد و بعد برای مشاهدات بعدی به هـر مشاهده به اندازه k  اضافه می کنیم و به این ترتیب کل نمونه انتخاب می گردد.

نمونه گیری طبقه بندی:

زمانی این نمونه گیری انجام میشودکه یک جامعه نامتجانس داشته باشیم. به این صورت است که ابتداجامعه راطبقه بندی می کنیم و سپس دو حالت داریم: یکی آنکه از کل طبقه ها نمونه گیری تصادفی انجام می دهیم و دیگر آنکه از هر طبقه به تعداد مساوی نمونه می گیریم.

مرحله چهارم : Modelling

این مـرحله مربوط به مـدلسازی پس از جمـع آوری داده ها و پیش بینی می باشد .

      پیش بینی : به طور کلی مثل وضعیت رده بندی است .

x هایی داریم که بوسیله صفاتی نمایش داده می شوند. می خواهیم سیستمی درست کنیم که برای ما پیش بینی کند. متغیر هدف داریم که می خواهیم آنرا پیش بینی کنیم. متغیر هدف یک متغیر پیوسته است.

بنابراین یکسری عدد به روشهای مختلفی جمع آوری کـرده ایم و جهت مقـایسه وارزیابـی مدل ها در اختیار داریم.

جهت این کار باید اعداد را به دوگروه تقسیم کنیم. مسئله اول چگونگی تقسیم داده ها است.

یک روش تقسیم داده، با توجه به حجم زیاد داده وتجربه خودمان است.

معمولا می توان 70% داده هارا برای تولید مـدل و30% آنرا برای تست مدل تقسیم کرد که این حالت برای زمانی خوب است که اعداد زیاد باشد. ولی اگر تعداد داده ها کم باشد وما بیائیم 30% داده ها را برای تست بگـذاریم ، در واقـع 30% داده ها را از دست داده ایم.

زمانی که تعداد اعداد کم باشد، روش Cross Validation  ، (اعتبار سنجی متقابل) به کار می رود

مرحله پنجم : Evaluation

 در این مرحله مدل را ارزیابی می کنیم. ببینیم آیا به هدف رسیده ایم یا نه؟ درآن قسمتهایی که به هدف نرسیده ایم،بعضی جاها را تکرارکنیم یا بعضی وقتها ممکن است مجبور به تغییرهدف شویم ویا گاهی مجبور به تغییر اعـداد اولیه شویم.                     

مرحله ششم : Deployment

این مرحله،مربوط به چگونگی استفاده ازمدل است. زمانی به این مرحله می رویم که به هدف  رسیده باشیم. این مرحله به شرح ذیل است:

     گسترش برنامه

     نگهداری وقوت برنامه

     تولیدگزارش نهایی

     تجدیدنظر ونشریه کردن پروژه

مفاهیم اساسی در داده كاوی

   Bagging: این مفهوم برای تركیب رده بندی های پیش بینی شده از چند مدل  به كار می رود.فرض كنیدكه قصدداریدمدلی برای رده بندی پیش بيني بسازیدو مجموعه داده های مورد نظرتان كوچك است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طوركلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده از نمونه ها ،‌یك رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ای‌خواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند .

Boosting: این مفهوم برای تولید مدل‌های چندگانه (برای پیش بینی یا رده بندی)به كار می‌رود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد كرد .

Meta-Learning : این مفهوم برای تركیب پیش بینی‌های حاصل از چند مدل به كار می‌رود.و هنگامی كه انواع مدل‌های موجود در پروژه خیلی متفاوت هستند، كاربرد دارد. فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبكه های عصبی است.هر یك از كامپیوترها،رده بندی هایی رابرای نمونه ها‌پیش بینی كرده اند.تجربه نشان می‌دهدكه تركیب پیش بینی های چند روش دقیق تراز پیش بینی های هریك از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود.

 پیشرفت در تکنولوژیهای داده پردازی

سازمانهای بزرگ و چند- مکانه مثل بانکها، دفاتر هواپیمایی و فروشگاههای زنجیره ای با حجم زیادی از داده ها که ناشی از عملکرد روزانه آنهاست روبرو هستند. بطور سنتی چنین داده هایی به دو دسته تقسیم شده اند:

 1. رکوردهای اصلی

 2.  رکوردهای عملیاتی  

  فرض بر این است که رکوردهای اصلی حاوی اطلاعات پایه هستند که معمولا چندان تغییر نمی کنند در حالیکه رکوردهای عملیاتی با توجه به طبیعت عملیات تجاری حتی بطور ساعتی تغییر خواهند کرد.  

سیستمهای مدیریت پایگاه داده مناسب برای پیوند دادن این دو مجموعه اطلاعاتی  و تهیه گزارشهای استاندارد جهت کنترل فعالیتها گسترش یافتند.  سیستم اطلاعات مدیریت رایج برای پشتیبانی عملیات و سرویس دهی به چند کاربر در سطوح مختلف سازمان مبتنی بر این نظریه است.

بمنظور کمک به تصمیم گیری راهبردی، نظریه تاسیس بانک اطلاعات رکوردهای اصلی به نظریه سازماندهی دیتا مارت و انبار داده ها تغییر یافت.  استخراج اطلاعات از رکوردهای عملیاتی یا پایگاههای اطلاعات عملیاتی و سازماندهی آن برای تحلیل استاندارد یا زمانی فلسفه اولیه و اصولی چنین پیشرفتهایی است. گرچه، دیتا مارت و انبار داده ها از نظر هدف و ساختار با هم متفاوتند.

 دیتامارت

دیتا مارت اغلب کوچک است و بر یک موضوع یا دپارتمان خاص متمرکز است. بنابراین پاسخگوی یک نیاز داخلی است. طرح بانک اطلاعات برای یک دیتامارت حول ساختار اتصال ستاره ای ساخته شده است که بهینه برای نیازهای کاربران دپارتمان است. دیتامارت معمولا با ابزارهای کامپیوتری که انعطاف پذیری تحلیل را تامین میکنند اما ممکن است برای سازماندهی حجم بالای داده ها مناسب نباشند؛ نیرومند میشود. رکوردهای ذخیره شده در دیتامارتها بخوبی نمایه شده اند.

یک دیتامارت در صورتیکه داده ها را از منابع داده ای بسیار سازماندهی شده مثل انبار داده ها بگیرد؛ دیتامارت وابسته  نامیده میشود. مسلما دیتامارتهای وابسته از لحاظ ساختاری و معماری منطقی هستند. منبع دیتامارتهای وابسته تکنولوژِی بانک اطلاعات دپارتمانی است. دیتامارتهای مستقل ثابت نیستندو از لحاظ معماری بسیار با هم متفاوتند. این مساله هنگام یکپارچه سازی دیتامارتهای مستقل، مشکل ایجاد میکند. بنابراین با یکپارچه سازی ساده دیتامارتها یک انبار داده ایجاد نخواهد شد.

دیتامارت اساسا برای اهداف تاکتیکی طراحی شده است و هدفش تامین یک نیازتجاری فوری است.

 انبار داده ها

یک انبار داده کاملا " متفاوت از دیتامارت است. سازماندهی انبارهای داده بگونه ایست که کلیه موضوعات حول فعالیتهای کاری سازمان را می پوشاند. انبار داده نمایانگر یک تسهیلات مرکزی است.

برخلاف دیتامارت که در آن داده ها به شکل خلاصه تر و متراکم تر وجود دارند، یک انبار داده ، داده ها را در یک سطح نامتراکم ذخیره می کند. ساختار داده ها در یک انبار داده یک ساختار لزوما" هنجار شده است. بدین معنی که ساختار و محتوای داده ها در انبار داده منعکس کننده ویژگیهای دپارتمانهای عضو نیست. داده ها در انبار داده از نظر حجم و شکل کاملا" متفاوت از داده ها در دیتامارت هستند. دیتامارت ممکن است شامل حجم زیادی از داده های قدیمی و گذشته نگر باشد. داده ها در انبار داده اغلب بصورت نسبتا" سبک نمایه میشوند. (به بیان دیگر در عمق کمتر).

انبار داده برای اهداف برنامه ریزی بلندمدت و راهبردی طراحی میشوند. در نتیجه انبار داده برخلاف سیستم عملیات که کاربرمدار است متمرکز بر اقلام است.

 ساختار یک انبارداده مشخصات زیر را نشان میدهد:

 -1وابستگی به زمان:

رکوردها بر اساس یک برچسب زمانی نگهداری میشوند. وابستگی زمانی حاصل در ایجاد صفحات زمانی مفید است که درک ترتیب زمانی وقایع را تسهیل میکند.

 -2غیر فرار بودن:

رکوردهای داده در انبار داده ها هرگز بطور مستقیم روزآمد نمیشوند. برای هر تغییری در ابتدا داده های عملیاتی روزآمد میشوند و سپس بگونه ای مقتضی به انبار داده منتقل میشوند. این مساله ثبات داده ها را برای استفاده های وسیعتر تضمین میکند.

 -3تمرکز موضوعی:

 داده ها از بانکهای اطلاعاتی عملیاتی بصورت گزینشی به انبار داده منتقل میشوند. این استراتژی به ایجاد یک انبار داده بر اساس یک مطلب یا موضوع خاص کمک میکند و بنابراین کاوش انبار داده ها برای  پرس و جوهای موضوعی با سرعت بیشتری انجام میشود.

-4یکپارچگی:

داده ها بگونه ای کامل سازماندهی شده اند تا با حذف موارد تکراری و چند عنوانه  یکپارچگی رکوردها حفظ شود ؛ به ایجاد ارجاع های متقابل کارآمد بین رکوردها کمک نموده و ارجاع دهی را تسهیل نماید.

 واضح است که انبار داده اساسا" برای  پرس و جوهای پشتیبان تصمیم گیری ساخته شده است. بر این اساس سازماندهی وعملیات انبار داده چنان طراحی شده اند تا نیازهای اطلاعاتی روزمره یا معمولی را پاسخگو باشند. بدلیل حجم بسیار بالای چنین پایگاه اطلاعاتی یک سیستم کامپیوتری پیشرفته برای عملیات انبارسازی داده ها لازم است. همچنین یک بانک اطلاعات مجزا شامل ابرداده که مشخصه هایی نظیر نوع، فرمت، مکان و پدیدآورندگان داده های ذخیره شده در یک انبار داده ها را توصیف میکند نیز برای کمک به کاربران و مدیران داده ها ساخته میشود. مشخص شد که انبار داده  بدلیل اندازه و تنوعش، اگر مبتکرانه پردازش شود میتواند به تولید اطلاعاتی منجر شود که در وهله اول آشکار نیستند. با انتخاب متناسب داده ها، بکار گرفتن فنون مختلف غربال کردن و تفسیر زمینه ای، داده ذخیره شده میتوانست منجر به کشف الگوها یا رابطه هایی شود که بینش نویی به تصمیم گیرنده دهد. این مساله نظریه توسعه عملیات داده کاوی را به موازات معدن کاوی بروز داد. ذکر این نکته لازم است که داده کاوی در اصل لزوما" نیاز به سازماندهی یک انبار داده ندارد. حال به داده کاوی می پردازیم.

عناصر داده کاوی

 توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند. تحلیل داده مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است.

برای عملی شدن هریک از دو کارکرد فوق الذکر داده کاوی، چند گام ابتدایی اما مهم باید اجرا شوند که از این قرارند:

1. انتخاب داده ها

2. پاک سازی داد ها 

3. غنی سازی داده ها

4. کد گذاری داده ها

 با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه داده های اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم میتواند از انبار داده ها و یا بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمع آوری شده؛ اغلب از آنچه آلودگی داده ها نامگذاری شده است رنج می برند و بنابراین لازم است پاکسازی شوند تا از یکدستی فرمت (شکلی) آنها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه بعمل آید. ممکن است داده های گردآوری شده از جنبه های خاصی ناقص یا ناکافی باشند. در این صورت داده های مشخصی باید گردآوری شوند تا بانک اطلاعات اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند. این فرایند مرحله غنی سازی داده ها را تکمیل میکند. یک سیستم کدگذاری مناسب معمولا" جهت انتقال داده ها به فرم ساختار-بندی شده جدید؛ متناسب برای عملیات داده کاوی تعبیه میشود .

فنون داده کاوی

 ممکن است متوجه شده باشید که فنون داده کاوی یک گروه نامتجانس را شکل میدهند چرا که هر تکنیکی که بتواند بینش جدیدی از داده ها را استخراج کند میتواند داده کاوی به حساب آید. برخی از ابزارهای رایج بکار گرفته شده تحت عنوان داده کاوی عبارتند از:  

 

-1ابزارهای پرس و جو: ابزارهای متداول زبان پرس و جوی ساختاربندی شده در ابتدا برای انجام تحلیلهای اولیه بکار گرفته شدند که می تواند مسیرهایی برای تفحص بیشتر نشان دهد.

-2فنون آماری: مشخصات اصلی داده ها لازمست با کاربرد انواع مختلفی از تحلیلهای آماری شامل جدول بندی ساده و متقاطع داده ها و محاسبه پارامترهای آماری مهم بدست آید.

-3مصور سازی: با نمایش داده ها در قالب نمودارها و عکسها مانند نمودار پراکندگی؛ گروه بندی داده ها در خوشه های متناسب تسهیل میشود. استنباط عمیق تر ممکن است با بکارگیری تکنیکهای گرافیکی پیشرفته حاصل شود.

 -4پردازش تحلیلی پیوسته: از آنجا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند، روشهای متعددی برای ترکیب کردن آنها وجود دارد. ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک میکند و ابزارهای ابتدا-انتهای پیوسته برای انجام  پرس و جو ایجاد میکند. اما این ابزارها هیچ دانش جدیدی ایجاد نمی کنند.

 -5یادگیری مبتنی بر مورد: این تکنیک مشخصات گروههای داده ها را تحلیل میکند و به پیش بینی هر نهاد  واقع شده در همسایگی شان کمک میکند. الگوریتمهایی که استراتژی یادگیری تعاملی را  برای کاوش در یک فضای چندین بعدی بکار میگیرند برای این منظور مفیدند.

 -6درختان تصمیم گیری: این تکنیک بخشهای مختلف فهرست پاسخهای موفق داده شده مربوط به یک پرس و جو را بازیابی می کند و به این ترتیب به ارزیابی صحیح گزینه های مختلف کمک میکند.

 -7قوانین وابستگی: اغلب مشاهده میشود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعه ای از داده های معین وجود دارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته و بکار گرفته میشوند.

 -8شبکه های عصبی : این یک الگوریتم یادگیری ماشینی است که عملکرد خودش را بر اساس کاربرد و ارزیابی نتایج بهبود می بخشد.

 -9الگوریتم ژنتیکی: این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع میشود و رشدش در آینده را با حضور در برخی مراحل فرایند محاسبه احتمال جهش تصادفی؛ همانطور که در تکامل طبیعی فرض میشود  طرح ریزی می نماید. این تکنیک به چند روش میتواند عملی شود. و ترکیب غیرقابل انتظار یا نادری را از عواملی که در حال وقوع بوده و مسیر منحنی طراحی داده ها را تغییر میدهند؛ منعکس میکند.

 

گام نهایی فرایند داده کاوی، گزارش دادن است

 گزارش شامل تحلیل نتایج و کاربردهای پروژه، درصورت بکارگیری آنها، است . و متن مناسب، جداول و گرافیکها را در خود جای می دهد. بیشتر اوقات گزارش دهی یک فرایند تعاملی است که تصمیم گیرنده با داده ها در پایانه کامپیوتری بازی میکند و فرم چاپی برخی نتایج واسطه محتمل را برای عملیات فوری بدست می آورد.

داده کاوی در تولید چهار نوع دانش ذیل مفید است:

- دانش سطحی- کاربردهای SQL

- دانش چند وجهی -کاربردهای OALP

- دانش نهان (تشخیص الگو و کاربردهای الگوریتم یادگیری ماشینی)

- دانش عمیق (کاربردهای الگوریتم بهینه سازی داخلی)

نرم افزار های داده کاوی

از آنجا که داده کاوی با بانکهای اطلاعاتی بزرگ سروکار دارد، به گونه ای ایده ال با تکنولوژی خدمت گیر-خدمت گر بکار میرود. کاربردهای عمومی داده کاوی بیشتر شامل تقسیم کردن داده ها در خوشه های مقتضی، کدگذاریهای مناسب، کاوش برای الگوها و طراحی کردن با استفاده از فنون آماری و الگوریتمهای ژنتیکی است. تعداد زیادی از بسته های نرم افزاری واجد این جنبه های ابزارهای داده کاوی با درجات متفاوتی از جامعیت در دسترس هستند. برای مثال بسته های نرم افزاری که منحصرا" برای کاربردهای OLAP در دسترس هستند عبارتند از: Oracle OLAP, DB2 OLAP Server, CleverPath OLAP . نرم افزارهای آماری عمومی مثل SPSS, SAS, STATISTICA با امکاناتی برای داده کاوی و بسته های نرم افزاری اختصاصی داده کاوی مثل Weka, Insightful Miner3, Text Mining Software, Enterprise Data Mining software, PolyAnalyst 4.6  مفید هستند.

 

کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی

داده کاوی در ابتدا از حوزه تجارت برخاست اما کاربردهای آن در سایر حوزه هائی که به گردآوری حجم وسیعی از داده هائی می پردازند که دستخوش تغییرات پویا نیز می گردند؛ مفید شناخته شد. بخشهایی مثل بانکداری، تجارت الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونه اند.

انتظار میرود که استفاده از داده کاوی در بخش آموزش بطور عام امکانهای جدید بسیاری ارائه دهد. برخی کاربردهای داده کاوی در کتابخانه ها و قسمت اداری آموزش در ذیل مورد بحث قرار گرفته اند.

مدیریت و خدمات کتابخانه

عملیات کتابداری بطور کلی شامل مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده ها سروکار دارد و بطور جداگانه پردازش میشود. اگرچه، انجام تحلیل ترکیبی براین مجموعه های داده  نیز میتواند افق تازه ای را بگشاید که به طرح خدمات جدید و تحول رویه ها و عملیات جاری کمک نماید. جدول یک برخی از کاربردهای ممکن داده کاوی را که میتواند در کتابداری مفید باشد ارائه میکند.

جدول یک- کاربردهای داده کاوی در کتابخانه ها

کاربرد متصور            بانک اطلاعاتی 

برای تعیین نقاط قوت و ضعف مجموعه   گردآوری منابع

برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از سال           استفاده از مجموعه

برای تحلیل سفارشهای پاسخ داده شده و سفارشهای دریافت شده    امانت بین کتابخانه ای

برای پیش بینی روند بازگشت منابع        داده های بخش امانت

برای نشان دادن منابع مالی بکار گرفته شده         داده های هزینه

 

 داده کاوی میتواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیم گیری کمک میکنند، استفاده شود . برای مثال سوال میتواند چنین باشد: امکان اینکه امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامه های یادآوری کمتری فرستاده شود چقدر است؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی انتخاب شده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواستهای  اعضا  برای میکروفیلمها طی 5 سال گذشته نیز همگی مثالهایی از کشف روندهای عمومی اند. دامنه تحلیل استنادی هم میتواند با استفاده از داده کاوی گسترش داده شود.

در ارتباط با کتابخانه ها، وب کاوی حوزه دیگری از علاقمندی است. وب کاوی شامل محتوا کاوی وب، ساختار کاوی وب و استفاده کاوی وب با توجه به یک موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد.

مدیریت موسسات دانشگاهی

اداره موسسات دانشگاهی کار پیچیده ای است. در این موسسات دائما" نیاز به درآمدزایی و خود- کارآمدی و کاهش وابستگی به بودجه دولتی احساس میشود. این مساله کنترل دائمی جنبه های مختلف هر فعالیت و پروژه را می طلبد. بانکهای اطلاعاتی برای چنین موسساتی  مربوط به دانشجویان، دانشکده، اساتید و کارمندان، تعداد رشته ها و چند مورد دیگر است . ارزیابی تقاضا و وضعیت عرضه نقش مهمی بازی میکند. مرور بانکهای اطلاعاتی نمونه در جدول 2 نمایانگر کاربردهای بالقوه داده کاویست.

 

کاربردهای داده کاوی در موسسات دانشگاهی

کاربرد متصور            بانک اطلاعاتی

برای درک رابطه های جمعیت شناختی، اقتصادی و اجتماعی            ثبت نام دانشگاهی

برای ایجاد رابطه بین عوامل اقتصادی-اجتماعی و نمرات اخذ شده    کارایی دانشگاهی

برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان         بانک سوالات

برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه   همکاری فکری

برای پیدا کردن تأثیر انتشارات در تقاضا برای رشته ها         انتشارات

برای تحلیل سوالات دریافت شده در وب سایت دانشگاه و کمک به ایجاد رشته های جدید دانشگاهی بازدید از وب سایت

کاربرد داده کاوی در دانشگاه ملی سنگاپور قابل ملاحظه است. در این دانشگاه از ابزارهای داده کاوی برای شناسایی و دسته بندی دانشجویانی که به کلاسهای پیش نیاز برای واحد درسی ارائه شده نیاز داشتند استفاده شد. 

علاوه بر آن، مسائلی مانند اختصاص بهتر منابع و نیروی انسانی، مدیریت روابط دانشجو و به تصویر کشیدن رفتار گروههای مختلف میتواند بوسیله ابزارهای داده کاوی انجام شود.

محدودیت ها

کاربرد داده کاوی با چند عامل محدود شده است. اولین مورد به سخت افزار و نرم افزار لازم و موقعیت بانک اطلاعاتی مربوط میشود . برای مثال در هند، داده های غیر مجتمع که برای کاربردهای داده کاوی لازم است ممکن است به فرم دیجیتالی در دسترس نباشد. در دسترس بودن نیروی انسانی ماهر در داده کاوی نیز مسأله مهم دیگری است. محرمانه بودن رکوردهای مراجعان ممکن است در نتیجه پردازش داده های مبتنی بر داده کاوی آسیب پذیر شود. کتابداران و مؤسسات آموزشی باید این مسأله را در نظر داشته باشند؛ چرا که در غیر اینصورت ممکن است گرفتار شکایات قانونی گردند.

محدودیت دیگراز ضعف ذاتی نهفته  در ابزارهای نظری ناشی میگردد. ابزارهایی مانند یادگیری ماشینی و الگوریتمهای ژنتیکی بکار گرفته شده در  فعالیتهای داده کاوی به مفاهیم وفنون منطق و آمار بستگی دارد. در این حد نتایج به روش مکانیکی تولید شده و بنابراین به یک بررسی دقیق نیاز دارند. اعتبار الگوهای بدست آمده به این طریق؛ باید آزمایش شود. چرا که که در بسیاری موارد روابط علل و معلول مشتق شده؛ از برخی استدلالات غلط ذیل رنج میبرند.

 ●  علت دور  مثلا" امکانات ضعیف خوابگاه باعث می شود دانشجویان نمرات پایینی کسب نمایند

●   علت مجرد مثلا" بودجه محدود بر بازدهی پژوهشی دانشکده تأثیر می گذارد

● علائم در نظر گرفته شده برای این عوامل مثلا" مجموعه کتابخانه ممکن است افزایش نیابد چون تعداد خوانندگان مرتبا" کاهش می یابد.

●  سفسطه دسته بندی مثلا" مدرسان حقوق بسیار بالا دریافت می کنند و کل حقوقشان بالغ بر میلیونها میشود.

●  سفسطه ترکیب مثلا" اگر هر مدرس در دانشکده شایسته و واجد صلاحیت باشد کل دانشکده عملکرد بهتری خواهد داشت.

●سوگیری در انتخاب نمونه: مثلا"استناد به یافته های یک پیمایش نمونه گیری شده از دانشجویان یک دانشکده که از خانواده های ثروتمند هستند و مخارج روزانه در خوابگاه برای هر دانشجو 100 دلار است.

از آنجایی که مطالعه الگوها و استخراج روابط میان رکوردها مستلزم کاربرد منطق قیاسی و استقرایی است فرد باید مراقب اشتباهاتی که عموما" رخ میدهد باشد. برای مثال بحثهای قیاسی یا استقرایی، تا زمانیکه وضعیت درست بودن فرضیه آزمایش نشود چیزی درباره درست یا غلط بودن نتایجشان نمی گویند. طبیعتا، نتایج تولید شده ماشینی ممکن است از چنین نقایصی رنج ببرند.

 

بنر ایران کنفرانس

ایران کنفرانس

بانك موضوع پايان نامه

معرفي پايگاه هاي اطلاعاتي علمي

حمايت از پايان نامه ها

RssFeed

-->