داده کاوی
توجه :
شما می توانید با خرید این محصول فایل " قلق های پایان نامه نویسی (از عنوان تا دفاع)" را به عنوان هدیه دریافت نمایید.
چکیده:
در دو دهه قبل تواناییهای فنی بشر برای تولید و جمعآوری دادهها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسبوکار، علوم، خدمات دولتی و پیشرفت در وسائل جمعآوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهوارهای، در این تغییرات نقش مهمی دارند.
بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات میکند. این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم وجود تکنولوژیهای جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند. دادهکاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی دادهکاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی میکنند، که این دانش به صورت ضمنی در پایگاه دادههای عظیم، انبارهداده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.
به لحاظ اینکه در چند سال اخیر مبحث دادهکاوی و اکتشاف دانش موضوع بسیاری از مقالات و کنفرانسها قرار گرفته و نرمافزارهای آن در بازار به شدت مورد توجه قرار گرفته، از اینرو در مقاله سعی بر آن شده تا گذری بر آن داشته باشیم.
در این مقاله درفصل مروری بر دادهکاوی خواهیم داشت . که به طور عمده به تاریخچه ، تعاریف، کاربردها وارتباط آن با انبار داده و OLAP خواهیم پرداخت. در پایان فصل مراحل فرایند کشف دانش از پایگاه دادهها را ذکر کردیم که دادهکاوی یکی از مراحل آن است.
در فصل 2 یکی از شیوههای دادهکاوی که از سبد خرید گرفته شده است توضیح داده شده است . در این فصل به شرح قوانین ارتباطی خواهیم پرداخت که در آن بعد از دستهبندی الگوریتمها ، الگوریتم Apriori ( که یک الگوریتم پایه در این زمینه است ) و الگوریتم FP-Growth ( یک الگوریتم جدید میباشد) را با شرح یک مثال توضیح میدهیم و در آخر آن دو را با هم مقایسه میکنیم .
در فصل 3 مباحث وبکاوی و متنکاوی را که در بسیاری از مراجع جزء کاربردهای دادهکاوی به حساب میآید شرح داده خواهد شد.
فهرست مطالب
فهرست اشکال ...............................................................................................................................................
فهرست جداول ..............................................................................................................................................
فصل1: مقدمهای بر دادهکاوی ............................................................................
1-1 تعریف دادهکاوی ...................................................................................................................................
2-1 تاریخچه دادهکاوی ................................................................................................................................
3-1 چه چیزی سبب پیدایش دادهکاوی شده است؟ ........................................................................................
4-1 اجزای سیستم دادهکاوی .........................................................................................................................
5-1 جایگاه دادهکاوی در میان علوم مختلف ..................................................................................................
6-1 قابلیتهای دادهکاوی .................................................................................................................................
7-1 چرا به دادهکاوی نیاز داریم؟ ...................................................................................................................
8-1 دادهکاوی چه کارهایی نمیتواند انجام دهد؟ ..........................................................................................
9-1 کاربردهای دادهکاوی .............................................................................................................................
1-9-1 کاربردهای پیشبینیکننده ...................................................................................................
2-9-1 کاربردهای توصیفکننده ....................................................................................................
10-1 ابزارهای تجاری دادهکاوی ...................................................................................................................
11-1 دادهکاوی و انباردادهها .........................................................................................................................
1-11-1 تعاریف انبارداده ................................................................................................................
2-11-1 چهار خصوصیت اصلی انبارداده .........................................................................................
3-11-1 موارد تفاوت انبارداده و پایگاه داده ....................................................................................
12-1 دادهکاوی و OLAP ...........................................................................................................................
1-12-1 OLAP ...........................................................................................................................
2-12-1 انواع OLAP ...................................................................................................................
13-1 مراحل فرایند کشف دانش از پایگاه دادهها ...........................................................................................
1-13-1 انبارش دادهها ....................................................................................................................
2-13-1 انتخاب دادهها ....................................................................................................................
3-13-1 پاکسازی- پیشپردازش- آمادهسازی ................................................................................
4-13-1 تبدیل دادهها ......................................................................................................................
5-13-1 کاوش در دادهها (Data Mining) .................................................................................
6-13-1 تفسیر نتیجه ........................................................................................................................
فصل 2: قوانین ارتباطی ...........................................................................
1-2 قوانین ارتباطی ........................................................................................................................................
2-2 اصول پایه ...............................................................................................................................................
1-2-2 شرح مشکل جدی ...............................................................................................................
2-2-2 پیمایش فضای جستجو .........................................................................................................
3-2-2 مشخص کردن درجه حمایت مجموعه اقلام .........................................................................
3-2 الگوریتمهای عمومی ..............................................................................................................................
1-3-2 دستهبندی ............................................................................................................................
2-3-2 BFS و شمارش رویدادها ...................................................................................................
3-3-2 BFS و دونیمسازی TID-list ...........................................................................................
4-3-2 DFS و شمارش رویداد ......................................................................................................
5-3-2 DFS و دو نیمسازی TID-list ..........................................................................................
4-2 الگوریتم Apriori ................................................................................................................................
1-4-2 مفاهیم کلیدی .....................................................................................................................
2-4-2 پیادهسازی الگوریتم Apriori ............................................................................................
3-4-2 معایب Apriori و رفع آنها .................................................................................................
5-2 الگوریتم رشد الگوی تکرارشونده ..........................................................................................................
1-5-2 چرا رشد الگوی تکرار سریع است؟ .....................................................................................
6-2 مقایسه دو الگوریتم Apriori و FP-growth ......................................................................................
7-2 تحلیل ارتباطات ......................................................................................................................................
فصل 3: وبکاوی و متنکاوی .................................................................
1-3 وبکاوی ...............................................................................................................................................
1-1-3 الگوریتمهای هیتس و لاگسام ...............................................................................................
2-1-3 کاوش الگوهای پیمایش مسیر ..............................................................................................
2-3 متنکاوی ...............................................................................................................................................
1-2-3 کاربردهای متنکاوی ...........................................................................................................
1-1-2-3 جستجو و بازیابی ..............................................................................................
2-1-2-3 گروهبندی و طبقهبندی ......................................................................................
3-1-2-3 خلاصهسازی ....................................................................................................
4-1-2-3 روابط میان مفاهیم .............................................................................................
5-1-2-3 یافتن و تحلیل گرایشات ....................................................................................
6-1-2-3 برچسب زدن نحوی (pos) ...............................................................................
7-1-2-3 ایجاد Thesaurus و آنتولوژی به صورت اتوماتیک .........................................
2-2-3 فرایند متنکاوی ...................................................................................................................
3-2-3 روشهای متنکاوی ...............................................................................................................
مراجع .....................................................................................................
فهرست اشکال
1-1 مراحل فرایند کشف دانش ......................................................................................................................
2-1 سیر تکاملی صنعت پایگاه داده ................................................................................................................
3-1 معماری یک نمونه سیستم دادهکاوی .......................................................................................................
4-1 نرخ رشد اطلاعات .................................................................................................................................
5-1 کاربرد پیشبینی کننده ............................................................................................................................
6-1 دادهها از انباردادهها استخراج میگردند ..................................................................................................
7-1 دادهها از از چند پایگاه داده استخراج میگردند ......................................................................................
1-2 شبکهای برای .................................................................................................................
2-2 درخت ..........................................................................................................................
3-2 دستهبندی الگوریتمها ..............................................................................................................................
4-2 پایان الگوریتم Apriori ........................................................................................................................
5-2 درخت الگوی تکرار ..............................................................................................................................
6-2 اندازهگیری کارکرد درجه حمایت برای پایگاه داده D1 40K ..............................................................
7-2 اندازهگیری Apriori با درجه حمایت/تراکنش .....................................................................................
8-2 اندازهگیری FP-growth با درجه حمایت/تراکنش ..............................................................................
1-3 مقداردهی اولیه الگوریتم HITS ............................................................................................................
2-3 مثالی از الگوهای پیمایش .......................................................................................................................
3-3 فرایند متنکاوی .....................................................................................................................................
4-3 مثال یافتن روابط .....................................................................................................................................
فهرست جداول
1-2 کاوش FP-tree با ایجاد پایگاههای الگوشرطی .....................................................................................
2-2 پارامترها .................................................................................................................................................
3-2 نتایج برای فاکتور درجه حمایت 5% ........................................................................................................
4-2 نتایج برای D1 150K با درجه حمایت .................................................................................................
1-3 تراکنشهای توصیف شده توسط مجموعهای از URLها .......................................................................
2-3 نمایش URLها به عنوان بردارهایی از فعالیت گروه تراکنش ..................................................................
3-3 یک SOM مرسوم که توسط توصیف URLها تولید شده است ............................................................
مقاله نگاهی بر داده کاوی و کشف قوانین وابستگی
چکیده:
امروزه داده کاوی به عنوان یکی از مهمترین مسائل هوش مصنوعی و پایگاه داده، محققان یسیاری را به خود جذب کرده است. در این تحقیق ابتدا نگاه کلی بر داده کاوی، استراتژیهای داده کاوی و... داریم، سپس مسأله کشف قوانین وابستگی در پایگاه داده را به تفضیل بررسی کردیم و نگاهی به الگوریتمهای موجود برای آن داشتیم. سپس مسأله کشف قوانین وابستگی در پایگاه داده های پویا را مورد بحث قرار دادیم و الگوریتم های ارائه شده مربوطه را مطرح کردیم.
Data mining(داده کاوی)
تعریف :
داده کاوی فرآیند بکارگیری یک یا چند تکنیک آموزش کامپیوتر، برای تحلیل و استخراج داده های یک پایگاه داده می باشد.در واقع هدف داده کاوی یافتن الگوهایی در داده هاست.
دانش کسب شده از فرآیند داده کاوی بصورت مدل یا تعمیمی از داده ها نشان داده می شود.
چندین روش داده کاوی وجود دارد با این وجود همه روشها “ آموزش بر مبنای استنتاج “ را بکار می برند.
آموزش بر مبنای استنتاج، فرآیند شکل گیری تعاریف مفهوم عمومی از طریق مشاهده مثالهای خاص از مفاهیمی که آموزش داده شده اند، است.
مثال زیر نمونه ای از دانش بدست امده از طریق فرایند اموزش بر مبنای استنتاج است:
آیا تا کنون فکر کرده اید، فروشگاههای بزرگ اینترنتی در mail های خود به مشتریان از چه تبلیغاتی استفاده می کنند؟ و آیا این تبلیغات برای همه مشتریان یکسان است؟
پاسخ این است که از روی دانش کسب شده از اطلاعات خرید افراد و نتیجه گیری از این دانش، این کار را انجام می دهند.مثلا در نظر بگیرید یک قانون در پایگاه داده بصورت زیر استخراج می شود:
دقت = 80% : سیگار می خرند ^ نان می خرند کسانی که شیر می خرند
از روی این قانون فروشگاه می تواند به تمام کسانی که شیر می خرند تبلیغات سیگار و انواع نان را نیز بفرستد.همچنین این قانون در چیدن قفسه های فروشگاه نیز بی تاثیر نخواهد بود.
{شیر و نان و سیگار در قفسه های کنار هم چیده شوند}
کشف دانش در پایگاه داده 1
KDD یا کشف دانش در پایگاه داده اصطلاحی است که مکررا بجای داده کاوی بکار می رود. از نظر تکنیکی، KDD کاربردی از روشهای علمی داده کاوی است.
بعلاوه برای انجام داده کاوی فرایند KDD شامل :
1- یک روش برای تهیه داده ها و استخراج داده ها ،
2- تصمیم گیری درباره عملی که پس از داده کاوی باید انجام شود،
می باشد.
آیا داده کاوی برای حل مسائل ما مناسب است؟
تصمیم گیری در مورد اینکه آیا داده کاوی را به عنوان استراتژی حل مساله بکار ببریم یا نه، یک مساله دشوار است.
اما به عنوان نقطه شروع چهار سؤال عمومی را باید در نظر بگیریم :
1. آیا به وضوح می توانیم مساله را تعریف کنیم ؟
2. آیا بطور بالقوه داده با معنی وجود دارد ؟
3. آیا داده ها شامل “ دانش پنهان” هستند یا فقط برای هدف گزارشگری مناسبند ؟
4. آیا هزینه پردازش داده (برای داده کاوی) کمتر از سود حاصل از دانش پنهان بدست آمده از پروژه داده کاوی است ؟
یک مدل پردازش داده کاوی ساده :
در یک دید کلی ، ما می توانیم داده کاوی را به عنوان یک فرآیند چهار مرحله ای تعریف کنیم :
1. جمع آوری یک مجموعه از داده ها برای تحلیل
2. ارائه این داده ها به برنامه نرم افزاری داده کاوی
3. تفسیر نتایج
4. بکارگیری نتایج برای مساله یا موقعیتهای جدید
بررسی و مطالعه کامل داده کاوی و داده کاوی با SQL SERVER2005 پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان
چکیده
بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005
پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد.
داده کاوی یکی از مهمترین روش ها ی کشف دانش است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند.داده کاوی را تحلیل گران با اهداف گوناگونی از قبیل کلاس بندی, پیش بینی, خوشه بندی ,تخمین انجام می دهند. برای کلاس بندی, مدل هاو الگوریتم هایی مانند قاعده ی بیز, درخت تصمیم, شبکه ی عصبی, الگوریتم ژنتیک مطرح شده است.برای پیش بینی مدل رگرسیون خطی ومنطقی و برای خوشه بندی الگوریتم های سلسله مراتبی و تفکیکی, وبرای تخمین مدل های درخت تصمیم و شبکه ی عصبی مطرح می شود. در فصل دوم و سوم با الگوریتم ژنتیک که یکی از الگوریتم های داده کاوی و با شبکه ی عصبی که یکی از مدل های داده کاوی هستند آشنا می شویم .درفصل چهارم به محاسبات نرم و برخی از اجزای اصلی ان و نقش آنها در داده کاوی می پردازیم.
در فصل پنجم با ابزارهای داده کاوی آشنا می شویم . برای داده کاوی ابزارهای متنوعی وجود دارد. می توان ابزارداده کاوی را با تطبیق آن ابزار با داده های مسئله و با توجه به محیط داده ای که می خواهید از آن استفاده کنید، و امکاناتی که آن ابزار دارد انتخاب کنید.وسپس به داده کاوی با SQLSERVER2005 می پردازیم .ودرفصل ششم به داده کاوی با SQL SERVER2005 روی بانک اطلاعاتی دانشگاه آزاد قوچان پرداختیم.
کلمات کلیدی ،کلاس بندی ، خوشه بندی ، پیش بینی ، تخمین
1-1-مقدمه
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد .با استفاده از ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها خیلی بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شوند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است .از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش[1] بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند .
داده کاوی[2] یکی از مهمترین این روش ها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند .
1-2-عامل مسبب پیدایش داده کاوی
اصلی ترین دلیلی که باعث شده داده کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد، مساله در دسترس بودن حجم وسیعی از داده ها و نیاز شدید به اینکه از این داده ها, اطلاعات و دانش سودمند استخراج کنیم. اطلاعات و دانش بدست آمده در کاربردهای وسیعی مورد استفاده قرار می گیرد.
داده کاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده می باشد، نظیر عملیات جمع آوری داده ها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده ها.
تکامل تکنولوژی پایگاه داده و استفاده فراوان آن در کاربردهای مختلف سبب جمع آوری حجم فراوانی داده شده است. این داده های فراوان باعث ایجاد نیاز برای ابزارهای قدرتمند برای تحلیل داده ها گشته، زیرا در حال حاضر به لحاظ داده ثروتمند هستیم ولی دچار کمبود اطلاعات می باشیم.
ابزارهای داده کاوی داده ها را آنالیز می کنند و الگوهای داده ها را کشف می کنند که می توان از آن در کاربردهایی نظیر تعیین استراتژی برای کسب و کار، پایگاه دانش[3] و تحقیقات علمی و پزشکی، استفاده کرد. شکاف موجود بین داده ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده های بی ارزش را به دانشی ارزشمند تبدیل کنیم .
پژوهش کاربرد داده کاوی در تجارت الکترونیک
چکیده:
این پایان نامه شامل دو بخش می باشدبخش اول در مورد داده کاوی و تکنیکها ومتدلوژی های ان و بخش دوم در مورد تجارت الکترونیک می باشد.
بخش اول شامل مطالبی در مورد عناصر داده کاوی و سپس کاربردهای داده کاوی در موارد مختلف و تفاوت داده کاوی با پایگاه داده و متدلوژی ها و مراحل داده کاوی وهمچنین وظایف داده کاوی توضیحاتی داده شده است.
بخش دوم در مورد تجارت الکترونیکی که در ان مقدمه ای از تجارت اتکترونیک و شکل دهی موقعیت بازار را بیان نموده است.
فهرست
چکیده................................................................................................................................8
تکنیکهای داده کاوی و متدلوژیهای ان
مقدمه. 9
عناصر داده کاوی.. 15
پردازش تحلیلی پیوسته: 16
قوانین وابستگی: 17
شبکه های عصبی : 17
الگوریتم ژنتیکی: 17
نرم افزار 18
کاربردهای داده کاوی.. 18
داده کاوی و کاربرد آن در کسب و کار هوشمند بانک.... 19
داده کاوی درمدیریت ارتباط بامشتری.. 21
کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی.. 22
مدیریت موسسات دانشگاهی.. 23
داده کاوی آماری و مدیریت بهینه وب سایت ها 25
داده کاوی در مقابل پایگاه داده Data Mining vs database. 26
ابزارهای تجاری داده کاوی.. 27
منابع اطلاعاتی مورد استفاده 28
انبار داده 29
مسائل کسب و کار برای دادهکاوی.. 31
چرخه تعالی داده کاوی چیست؟. 31
متدلوژی دادهکاوی و بهترین تمرینهای آن.. 35
یادگیری چیزهایی که درست نیستند. 36
الگوهایی که ممکن است هیچ قانون اصولی را ارائه نکنند. 36
چیدمان مدل ممکن است بازتاب دهنده جمعیت وابسته نباشد. 38
ممکن است داده در سطح اشتباهی از جزئیات باشد. 38
یادگیری چیزهایی که درست ولی بلااستفادهاند. 40
مدلها، پروفایلسازی، و پیشبینی.. 42
پیش بینی.. 44
متدلوژی.. 45
مرحله 1: تبدیل مسئله کسب و کار به مسئله دادهکاوی.. 46
مرحله 2: انتخاب داده مناسب... 48
مرحله سوم: پیش به سوی شناخت داده 51
مرحله چهارم: ساختن یک مجموعه مدل.. 52
مرحله پنجم: تثبیت مسئله با دادهها 54
مرحله ششم: تبدیل داده برای آوردن اطلاعات به سطح.. 56
مرحله هفتم: ساختن مدلها 59
مرحله هشتم: ارزیابی مدل ها 59
مرحله نهم: استقرار مدل ها 63
مرحله 10: ارزیابی نتایج.. 64
مرحله یازدهم: شروع دوباره 64
وظایف دادهکاوی 65
1- دستهبندی.. 65
2- خوشهبندی.. 65
3- تخمین.. 66
4- وابستگی.. 68
5- رگرسیون.. 69
6- پیشگویی.. 70
7- تحلیل توالی.. 70
8- تحلیل انحراف... 71
9- نمایهسازی.. 72
تجارت الکترونیک
فصل اول: مقدمه ای بر تجارت الکترونیکی.. 73
1- طبقههای مختلف تجارت الکترونیکی.. 75
2- تفاوت تجارت الکترونیکی با تجارت سنتی.. 76
3- نقش دولت در تجارت الکترونیک.... 78
فصل دوم : شکل دهی موقعیت بازار. 80
1- چار چوبی برای تحلیل موقعیت بازار. 80
1-1- پرورش موقعیت : 80
1-2-کشف هسته اصلی موقعیت : 81
1-3- شناسایی مشتریان هدف : 81
1-4- مطالعه توانمندیها و منابع شرکت : 81
1-5- اندازه گیری جذابیت موقیت : 82
2 ) ویژگی های تحلیل موقعیت بازار در اقتصاد جدید: 82
3_ دو نوع ارزش ( value type ) عمده. 84
3_2_ ارزش های جدید ( New-To-The-World value ) : 86
4 – شناسایی نیاز های برآورده شده و برآورده نشده. 88
4-1_ فرآیند تصمیم گیری مشتری... 88
4-2_ آشکارسازی نیازهای برآورده شده و برآورده نشده. 89
5- تعیین مشتریان ویژهای که شرکت قصد متقاعد کردن آنهارا دارد. 91
5-1- روشهایی برای تقسم بندی بازار: 91
5-2- تقسیم بندی قابل اجرا و معنی دار. 92
_ تقسیم بندی قابل اجرا(Actionable Segmentation) 93
_ تقسیم بندی معنی دار. 93
5-3-ترکیب مناسبی از متغیر ها 93
5-4-تناظر بازار و مشتریان هدف... 96
۶- تأمین منابع.. 97
6-1- منابع شرکت : 97
6-2- شرکاﺀ : 98
٧- جذابیت یک موقعیت : 99
7-1- شدت رقابت.... 99
رقبای نزدیک (Adjacent competitors) : 100
بررسی رقبا : (competitor Map) 100
7-2- پویایی های مربوط با مشتریان : 101
7-3- فناوری : 101
7-4- سود دهی مالی : 103
8-ارزیابی نهایی(go/No-go) 104
مدلهای کسب و کار 105
آیا شرکت قادر است در مورد ارزش یا ارزشهای ارائه شده با دیگران رقابت کند؟. 105
چگونه یک شرکت یک سرویس آنلاین را توسعه می دهد؟. 107
یک سیستم منابع مناسب و موفق چگونه است؟. 109
معیارهایی برای ارزیابی کیفیت یک سیستم منبع: 112
مشارکت (Partnership): 113
مدلهای سوددهی برای شرکتهای آنلاین چه هستند؟. 114
2-1- مدلهای مبتنی بر کاربر و شرکت: 115
مدلهای مبتنی بر خلق ارزش توسط شرکت: 117
واسط مشتری.. 121
1- هفت عنصر طراحی برای واسط مشتری.. 121
2- چه چیز تعیین کننده جلوه یک وب سایت است؟. 125
3- محتویات وب سایت... 129
4- تشکل ها در سایت... 132
5- اهرمهای مورد استفاده برای سفارشی کردن یک سایت... 136
6- یک سایت چگونه با مشتریان خود ارتباط بر قرار می کند؟. 139
7- اتصال یک وب سایت با وب سایتهای دیگر. 142
8- اشکال مختلف تجارت در وب سایت... 144
تبادل الکترونیکی داده ها (EDI) 147
1- انواع خرید یک شرکت... 147
2- خرید مواد مستقیم.. 147
3- تبادل الکترونیکی داده ها (EDI) 148
EDI های نسل آینده 150
منابع.......................................................................................................... 151
داده کاوی الگوهای تکرارشونده در جریان دادهها
پاورپوینت داده کاوی الگوهای تکرارشونده در جریان دادهها
پاورپوینت داده کاوی الگوهای تکرارشونده در جریان دادهها دارای 40 اسلاید می باشد که بخشی از متن و فهرست آن را در ادامه برای مشاهده قرار داده ایم و در صورت نیاز به داشتن کل این پاورپوینت می توانید آن را دریافت نموده و از آن استفاده نمایید
بخشی از متن
بسیاری از برنامه های کاربردی نوع داده جدیدی به نام جریان داده را تولید و تحلیل می کنند که در آن داده ها به صورت پویا به یک بستر ( یا پنجره ) وارد و یا از آن خارج می شوند .
خواص جریان داده :
حجم زیاد و گاه نامحدود
تغییرپویا
جریان به درون و خارج با یک ترتیب مشخص
پیمایش یکبار یا تعدا د محدود
نیازمند زمان پاسخ سریع ( اغلب بلادرنگ )
ممکن است دارای چندین منبع باشند .
فهرست:
جریان داده
دادهکاوی
دادهکاوی روی جریان داده ها
الگوهای تکرارشونده در پایگاهدادهها
الگوهای تکرارشونده
الگوهای تکرارشونده - یک مثال
الگوریتم Apriori ( یافتن مجموعه عناصرتکرارشونده با استفاده از روش تولید و آزمون )
شبه کد الگوریتم Apriori
نحوه تولید کاندید
جزییات الگوریتم Apriori
الگوریتم Apriori - مثال
الگوهای تکرارشونده در جریان داده ها
ضمانت های Lossy Counting
Lossy Counting
Lossy Counting در عمل
ساختن درخت الگوهای تکرارشونده از یک پایگاه داده تراکنشی
عنوان: داده کاوی الگوهای تکرارشونده در جریان دادهها
فرمت: پاورپوینت
صفحات: 40
چکیده
فناوری اطلاعات و ارتباطات خصوصا اینترنت، بهصورت فعال حکومتها را در قرن بیست و یکم بهشدت تغییردادهاست. دادهکاوی یکی از دستاوردهای فناوری اطلاعات و ارتباطات برای بهبود تحلیلها و تصمیمات سازمانی و استراتژیهای مدیریتی میباشد. ادبیات بسیار وسیعی روی دادهکاوی و تکنولوژیهای بکارگیری موثر آن وجوددارد. در سالهای اخیر، شهر الکترونیک توجه بسیاری از محققان را بهخود جلبکردهاست. در واقع شهر الکترونیک از استفاده موثر دولت از تکنولوژیهای پیشرفته اطلاعات و ارتباطات و از طریق کانلهای اطلاعاتی مختلف همچون تلفن، اینترنت و ایستگاههای عمومی کامپیوتری، ناشی میشود. هر روزه حجم عظیمی از دادههای دسترسی کاربران در سیستمهای شهر الکترونیک تولید میشوند. کاوش این دادهها در تجزیه و تحلیلهای دولت، پیشگوییها، استراتژیها، کنترل و برنامهریزیهای عملیاتی و تاکتیکی تاثیرگذار هستند. دادهکاوی در شهر الکترونیک نقش مهمی در تنظیم اهداف دولتی، کشف رفتار شهروندان و تخمین زمینههای فعالیت آینده آنها دارد. البته در نقش این دادهها در موفقیت حکومت نباید گزافهگویی کرد. زیرا اتوماتیزهکردن عوامل دادهکاوی در خدمات شهر الکترونیک، هنوز نیازمند حلکردن بعضی مشکلات است. در اینجا برای فهم بهتر از اهمیت و جایگاه دادهکاوی در شهر الکترونیک، مطالعهای شامل کاربردهای دادهکاوی و چالشهای پیادهسازی موفق آن در شهر الکترونیک، توسعهدادهشدهاست. این مطالعه میتواند منافعی را در اختیار سهامداران مختلف و صاحبان اختیار که نیاز به دستگیری دانش مخفی و ضمنی از شهروندان، سازمانها و یا کسب و کارها دارند، قرار دهد.
رقابتهای جهانی، بازارهای پویا و چرخههای نوآوری و فناوری که به سرعت در حال کوتاه شدن هستند همگی چالشهای مهمی را برای صنعت مالی و بانکداری ایجاد کرده اند و نیاز به استفاده از سیستمهای پشتیبان از تصمیم جهت بهبود فرآیندهای تصمیمگیری در این سازمانها بیش از پیش اهمیت پیدا کرده است. در این میان داده هایی که در پایگاههای اطلاعاتی این سازمانها نگهداری میشوند به عنوان منابع ارزشمند اطلاعات و دانش موردنیاز جهت تصمیمگیریهای سازمانی مطرح میباشند.
امروزه بانکها از پایگاههای اطلاعاتی متعدد و گستردهای برخوردار هستند که حاوی اطلاعات مربوط به مبادلات و جزئیات دیگر مربوط به مشتریانشان است. اطلاعات ارزشمند تجاری از درون همین ذخایر دادهای قابل بازیابی هستند. اما پشتیبانی از این دست تحلیلها و تصمیم گیری با استفاده از زبانهای گزارشگیری سنتی امکانپذیر نخواهد بود. روشهای سنتی آماری نیز از ظرفیت کافی در تحلیل این داده ها برخوردار نیستند و لذا متدولوژیهای مدرن داده کاوی و ابزارهای مربوط به آن در فرآیندهای تصمیمگیری نه فقط در بانکها و نهادهای مالی بلکه در دیگر صنایع نیز بیش از پیش بکار گرفته میشوند.
داده کاوی به نوبه خود در راستای حل مسائل موجود در کسب و کار در صنعت بانکداری و مالی آن هم به واسطه یافتن الگوها، روابط علی و معلولی و روابط حاکم در قیمتهای بازار و اطلاعات کسب و کار و مشتریان به کار میرود. از موارد کاربرد دادهکاوی در صنعت بانکداری میتوان به موارد زیر اشاره کرد:
1. طراحی مکانیزمهایی برای مدیریت ارتباط با مشتری از طریق بخشبندی مشتریان و استخراج قواعد رفتاری آنها جهت هدایت فعالیتهای بازاریابی بانک.
2. مدلسازی پاسخ بازار به تصمیمات کلان بانک و شناسایی اثر هریک از سیاستهای بازاریابی بر تقاضا و امکان شبیهسازی تعاملی سیاستها و تصمیمات بازاریابی قبل از اجرا.
3. ارزیابی ریسک اعتبار مشتریان متقاضی وام.
4. محاسبه کارایی شعب با ترکیب مدلهای تحلیل پوششی داده ها و داده کاوی.
5. پیشبینی سریهای زمانی مالی و کشف تقلب و سوء استفاده های مالی.
بکارگیری داده کاوی میتواند ارزش افزوده فراوانی را برای بانکها حاصل نماید. تحقیقات گستردهای که در این حوزه در کشورهای مختلف صورت گرفته به توسعه سیستمهای پشتیبان از تصمیم سودمندی انجامیده است که منافع فراوانی را عاید بانکها نموده است.
علیرغم حجم انبوه تحقیقات و پژوهشهایی که در کشورهای پیشرفته در زمینه توسعه و بکارگیری تکنیکهای دادهکاوی در صنعت بانکداری به عمل آمده و نتیجه آن بهبود فرایندهای بانکی بوده است، زمینه های بالقوه بسیاری در بکارگیری این دانش در بانکها و موسسات مالی کشورمان وجود دارد. بنابراین زمینهسازی جهت آشنایی کارشناسان و متخصصین امور بانکی با تکنیکهای داده کاوی و کاربردهای آن و همچنین برگزاری دورههای آموزشی در این زمینه و بکارگیری عملی این علم در بانکها و سایر مؤسسات مالی کشور از اهمیت بسزایی برخوردار است.
فهرست مطالب
مقدمه | 1 | |
فصل اول | 3 | |
مقدمه | 4 | |
فرایند کشف دانش و داده کاوی | 9 | |
معرفی برخی از روش های داده کاوی | 14 | |
تحلیل انحراف | 15 | |
نمایه سازی | 17 | |
قوانین وابستگی | 18 | |
تحلیل توالی | 22 | |
خوشه بندی | 24 | |
دسته بندی | 29 | |
پیش بینی | 32 | |
فصل دوم | 34 | |
مقدمه | 35 | |
داده کاوی در بازاریابی | 37 | |
مدیریت ارتباط با مشتری | 40 | |
مراقبت از مشتری | 47 | |
داده کاوی و تحلیل رویگردانی مشتریان | 49 | |
داده کاوی و پیش بینی عملکرد بانک | 70 | |
داده کاوی در ارزیابی اعتبار مشتریان بانک | 74 | |
کاربرد داده کاوی در ارزیابی عملکرد بانک | 81 | |
فصل سوم | 86 | |
کاربرد داده کاوی در بخش بندی مشتریان | 87 | |
ارزش چرخه عمر مشتری | 90 | |
استفاده از مدلهای خوشه بندی | 92 | |
ارائه سرویس مناسب به مشتریان | 98 | |
رتبه بندی اعتبار متقاضیان دریافت وام | 101 | |
رتبه بندی اعتبار با استفاده از نسبت های مالی | 104 | |
بخش بندی دارندگان کارت های اعتباری | 107 | |
پروژه طراحی بخش بندی رفتاری | 109 | |
آماده سازی داده ها | 111 | |
انتخاب جمعیت بخش بندی | 112 | |
شاخص های کلیدی عملکرد | 113 | |
سه گام اصلی فرایند تحلیل | 116 | |
منابع | 133 |
امروزه با توجه به گسترش روز افزون اطلاعاتی که بشر با آنها سر و کار دارد، بهره گیری از روشهایی همچون داده کاوی برای استخراج دانش و اطلاعات نهفته در داده ها، امری غیرقابل اجتناب میباشد. بدلیل حجم بسیار بالای داده ها در بسیاری از کاربردها و اهمیت بیشتر داده های جدید، ذخیره سازی این داده ها امری مقرون به صرفه نیست، لذا داده هایی که باید مورد پردازش قرار گیرند، همواره بصوت پویا در حال تغییر و تحول هستند. مساله دیگری که امروزه در بحث داده کاوی وجود دارد، بحث توزیع شدگی ذاتی داده ها است. معمولا پایگاه هایی که این داده ها را ایجاد یا دریافت میکنند، متعلق به افراد حقیقی یا حقوقی هستند که هر کدام بدنبال اهداف و منافع خود میباشند و حاضر نیستند دانش خود را بطور رایگان در اختیار دیگران قرار دهند.
با توجه به قابلیتهای عامل و سیستمهای چندعامله و مناسب بودن آنها برای محیط های پویا و توزیع شده بنظر میرسد که بتوان از قابلیتهای آنها برای داده کاوی در محیط های پویا و محیط های توزیع شده بهره برد. اکثر کارهایی که تاکنون در زمینه بهره گیری از عامل و سیستمهای چندعامله انجام شده است خصوصیتهایی همانند خودآغازی و بخصوص متحرک بودن عاملها را مورد بررسی قرار داده است و در آنها مواردی همچون هوشمندی، یادگیری، قابلیت استدلال، هدفگرایی و قابلیتهای اجتماعی عاملها مورد بررسی قرار نگرفته است. در این تحقیق ما قصد داریم تا ضمن بررسی کارهای موجود در زمینه کاربرد عامل و سیستمهای چندعامله در داده کاوی، بحث طبقه بندی جریان داده ها را در یک محیط پویا مورد بررسی قرار دهیم. ما مساله خود را در دو فاز مورد بررسی قرار خواهیم داد. در فاز اول خصوصیتهای یک عامل تنها مورد بررسی قرار خواهد گرفت و در فاز دوم قابلیتهای اجتماعی عاملها مانند مذاکره، دستیابی به توافق و ... برای داده کاوی در یک محیط پویا و توزیع شده رقابتی مورد استفاده قرار خواهد گرفت. بطور کلی دستاوردهای اصلی این تحقیق عبارتند از 1) ارائه یک رویکرد مبتنی بر عامل برای مساله طبقه بندی جریان داده های دارای تغییر مفهوم و پویا با استفاده از قابلیتهای هدفگرایی، هوشمندی، یادگیری و استدلال 2) ارائه یک رویکرد مبتنی بر سیستمهای چندعامله برای طبقهبندی جریان دادههای توزیعشده در یک محیط رقابتی با استفاده از قابلیتهای اجتماعی عاملها و دستیابی به توافق. نتایج حاصل از آزمایشات انجام شده در این پایان نامه نشان دهنده برتری استفاده از عاملها و سیستمهای چندعامله برای بحث طبقه بندی و داده کاوی در محیطهای پویا و توزیع شده میباشد.
فهرست مطالب
1. فصل اول - معرفی و آشنایی با مفاهیم اولیه. 1
1-1- مقدمهای بر داده کاوی.. 2
1-1-1- خوشه بندی.. 3
1-1-2- کشف قواعد وابستگی.. 4
1-1-3- طبقه بندی.. 4
1-1-3-1- طبقه بندی مبتنی بر قواعد. 5
1-2- داده کاوی توزیع شده. 7
1-3- عاملها و سیستمهای چندعامله. 8
1-3-1- عامل. 8
1-3-1-1- مقایسه عامل با شی.. 9
1-3-1-2- معماری عاملها11
1-3-1-3- معماری BDI. 12
1-3-2- سیستمهای چندعامله. 14
1-3-2-1- مذاکره. 17
1-4- بهره گیری از عامل برای داده کاوی.. 19
1-4-1- سیستمهای چندعامله، بستری برای داده کاوی توزیع شده. 19
1-5- جمع بندی.. 22
2. فصل دوم - داده کاوی پویا23
2-1- مقدمه ای بر داده کاوی پویا24
2-2- جریان داده. 25
2-3- طبقه بندی جریان داده. 26
2-3-1- موضوعات پژوهشی.. 27
2-4- جمع بندی.. 31
3. فصل سوم - مروری بر کارهای انجام شده. 33
3-1- مقدمه. 34
3-2- داده کاوی توزیع شده ایستا. 35
3-2-1- روشهای غیرمتمرکز. 36
3-2-2- روشهای مبتنی بر توزیع ذاتی داده ها37
3-3- کارهای مهم انجام شده در زمینه داده کاوی با استفاده از عامل. 38
3-4- کارهای انجام شده در زمینه طبقه بندی جریان دادهها41
3-4-1- روشهای طبقه بندی Ensemble-based. 41
3-4-2- درختهای تصمیم بسیار سریع. 43
3-4-3- طبقه بندی On-Demand. 46
3-4-4- OLIN.. 48
3-4-5- الگوریتمهای LWClass. 49
3-4-6- الگوریتم ANNCAD.. 51
3-4-7- الگوریتم SCALLOP. 51
3-4-8- طبقه بندی جریان داده ها با استفاده از یک روش Rule-based. 53
3-5- جمع بندی.. 54
4. فصل چهارم - تعریف مساله. 55
4-1- مقدمه. 56
4-2- تعریف مساله برای فاز اول. 56
4-2-1- جریان داده. 57
4-2-2- مفهوم یا مدل موجود در جریان داده. 57
4-2-3- مساله طبقه بندی جریان داده های دارای تغییر مفهوم. 57
4-3- تعریف مساله برای فاز دوم. 59
5. فصل پنجم - رویکردهای پیشنهادی.. 62
5-1- مقدمه. 63
5-2- رویکرد پیشنهادی برای فاز اول پروژه. 63
5-2-1- عامل و ویژگیهای آن در این مساله. 64
5-2-2- عملکرد کلی عامل. 65
5-2-3- معماری عامل. 66
5-2-3-1- حسگرها 67
5-2-3-2- پایگاه دانش عامل. 68
5-2-3-3- تابع ارزیابی محیط.. 70
5-2-3-3-1- نحوه تشخیص اطلاعات و نگهداری الگوهای recur در جریان داده. 70
5-2-3-3-2- نحوه استخراج الگوهای recur70
5-2-3-3-3- نحوه بروزرسانی اطلاعات مربوط به الگوهای recur73
5-2-3-3-4- نحوه محاسبه وقوع احتمال وقوع یک الگوی خاص.... 74
5-2-3-4- تابع سودمندی.. 75
5-2-3-5- بخش تصمیم گیری Planning. 79
5-2-3-5-1- بخش تصمیم گیری.. 79
5-2-3-5-2- Planning. 83
5-2-3-6- بخش Action. 86
5-3- رویکرد پیشنهادی برای فاز دوم مساله. 87
5-3-1- عاملهای مشتری.. 88
5-3-2- عامل صفحه زرد. 90
5-3-3- عاملهای داده کاو. 91
5-3-3-1- معماری عاملهای داده کاو. 92
5-3-3-1-1- تابع BRF. 94
5-3-3-1-2- تابع Generate Options. 95
5-3-3-1-3- تابع فیلتر. 95
5-3-3-1-4- بخش Actions. 96
5-3-3-1-5- Plan های عامل. 97
5-3-3-1-5- 1- Plan مربوط به طبقه بندی.. 97
5-3-3-1-5-2- Plan مربوط به تطبیق طبقه بندی98
5-3-3-1-5-3- Plan مربوط به خرید و فروش قواعد با استفاده از مذاکره. 101
5-4- جمع بندی.. 111
6. فصل ششم - آزمایشات و نتایج.. 113
6-1- مقدمه. 114
6-2- محیط عملیاتی.. 114
6-3- مجموعه داده های مورد استفاده. 116
6-3-1- مجموعه داده های استاندارد. 116
6-3-2- مجموعه داده های واقعی.. 117
6-4- معیارهای ارزیابی و روشهای مورد استفاده برای مقایسه. 117
6-5- آزمایشات انجام شده. 118
6-5-1- آزمایشات مربوط به فاز اول. 119
6-5-2- آزمایشات مربوط به فاز دوم. 128
6-6- جمع بندی.. 130
7. فصل هفتم- جمع بندی و نتیجه گیری.. 132
فهرست مراجع. 136
فهرست اشکال
شکل1-1- معماری BDI در عامل. 15
فهرست جدولها
جدول1-1- ویژگیهای یک عامل 11
امروزه با گسترش روزافزون اطلاعاتی که بشر با آنها سر و کار دارد، بهره گیری از روشهایی همچون داده کاوی برای استخراج دانش و اطلاعات نهفته در داده ها امری غیر قابل اجتناب است. سازمانها با استفاده از داده کاوی میتوانندفرآیندهای تصمیم گیری را بهبود بخشند. داده کاوی سبب میشود که سازمانها ازسطح داده به سطوح بالاتر دانش و الگوهای ناشناخته برسند.
در این میان بانکها اساساً از پایگاههای داده متعدد و گستردهای برخوردار هستند که حاوی اطلاعات مربوط به مبادلات و جزئیات دیگر مربوط به مشتریانشان است. داده کاوی به نوبهی خود در راستای حل مسائل موجود در کسب و کار در صنعت بانکداری و مالی آن هم به واسطه ی یافتن الگوها، روابط علی و معلولی و روابط حاکم در قیمتهای بازار و اطلاعات کسب و کار مشتریان به کار میرود.
فهرست مطالب
عنوان صفحه
فصل 1 دانش نوین دادهکاوی
1-1. مقدمه ......................................... 1
1-2. تاریخچه داده کاوی .................................................................. 2
1-3. چرا داده کاوی لازم است؟ ...................................................................... 2
1-4. فرآیند کشف دانش و داده کاوی .................................... 3
1-5. معرفی برخی از روشهای داده کاوی .............................. 7
1-5-1. تحلیل انحراف .................................................. 8
1-5-2. نمایه سازی ............................................ 9
1-5-3. قوانین وابستگی .............................................. 10
1-5-4. تحلیل توالی ......................................... 13
1-5-5. خوشه بندی .............................................. 14
1-5-6. دسته بندی ......................................... 19
1-5-7. پیش بینی ......................................................... 21
فصل 2 کاربردهای داده کاوی در صنعت بانکداری
2-1. مقدمه ..................................................................... 23
2-2. داده کاوی در بازاریابی مدیریت ارتباط با مشتریان بانک ................................. 25
2-2-1. مدیریت ارتباط با مشتری و پروفایل سازی از آنها ........................ 27
2-2-2. مراقبت از مشتری ...................................................................... 32
2-2-3. داده کاوی و تحلیل رویگردانی مشتریان ........................................ 34
2-3. کاربرد داده کاوی در کشف تقلب و سوء استفاده های مالی ................................ 42
2-4. داده کاوی و پیش بینی عملکرد بانک ................................. 55
2-5. داده کاوی در ارزیابی اعتبار مشتریان بانک .............................. 60
2-6. کاربرد داده کاوی در ارزیابی عملکرد بانک ............................ 68
فصل 3 مثالهای عملی از کاربرد داده کاوی در صنعت بانکداری
3-1. کاربرد داده کاوی در بخشبندی مشتریان ........................... 74
3-1-1. مقدمه ................................................ 74
3-1-2. ارزش چرخه عمر مشتری، مفهوم تعاریف ................................. 76
3-1-3. استفاده از مدلهای خوشه بندی و CLV جهت بخشبندی مشتریان بانک ....................... 77
3-1-4. ارائه سرویس مناسب به مشتریان بالقوه ......................................... 81
3-2. رتبه بندی اعتبار متقاضیان دریافت وام با استفاده از تکنیکهای داده کاوی ................ 84
3-3. رتبه بندی اعتبار با استفاده از نسبتهای مالی ............................................ 88
3-4. بخشبندی دارندگان کارتهای اعتباری با استفاده از داده کاوی ............................. 90
3-4-1. پروژه طراحی بخشبندی رفتاری ............................................... 91
3-4-2. آماده سازی داده های مورد نیاز برای ساخت مدل ................................ 92
3-4-3. انتخاب جمعیت بخشبندی .................................. 93
3-4-4. شاخصهای کلیدی عملکرد درباره استفاده از کارتهای اعتباری .................. 93
3-5. سه گام اصلی فرآیند تحلیل ........................................... 97
3-6. گزارش، گام نهایی فرآیند داده کاوی .................................. 116
3-7. مزایا و معایب داده کاوی ........................................ 116
3-8. نتیجه گیری .................................. 118
فهرست اشکال
شکل 1-1. فرآیند کشف دانش ................................................ 6
شکل 1-2. عملکردهای داده کاوی .................................................... 8
شکل 1-3. تحلیل انحراف در یک پایگاه داده ................................... 9
شکل 1-4. نمونهای از توالی بازدیدهای وب ..................................... 14
شکل 1-5. نمونهای ساده از خوشه بندی مشتریان .................... 16
شکل 1-6. خوشه بندی با استفاده از K-means ................18
شکل 1-7. درخت تصمیمگیری برای دستهبندی مشتریان ................... 21
شکل 1-8. رگرسیون خطی ساده ..................................... 22
شکل 2-1. مدیریت ارتباط با مشتری و داده کاوی ......................... 29
شکل 2-2. دوره های زمانی مختلف در مسأله رویگردانی مشتریان بانک ................. 36
شکل 2-3. دسته بندی انواع تقلب ............................................. 43
شکل 2-4. فراوانی مدلهای استفاده شده در کشف سوء استفاده های مالی ................. 46
شکل2-5. رتبه بندی اعتبار در صنعت بانکداری ............................ 61
شکل 2-6. DMU در فرآیند تحلیل پوششی داده ها ................. 71
شکل 2-7. شاخصهای خروجی مورد استفاده در تحلیل پوششی داده ها ............... 72
شکل 3-1. مدلسازی خوشه بندی مشتریان بانکها در Clementine ................................... 79
شکل 3-2. نتایج خوشه بندی مشتریان بر اساس روش SOM ............................. 79
شکل 3-3. توزیع شغلی مشتریان هر خوشه ................. 79
شکل 3-4. استفاه از الگوریتم Aprioriدر نرم افزار Clementine ........................... 82
شکل 3-5. فرآیند مدلسازی رتبه بندی اعتبار مشتریان بانکی در Clementine............... 86
شکل 3-6. مقایسه مدلهای رتبه بندی اعتبار با استفاده از منحنی Gain ................ 86
شکل 3-7. قواعد رفتاری حاصل از مدل رتبه بندی اعتبار ............................. 87
شکل 3-8. فرآیند مدلسازی Clementine ............................. 98
شکل 3-9. نمودار نمایه خوشه 1 ............................ 108
شکل 3-10. نمودار نمایه خوشه 2 ........................ 109
شکل 3-11. نمودار نمایه خوشه 3 .......................... 110
شکل 3-12. نمودار نمایه خوشه 4 ......................... 111
شکل 3-13. نمودار نمایه خوشه 5 ........................ 112
شکل 3-14. نمودار نمایه خوشه 6 ......................... 113
شکل3-15. نمودار نمایه خوشه 7 ....................... 114
شکل 3-16. نمودار نمایه خوشه 8 ............... 115
فهرست جداول
جدول 1-1. لیستی از محصولات و خدمات قابل ارائه در بانک..... 11
جدول 1-2. نمونه داده های مورد نیاز در مدلسازی مسأله دسته بندی .................... 20
جدول 2-1. پژوهشهای انجام شده در در زمینه کاربرد داده کاوی در تحلیل رویگردانی مشتریان ....... 42
جدول 2-2. پژوهشهای انجام شده در زمینه کاربرد داده کاوی در زمینه کشف تقلب ............. 55
جدول 2-3. پژوهشهای انجام شده در زمینه کاربرد داده کاوی در ارزیابی عملکرد بانک ......... 60
جدول 2-4. پژوهشهای انجام شده در زمینه کاربرد داده کاوی در ارزیابی اعتبار مشتریان ......... 68
جدول 3-1. پروفایلهای حاصل با استفاده از خوشه بندی .......................... 80
جدول 3-2. نمونه ای از قوانین وابستگی تولید شده در یک خوشه ............... 83
جدول 3-3. متغیرهای مورد استفاده در رتبه بندی اعتبار .................................. 85
جدول 3-4. بخشبندی کارتهای اعتباری، خلاصه روش اجرا ................................... 94
جدول 3-5. فیلدهای استفاده شده برای بخشبندی دارندگان کارتهای اعتباری ....................... 97
جدول 3-6. تصمیم گیری برای تعداد اجزای استخراجی با آزمودن جدول"واریانس" در PCA ........... 99
جدول 3-7. فهم و طبقه بندی اجزا با استفاده از ماتریس محوری اجزاء ......................... 100
جدول 3-8. تفسیر قوانین استخراج شده اجزاء ........................ 101
جدول 3-9. مراکز خوشه ها....................................... 102
جدول 3-10. میانگین درصد خریدها بر مبنای نوع کالا در خوشه ها ................. 103
جدول 3-11. میانگین تعداد خرید بر مبنای نوع کالا در خوشه ها ......................... 104
جدول 3-12. نمایه سازی خوشه ها بر مبنای شاخصهای عملکرد ............... 106
جدول 3-13. نمایه سازی خوشه ها بر مبنای مشخصه های جمعیت شناختی .............. 107
در عصر حاضر Web Mining محیط اینترنت جهانی را تبدیل به محیطی کاربردی تر کرده است.که کاربران میتوانند سریعتر و راحتتر اطلاعات مورد نیازشان را پیدا کنند که شامل :کشف و تحلیل داده ، مستندات وmulti media از محیط اینترنت جهانی میباشد ,Web Mining از جزئیات سند ومحتویات سند و ساختار Hyper Link برای کمک به کاربر جهت مشاهده اطلاعات مورد نیازش استفاده میکند.
وب و موتورهای جستجو خودشان شامل اطلاعات ارتباطی درباره ی مستندات هستند و Web Mining این ارتباطات را کشف میکند و به سه بخش تقسیم بندی مینماید.
- در اولین بخش Web Content Mining، موتورهای جستجو محتویات را با کلمات کلیدی تعریف میکنندومی شناسند.پیدا کردن کلمات کلیدی محتوا و پیدا کردن یک ارتباط بین محتوای صفحه ی وب و محتوای سوال کاربر، Content Mining گفته میشود.
- Hyper Linksاطلاعاتی را درباره ی سایر مستندات روی وب که در سند دیگری مهم هستند تهیه میکند.این لینکها عمقی را به سند اضافه میکنند و حالت چند بعدی که از خصوصیات وب است ایجاد میکنند. کاوش این ساختار لینک دومین بخش یعنی Web Structure Mining است.
- در نهایت ارتباطی با سایر مستندات روی وب که بوسیله ی جستجوی قبلی شناخته شده اند، وجود دارد. این ارتباط در صفحه های جستجو (log) و دستیابی ذخیره میشود. کاوش این Log ها سومین بخش یعنی Web Usage Mining را تشکیل میدهد.
درک کاربر اغلب یک بخش مهم از Web Mining است. تحلیل جستجوهای قبلی کاربر ،شکلی که کاربر ترجیح میدهد اطلاعات پیدا شده را ببیندو سرعت در پاسخ ممکن است در پاسخ دادن به پرس و جوی کاربر موثر باشد.
Web Mining در ماهیت نظم خاصی دارد.پل زدن بین فیلدهایی مثل اطلاعات بازگشتی ،پردازش زبانهای طبیعی، استخراج اطلاعات ،Machine Learning، پایگاه داده ،داده کاوی ،ذخیره ی داده ، طراحی رابط کاربر و Visual کردن .
تکنیکهای Web Mining کاربردهای عملی در M-commerce ،E-commerce ، E-Government ،E-learning ، آموزش از راه دور ، آموزش سازمانی،تشکیلات مجازی ، مدیریت دانش و کتابخانه ی دیجیتال دارد.
در این تحقیق ما به بررسی جنبه های مختلف Web Data Mining میپردازیم.
فهرست مطالب
فصل اول : داده کاوی و وب.. 3
مقدمه4
طبقه بندی Web mining. 5
داده کاوی و visualization در اینترنت.. 7
کاوش الگو. 8
وب کاوی در E-Commerce. 9
فصل دوم : پردازشها و تکنیکهایweb data mining. 11
مقدمه11
مراحل Data mining. 16
مراحل جستجو. 17
پردازش روی نتایج. 18
جنبههای واسط کاربر. 19
خروجیهای data mining web:21
پیاده سازیهای data mining web:23
فصل سوم : کاوش پایگاه داده های وب.. 29
مقدمه30
جستجو در پایگاه دادةها در وب.. 30
داده کاوی شیئی – رابطهای. 31
اشتراک داده در مقابل داده کاوی در وب.. 31
کاوش پایگاههای دادة نیمه ساختیافته32
کاوش و سپس ادغام33
Web mining و Meta data. 34
کاوش متادیتا35
انبار و کاوش.. 35
متادیتا برای کاوش چند رسانهای. 36
متا دیتا برای web mining. 36
کاوش پایگاه دادههای توزیع شده، ناهمگن ، وراثتی و متحد در وب.. 37
ماژولهایی از DP برای داده کاوی. 37
داده کاوی روی پایگاه داده توزیع شده38
کاوش و سپس اجتماع. 38
کاوش interoperating و مخزن. 39
همکاری میان عاملهای کاوش.. 39
واسط برای مجتمع سازی. 40
معماریها وweb data mining. 41
ماژولهای داده کاوی مثل اشیاء41
فصل چهارم : بازیابی اطلاعات و داده کاوی در وب.. 44
مقدمه45
موتورهای جستجوگر. 46
ماژولهای موتورهای جستجو. 46
web data mining برای موتورهای جستجو. 47
پویش داده های چند گانه وب.. 48
کاوش متن. 49
کاوش مستقیم روی دادههای غیرساخت یافته50
کاوش تصویر. 51
کاوش ویدئو. 52
کاوشAudio :53
کاوش مستقیم داده با فرمت صدا53
کاوش نوع داده ی چند رسانه ای. 54
سیستم سوال/جواب و داده کاوی وب.. 54
زبانهایMark up و داده کاوی وب.. 55
خلاصه56
فصل پنجم : مدیریت اطلاعات و داده کاوی وب.. 57
مقدمه58
همکاری بین عاملهای کاوش.. 58
مدیریت دانشها و داده کاوی وب.. 59
مدیریت دانش و داده کاوی وب.. 60
محاسبات بیسیم و داده کاوی وب.. 61
کیفیت سرویس و داده کاوی وب.. 62
اجتماع سرویسهای وب و داده کاوی. 63
فصل ششم : کاوش الگوهای کاربردی و ساختار روی وب.. 64
مقدمه65
تحلیل الگوهای کاربردی و روندهای پیشبینی. 65
خروجیها و تکنیکهای web usage mining:66
web mining برای e-commerce. 75
کاوش ساختار روی وب.. 76
بازبینی web structure mining. 76
جمع بندی و نتیجه گیری. 77
گرافیک سه بعدی چیست ؟79
کارت گرافیک سه بعدی. 80
کارت گرافیک سه بعدی. 83
نتیجه گیری. 90
مراجع 91