خوشهبندي سلسله مراتبي (hierarchical clustering) در R
این مطلب مفید از وبسایت ژورنال آمار آکادمی به امانت گرفته شده است.
خوشه بندی سلسله مراتبی تکنیکی است که در گروهبندی یا دسته بندی داده ها به کارمی رود. نقاط داده ها در این روش در دسته ها و زیر دسته هایی بر اساس معیار شباهت قرار می گیرند.
در روش خوشه بندي سلسله مراتبي، به خوشههاي نهايي بر اساس ميزان عموميت آنها ساختاري سلسله مراتبي، معمولا به صورت درختي نسبت داده ميشود. به اين درخت سلسله مراتبي دندوگرام (dendogram) ميگويند. روش کار تکنيکهاي خوشهبندي سلسلهمراتبي معمولا بر اساس الگوريتمهاي حريصانه (Greedy Algorithms) و بهينگي مرحلهاي (stepwise-optimal) است. روشهاي خوشهبندي بر اساس ساختار سلسله مراتبي توليدي توسط آنها معمولا به دو دستة زير تقسيم ميشوند:
• بالا به پايين (Top-Down) يا تقسيم کننده(Divisive)
در اين روش ابتدا تمام دادهها به عنوان يک خوشه در نظر گرفته ميشوند و سپس در طي يک فرايند تکراري در هر مرحله دادههايي شباهت کمتري به هم دارند به خوشههاي مجزايي شکسته ميشوند و اين روال تا رسيدن به خوشههايي که داراي يک عضو هستند ادامه پيدا ميکند.
• پايين به بالا (Bottom-Up) يا متراکم شونده (Agglomerative)
در اين روش ابتدا هر دادهها به عنوان خوشهاي مجزا در نظر گرفته ميشود و در طي فرايندي تکراري در هر مرحله خوشههايي که شباهت بيشتري با يکديگر با يکديگر ترکيب ميشوند تا در نهايت يک خوشه و يا تعداد مشخصي خوشه حاصل شود. از انواع الگوريتمهاي خوشهبندي سلسله مراتبي متراکم شونده رايج ميتوان از الگوريتمهاي Single-Linkage، Average-Linkage وComplete-Linkage نام برد. تفاوت اصلي در بين تمام اين روشها به نحوة محاسبة شباهت بين خوشهها مربوط ميشود. که در بخشهاي بعد به تشريح هر يک پرداخته خواهد شد.
خوشه بندی سلسله مراتبی در R
با بسته های قدرتمند R می توان خوشه بندی ها را به خوبی انجام داد. دستور کلی خوشه بندی سلسله مراتبی در R به صورت زیر است:
در روش خوشه بندي سلسله مراتبي، به خوشههاي نهايي بر اساس ميزان عموميت آنها ساختاري سلسله مراتبي، معمولا به صورت درختي نسبت داده ميشود. به اين درخت سلسله مراتبي دندوگرام (dendogram) ميگويند. روش کار تکنيکهاي خوشهبندي سلسلهمراتبي معمولا بر اساس الگوريتمهاي حريصانه (Greedy Algorithms) و بهينگي مرحلهاي (stepwise-optimal) است. روشهاي خوشهبندي بر اساس ساختار سلسله مراتبي توليدي توسط آنها معمولا به دو دستة زير تقسيم ميشوند:
• بالا به پايين (Top-Down) يا تقسيم کننده(Divisive)
در اين روش ابتدا تمام دادهها به عنوان يک خوشه در نظر گرفته ميشوند و سپس در طي يک فرايند تکراري در هر مرحله دادههايي شباهت کمتري به هم دارند به خوشههاي مجزايي شکسته ميشوند و اين روال تا رسيدن به خوشههايي که داراي يک عضو هستند ادامه پيدا ميکند.
• پايين به بالا (Bottom-Up) يا متراکم شونده (Agglomerative)
در اين روش ابتدا هر دادهها به عنوان خوشهاي مجزا در نظر گرفته ميشود و در طي فرايندي تکراري در هر مرحله خوشههايي که شباهت بيشتري با يکديگر با يکديگر ترکيب ميشوند تا در نهايت يک خوشه و يا تعداد مشخصي خوشه حاصل شود. از انواع الگوريتمهاي خوشهبندي سلسله مراتبي متراکم شونده رايج ميتوان از الگوريتمهاي Single-Linkage، Average-Linkage وComplete-Linkage نام برد. تفاوت اصلي در بين تمام اين روشها به نحوة محاسبة شباهت بين خوشهها مربوط ميشود. که در بخشهاي بعد به تشريح هر يک پرداخته خواهد شد.
خوشه بندی سلسله مراتبی در R
با بسته های قدرتمند R می توان خوشه بندی ها را به خوبی انجام داد. دستور کلی خوشه بندی سلسله مراتبی در R به صورت زیر است:
hclust(d, method = "complete", members=NULL)
تقریبا تمام روش های خوشه بندی بر مبنای "فاصله" استوارند. ماتریس فاصله که با جایگذاری فاصله ی میان هر دو جفت از داده ها در یک ماتریس به دست می آید در جای دادن نقاط داده ها نقشی اساسی ایفا می کند. نقاطی که به هم نزدیکترند در یک گروه یا خوشه جای می گیرند. بنا براین ورودی روش خوشه بندی سلسله مراتبی یک ماتریس فاصله خواهد بود. در نتیجه باید یکی از آن ها را محاسبه کنیم.
در گام بعد باید این ماتریس فاصله را در تابع hclust اجرا کنیم
hclust(as.dist(d))
المان های تابع hclust به شرح زیر است:
• d ساختاری بر اساس تفاوت موجود در نمونه ها، که از تابع dist به دست می آید.
• method روش خوشه بندی سلسله مراتبی را شرح می دهد. که باید یکی از روش های "single"، "ward"، "complete"، "average"، "mcquitty"، "median" یا "centroid" در دستور فوق نوشته شود.
در حالت کلی این روش های خوشه بندی به قرار زیرند:
1. Ward's minimum variance or error sum of squares method.
2. single linkage or nearest neighbor method.
3. complete linkage or diameter.
4. average linkage, group average, or UPGMA method.
5. McQuitty's or WPGMA method.
6. median, Gower's or WPGMC method.
7. centroid or UPGMC method.
2. single linkage or nearest neighbor method.
3. complete linkage or diameter.
4. average linkage, group average, or UPGMA method.
5. McQuitty's or WPGMA method.
6. median, Gower's or WPGMC method.
7. centroid or UPGMC method.
که روش ward کمترین واریانس را در یافتن خوشه ها دخیل می کند و روش "complete linkage" خوشه های شبیه به هم را پیدا می کند. روش "single linkage" که بسیار مرتبط به درخت پوشای مینیمم است، از استراژدی خوشه بندی "friends of friends" استفاده می کند. سایر روش های فوق راه میان بری میان خوشه بندی "complete"و خوشه بندی “single” هستند.
برای درک بهتر این خوشه بندی سلسله مراتبی مثال زیر را گام به گام شرح می دهیم:
فرض کید معدل دانشجویان کارشناسی ارشد آمار ده دانشگاه به صورت زیر باشد و بخواهیم این 10 دانشگاه را بر اساس معدل به صورت سلسله مراتبی خوشه بندی کنیم؛
( نوشتن داده ها به صورت دیتا فریم در مواقعی که تعداد داده ها زیاد باشند و نیز داده هایمان چند بعدی باشند کار را ساده تر خواهد کرد)
برای درک بهتر این خوشه بندی سلسله مراتبی مثال زیر را گام به گام شرح می دهیم:
فرض کید معدل دانشجویان کارشناسی ارشد آمار ده دانشگاه به صورت زیر باشد و بخواهیم این 10 دانشگاه را بر اساس معدل به صورت سلسله مراتبی خوشه بندی کنیم؛
h<-C(12,13,17,4,13,8,19,14,7,16,12)
data<-data.frame(h)
data<-data.frame(h)
( نوشتن داده ها به صورت دیتا فریم در مواقعی که تعداد داده ها زیاد باشند و نیز داده هایمان چند بعدی باشند کار را ساده تر خواهد کرد)
dh<-dist(data)ساختن ماتریس فاصله
dh
1 2 3 4 5 6 7 8 9 10
2 1
3 5 4
4 8 9 13
5 1 0 4 9
6 4 5 9 4 5
7 7 6 2 15 6 11
8 2 1 3 10 1 6 5
9 5 6 10 3 6 1 12 7
10 4 3 1 12 3 8 3 2 9
11 0 1 5 8 1 4 7 2 5 4
sh<-hclust(dh,"single")خوشه بندی از روش تنها
ch<-hclust(dh,"complete")خوشه بندی با روش کامل
ah<-hclust(dh,"average")خوشه بندی با روش میانگین
oh<-hclust(dh,"centroid")خوشه بندی با روش مرکزگرایی
par(mfrow=c(2,2)) قرار دادن نمودارها در دو سطر و دو ستون در یک صفحه
plot(sh,hang=-1)
plot(ch,hang=-1)
plot(ah,hang=-1)
plot(oh,hang=-1
چنانچه بخواهید خوشه بندی را از مرحله ای به بعد متوقف کنید و یا خواهان تعداد خوشه های مورد نظر خود باشید از دستور (cutree(d,n=k استفاده کنید به طوری که n تعداد خوشه های مورد نظر تان است.
با مثالی دیگر این توابع و کاربردهای دیگر خوشه بندی را در R بهتر ببینید:
با مثالی دیگر این توابع و کاربردهای دیگر خوشه بندی را در R بهتر ببینید:
require(graphics)
hc <- hclust(dist(USArrests), "ave")
plot(hc)
plot(hc, hang = -1)
## Do the same with centroid clustering and squared Euclidean distance,
## cut the tree into ten clusters and reconstruct the upper part of the
## tree from the cluster centers.
همین کار را با روش خوشه بندی مرکزی با مجذور فاصله اقلیدسی انجام می دهیم:
kc <- hclust(dist(USArrests)^2, "cen")
plot(kc,hang=-1)
حال چنانچه بخواهیم فقط از وضیعت 10 خوشه از قسمت فوقانی دندوگرام(نمودار درختی) اطلاع داشته باشیم باید درخت را برش و بازسازی کنیم:
memb <- cutree(kc, k = 10)
memb
Alabama Alaska Arizona Arkansas California
1 2 3 4 3 Colorado Connecticut Delaware Florida Georgia
4 5 1 6 4
Hawaii Idaho Illinois Indiana Iowa
7 5 1 5 8
Kansas Kentucky Louisiana Maine Maryland
5 5 1 8 3
Massachusetts Michigan Minnesota Mississippi Missouri
9 1 8 2 4
Montana Nebraska Nevada New Hampshire New Jersey
5 5 1 8 9
New Mexico New York North Carolina North Dakota Ohio
3 1 10 8 5
Oklahoma Oregon Pennsylvania Rhode Island South Carolina
9 9 5 9 2
South Dakota Tennessee Texas Utah Vermont
8 4 4 5 8
Virginia Washington West Virginia Wisconsin Wyoming
9 9 8 8 9
cent <- NULL
for(k in 1:10){
cent <- rbind(cent, colMeans(USArrests[memb == k, , drop = FALSE]))
}
hc1 <- hclust(dist(cent)^2, method = "cen", members = table(memb))
opar <- par(mfrow = c(2, 2))
plot(hc, labels = FALSE, hang = -1, main = "Original Tree")
plot(hc1, labels = FALSE, hang = -1, main = "Re-start from 10 clusters")
par(opar)
for(k in 1:10){
cent <- rbind(cent, colMeans(USArrests[memb == k, , drop = FALSE]))
}
hc1 <- hclust(dist(cent)^2, method = "cen", members = table(memb))
opar <- par(mfrow = c(2, 2))
plot(hc, labels = FALSE, hang = -1, main = "Original Tree")
plot(hc1, labels = FALSE, hang = -1, main = "Re-start from 10 clusters")
par(opar)
بانك موضوع پايان نامه
-
بانك موضوعات پايان نامه رشته فقه و حقوق- همه گرايشها
-
بانك موضوعات پايان نامه رشته مامايي
-
بانك موضوعات پايان نامه رشته مديريت آموزشي
-
بانك موضوعات پايان نامه رشته مديريت بانكداري
-
بانك موضوعات پايان نامه رشته مديريت شهري
-
بانك موضوعات پايان نامه رشته مديريت صنعتي
-
بانك موضوعات پايان نامه رشته مديريت فن آوري اطلاعات (IT)
-
بانك موضوعات پايان نامه رشته مهندسي شيمي- همه گرايشها
-
بانك موضوعات پايان نامه رشته مهندسي عمران- نقشه كشي
-
بانك موضوعات پايان نامه رشته مهندسي كامپيوتر - معماري سيستمها
-
بانك موضوعات پايان نامه رشته مهندسي كامپيوتر- نرم افزار
-
بانك موضوعات پايان نامه رشته مهندسي كامپيوتر- هوش مصنوعي
-
بانك موضوعات پايان نامه رشته پرستاري
-
بانك موضوعات پايان نامه رشته پزشكي عمومي
-
بانك موضوعات پايان نامه رشته پيراپزشكي- بيهوشي
-
بانك موضوعات پايان نامه رشته MBA
-
بانك موضوعات پايان نامه رشته آبخيزداري
-
بانك موضوعات پايان نامه رشته آمار- همه گرايشها
-
بانك موضوعات پايان نامه رشته اقتصاد
-
بانك موضوعات پايان نامه رشته تاريخ
-
بانك موضوعات پايان نامه رشته تربيت بدني- كليه گرايشها
-
بانك موضوعات پايان نامه رشته جغرافيا- برنامه ريزي روستايي
-
بانك موضوعات پايان نامه رشته جغرافياي سياسي
-
بانك موضوعات پايان نامه رشته حسابداري
-
بانك موضوعات پايان نامه رشته روانشناسي- همه گرايشها
-
بانك موضوعات پايان نامه رشته رياضي محض
-
بانك موضوعات پايان نامه رشته زبان انگليسي- ادبيات انگليسي
-
بانك موضوعات پايان نامه رشته زبان انگليسي- مترجمي
-
بانك موضوعات پايان نامه رشته زبان و ادبيات عرب
-
بانك موضوعات پايان نامه رشته زبان و ادبيات فرانسه
-
بانك موضوعات پايان نامه رشته زبانشناسي
-
بانك موضوعات پايان نامه رشته زيست شناسي گياهي
-
بانك موضوعات پايان نامه رشته زيست شناسي- علوم جانوري
-
بانك موضوعات پايان نامه رشته زيست شناسي- ميكروبيولوژي
-
بانك موضوعات پايان نامه رشته علوم اجتماعي- جامعه شناسي
-
بانك موضوعات پايان نامه رشته علوم تربيتي
-
بانك موضوعات پايان نامه رشته علوم سياسي
-
بانك موضوعات پايان نامه رشته فيزيك- همه گرايشها
-
بانك موضوعات پايان نامه رشته كتابداري
-
بانك موضوعات پايان نامه رشته محيط زيست
-
بانك موضوعات پايان نامه رشته محيط زيست( كليه گرايشها)
-
بانك موضوعات پايان نامه رشته مديريت اجرايي
-
بانك موضوعات پايان نامه رشته مديريت بازرگاني - تحول سازماني
-
بانك موضوعات پايان نامه رشته مديريت بازرگاني - مالي
-
بانك موضوعات پايان نامه رشته مديريت بازرگاني- بازاريابي
-
بانك موضوعات پايان نامه رشته مديريت بيمه
-
بانك موضوعات پايان نامه رشته مديريت دولتي
-
بانك موضوعات پايان نامه رشته مديريت دولتي- منابع انساني
-
بانك موضوعات پايان نامه رشته مهندسي آبياري - گرايشهاي هيدرولوژي- زهكشي و ساختمانهاي توزيع و انتقال آب
-
بانك موضوعات پايان نامه رشته مهندسي كشاورزي- باغباني (همه گرايشها)
-
بانك موضوعات پايان نامه رشته مهندسي كشاورزي- اقتصاد كشاورزي و مديريت مزرعه
-
ليست موضوعات پايان نامه رشته مهندسي كشاورزي- گياهپزشكي- بيماري شناسي گياهي
معرفي پايگاه هاي اطلاعاتي علمي
- آشنايي با پايگاههاي اطلاعاتي: Sage
- آشنايي با پايگاههاي اطلاعاتي: Embase
- آشنايي با پايگاههاي اطلاعاتي - كتابخانه OECD
- آشنايي با پايگاههاي اطلاعاتي -Reaxys
- آشنايي با پايگاههاي اطلاعاتي - Engineering Village 2
- آشنايي با پايگاههاي اطلاعاتي- Hein Online
- آشنايي با پايگاههاي اطلاعاتي - Talor and Francis
- آشنايي با پايگاههاي اطلاعاتي - DOJA
- آشنايي با پايگاههاي اطلاعاتي - Archnet
- آشنايي با پايگاههاي اطلاعاتي - ISI Web of Knowledge
- آشنایی با پايگاههاي اطلاعاتي- پرتال منابع دیجیتال پزشکی وزارت بهداشت (PMDR)
- آشنايي با پايگاههاي اطلاعاتي -ASCE Library
- آشنايي با پايگاههاي اطلاعاتي -IRANDOC
- آشنايي با پايگاههاي اطلاعاتي - ISC
- آشنايي با پايگاههاي اطلاعاتي - ERIC
- آشنايي با پايگاههاي اطلاعاتي - SID
- آشنايي با پايگاههاي اطلاعاتي - پايگاه مجلات تخصصي نور(NOORMAG)
- آشنايي با پايگاههاي اطلاعاتي - ACM
- آشنايي با پايگاههاي اطلاعاتي - IEEE
- آشنايي با پايگاههاي اطلاعاتي - Engineering Village
- آشنايي با پايگاههاي اطلاعاتي - JAMA
- آشنايي با پايگاههاي اطلاعاتي - PubMed
- آشنايي با پايگاههاي اطلاعاتي - Ebsco
- آشنایی با پایگاه اطلاعاتی - SpringerLink
- آشنايي با پايگاههاي اطلاعاتي - ProQuest
- آشنايي با پايگاههاي اطلاعاتي - Science Direct
- آشنايي با پايگاههاي اطلاعاتي - Emerald
- آشنايي با پايگاههاي اطلاعاتي- Thieme
- آشنايي با پايگاه اطلاعاتي Scopus ، پايگاه چكيده مقالات جهان
حمايت از پايان نامه ها
- حمایت از پایان نامه های علوم سیاسی توسط بیرخانه حمایت و هدایت پایاننامهها و رسائل علوم انسانی
- حمایت از پایان نامه های حقوق توسط دبیرخانه حمایت و هدایت پایان نامه ها و رسائل علوم انسانی شورای عالی انقلاب فرهنگی
- موضوعات پیشنهادی برای حمایت از پایان نامه های حقوق در شورای تخصصی تحول و ارتقا علوم انسانی شورای عالی انقلاب فرهنگی
- موضوعات پیشنهادی برای حمایت از پایان نامه های روانشناسی و تعلیم و تربیت در شورای تخصصی تحول و ارتقا علوم انسانی شورای عالی انقلاب فرهنگی
- موضوعات پیشنهادی برای حمایت از پایان نامه های اقتصاد در شورای تخصصی تحول و ارتقا علوم انسانی شورای عالی انقلاب فرهنگی
- موضوعات پیشنهادی برای حمایت از پایان نامه های مدیریت در شورای تخصصی تحول و ارتقا علوم انسانی شورای عالی انقلاب فرهنگی
- موضوعات پیشنهادی برای حمایت از پایان نامه های علوم اجتماعی و ارتباطات در شورای تخصصی تحول و ارتقا علوم انسانی شورای عالی انقلاب فرهنگی
- اعلام حمايت مالي از پايان نامه هاي دانشجويان كارشناسي ارشد و دكتري توسط موسسه شاخص پروژه
- محورهای پژوهشی مورد حمایت وزارت بازرگانی
- اولويتهاي پژوهشي شركت سرمايهگذاريهاي خارجي ايران(ايفيك) در سال 1392
دانلود . . .
بورسهای خارجی
-
16 موقعیت PhD بسیار رقابتی برای پروژه های دکترا در سطح جهانی در علوم بهداشتی و درمانی در دانشگاه Ahhus ، دانمارک
-
اطلاعات در مورد بورس تحصیلی سالانه در كشور ژاپن براي فوق ديپلم، كارشناسي، كارشناسي ارشد و دكترا
-
بورس تحصیلی (گروه شیمی دانشگاه ابردین انگلستان)
-
بورس تحصیلی در حیطه مهندسی شیمی دانشگاه ابردین (Aberdeen) انگلستان
-
بورس تحصیلی در حیطه پزشکی ((گروه شیمی)) دانشگاه ابردین انگلستان
-
بورس تحصیلی در حیطه گروه علوم اعصاب، روانشناسی و رفتار دانشگاه لستر انگلستان
-
بورس تحصیلی در حیطه گروه پزشکی دانشگاه آکسفورد انگلستان
-
بورس تحصیلی در حیطه ی پزشکی ((گروه شیمی)) دانشگاه ابردین (Aberdeen)
-
بورس تحصیلی در حیطه ی پزشکی و داروسازی (گروه شیمی) دانشگاه ابردین (Aberdeen) انگلستان
-
بورس تحصیلی در زمینه مهندسی شیمی دانشگاه ابردین انگلستان
-
بورس تحصیلی دکترا در حیطه پزشکی و داروسازی دانشگاه دورهام(Durham )انگلستان
-
بورس تحصیلی دکترا داروسازی - نقش پروتئین هومر در درد مزمن(پزشکی و داروسازی)
-
بورس تحصیلی دکتری دانشکده مهندسی شیمی و بیوتکنولوژی دانشگاه دشربروکس کانادا
-
بورس تحصیلی دکتری در حیطه شیمی دانشگاه Monash استرالیا
-
بورس تحصیلی دکتری ( گروه شیمی دانشگاه ابردین (aberdeen)انگلستان)
دانشگاههاي برتر جهان
-
دانشگاه هاي مالزي
-
دانشگاه UPM ( دانشگاه پوترا مالزي)( دولتي)
-
دانشگاه UM مالزي ( دولتي)
-
دانشگاه USM مالزي ( دولتي)
-
دانشگاه UITM مالزي ( دولتي)
-
دانشگاه UTM مالزي ( دولتي)
-
دانشگاه UKM مالزي( دولتي)
-
دانشگاه MMU مالزي ( خصوصي)
-
دانشگاه UCTI مالزي ( خصوصي)
-
دانشگاه UCSI مالزي ( خصوصي)
-
دانشگاه TENAGA مالزي ( خصوصي)
-
دانشگاهKBU مالزي(خصوصي)
-
-
شرايط زندگي شهروندي در مالزي
-
دانشگاه هاي انگلستان
-
دانشگاه هاي اكراين
-
دانشگاههاي آلمان
-
دانشگاههاي استراليا