jgjghj

Thuật toán Apriori – T.m tập mục phổ biến

 

Ý nghĩa: tìm tập mục phổ biến

Đầu vào:

• Cơ sở dữ liệu D.

• Ngưỡng độ hỗ trợ cực tiểu của các tác vụ hay minsupp.

Đầu ra: Tập các tập mục phổ biến.

Thuật toán Apriori- Nội dung

1. Quét cơ sở dữ liệu để tìm các tập 1 mục phổ biến L1.

2. For (k=2; Lk+1 #; k++) {

3. Ck=apriori_gen(Lk-1, minsupp); // Sinh các ứng cử từ Lk-1

4. For ( mỗi tác vụ t trong D) {// Quét D để đếm

5. Ct=subset(Ck,t);// lấy tập con của t mà là các ứng cử trong Ck

6. for ( mỗi ứng cử c khong thuoc Ct

7. c.count ++; // Tăng đếm cho c một đơn vị

8. }

9. Lk= {c khong thuoc Ck sao cho: c.count  minsupp}

10. }

11.Return L=kLk

II.Các kỹ thuật phân lớp

- Dựa trên cây quyết định

- Dựa trên luật

- Naive Bayes

- Dựa trên thể hiện

- Mạng nơron

- SVM (support vector machine)

- Tập thô

1. CÂY QUYẾT ĐỊNH _Độ đo (En tropy)

Độ lợi thông tin - Entropy (information gain): ID3/C4.5

Chi tiết :

 Chọn thuộc tính có độ lợi thông tin cao nhất

 D: tập huấn luyện

 C i,D : tập các mẫu của D thuộc lớp C i với i = {1, …, m}

 |C i,D|, |D| : lực lượng của tập C i,D và D tương ứn g

 pi là xác suất để một mẫu bất kỳ của D thuộc về lớp C i

 Thông tin kỳ vọng để phân lớp một mẫu trong D là :

                                                                                   

Thông tin cần thiết để phân chia D theo thuộc tính A :

Độ lợi thông tin (information gain) dựa trên phân chia

theo thuộc tính A :

Nhận xét: Độ đo Gain có xu hướng thiên vị cho các thuộc

tính có nhiều giá trị  -> Cần chuẩn hóa.

2. CÂY QUYẾT ĐỊNH_Độ đo- Information Gain Ratio: C4.5

Giải pháp: Chọn thuộc tính có độ đo Gain Ratio lớn nhất.

GainRatio (A) = Gain (A)/SplitInfoA(D)

CÂY QUYẾT ĐỊNH - Thuật toán -Độ đo Gini index (CART, IBM IntelligentMiner

1. Tập huấn luyện D chứa các mẫu của n lớp

• Khi đó: Chỉ mục Gini của tập D, kí hiệu: gini(D)

Trong đó: pj là tần xuất của lớp Cj trong D

·        Chỉ mục Gini của phân chia D theo thuộc

tính A là

CÂY QUY Ế T Đ ỊN H - Đánh giá

 Dễ xây dựng cây

 Phân lớp mẫu mới nhanh

 Dễ d àn g d iễn g iải ch o các cây có k ích thước n h ỏ

 Độ ch ín h xác ch ấp n h ận được so với k ỹ th u ật p h ân lớp

kh ác trên n h iều tập DL đ ơn

Phương pháp dựa trên luật – Luật quy nạp ILA

Bước 1 : Chia bảng có chứa m mẫu thành n bảng con

(ứng với n giá trị của thuộc tính chia lớp)

(Bước 2 đến bước 8 sẽ được lặp lại cho mỗi bảng con)

Bước 2 : Khởi tạo số lượng thuộc tính kết hợp j=1

Bước 3 : Xét từng bảng con, tạo danh sách các thuộc

tính kết hợp (phần tử danh sách có j thuộc tính)

Bước 4 : Với mỗi phần tử trong danh sách trên, đếm

số lần xuất hiện các giá trị của thuộc tính ở các d.ng

chưa đánh dấu của bảng con đang xét, nhưng giá trị

không được xuất hiện ở những bảng con khác.

Chọn phần tử kết hợp đầu tiên có số lần xuất hiện của giá trị

thuộc tính nhiều nhất và đặt tên là max-combination.

Bước 5: Nếu max-combination=0 th. j=j+1 và quay lại

bước 3

Bước 6: Trong bảng con đang xét, đánh dấu các d.ng

có xuất hiện giá trị của max-combination

Bước 7: tạo luật

IF AND(thuoc tính=giá trị) (thuộc max-combination)

THEN giá trị của thuộc tính lớp ứng với bảng con đang xét

Bước 8 :

 Nếu tất cả các d.ng đều đánh dấu

 Nếu c.n bảng con th. chuyển qua bảng con tiếp theo

và lặp lại từ bước 2

 Ngược lại: chấm dứt thuật toán

 Ngược lại (c.n d.ng chưa đánh dấu) th. quay lại bước 4.

 

PHƯƠNG PHÁP phan lop NAIVE BAYES – Thuật toán

 

B1: Huấn luyện Naïve Bayes (trên tập DL huấn luyện )

 Lượng giá P(Ci)

 Lượng giá P(Xk|Ci)

B2 : Xnew được gán vào lớp cho giá trị lớn nhất

Để tránh trường hợp giá trị P(Xk|Ci)=0 do không có

mẫu nào trong DL huấn luyện thỏa m.n tử số, ta làm

trơn bằng cách thêm một số mẫu ảo.

• Làm trơn theo Laplace :

                        

PHƯƠNG PHÁP NAIVE BAYES – Thuật toán – Đánh giá

Ưu điểm :

 Dễ dàng cài đặt

 Thời gian thi hành tương tự như cây quyết định

 Đạt kết quả tốt trong phân lớn các trường hợp

Nhược điểm :

 Giả thiết về tính độc lập điều kiện của các thuộc tính

làm giảm độ chính xác

Phân lớp DỰA TRÊN THỂ HiỆN_K_NN

1. Một mẫu mới được gán vào lớp có nhiều mẫu giống

với nó nhất trong số k mẫu gần nhất.

2. Thuật toán xác định lớp cho mẫu mới E:

 Tính khoảng cách giữa E và tất cả các mẫu trong tập

huấn luyện             

 Chọn k mẫu gần nhất với E trong tập huấn luyện

 Gán E vào lớp có nhiều mẫu nhất trong số k mẫu

láng giềng đó (hoặc E nhận giá trị trung b.nh của k mẫu)

Ưu điểm :

 Dễ sử dụng và cài đặt

 Xử l. tốt với dữ liệu nhiễu

Khuyết điểm:

 Cần lưu tất cả các mẫu

 Cần nhiều thời gian để xác định lớp cho một mẫu mới

(cần tính và so sánh khoảng cách đến tất cả các mẫu)

 Phụ thuộc vào giá trị k do người dùng lựa chọn

 Nếu k quá nhỏ th. nhạy cảm với nhiễu

 Nếu k quá lớn th. vùng lân cận có thể chứa các điểm của lớp

khác                

 Thuộc tính phi số ?

II. Gom cum

6.1. Phương pháp phân hoạch

a.Thuật toán K-means

Cho số k, mỗi cụm được biểu diễn bằng giá trị TB của DL

trong cụm

B1: Chọn ngẫu nhiên k đối tượng làm tâm của các cụm.

B2 : Gán từng đối tượng c.n lại vào cụm có tâm cụm gần

nó nhất (dựa trên độ đo khoảng cách Euclide)

B3 : Tính lại giá trị tâm của từng cụm

1. Cho cụm Ki={ti1,ti2,…,tim}, giá trị trung b.nh của cụm là

mi = (1/m)(ti1 + … + tim)

2. Di chuyển tâm cụm về giá trị TB mới của cụm

B4 : Nếu các tâm cụm không có g. thay đổi th. dừng,

ngược lại quay về B2.

Ưu điểm cua K_mean:

 Đơn giản, dễ hiểu, tương đối hiệu quả.

 Các đối tượng tự động gán vào các cụm

 Thường đạt được tối ưu cục bộ.

Hạn chế:

 Thuộc tính phi số không giải quyết được

 Cần xác định số cụm (k) trước

 Tất cả các đối tượng phải gán vào các cụm

 Phụ thuộc vào việc chọn các cụm ở lần đầu tiên

 Gặp vấn đề khi các cụm có kích thước, mật độ khác

nhau hoặc h.nh dáng không phải là h.nh cầu.

 Nhạy cảm với DL nhiễu, cá biệt

b.Thuật toán k-medoids : PAM

Cho số k, mỗi nhóm được biểu diễn bằng một

trong các đối tượng gần tâm cụm nhất.

B1: Chọn ngẫu nhiên k đối tượng gọi là những trọng tâm

của các cụm .

B2: gán từng đối tượng c.n lại vào cụm có trọng tâm cụm

gần nó nhất .

B3: Chọn một đối tượng bất kỳ. Hoán đổi nó với trọng tâm

của nhóm. Nếu chất lượng của các cụm tăng lên th.

quay lại B2. Ngược lại tiếp tục thực hiện B3 cho đến khi

không c.n có sự thay đổi.

So sanh  PAM voi K_mean

1.Thuật toán PAM hiệu quả hơn so với k-means khi có mặt

DL nhiễu, cá biệt.

2. PAM hiệu quả với tập DL nhỏ nhưng không co d.n tốt

với tập DL lớn

6.2. Phương pháp phân cấp

a.Thuật toán AGNES

AGNES (Agglomerative Nesting)

B1: Mỗi đối tượng là một cụm.

B2: Hợp nhất các cụm theo Single Link

(khoảng cách giữa những đối tượng gần nhau nhất trong các cụm là nhỏ nhất)

B3 : Nếu thu được cụm “toàn bộ” th. dừng, ngược lại

quay về B2.

b.Thuật toán DIANA

DIANA (Divisive Analysis)

B1: Tất cả các đối tượng là một cụm.

B2: Chia nhỏ các cụm có khoảng cách giữa những

đối tượng gần nhau nhất trong các cụm là lớn

nhất.

B3: Nếu mỗi nhóm chỉ chứa 1 đối tượng th. dừng,

ngược lại quay về B2.

c.Nhược điểm cua phuong phap phan cap

Tính co dãn thấp: Độ phức tạp là O(n2) với n – số

đối tượng

 Không thể quay lui về bước trước .

 Khó xác định phương pháp tích tụ hay chia nhỏ

 Nhạy cảm với nhiễu, cá biệt

 Gặp vấn đề khi các cụm có kích thước khác nhau và

có hình dáng lồi

 Có xu hướng phân chia các cụm DL lớn

 Tích hợp phương pháp phân cấp với phương pháp phân

hoạch (dựa trên khoảng cách): BIRCH, CURE,

CHAMELEON

6.3.Phương pháp dựa trên mật độ_DBSCAN

Ý. tưởng: Một cụm được xác định như tập các đối tượng có mật

độ liên thông lớn nhất .

Bài toán: Tìm các cụm hình dạng bất kỳ trong CSDL không

gian có nhiễu.

Thuật toán:

B1: Chọn ngẫu nhiên đối tượng p

B2: T.m tất cả các đối tượng có mật độ có thể đạt được từ p

theo Eps, MinPts

B3: Nếu p là đối tượng nòng cốt thì hình thành cụm.

 Nếu p là đối tượng biên (không có đối tượng nào là có mật độ đạt được từ p) th.

DBSCAN xem xét đối tượng tiếp theo trong CSDL.

B4 : Tiếp tục cho đến khi tất cả các đối tượng đều được xử lý.

Bạn đang đọc truyện trên: AzTruyen.Top

Tags: #nga