Chào mừng quý vị đến với website của ...
Quý vị chưa đăng nhập hoặc chưa đăng ký làm thành viên, vì vậy chưa thể tải được các tài liệu của Thư viện về máy tính của mình.
Nếu chưa đăng ký, hãy nhấn vào chữ ĐK thành viên ở phía bên trái, hoặc xem phim hướng dẫn tại đây
Nếu đã đăng ký rồi, quý vị có thể đăng nhập ở ngay phía bên trái.
Nếu chưa đăng ký, hãy nhấn vào chữ ĐK thành viên ở phía bên trái, hoặc xem phim hướng dẫn tại đây
Nếu đã đăng ký rồi, quý vị có thể đăng nhập ở ngay phía bên trái.
Chủ đề F-CS1. Bài 1. Giới thiệu về học máy
(Tài liệu chưa được thẩm định)
Nguồn: Bạch Kim
Người gửi: Ngô Văn Chinh (trang riêng)
Ngày gửi: 11h:45' 24-03-2025
Dung lượng: 408.8 KB
Số lượt tải: 0
Nguồn: Bạch Kim
Người gửi: Ngô Văn Chinh (trang riêng)
Ngày gửi: 11h:45' 24-03-2025
Dung lượng: 408.8 KB
Số lượt tải: 0
Số lượt thích:
0 người
CHỦ ĐỀ F-CS1. BÀI 1. GIỚI THIỆU VỀ HỌC MÁY
Trang bìa
Trang bìa
Ảnh
CHỦ ĐỀ F-CS1. BÀI 1. GIỚI THIỆU VỀ HỌC MÁY
Khởi động
Mục tiêu
Ảnh
Mục tiêu:
Giải thích được sơ lược về khái niệm Học máy. Nêu được vai trò của Học máy trong những công việc như: lọc thư rác, chuẩn đoán bệnh, phân tích thị trường, nhận dạng tiếng nói và chữ viết, dịch tự động.
Khởi động
Ảnh
Cho Hình 1 và ba nhân phân loại là "vuông”, “tròn”, “tam giác”. Cần gán nhãn phân loại cho từng đối tượng trong Hình 1. Em hãy trả lời các câu hỏi sau: 1) Nếu con người thực hiện thì nhiệm vụ trên là dễ hay khó? 2) Theo em, máy tính có thể tự động thực hiện nhiệm vụ trên thay cho con người hay không? Lập trình để máy tính làm công việc này là dễ hay khó?
KHỞI ĐỘNG:
Hình 1
Ảnh
Ảnh
Khái niệm học máy
Khái niệm học máy
Ảnh
Khái niệm học máy:
+ Bài Giới thiệu về Trí tuệ nhân tạo ở chủ đề A đã đề cập đến học máy như một nhánh nghiên cứu trong nghành AI nhằm làm cho máy tính có khả năng học từ dữ liệu. Bài học này sẽ giúp các em hiểu sâu hơn về học máy. + Học máy huấn luyện máy tính để nó có thể tự động phát hiện ra các mối quan hệ có trong dữ liệu. Học máy có thể giải quyết nhiều loại bài toán khác nhau, tiêu biểu là bài toán phân loại và bài toán phân cụm. + Để huấn luyện máy tính học từ dữ liệu, người ta dùng một tập dữ liệu gọi là dữ liệu huấn luyện. Máy tính thực hiện thuật toán trên tập dữ liệu huấn luyện để có khả năng tự thực hiê những nhiệm vụ tương tự trên tập dữ liệu mới.
a. Mô hình học máy
Ảnh
a. Mô hình học máy:
+ Thuật toán học máy: Từ tập dữ liệu đầu vào, thuật toán học máy rút ra các thông tin liên quan tới dữ liệu, các đặc điểm chung quan trọng,... Từ đó giúp máy tính học cách phân biệt giữa các mẫu dữ liệu khác nhau hoặc nhóm các mẫu dữ liệu thành các cụm nhiều mẫu tương tự nhau. + Mô hình học máy: Các mô hình học máy được tạo ra từ các thuật toán học máy và trải qua quá trình huấn luyện (Hình 2).
Hình 2
Ảnh
Ảnh
b. Quy trình học máy
Ảnh
b. Quy trình học máy:
Quy trình học máy có thể mô tả như sau: 1. Thu thập dữ liệu. 2. Chuẩn bị dữ liệu. 3. Xây dựng mô hình. 4. Đánh giá mô hình. 5. Triển khai ứng dụng mô hình.
Học có giám sát
Tìm hiểu
Ảnh
Tìm hiểu:
+ Trong học có giám sát, tập dữ liệu huấn luyện gồm các mẫu dữ liệu được liên kết với đầu ra tương ứng, gọi là nhãn. Máy tính học để phát hiện ra mối quan hệ giữa các mẫu dữ liệu với nhãn. Sau khi học xong, máy tính có thể đưa ra dự đoán nhãn cho dữ liệu mới. + Học có giám sát có thể dùng để giải quyết nhiều loại bài toán khác nhau, trong đó có bài toán phân loại.
a. Bài toán phân loại
Ảnh
Câu hỏi: Xét các bài toán sau: 1) Hệ thống thư điện tử cần xác định các email nghi là thư rác và đánh dấu nó thuộc loại “Spam” (thư rác) để cảnh báo cho người nhận. Nhữung email còn lại thuộc loại “no spam”. 2) Ngân hàng cần xác định khách hàng thuộc loại “tốt”, “bình thường” hay “xấu” để giải quyết định hạn mức cho vay và lãi suất áp dụng Theo em, những bài toán trên và nhiệm vụ ở phần khởi động có những điểm chung là gì?
- Trả lời (a. Bài toán phân loại)
Ảnh
Trả lời: - Cả ba bài toán đều là bài toán phân loại: + Phân loại email thành "Spam" và "no spam". + Phân loại khách hàng thành "tốt", "bình thường" và "xấu". + Phân loại hình ảnh thành "vuông", "tròn" và "tam giác". - Cả ba bài toán đều sử dụng thuật toán học máy để phân loại dữ liệu. - Cả ba bài toán đều cần thu thập và chuẩn bị tập dữ liệu huấn luyện phù hợp.
- Giới thiệu bài toán phân loại
Ảnh
Giới thiệu bài toán phân loại:
+ Có một số nhãn phân loại cho trước. Việc gán cho mỗi đối tượng một nhãn phân loại tùy theo các thuộc tính đặc trưng của nó là bài toán phân loại. Hai bài toán nêu trong Hoạt động 1 là bài toán phân loại. Bài toán 1 có hai nhãn phân loại là "spam" và " no spam"; bài toán 2 có ba nhãn phân loại là "tốt", "bình thường" và "xấu". Học máy giúp xây dựng mô hình phân loại để phân loại thư rác, phân loại khách hàng vay tín dụng.
Hình 3
Ảnh
Ảnh
b. Dữ liệu huấn luyện
Ảnh
b. Dữ liệu huấn luyện:
+ Mỗi đối tượng cần phân loại được mô tả một số thông tin là các thuộc tính đặc trưng của nó. Ví dụ, việc phân loại email là "spam" hay "no spam" dựa vào một số thông tin như: địa chỉ người gửi, địa chỉ người nhận, dòng tiêu đề, sự có mặt của những từ đặc trưng cho thư rác,... + Dữ liệu huấn luyện là các mẫu dữ liệu về một số email đã biết trước là thư rác và một số email khác không là thư rác.
c. Huấn luyện và đánh giá mô hình
Ảnh
c. Huấn luyện và đánh giá mô hình:
+ Máy tính được huấn luyện để sử dụng dữ liệu huấn luyện và tự dự đoán nhãn phân loại theo thuật toán học máy. Nhãn phân loại được xác định khi biết giá trị các thuôc tính đặc trưng của đối tượng. Áp dụng mô hình cho phần dữ liệu dùng để đánh giá sẽ nhận được dữ liệu kiểm tra. So sánh nhãn đã biết với nhãn do mo hình dự đoán để đánh giá mô hình. Mục tiêu huấn luyện nhằm giảm thiểu nhãn bị gán sai đến mức ngưỡng chấp nhận được.
Học không giám sát
Tìm hiểu
Ảnh
Tìm hiểu:
+ Khác với học có giám sát, học không giám sát được thực hiện với tập dữ liệu không có nhãn. Học không giám sát có thể dùng để huấn luyện máy tính giải quyết nhiều loại bài toán khác nhau, trong đó có bài toán phân cụm.
a. Bài toán phân cụm
Ảnh
Câu hỏi: Cho một số quả, theo em máy tính có trả lời được mấy loại quả hay không?
Trả lời: Hiện nay, với sự phát triển của công nghệ học máy, đặc biệt là mạng nơ-ron nhân tạo, máy tính có thể đạt được độ chính xác cao trong việc phân loại quả.
- Giới thiệu bài toán phân cụm
Ảnh
Giới thiệu bài toán phân cụm:
+ Phân cụm là chia tập đối tượng thành các cụm dựa trên sự tương tự và khác biệt của các đối tượng. Các đối tượng trong cùng một cụm có các đặc điểm tương tự nhau. Các đối tượng trong các cụm khác nhau thì có đặc điểm khác nhau. + Học không giám sát giúp xây dựng mô hình phân cụm. Hình 4 minh họa vai trò của học máy trong phân cụm các quả. Mô hình phân cụ các quả đã được huấn luyện thành công bằng học không giám sát gom các quả thành ba cụm dựa vào đặc điểm các loại quả.
Hình 4
Ảnh
Ảnh
b. Dữ liệu huấn luyện
Ảnh
b. Dữ liệu huấn luyện:
+ Tập dữ liệu huấn luyện gồm các mẫu dữ liệu mô tả các thuộc tính đặc trưng của đối tượng. Ví dụ, trường học phân cụm ác quả, các thuộc tính đặc trưng của mỗi quả là hình dạng, kích thước, màu sắc,...Trong dữ liệu không có tên các loại quả, tức là không có nhãn kèm theo.
c. Huấn luyện và đánh giá mô hình
Ảnh
c. Huấn luyện và đánh giá mô hình:
+ Dựa trên thông tin về sự tương tự của các mẫu dữ liệu, thuật toán học máy sẽ nhóm các mẫu dữ liệu thành các cụm. Có một số cách khác nhau để phân cụm như: dựa trên mật độ các mẫu dữ liệu trong một vùng; dựa trên phân phối xá suất của các mẫu dữ liệu. + Mức độ tương tự giữa hai mẫu dữ liệu có thể biểu diễn trực quan bằng "khoảng cách" giữa hai mẫu.
Một số ứng dụng của học máy
Tìm hiểu
Ảnh
Tìm hiểu:
+ Học máy được ứng dụng để lọc thư rác, phân loại khách hàng vay tín dụng, phân cụm các quả như đã trình bày ở trên. Sau đây là một số ứng dụng khác của học máy.
a. Nhận dạng tiếng nói
Ảnh
a. Nhận dạng tiếng nói:
+ Máy tính có thể nhận dạng tiếng nói nhờ học máy. Dữ liệu đầu vào là các đoạn tiếng nói và nhờ các thuật toán học máy sẽ xây dựng được mô hình nhận dạng tiếng nói. + Nhận dạng tiếng nói được ứng dụng trong: chuyển lời nói thành văn bản; tìm kiếm bằng lời nói, điều khiển thiết bị thông minh bằng lời nói; dịch vụ trả lời tự động, chatbot trợ lí ảo hay xác thực bằng sinh trắc học tiếng nói.
Hình 5
Ảnh
Ảnh
b. Nhận dạng chữ viết
Ảnh
b. Nhận dạng chữ viết:
+ Máy tính có thể nhận dạng chữ viết nhờ học máy. Dự liệu đầu vào là các kí tự hoặc các câu đã được số hóa và nhờ các thuật toán máy sẽ xây dựng được mô hình nhận dạng chữ viết. + Nhận dạng cữ viết tay có thể chia thành hai chế độ, "tĩnh" và "động". Ở chế độ tĩnh, cũng gọi là ngoại tuyến, hình ảnh chữ viết tay được camera thu nhận và sau đó máy tính phân tích hình dạng chữ viết tay. Ở chế độ động, cũng gọi là trực tuyến, người trực tiếp viết chữ lên tấm cảm ứng, máy tính sẽ thu nhận chữ viết cùng lúc với thao tác viết và phân tích hình dạng chữ viết kiết hợp với chuyển động, áp lực.
Hình 6
Ảnh
Ảnh
c. Dịch máy
Ảnh
c. Dịch máy:
+ Dịch máy sử dụng học máy để phân tích văn bản và dự đoán khả năng một từ hoặc cụm từ cụ thể trong ngôn ngữ nguồn sẽ là từ hoặc cụm từ tương ứng nào trong ngôn ngữ đích. + Google dịch là một vị trí tiêu biểu của ứng dụng dịch máy. Kết hợp nhận dạng chữ viết tay, nhận dạng tiếng nói với dịch máy cung cấp nhiều tính năng và ứng dụng đa dạng như: trợ lí ảo google assistant có chế độ phiên dịch cho phéo trò chuyện với người đối thoại nói bằng nhiều ngôn ngữ khác nhau.
d. Chuẩn đoán bệnh
Ảnh
d. Chuẩn đoán bệnh:
+ Máy tính có thể chuẩn đoán bệnh nhờ học máy. Dữ liệu để chẩn đoán bệnh là các triệu chứng hoặc kết quả xét nghiệm y tê. Các nhãn phân loại là tên bệnh. Sử dụng học máy để phân tích dữ liệu có thể dự đoán tên bệnh giúp các bác sĩ chẩn đoán nhanh hơn, tốt hơn.
e. Phân tích thị trường
Ảnh
e. Phân tích thị trường:
+ Học máy không giám sát giúp xây dựng mô hình phân cụm dữ liệu khách hàng của doanh nghiệp. Dữ liệu khách hàng được phân cụm theo sự tương tự về giới tính, độ tuổi, nghề nghiệp hay về nhu cầu tiêu dùng, sở thích,... Kết quả phân cụm là các nhóm khách hàng mục tiêu thích hợp cho từng loại sản phẩm, dịch vụ. Từ đó, doanh nghiệp rút ra thông tin hữu ích để xây dựng chiến lược tiếp thị, giúp tăng doanh số, tăng thị phần, nâng cao hiệu quả hoạt động sản xuất kinh doanh.
Luyện tập
Bài 1
Ảnh
Câu hỏi: Học máy là gì? Sự khác nhau giữa học có giám sát và học không giám sát là gì?
Trả lời: - Học máy là một nhánh của trí tuệ nhân tạo (AI) cho phép máy tính học hỏi từ dữ liệu và tự cải thiện hiệu suất theo thời gian mà không cần được lập trình rõ ràng. - Phân biệt học có giám sát và học không giám sát + Học có giám sát: Sử dụng dữ liệu có nhãn, nghĩa là mỗi ví dụ dữ liệu được gắn với kết quả mong muốn. Ví dụ: Dữ liệu huấn luyện cho hệ thống phân loại ảnh mèo và chó có thể bao gồm hình ảnh của mèo và chó được gắn nhãn "mèo" hoặc "chó". Mục tiêu: Học cách dự đoán chính xác kết quả cho dữ liệu mới.
Bài 2
Ảnh
Câu hỏi: Hãy kể một vài ứng dụng cụ thể trong đó có thể sử dụng học máy để thực hiện nhiệm vụ phân loại và phân cụm?
Trả lời: Ví dụ cụ thể: + Google Photos: Google Photos sử dụng học máy để phân loại ảnh theo khuôn mặt, địa điểm và các đối tượng trong ảnh. + Netflix: Netflix sử dụng học máy để đề xuất phim và chương trình truyền hình cho người dùng dựa trên lịch sử xem phim của họ. + Amazon: Amazon sử dụng học máy để đề xuất sản phẩm cho khách hàng dựa trên lịch sử mua hàng của họ.
Bài tập ứng dụng
Bài tập vận dụng
Ảnh
Câu hỏi: ChatGPT là một hệ thống AI nổi tiếng có nhiều khả năng khác nhau. Hãy kể ra một vài khả năng mà theo em có sự đóng góp của học máy để phát triển hệ thống này?
Trả lời: Học máy đóng góp to lớn vào sự phát triển của ChatGPT bằng cách: + Huấn luyện ChatGPT trên một lượng lớn dữ liệu. + Giúp ChatGPT học cách nhận biết các mẫu trong dữ liệu và sử dụng các mẫu đó để thực hiện các nhiệm vụ khác nhau. + Cải thiện hiệu suất của ChatGPT theo thời gian.
Câu hỏi
Bài tập trắc nghiệm
Câu hỏi: Mỗi phát biểu sau phát biểu nào là đúng?
a) Học không giám sát sử dụng dữ liệu huấn luyện không có nhãn.
b) Học có giám sát sử dụng dữ liệu kiểm tra để đánh giá kết quả huấn luyện.
c) Học có giám sát dành cho huấn luyện máy tính phân cụm.
d) Học có giám sát và không giám sát đều giúp máy tính giải quyết cùng một bài toán như nhau.
Bài học
Tóm tắt bài học
Ảnh
Tóm tắt bài học:
+ Từ dữ liệu huấn luyện và thuật toán máy xây dựng được mô hình học máy và huấn luyện mô hình. Có hai loại mô hình học máy chính: học có giám sát và học không giám sát tương ứng với dữ liệu huấn luyện là có gán nhãn và không có gán nhãn. + Các mô hình học máy giúp phân loại hoặc phân cụm các mẫu dữ liệu và được ứng dụng trong: lọc thư rác, chẩn đoán bệnh, nhận dạng tiếng nói và chữ viết, dịch tự động, phân tích thị trường.
Cảm ơn
Thank you
Ảnh
Trang bìa
Trang bìa
Ảnh
CHỦ ĐỀ F-CS1. BÀI 1. GIỚI THIỆU VỀ HỌC MÁY
Khởi động
Mục tiêu
Ảnh
Mục tiêu:
Giải thích được sơ lược về khái niệm Học máy. Nêu được vai trò của Học máy trong những công việc như: lọc thư rác, chuẩn đoán bệnh, phân tích thị trường, nhận dạng tiếng nói và chữ viết, dịch tự động.
Khởi động
Ảnh
Cho Hình 1 và ba nhân phân loại là "vuông”, “tròn”, “tam giác”. Cần gán nhãn phân loại cho từng đối tượng trong Hình 1. Em hãy trả lời các câu hỏi sau: 1) Nếu con người thực hiện thì nhiệm vụ trên là dễ hay khó? 2) Theo em, máy tính có thể tự động thực hiện nhiệm vụ trên thay cho con người hay không? Lập trình để máy tính làm công việc này là dễ hay khó?
KHỞI ĐỘNG:
Hình 1
Ảnh
Ảnh
Khái niệm học máy
Khái niệm học máy
Ảnh
Khái niệm học máy:
+ Bài Giới thiệu về Trí tuệ nhân tạo ở chủ đề A đã đề cập đến học máy như một nhánh nghiên cứu trong nghành AI nhằm làm cho máy tính có khả năng học từ dữ liệu. Bài học này sẽ giúp các em hiểu sâu hơn về học máy. + Học máy huấn luyện máy tính để nó có thể tự động phát hiện ra các mối quan hệ có trong dữ liệu. Học máy có thể giải quyết nhiều loại bài toán khác nhau, tiêu biểu là bài toán phân loại và bài toán phân cụm. + Để huấn luyện máy tính học từ dữ liệu, người ta dùng một tập dữ liệu gọi là dữ liệu huấn luyện. Máy tính thực hiện thuật toán trên tập dữ liệu huấn luyện để có khả năng tự thực hiê những nhiệm vụ tương tự trên tập dữ liệu mới.
a. Mô hình học máy
Ảnh
a. Mô hình học máy:
+ Thuật toán học máy: Từ tập dữ liệu đầu vào, thuật toán học máy rút ra các thông tin liên quan tới dữ liệu, các đặc điểm chung quan trọng,... Từ đó giúp máy tính học cách phân biệt giữa các mẫu dữ liệu khác nhau hoặc nhóm các mẫu dữ liệu thành các cụm nhiều mẫu tương tự nhau. + Mô hình học máy: Các mô hình học máy được tạo ra từ các thuật toán học máy và trải qua quá trình huấn luyện (Hình 2).
Hình 2
Ảnh
Ảnh
b. Quy trình học máy
Ảnh
b. Quy trình học máy:
Quy trình học máy có thể mô tả như sau: 1. Thu thập dữ liệu. 2. Chuẩn bị dữ liệu. 3. Xây dựng mô hình. 4. Đánh giá mô hình. 5. Triển khai ứng dụng mô hình.
Học có giám sát
Tìm hiểu
Ảnh
Tìm hiểu:
+ Trong học có giám sát, tập dữ liệu huấn luyện gồm các mẫu dữ liệu được liên kết với đầu ra tương ứng, gọi là nhãn. Máy tính học để phát hiện ra mối quan hệ giữa các mẫu dữ liệu với nhãn. Sau khi học xong, máy tính có thể đưa ra dự đoán nhãn cho dữ liệu mới. + Học có giám sát có thể dùng để giải quyết nhiều loại bài toán khác nhau, trong đó có bài toán phân loại.
a. Bài toán phân loại
Ảnh
Câu hỏi: Xét các bài toán sau: 1) Hệ thống thư điện tử cần xác định các email nghi là thư rác và đánh dấu nó thuộc loại “Spam” (thư rác) để cảnh báo cho người nhận. Nhữung email còn lại thuộc loại “no spam”. 2) Ngân hàng cần xác định khách hàng thuộc loại “tốt”, “bình thường” hay “xấu” để giải quyết định hạn mức cho vay và lãi suất áp dụng Theo em, những bài toán trên và nhiệm vụ ở phần khởi động có những điểm chung là gì?
- Trả lời (a. Bài toán phân loại)
Ảnh
Trả lời: - Cả ba bài toán đều là bài toán phân loại: + Phân loại email thành "Spam" và "no spam". + Phân loại khách hàng thành "tốt", "bình thường" và "xấu". + Phân loại hình ảnh thành "vuông", "tròn" và "tam giác". - Cả ba bài toán đều sử dụng thuật toán học máy để phân loại dữ liệu. - Cả ba bài toán đều cần thu thập và chuẩn bị tập dữ liệu huấn luyện phù hợp.
- Giới thiệu bài toán phân loại
Ảnh
Giới thiệu bài toán phân loại:
+ Có một số nhãn phân loại cho trước. Việc gán cho mỗi đối tượng một nhãn phân loại tùy theo các thuộc tính đặc trưng của nó là bài toán phân loại. Hai bài toán nêu trong Hoạt động 1 là bài toán phân loại. Bài toán 1 có hai nhãn phân loại là "spam" và " no spam"; bài toán 2 có ba nhãn phân loại là "tốt", "bình thường" và "xấu". Học máy giúp xây dựng mô hình phân loại để phân loại thư rác, phân loại khách hàng vay tín dụng.
Hình 3
Ảnh
Ảnh
b. Dữ liệu huấn luyện
Ảnh
b. Dữ liệu huấn luyện:
+ Mỗi đối tượng cần phân loại được mô tả một số thông tin là các thuộc tính đặc trưng của nó. Ví dụ, việc phân loại email là "spam" hay "no spam" dựa vào một số thông tin như: địa chỉ người gửi, địa chỉ người nhận, dòng tiêu đề, sự có mặt của những từ đặc trưng cho thư rác,... + Dữ liệu huấn luyện là các mẫu dữ liệu về một số email đã biết trước là thư rác và một số email khác không là thư rác.
c. Huấn luyện và đánh giá mô hình
Ảnh
c. Huấn luyện và đánh giá mô hình:
+ Máy tính được huấn luyện để sử dụng dữ liệu huấn luyện và tự dự đoán nhãn phân loại theo thuật toán học máy. Nhãn phân loại được xác định khi biết giá trị các thuôc tính đặc trưng của đối tượng. Áp dụng mô hình cho phần dữ liệu dùng để đánh giá sẽ nhận được dữ liệu kiểm tra. So sánh nhãn đã biết với nhãn do mo hình dự đoán để đánh giá mô hình. Mục tiêu huấn luyện nhằm giảm thiểu nhãn bị gán sai đến mức ngưỡng chấp nhận được.
Học không giám sát
Tìm hiểu
Ảnh
Tìm hiểu:
+ Khác với học có giám sát, học không giám sát được thực hiện với tập dữ liệu không có nhãn. Học không giám sát có thể dùng để huấn luyện máy tính giải quyết nhiều loại bài toán khác nhau, trong đó có bài toán phân cụm.
a. Bài toán phân cụm
Ảnh
Câu hỏi: Cho một số quả, theo em máy tính có trả lời được mấy loại quả hay không?
Trả lời: Hiện nay, với sự phát triển của công nghệ học máy, đặc biệt là mạng nơ-ron nhân tạo, máy tính có thể đạt được độ chính xác cao trong việc phân loại quả.
- Giới thiệu bài toán phân cụm
Ảnh
Giới thiệu bài toán phân cụm:
+ Phân cụm là chia tập đối tượng thành các cụm dựa trên sự tương tự và khác biệt của các đối tượng. Các đối tượng trong cùng một cụm có các đặc điểm tương tự nhau. Các đối tượng trong các cụm khác nhau thì có đặc điểm khác nhau. + Học không giám sát giúp xây dựng mô hình phân cụm. Hình 4 minh họa vai trò của học máy trong phân cụm các quả. Mô hình phân cụ các quả đã được huấn luyện thành công bằng học không giám sát gom các quả thành ba cụm dựa vào đặc điểm các loại quả.
Hình 4
Ảnh
Ảnh
b. Dữ liệu huấn luyện
Ảnh
b. Dữ liệu huấn luyện:
+ Tập dữ liệu huấn luyện gồm các mẫu dữ liệu mô tả các thuộc tính đặc trưng của đối tượng. Ví dụ, trường học phân cụm ác quả, các thuộc tính đặc trưng của mỗi quả là hình dạng, kích thước, màu sắc,...Trong dữ liệu không có tên các loại quả, tức là không có nhãn kèm theo.
c. Huấn luyện và đánh giá mô hình
Ảnh
c. Huấn luyện và đánh giá mô hình:
+ Dựa trên thông tin về sự tương tự của các mẫu dữ liệu, thuật toán học máy sẽ nhóm các mẫu dữ liệu thành các cụm. Có một số cách khác nhau để phân cụm như: dựa trên mật độ các mẫu dữ liệu trong một vùng; dựa trên phân phối xá suất của các mẫu dữ liệu. + Mức độ tương tự giữa hai mẫu dữ liệu có thể biểu diễn trực quan bằng "khoảng cách" giữa hai mẫu.
Một số ứng dụng của học máy
Tìm hiểu
Ảnh
Tìm hiểu:
+ Học máy được ứng dụng để lọc thư rác, phân loại khách hàng vay tín dụng, phân cụm các quả như đã trình bày ở trên. Sau đây là một số ứng dụng khác của học máy.
a. Nhận dạng tiếng nói
Ảnh
a. Nhận dạng tiếng nói:
+ Máy tính có thể nhận dạng tiếng nói nhờ học máy. Dữ liệu đầu vào là các đoạn tiếng nói và nhờ các thuật toán học máy sẽ xây dựng được mô hình nhận dạng tiếng nói. + Nhận dạng tiếng nói được ứng dụng trong: chuyển lời nói thành văn bản; tìm kiếm bằng lời nói, điều khiển thiết bị thông minh bằng lời nói; dịch vụ trả lời tự động, chatbot trợ lí ảo hay xác thực bằng sinh trắc học tiếng nói.
Hình 5
Ảnh
Ảnh
b. Nhận dạng chữ viết
Ảnh
b. Nhận dạng chữ viết:
+ Máy tính có thể nhận dạng chữ viết nhờ học máy. Dự liệu đầu vào là các kí tự hoặc các câu đã được số hóa và nhờ các thuật toán máy sẽ xây dựng được mô hình nhận dạng chữ viết. + Nhận dạng cữ viết tay có thể chia thành hai chế độ, "tĩnh" và "động". Ở chế độ tĩnh, cũng gọi là ngoại tuyến, hình ảnh chữ viết tay được camera thu nhận và sau đó máy tính phân tích hình dạng chữ viết tay. Ở chế độ động, cũng gọi là trực tuyến, người trực tiếp viết chữ lên tấm cảm ứng, máy tính sẽ thu nhận chữ viết cùng lúc với thao tác viết và phân tích hình dạng chữ viết kiết hợp với chuyển động, áp lực.
Hình 6
Ảnh
Ảnh
c. Dịch máy
Ảnh
c. Dịch máy:
+ Dịch máy sử dụng học máy để phân tích văn bản và dự đoán khả năng một từ hoặc cụm từ cụ thể trong ngôn ngữ nguồn sẽ là từ hoặc cụm từ tương ứng nào trong ngôn ngữ đích. + Google dịch là một vị trí tiêu biểu của ứng dụng dịch máy. Kết hợp nhận dạng chữ viết tay, nhận dạng tiếng nói với dịch máy cung cấp nhiều tính năng và ứng dụng đa dạng như: trợ lí ảo google assistant có chế độ phiên dịch cho phéo trò chuyện với người đối thoại nói bằng nhiều ngôn ngữ khác nhau.
d. Chuẩn đoán bệnh
Ảnh
d. Chuẩn đoán bệnh:
+ Máy tính có thể chuẩn đoán bệnh nhờ học máy. Dữ liệu để chẩn đoán bệnh là các triệu chứng hoặc kết quả xét nghiệm y tê. Các nhãn phân loại là tên bệnh. Sử dụng học máy để phân tích dữ liệu có thể dự đoán tên bệnh giúp các bác sĩ chẩn đoán nhanh hơn, tốt hơn.
e. Phân tích thị trường
Ảnh
e. Phân tích thị trường:
+ Học máy không giám sát giúp xây dựng mô hình phân cụm dữ liệu khách hàng của doanh nghiệp. Dữ liệu khách hàng được phân cụm theo sự tương tự về giới tính, độ tuổi, nghề nghiệp hay về nhu cầu tiêu dùng, sở thích,... Kết quả phân cụm là các nhóm khách hàng mục tiêu thích hợp cho từng loại sản phẩm, dịch vụ. Từ đó, doanh nghiệp rút ra thông tin hữu ích để xây dựng chiến lược tiếp thị, giúp tăng doanh số, tăng thị phần, nâng cao hiệu quả hoạt động sản xuất kinh doanh.
Luyện tập
Bài 1
Ảnh
Câu hỏi: Học máy là gì? Sự khác nhau giữa học có giám sát và học không giám sát là gì?
Trả lời: - Học máy là một nhánh của trí tuệ nhân tạo (AI) cho phép máy tính học hỏi từ dữ liệu và tự cải thiện hiệu suất theo thời gian mà không cần được lập trình rõ ràng. - Phân biệt học có giám sát và học không giám sát + Học có giám sát: Sử dụng dữ liệu có nhãn, nghĩa là mỗi ví dụ dữ liệu được gắn với kết quả mong muốn. Ví dụ: Dữ liệu huấn luyện cho hệ thống phân loại ảnh mèo và chó có thể bao gồm hình ảnh của mèo và chó được gắn nhãn "mèo" hoặc "chó". Mục tiêu: Học cách dự đoán chính xác kết quả cho dữ liệu mới.
Bài 2
Ảnh
Câu hỏi: Hãy kể một vài ứng dụng cụ thể trong đó có thể sử dụng học máy để thực hiện nhiệm vụ phân loại và phân cụm?
Trả lời: Ví dụ cụ thể: + Google Photos: Google Photos sử dụng học máy để phân loại ảnh theo khuôn mặt, địa điểm và các đối tượng trong ảnh. + Netflix: Netflix sử dụng học máy để đề xuất phim và chương trình truyền hình cho người dùng dựa trên lịch sử xem phim của họ. + Amazon: Amazon sử dụng học máy để đề xuất sản phẩm cho khách hàng dựa trên lịch sử mua hàng của họ.
Bài tập ứng dụng
Bài tập vận dụng
Ảnh
Câu hỏi: ChatGPT là một hệ thống AI nổi tiếng có nhiều khả năng khác nhau. Hãy kể ra một vài khả năng mà theo em có sự đóng góp của học máy để phát triển hệ thống này?
Trả lời: Học máy đóng góp to lớn vào sự phát triển của ChatGPT bằng cách: + Huấn luyện ChatGPT trên một lượng lớn dữ liệu. + Giúp ChatGPT học cách nhận biết các mẫu trong dữ liệu và sử dụng các mẫu đó để thực hiện các nhiệm vụ khác nhau. + Cải thiện hiệu suất của ChatGPT theo thời gian.
Câu hỏi
Bài tập trắc nghiệm
Câu hỏi: Mỗi phát biểu sau phát biểu nào là đúng?
a) Học không giám sát sử dụng dữ liệu huấn luyện không có nhãn.
b) Học có giám sát sử dụng dữ liệu kiểm tra để đánh giá kết quả huấn luyện.
c) Học có giám sát dành cho huấn luyện máy tính phân cụm.
d) Học có giám sát và không giám sát đều giúp máy tính giải quyết cùng một bài toán như nhau.
Bài học
Tóm tắt bài học
Ảnh
Tóm tắt bài học:
+ Từ dữ liệu huấn luyện và thuật toán máy xây dựng được mô hình học máy và huấn luyện mô hình. Có hai loại mô hình học máy chính: học có giám sát và học không giám sát tương ứng với dữ liệu huấn luyện là có gán nhãn và không có gán nhãn. + Các mô hình học máy giúp phân loại hoặc phân cụm các mẫu dữ liệu và được ứng dụng trong: lọc thư rác, chẩn đoán bệnh, nhận dạng tiếng nói và chữ viết, dịch tự động, phân tích thị trường.
Cảm ơn
Thank you
Ảnh
 
↓ CHÚ Ý: Bài giảng này được nén lại dưới dạng ZIP và có thể chứa nhiều file. Hệ thống chỉ hiển thị 1 file trong số đó, đề nghị các thầy cô KIỂM TRA KỸ TRƯỚC KHI NHẬN XÉT ↓
Các ý kiến mới nhất