Chào mừng quý vị đến với website của ...
Quý vị chưa đăng nhập hoặc chưa đăng ký làm thành viên, vì vậy chưa thể tải được các tài liệu của Thư viện về máy tính của mình.
Nếu chưa đăng ký, hãy nhấn vào chữ ĐK thành viên ở phía bên trái, hoặc xem phim hướng dẫn tại đây
Nếu đã đăng ký rồi, quý vị có thể đăng nhập ở ngay phía bên trái.
Nếu chưa đăng ký, hãy nhấn vào chữ ĐK thành viên ở phía bên trái, hoặc xem phim hướng dẫn tại đây
Nếu đã đăng ký rồi, quý vị có thể đăng nhập ở ngay phía bên trái.
Chủ đề F-CS1. Bài 3. Giới thiệu về Khoa học dữ liệu (Tiếp theo)
(Tài liệu chưa được thẩm định)
Nguồn: Bạch Kim
Người gửi: Ngô Văn Chinh (trang riêng)
Ngày gửi: 11h:46' 24-03-2025
Dung lượng: 296.1 KB
Số lượt tải: 0
Nguồn: Bạch Kim
Người gửi: Ngô Văn Chinh (trang riêng)
Ngày gửi: 11h:46' 24-03-2025
Dung lượng: 296.1 KB
Số lượt tải: 0
Số lượt thích:
0 người
CHỦ ĐỀ F-CS1. BÀI 3. GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU (TIẾP THEO)
Trang bìa
Trang bìa
Ảnh
CHỦ ĐỀ F-CS1. BÀI 3. GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU (TIẾP THEO)
Khởi động
Mục tiêu
Ảnh
Mục tiêu:
Biết được dữ liệu lớn là gì và các đặc trực của dữ liệu lớn. Biết được vai trò của máy tính đối với sự phát triển của khoa học dữ liệu. Biết được tính ưu việt trong việc sử dụng máy tính và thật toán hiệu quả để xử lí dữ liệu lớn, nêu được ví dụ minh họa.
Khởi động
Ảnh
Hiện nay người ta nói nhiều đến “Dữ liệu lớn”. Em hãy lấy một ví dụ về dữ liệu lớn mà em biết?
KHỞI ĐỘNG:
Trả lời: + Dữ liệu giao dịch của một công ty thương mại điện tử: Mỗi ngày, công ty có thể ghi lại hàng triệu giao dịch, bao gồm thông tin về khách hàng, sản phẩm, giá cả, thời gian giao dịch, phương thức thanh toán, v.v...
Các đặc trưng của dữ liệu lớn
Dữ liệu lớn
Ảnh
Dữ liệu lớn:
+ Dữ liệu lớn (Big Data) đề cập đến nguồn dữ liệu có khối lượng rất lớn, có tính đa dạng và phức tạp đến mức các công cụ truyền thống khó có thể lưu trữ và xử lí một cách hiệu quả. + Dữ liệu lớn có các đặc trưng thường được nêu tóm tắt bằng các chữ V, từ "3V" đến "5V", thậm chí đến "10V". Sau đây là năm chữ V nó về những đặc trưng thường được đề cập của dữ liệu lớn (Hình 1).
Hình 1
Ảnh
Ảnh
Khối lượng
Ảnh
Khối lượng:
+ Khối lượng (Volume): Tập dữ liệu được coi là "dữ liệu lớn" có khối lượng ở mức nhiều petabyte hoặc exabyte. Ví dụ: tập dữ liệu về hàng triệu khách hàng của một doanh nghiệp lớn có thể gồm hàng tỉ tệp, mỗi tệp nhiều megabyte.
Tốc độ
Ảnh
Tốc độ:
+ Tốc độ (Velocity): dữ liệu được tạo thêm rất nhanh và có thể cần xử lí hàng loạt, nhanh chóng theo thời gian thực để đáp ứng việc ra quyết định kịp thời. Ví dụ như quyết định về mua bán chứng khoán,... Các nguồn dữ liệu như: thiết bị cảm biến, mạng xã hội và các trang web,... tạo ra luồng dữ liệu lớn và liên tục. Lưu trữ và quản lí một lượng dữ liệu lớn, không ngừng tăng lên hàng ngày, liên quan đến một phạm vi rộng trên khắp thế giới là một thách thức.
Tính đa dạng
Ảnh
Tính đa dạng:
+ Tính đa dạng (Variety): dữ liệu đến từ nhiều nguồn khác nhau, dưới các dạng khác nhau, dưới các dạng khác nhau như văn bản, hình ảnh, âm thanh, video,... Ví dụ: Fcebook mỗi ngày có thể tạo ra khoảng 500 terabyte. Tính đa dạng làm tăng độ phức tạp trong việc tổ chức lưu trữ, tìm kiếm, chuyển đổi khuôn dạng,... để các phần mềm phân tích dữ liệu có thể xử lý được.
Tính xác thực
Ảnh
Tính xác thực:
+ Tính xác thực (Veracity): Đề cập đến độ tin cậy và độ chính xác của dữ liệu, bao gồm các yếu tốn như: chất lượng dữ liệu, tính toàn vẹn, tính nhất quán và tính đầy đủ. Tính xác thực rất quan trọng trong việc đảm bảo rằng những hiểu biết sâu sắc được tạo ra từ dữ liệu lớn là chính xác và đáng tin cậy. Dữ liệu lớn đến từ nhiều nguồn khác nhau làm cho việc đảm bảo tính xác thực là một thách thức.
Giá trị
Ảnh
Giá trị:
+ Giá trị (Value): dữ liệu lớn có tiềm năng mang lại những thông tin và tri thức có giá trị, từ đó đưa ra những quyết định mang lại hiệu quả cao. Xử lí dữ liệu lớn để khai thác được các giá trị tiềm năng cũng là một thách thức. VÍ dụ: dự án bộ gen người HGP có thể coi là một dự án dữ liệu lớn. Kết quả của dự án là vô giá vì nó mở ra một kỉ nguyên mới trong lĩnh vực y tế và chăm sóc sức khỏe con người. + Quản lí và khai phá lượng lớn dữ liệu mang lại các lợi ích tầm chiến lược nhưng có nhiều thách thức.
Phân tích dữ liệu, phát hiện tri thức
Câu hỏi
Ảnh
Câu hỏi: Trong môn Toán, nội dung “Thống kê và xác suất” có phần "Phân tích và xử lí dữ liệu" với yêu cầu vận dụng các kiến thức để giải quyết một số bài toán thực tiễn. Em hãy nêu một số vấn đề thực tế có thể giải quyết bằng phân tích và xử lí dữ liệu thống kê. Theo em, đây có phải là phát hiện tri thức không?
Trả lời: Việc áp dụng kiến thức trong môn Toán, như phân tích và xử lí dữ liệu thống kê, vào giải quyết các vấn đề thực tế là một ví dụ rõ ràng về việc áp dụng tri thức. Điều này thể hiện việc sử dụng kiến thức học thuật và kỹ năng tính toán để hiểu, phân tích và giải quyết các vấn đề cụ thể trong thế giới thực. Do đó, việc giải quyết các vấn đề thực tế bằng phân tích và xử lí dữ liệu thống kê không chỉ là một cách tiếp cận hữu ích mà còn là một ví dụ điển hình về phát hiện và áp dụng tri thức.
a. Phân tích dữ liệu
Ảnh
a. Phân tích dữ liệu:
+ Phân tích dữ liệu là quá trình kiểm ta, làm sạch, chuyển đổi và lập mô hình dữ liệu với mục đích tìm ra các thông tin hữu ích từ dữ liệu để đưa ra kết luận hoặc dự đoán. + Dữ liệu chuỗi thời gian: là chuỗi các điểm dữ liệu được ghi lại theo chu kì thời gian. Phân tích chuỗi thời gian cho phép dự đoán các điểm dữ liệu trong tương lai, trước khi sự việc xảy ra. + Phân tích hồi quy: là một kĩ thuật cho phép xác định mỗi quan hệ phụ thuộc của một giá trị muốn biết với các giá trị một số thuộc tính khác.
- Phân loại
Ảnh
Phân loại:
Phân tích dữ liệu có thể chia ra làm hai loại: + Phân tích mô tả: là tóm tắt dữ liệu quá khứ và trình bày trực quan, giúp người sử dụng dễ dàng nắm bắt được những thông tin quan trọng cần biết. Các thông tin rút ra từ tập dữ liệu được biểu diễn bằng sơ đồ, biểu đồ, đồ thị,... giúp người sử dụng dễ nhận ra các mẫu hoặc có xu hướng, có cái nhìn rõ ràng, tổng thể về vấn đề cần giải quyết. + Phân tích dự đoán: nhằm đưa ra dự đoán hoặc phân loại dữ liệu mới. Ví dụ: Nhằm điều chỉnh giá bán hàng sao cho lợi nhuận thu được nhiều hơn, từ phân tích dữ liệu có thể đưa ra phỏng đoán "quá mức ngưỡng X đồng, giá bán càng cao thì doanh số càng giảm".
b. Khai phá dữ liệu, phát hiện tri thức
Ảnh
b. Khai phá dữ liệu, phát hiện tri thức:
+ Phát hiện hay khám phá tri thức đề cập đến toàn bộ quy trình trích xuất tri thức từ dữ liệu. Khai phá dữ liệu là một bước trong quy trình này. Khai phá dữ liệu là phát hiện các mẫu, các xu hướng trong tập dữ liệu. Trong khai phá dữ liệu thường dùng các phương pháp giao thoa giữa học máy và thống kê. + Để trích xuất thông tin hữu ích từ các tập dữ liệu lớn có nhiều kĩ thuật khai phá dữ liệu khác nhau, trong đó phân loại, phân cụm là hai kĩ thuật khai phá dữ liệu đã được trình bày trong bài giới thiệu về học máy.
Vai trò của máy tính và thuật toán ưu việt với hoa học dữ liệu
a. Máy tính là công cụ quan trọng trong khoa học dữ liệu
Ảnh
a. Máy tính là công cụ quan trọng trong khoa học dữ liệu:
+ Từ đầu thế kỉ XXI, sự phát triển của mạng xã hội, thiết bị di động, cảm biến,... đã tạo ra lượng lớn dữ liệu hằng ngày. Máy tính và thiết bị số là các công cụ thiết yếu để lưu trữ và xử lí dữ liệu lớn trong này. Nhu cầu phân tích dữ liệu, trích xuất các giá trị từ dữ liệu, phát hiện tri thức từ dữ liệu để ra quyết định và lập kế hoạch đã thúc đẩy sự phát triển khoa học dữ liệu. + Máy tính mang lại khả năng lưu trữ và quản lí dữ liệu hiệu quả. Trí tuệ nhân tạo nói chung và học máy nói riêng nghiên cứu phát triển công cụ, quy trình, thuật toán để mô hình hóa dữ liệu.
b. Máy tính và thuật toán ưu việt giúp phân tích dữ liệu hiệu quả
Ảnh
b. Máy tính và thuật toán ưu việt giúp phân tích dữ liệu hiệu quả:
+ Máy tính chạy các phần mềm phân tích dữ liệu để mô hình hóa dữ liệu, phát hiện tri thức trong dữ liệu. Các chuyên gia trong mỗi lĩnh vực ứng dụng sử dụng những phần mềm này để phát hiện vấn đề, lựa chọn và đề xuất giải quyết vấn đề cho lãnh đạo tổ chức, doanh nghiệp. + Các siêu máy tính có tốc độ hàng nghìn tỉ phép tính một giây, có bộ nhớ và các ổ đĩa dung lượng rất lớn cho phép quản lí, lưu trữ dữ liệu lớn; Các thuật toán ưu việt giúp phân tích, xử lí dữ liệu lớn để phát hiện được tri thức hữu ích.
-- Tiếp (b. Máy tính và thuật toán ưu việt giúp phân tích dữ liệu hiệu quả)
Ảnh
+ Điện toán đám mây có nhi ưu việt, mang lại những lợi ích rõ ràng cho người dùng. Dữ liệu lớn lưu trữ trên đám mây tiện lợi cho truy cập và sử dụng mọi lúc mọi nơi, chỉ cần có thiết bị kết nối internet. + Cơ sở dữ liệu NoSQL đề cập đến các giải pháp cơ sở dữ liệu bổ sung để làm việc với dữ liệu không cấu trúc, không được tổ chức để truy vấn theo SQL. + Máy tính cụm là một tập hợp các máy tính tích hợp để hoạt động như một máy tính đơn nhất. Máy tính cụm có các tính năng ưu việt như: tính sẵn sàng cao, dễ mở rộng, dễ quản lí, tiết kiệm chi phí hơn so với các máy tính lớn có sức mạnh tương đương.
Luyện tập
Bài 1
Ảnh
Câu hỏi: Dữ liệu lớn có những đặc trưng gì?
Trả lời: 1. Khối lượng (Volume) Dữ liệu lớn có kích thước khổng lồ, thường tính bằng terabyte, petabyte hoặc exabyte. Ví dụ: dữ liệu giao dịch của một công ty thương mại điện tử, dữ liệu y tế của một bệnh viện, v.v. 2. Tốc độ (Velocity) Dữ liệu lớn được tạo ra và cập nhật liên tục, gần như theo thời gian thực. Ví dụ: dữ liệu từ mạng xã hội, dữ liệu giao dịch chứng khoán, v.v. 3. Đa dạng (Variety) Dữ liệu lớn bao gồm nhiều loại dữ liệu khác nhau, như dữ liệu có cấu trúc, dữ liệu bán cấu trúc và dữ liệu phi cấu trúc. Ví dụ: dữ liệu văn bản, dữ liệu hình ảnh, dữ liệu video, v.v.
- Trả lời (tiếp)
Ảnh
Câu hỏi: Dữ liệu lớn có những đặc trưng gì?
Trả lời: 4. Tính xác thực (Veracity) Dữ liệu lớn có thể chứa các lỗi và thiếu chính xác. Việc đảm bảo tính chính xác của dữ liệu là một thách thức lớn. 5. Giá trị (Value) Dữ liệu lớn có tiềm năng mang lại giá trị to lớn cho nhiều lĩnh vực khác nhau. Việc phân tích và khai thác dữ liệu hiệu quả có thể giúp doanh nghiệp tăng doanh thu, giảm chi phí, cải thiện hiệu quả hoạt động và đưa ra quyết định sáng suốt.
Bài 2
Ảnh
Câu hỏi: Điều gì thể hiện máy tính là công cụ quan trọng trong khoa học dữ liệu?
Trả lời: Máy tính đóng vai trò quan trọng trong khoa học dữ liệu vì những lý do sau: + Khả năng xử lý dữ liệu khổng lồ. + Khả năng thực hiện các phép tính phức tạp. + Khả năng tự động hóa các quy trình. + Khả năng trực quan hóa dữ liệu. + Khả năng truy cập và lưu trữ dữ liệu.
Bài 3
Ảnh
Câu hỏi: Các thuật toán song song thể hiện tính ưu việt ở những điểm nào?
Trả lời: Ưu điểm của thuật toán song song: + Tăng tốc độ: Xử lý dữ liệu nhanh hơn bằng cách thực hiện nhiều nhiệm vụ cùng lúc trên nhiều bộ xử lý. + Khả năng mở rộng: Dễ dàng mở rộng để xử lý lượng dữ liệu lớn hơn bằng cách sử dụng thêm nhiều bộ xử lý. + Hiệu quả sử dụng tài nguyên: Tận dụng tối đa tài nguyên phần cứng sẵn có, giúp tăng hiệu quả sử dụng. + Tính linh hoạt: Áp dụng cho nhiều bài toán khác nhau, từ khoa học tính toán đến ứng dụng web.
Bài tập ứng dụng
Bài tập vận dụng
Ảnh
Câu hỏi: Trong bài học đã có ví dụ cho từng chữ V, em hãy nêu một ví dụ khác cho một trong năm chữ V về đặc trưng của dữ liệu lớn?
Trả lời: + Ví dụ về "Giá trị" (Value) của dữ liệu lớn: Ngành ngân hàng: Ngân hàng có thể phân tích dữ liệu giao dịch của khách hàng để xác định các mẫu gian lận. Việc phát hiện gian lận có thể giúp ngân hàng tiết kiệm hàng triệu USD mỗi năm.
Câu hỏi
Bài tập trắc nghiệm
Câu hỏi: Trong buổi thảo luận nhóm, một số bạn có những phát biểu sau. Em hãy cho biết mỗi phát biểu phát biểu nào là đúng?
a) Dữ liệu lớn có khuôn dạng xác định, ý nghĩa rõ ràng.
b) Phân tích dữ liệu nhằm rút ra các thông tin hữu ích còn tiềm ẩn.
c) Khai phá dữ liệu có mục đích tìm ra dữ liệu mới.
d) Học máy thúc đẩy việc phát triển những phương pháp mới để khai phá dữ liệu.
Bài học
Tóm tắt bài học
Ảnh
Tóm tắt bài học:
+ Dữ liệu lớn là nguồn dữ liệu với các đặc trưng như: khối lượng, tốc độ, tính đa dạng, tính xác thực, giá trị. + Máy tính và thuật toán ưu việt đóng vai trò quan trọng trong việc xử lí và phân tích dữ liệu hiệu quả. + Phân tích dữ liệu và khai phá dữ liệu đều có mục đích chung là rút ra tri thức tiềm ẩn từ dữ liệu, hiểu biết sâu sắc hơn về dữ liệu, có thể giúp giải quyết vấn đề hay đưa ra các dự án.
Cảm ơn
Thank you
Ảnh
Trang bìa
Trang bìa
Ảnh
CHỦ ĐỀ F-CS1. BÀI 3. GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU (TIẾP THEO)
Khởi động
Mục tiêu
Ảnh
Mục tiêu:
Biết được dữ liệu lớn là gì và các đặc trực của dữ liệu lớn. Biết được vai trò của máy tính đối với sự phát triển của khoa học dữ liệu. Biết được tính ưu việt trong việc sử dụng máy tính và thật toán hiệu quả để xử lí dữ liệu lớn, nêu được ví dụ minh họa.
Khởi động
Ảnh
Hiện nay người ta nói nhiều đến “Dữ liệu lớn”. Em hãy lấy một ví dụ về dữ liệu lớn mà em biết?
KHỞI ĐỘNG:
Trả lời: + Dữ liệu giao dịch của một công ty thương mại điện tử: Mỗi ngày, công ty có thể ghi lại hàng triệu giao dịch, bao gồm thông tin về khách hàng, sản phẩm, giá cả, thời gian giao dịch, phương thức thanh toán, v.v...
Các đặc trưng của dữ liệu lớn
Dữ liệu lớn
Ảnh
Dữ liệu lớn:
+ Dữ liệu lớn (Big Data) đề cập đến nguồn dữ liệu có khối lượng rất lớn, có tính đa dạng và phức tạp đến mức các công cụ truyền thống khó có thể lưu trữ và xử lí một cách hiệu quả. + Dữ liệu lớn có các đặc trưng thường được nêu tóm tắt bằng các chữ V, từ "3V" đến "5V", thậm chí đến "10V". Sau đây là năm chữ V nó về những đặc trưng thường được đề cập của dữ liệu lớn (Hình 1).
Hình 1
Ảnh
Ảnh
Khối lượng
Ảnh
Khối lượng:
+ Khối lượng (Volume): Tập dữ liệu được coi là "dữ liệu lớn" có khối lượng ở mức nhiều petabyte hoặc exabyte. Ví dụ: tập dữ liệu về hàng triệu khách hàng của một doanh nghiệp lớn có thể gồm hàng tỉ tệp, mỗi tệp nhiều megabyte.
Tốc độ
Ảnh
Tốc độ:
+ Tốc độ (Velocity): dữ liệu được tạo thêm rất nhanh và có thể cần xử lí hàng loạt, nhanh chóng theo thời gian thực để đáp ứng việc ra quyết định kịp thời. Ví dụ như quyết định về mua bán chứng khoán,... Các nguồn dữ liệu như: thiết bị cảm biến, mạng xã hội và các trang web,... tạo ra luồng dữ liệu lớn và liên tục. Lưu trữ và quản lí một lượng dữ liệu lớn, không ngừng tăng lên hàng ngày, liên quan đến một phạm vi rộng trên khắp thế giới là một thách thức.
Tính đa dạng
Ảnh
Tính đa dạng:
+ Tính đa dạng (Variety): dữ liệu đến từ nhiều nguồn khác nhau, dưới các dạng khác nhau, dưới các dạng khác nhau như văn bản, hình ảnh, âm thanh, video,... Ví dụ: Fcebook mỗi ngày có thể tạo ra khoảng 500 terabyte. Tính đa dạng làm tăng độ phức tạp trong việc tổ chức lưu trữ, tìm kiếm, chuyển đổi khuôn dạng,... để các phần mềm phân tích dữ liệu có thể xử lý được.
Tính xác thực
Ảnh
Tính xác thực:
+ Tính xác thực (Veracity): Đề cập đến độ tin cậy và độ chính xác của dữ liệu, bao gồm các yếu tốn như: chất lượng dữ liệu, tính toàn vẹn, tính nhất quán và tính đầy đủ. Tính xác thực rất quan trọng trong việc đảm bảo rằng những hiểu biết sâu sắc được tạo ra từ dữ liệu lớn là chính xác và đáng tin cậy. Dữ liệu lớn đến từ nhiều nguồn khác nhau làm cho việc đảm bảo tính xác thực là một thách thức.
Giá trị
Ảnh
Giá trị:
+ Giá trị (Value): dữ liệu lớn có tiềm năng mang lại những thông tin và tri thức có giá trị, từ đó đưa ra những quyết định mang lại hiệu quả cao. Xử lí dữ liệu lớn để khai thác được các giá trị tiềm năng cũng là một thách thức. VÍ dụ: dự án bộ gen người HGP có thể coi là một dự án dữ liệu lớn. Kết quả của dự án là vô giá vì nó mở ra một kỉ nguyên mới trong lĩnh vực y tế và chăm sóc sức khỏe con người. + Quản lí và khai phá lượng lớn dữ liệu mang lại các lợi ích tầm chiến lược nhưng có nhiều thách thức.
Phân tích dữ liệu, phát hiện tri thức
Câu hỏi
Ảnh
Câu hỏi: Trong môn Toán, nội dung “Thống kê và xác suất” có phần "Phân tích và xử lí dữ liệu" với yêu cầu vận dụng các kiến thức để giải quyết một số bài toán thực tiễn. Em hãy nêu một số vấn đề thực tế có thể giải quyết bằng phân tích và xử lí dữ liệu thống kê. Theo em, đây có phải là phát hiện tri thức không?
Trả lời: Việc áp dụng kiến thức trong môn Toán, như phân tích và xử lí dữ liệu thống kê, vào giải quyết các vấn đề thực tế là một ví dụ rõ ràng về việc áp dụng tri thức. Điều này thể hiện việc sử dụng kiến thức học thuật và kỹ năng tính toán để hiểu, phân tích và giải quyết các vấn đề cụ thể trong thế giới thực. Do đó, việc giải quyết các vấn đề thực tế bằng phân tích và xử lí dữ liệu thống kê không chỉ là một cách tiếp cận hữu ích mà còn là một ví dụ điển hình về phát hiện và áp dụng tri thức.
a. Phân tích dữ liệu
Ảnh
a. Phân tích dữ liệu:
+ Phân tích dữ liệu là quá trình kiểm ta, làm sạch, chuyển đổi và lập mô hình dữ liệu với mục đích tìm ra các thông tin hữu ích từ dữ liệu để đưa ra kết luận hoặc dự đoán. + Dữ liệu chuỗi thời gian: là chuỗi các điểm dữ liệu được ghi lại theo chu kì thời gian. Phân tích chuỗi thời gian cho phép dự đoán các điểm dữ liệu trong tương lai, trước khi sự việc xảy ra. + Phân tích hồi quy: là một kĩ thuật cho phép xác định mỗi quan hệ phụ thuộc của một giá trị muốn biết với các giá trị một số thuộc tính khác.
- Phân loại
Ảnh
Phân loại:
Phân tích dữ liệu có thể chia ra làm hai loại: + Phân tích mô tả: là tóm tắt dữ liệu quá khứ và trình bày trực quan, giúp người sử dụng dễ dàng nắm bắt được những thông tin quan trọng cần biết. Các thông tin rút ra từ tập dữ liệu được biểu diễn bằng sơ đồ, biểu đồ, đồ thị,... giúp người sử dụng dễ nhận ra các mẫu hoặc có xu hướng, có cái nhìn rõ ràng, tổng thể về vấn đề cần giải quyết. + Phân tích dự đoán: nhằm đưa ra dự đoán hoặc phân loại dữ liệu mới. Ví dụ: Nhằm điều chỉnh giá bán hàng sao cho lợi nhuận thu được nhiều hơn, từ phân tích dữ liệu có thể đưa ra phỏng đoán "quá mức ngưỡng X đồng, giá bán càng cao thì doanh số càng giảm".
b. Khai phá dữ liệu, phát hiện tri thức
Ảnh
b. Khai phá dữ liệu, phát hiện tri thức:
+ Phát hiện hay khám phá tri thức đề cập đến toàn bộ quy trình trích xuất tri thức từ dữ liệu. Khai phá dữ liệu là một bước trong quy trình này. Khai phá dữ liệu là phát hiện các mẫu, các xu hướng trong tập dữ liệu. Trong khai phá dữ liệu thường dùng các phương pháp giao thoa giữa học máy và thống kê. + Để trích xuất thông tin hữu ích từ các tập dữ liệu lớn có nhiều kĩ thuật khai phá dữ liệu khác nhau, trong đó phân loại, phân cụm là hai kĩ thuật khai phá dữ liệu đã được trình bày trong bài giới thiệu về học máy.
Vai trò của máy tính và thuật toán ưu việt với hoa học dữ liệu
a. Máy tính là công cụ quan trọng trong khoa học dữ liệu
Ảnh
a. Máy tính là công cụ quan trọng trong khoa học dữ liệu:
+ Từ đầu thế kỉ XXI, sự phát triển của mạng xã hội, thiết bị di động, cảm biến,... đã tạo ra lượng lớn dữ liệu hằng ngày. Máy tính và thiết bị số là các công cụ thiết yếu để lưu trữ và xử lí dữ liệu lớn trong này. Nhu cầu phân tích dữ liệu, trích xuất các giá trị từ dữ liệu, phát hiện tri thức từ dữ liệu để ra quyết định và lập kế hoạch đã thúc đẩy sự phát triển khoa học dữ liệu. + Máy tính mang lại khả năng lưu trữ và quản lí dữ liệu hiệu quả. Trí tuệ nhân tạo nói chung và học máy nói riêng nghiên cứu phát triển công cụ, quy trình, thuật toán để mô hình hóa dữ liệu.
b. Máy tính và thuật toán ưu việt giúp phân tích dữ liệu hiệu quả
Ảnh
b. Máy tính và thuật toán ưu việt giúp phân tích dữ liệu hiệu quả:
+ Máy tính chạy các phần mềm phân tích dữ liệu để mô hình hóa dữ liệu, phát hiện tri thức trong dữ liệu. Các chuyên gia trong mỗi lĩnh vực ứng dụng sử dụng những phần mềm này để phát hiện vấn đề, lựa chọn và đề xuất giải quyết vấn đề cho lãnh đạo tổ chức, doanh nghiệp. + Các siêu máy tính có tốc độ hàng nghìn tỉ phép tính một giây, có bộ nhớ và các ổ đĩa dung lượng rất lớn cho phép quản lí, lưu trữ dữ liệu lớn; Các thuật toán ưu việt giúp phân tích, xử lí dữ liệu lớn để phát hiện được tri thức hữu ích.
-- Tiếp (b. Máy tính và thuật toán ưu việt giúp phân tích dữ liệu hiệu quả)
Ảnh
+ Điện toán đám mây có nhi ưu việt, mang lại những lợi ích rõ ràng cho người dùng. Dữ liệu lớn lưu trữ trên đám mây tiện lợi cho truy cập và sử dụng mọi lúc mọi nơi, chỉ cần có thiết bị kết nối internet. + Cơ sở dữ liệu NoSQL đề cập đến các giải pháp cơ sở dữ liệu bổ sung để làm việc với dữ liệu không cấu trúc, không được tổ chức để truy vấn theo SQL. + Máy tính cụm là một tập hợp các máy tính tích hợp để hoạt động như một máy tính đơn nhất. Máy tính cụm có các tính năng ưu việt như: tính sẵn sàng cao, dễ mở rộng, dễ quản lí, tiết kiệm chi phí hơn so với các máy tính lớn có sức mạnh tương đương.
Luyện tập
Bài 1
Ảnh
Câu hỏi: Dữ liệu lớn có những đặc trưng gì?
Trả lời: 1. Khối lượng (Volume) Dữ liệu lớn có kích thước khổng lồ, thường tính bằng terabyte, petabyte hoặc exabyte. Ví dụ: dữ liệu giao dịch của một công ty thương mại điện tử, dữ liệu y tế của một bệnh viện, v.v. 2. Tốc độ (Velocity) Dữ liệu lớn được tạo ra và cập nhật liên tục, gần như theo thời gian thực. Ví dụ: dữ liệu từ mạng xã hội, dữ liệu giao dịch chứng khoán, v.v. 3. Đa dạng (Variety) Dữ liệu lớn bao gồm nhiều loại dữ liệu khác nhau, như dữ liệu có cấu trúc, dữ liệu bán cấu trúc và dữ liệu phi cấu trúc. Ví dụ: dữ liệu văn bản, dữ liệu hình ảnh, dữ liệu video, v.v.
- Trả lời (tiếp)
Ảnh
Câu hỏi: Dữ liệu lớn có những đặc trưng gì?
Trả lời: 4. Tính xác thực (Veracity) Dữ liệu lớn có thể chứa các lỗi và thiếu chính xác. Việc đảm bảo tính chính xác của dữ liệu là một thách thức lớn. 5. Giá trị (Value) Dữ liệu lớn có tiềm năng mang lại giá trị to lớn cho nhiều lĩnh vực khác nhau. Việc phân tích và khai thác dữ liệu hiệu quả có thể giúp doanh nghiệp tăng doanh thu, giảm chi phí, cải thiện hiệu quả hoạt động và đưa ra quyết định sáng suốt.
Bài 2
Ảnh
Câu hỏi: Điều gì thể hiện máy tính là công cụ quan trọng trong khoa học dữ liệu?
Trả lời: Máy tính đóng vai trò quan trọng trong khoa học dữ liệu vì những lý do sau: + Khả năng xử lý dữ liệu khổng lồ. + Khả năng thực hiện các phép tính phức tạp. + Khả năng tự động hóa các quy trình. + Khả năng trực quan hóa dữ liệu. + Khả năng truy cập và lưu trữ dữ liệu.
Bài 3
Ảnh
Câu hỏi: Các thuật toán song song thể hiện tính ưu việt ở những điểm nào?
Trả lời: Ưu điểm của thuật toán song song: + Tăng tốc độ: Xử lý dữ liệu nhanh hơn bằng cách thực hiện nhiều nhiệm vụ cùng lúc trên nhiều bộ xử lý. + Khả năng mở rộng: Dễ dàng mở rộng để xử lý lượng dữ liệu lớn hơn bằng cách sử dụng thêm nhiều bộ xử lý. + Hiệu quả sử dụng tài nguyên: Tận dụng tối đa tài nguyên phần cứng sẵn có, giúp tăng hiệu quả sử dụng. + Tính linh hoạt: Áp dụng cho nhiều bài toán khác nhau, từ khoa học tính toán đến ứng dụng web.
Bài tập ứng dụng
Bài tập vận dụng
Ảnh
Câu hỏi: Trong bài học đã có ví dụ cho từng chữ V, em hãy nêu một ví dụ khác cho một trong năm chữ V về đặc trưng của dữ liệu lớn?
Trả lời: + Ví dụ về "Giá trị" (Value) của dữ liệu lớn: Ngành ngân hàng: Ngân hàng có thể phân tích dữ liệu giao dịch của khách hàng để xác định các mẫu gian lận. Việc phát hiện gian lận có thể giúp ngân hàng tiết kiệm hàng triệu USD mỗi năm.
Câu hỏi
Bài tập trắc nghiệm
Câu hỏi: Trong buổi thảo luận nhóm, một số bạn có những phát biểu sau. Em hãy cho biết mỗi phát biểu phát biểu nào là đúng?
a) Dữ liệu lớn có khuôn dạng xác định, ý nghĩa rõ ràng.
b) Phân tích dữ liệu nhằm rút ra các thông tin hữu ích còn tiềm ẩn.
c) Khai phá dữ liệu có mục đích tìm ra dữ liệu mới.
d) Học máy thúc đẩy việc phát triển những phương pháp mới để khai phá dữ liệu.
Bài học
Tóm tắt bài học
Ảnh
Tóm tắt bài học:
+ Dữ liệu lớn là nguồn dữ liệu với các đặc trưng như: khối lượng, tốc độ, tính đa dạng, tính xác thực, giá trị. + Máy tính và thuật toán ưu việt đóng vai trò quan trọng trong việc xử lí và phân tích dữ liệu hiệu quả. + Phân tích dữ liệu và khai phá dữ liệu đều có mục đích chung là rút ra tri thức tiềm ẩn từ dữ liệu, hiểu biết sâu sắc hơn về dữ liệu, có thể giúp giải quyết vấn đề hay đưa ra các dự án.
Cảm ơn
Thank you
Ảnh
 
↓ CHÚ Ý: Bài giảng này được nén lại dưới dạng ZIP và có thể chứa nhiều file. Hệ thống chỉ hiển thị 1 file trong số đó, đề nghị các thầy cô KIỂM TRA KỸ TRƯỚC KHI NHẬN XÉT ↓
Các ý kiến mới nhất