Tài nguyên dạy học

Thống kê

  • truy cập   (chi tiết)
    trong hôm nay
  • lượt xem
    trong hôm nay
  • thành viên
  • Sắp xếp dữ liệu

    Chào mừng quý vị đến với website của ...

    Quý vị chưa đăng nhập hoặc chưa đăng ký làm thành viên, vì vậy chưa thể tải được các tài liệu của Thư viện về máy tính của mình.
    Nếu chưa đăng ký, hãy nhấn vào chữ ĐK thành viên ở phía bên trái, hoặc xem phim hướng dẫn tại đây
    Nếu đã đăng ký rồi, quý vị có thể đăng nhập ở ngay phía bên trái.

    Chủ đề F-CS1. Bài 2. Giới thiệu về Khoa học dữ liệu

    Nhấn vào đây để tải về
    Báo tài liệu có sai sót
    Nhắn tin cho tác giả
    (Tài liệu chưa được thẩm định)
    Nguồn: Bạch Kim
    Người gửi: Ngô Văn Chinh (trang riêng)
    Ngày gửi: 11h:45' 24-03-2025
    Dung lượng: 378.2 KB
    Số lượt tải: 0
    Số lượt thích: 0 người
    CHỦ ĐỀ F-CS1. BÀI 2. GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU
    Trang bìa
    Trang bìa
    Ảnh
    CHỦ ĐỀ F-CS1. BÀI 2. GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU
    Khởi động
    Mục tiêu
    Ảnh
    Mục tiêu:
    Nêu được cơ sở về mục tiêu và một số thành tựu của Khoa học dữ liệu, nêu được ví dụ minh họa.
    Khởi động
    Ảnh
    Có ý kiến cho rằng: Dữ liệu là tài sản quan trọng của tổ chức, doanh nghiệp. Theo em, nói như vậy là vì nguyên nhân nào sau đây: 1) Chi phí cao để thu thập, lưu trữ, bảo đảm an toàn dữ liệu. 2) Dữ liệu được sử dụng để tăng hiệu quả làm việc, tăng sức cạnh tranh của doanh nghiệp, tăng lợi ích kinh doanh?
    KHỞI ĐỘNG:
    Khoa học dữ liệu
    Câu hỏi
    Ảnh
    Câu hỏi: Khi tìm kiếm với cụm từ khoá "Các lĩnh vực nghiên cứu của khoa học dữ liệu" thì có thể nhận được kết quả gồm có: Khai phá dữ liệu, Thống kê, Học máy, Phân tích,... Hãy nêu tên một lĩnh vực mà em hiểu biết nhiều nhất và cho biết lĩnh vực này nghiên cứu gì?
    Trả lời: Học máy là một nhánh con của trí tuệ nhân tạo (AI) tập trung vào việc phát triển các thuật toán cho phép máy tính tự học hỏi từ dữ liệu và cải thiện hiệu suất theo thời gian mà không cần được lập trình rõ ràng.
    a. Khái niệm khoa học dữ liệu
    Ảnh
    a. Khái niệm khoa học dữ liệu:
    + Thuật ngữ "khoa học dữ liệu" ban đầu phát sinh trong môi trường kinh doanh thông minh BI. Kho học dữ liệu là bước phát triển tiếp theo của khoa học thống kê, khai phá dữ liệu, phát hiện tri thức trong dữ liệu,... + Khoa học dữ liệu là lĩnh vực liên ngành sử dụng các phương pháp khoa học, quy trình, công cụ của các ngành như toán học và thống kê, khoa học máy tính kết hợp với kiến thức chuyên môn trong các lĩnh vực ứng dụng như kinh doanh, tài chính ngân hàng, y tế, giáo dục,... nhằm rút ra những hiểu biết sâu sắc từ dữ liệu (Hình 1).
    Hình 1
    Ảnh
    Ảnh
    Các mục tiêu cụ thể của khoa học dữ liệu
    Ảnh
    Các mục tiêu cụ thể của khoa học dữ liệu:
    Các mục tiêu cụ thể của khoa học dữ liệu gồm: 1. Phân tích và trực quan hóa dữ liệu. 2. Xây dựng mô hình dự đoán, dự báo. 3. Tối ưu hóa quyết định. 4. Phát triển tri thức.
    b. Các giai đoạn của một dự án khoa học dữ liệu
    Ảnh
    b. Các giai đoạn của một dự án khoa học dữ liệu:
    Dự án được chia thành các giai đoạn sau: 1. Xác định vấn đề. 2. Thu thập dữ liệu. 3. CHuẩn bị dữ liệu. 4. Phân tích và khai phá dữ liệu. 5. Đánh giá và giải thích. 6. Ra quyết định và triển khai.
    Hình 2
    Ảnh
    Ảnh
    Ví dụ minh họa
    Ảnh
    Ví dụ minh họa:
    + Lãnh đạo một cảng hàng không nhận thấy số lần máy bay chậm giờ cất cánh có xu hướng tăng là một vấn đề cần giải quyết. Một tổ dự án được giao nhiệm vụ đề xuất phương án cải tiến quy trình nghiệp vụ để giải quyết vấn đề trên. Một nhiệm vụ trong dự án là phân tích dữ liệu nhằm mục đích lập kế hoạch tốt hơn. + Qua tìm hiểu thông tin sơ bộ, tổ dự án nhận thấy số lần máy bay chậm giờ cất cánh phụ thuộc vào số lượng hành khách qua sân bay và số lượng hành khách qua sân bay biến động tùy theo những khoảng thời gian khác nhau. + Tổ dự án cần thu thập các số liệu thống kê liên quan để có thể giải quyết vấn đề đã xác định, ví dụ: số lượng hành khách qua sân bay theo từng thời điểm, số lần máy bay chậm giờ cất cánh và nguyên nhân. Đây là ví dụ về thu thập dữ liệu.
    Một số thành tựu của khoa học dữ liệu
    Ứng dụng
    Ảnh
    Ứng dụng:
    Khoa học dữ liệu có nhiều ứng dụng trong kinh tế - xã hội: + Trong tài chính - ngân hàng, khoa học dữ liệu giúp đánh giá rủi ro, phát hiện gian lận, lập mô hình đầu tư, phân khúc khách hàng. + Trong chăm sóc sức khỏe, khoa học dữ liệu giúp dự đoán dịch bệnh, cải thiện chất lượng chăm sóc bệnh nhân, quản lí dịch vụ y tế, chế tạo thuốc chữa bệnh. + Trong sản xuất kinh doanh, khoa học dữ liệu giúp đưa ra các quyết định tầm chiến lược, tối ưu hóa quy trình để sản xuất kinh doanh, cá nhân hóa trải nghiệm của khách hàng và đưa ra khuyến nghị cho khách hàng.
    a. Dự án bộ gen người HGP
    Ảnh
    a. Dự án bộ gen người HGP:
    + Dự án bộ gen người HGP (Hunman Genome Project) kéo dài 13 năm (từ 1990 đến 2003) và tiêu tốn khoảng 3 tỉ USD là một nỗ lực quốc tế lớn nhằm nghiên cứu cấu trúc và chức năng của các gen trong bộ gen người. Dự án giúp xác định các biến thể di truyền, tạo nền tảng xác định các mối quan hệ giữa các đột biến và đặc điểm sinh học. + Lập bản đồ gen và giải trình tự gen là hai kĩ thuật để nghiên cứu cấu trúc và chức năng của gen. Kết quả của dự án đã mở ra một kỉ nguyên mới cho lĩnh vực khoa học sức khỏe.
    b. Các dự án nghiên cứu và khám phá không gian vũ trụ
    Ảnh
    b. Các dự án nghiên cứu và khám phá không gian vũ trụ:
    Loài người không ngừng nghiên cứu và khám phá không gian vũ trụ với mục tiêu tìm kiếm các hành tinh có tiềm năng duy trì sự sống. Sau đây là một số dự án tiêu biều: + Kính thiên văn Kepler, trong 9 năm hoạt động đã tạo ra khoảng 678 GB dữ liệu, ghi lại độ sáng của 150 nghìn ngôi sao. + Các vệ tinh như Tess, K2, Plato thu thập các thông tin về hành tinh như khối lượng, kích thước, mật độ và quỹ đạo, tạo ra khoảng 100 GB dữ liệu mỗi ngày. + Để phân tích dữ liệu lớn như vậy, cần phát triển các thuật toán học máy chuyên biệt và phức tạp. Đến nay đã phát hiện được hơn 3.200 hệ hành tinh quay quanh các ngôi sao trong tổng số khoảng 200 tỉ ngôi sao thuộc dải Ngân Hà và có khoảng 63 hành tinh được xác định có khả năng nuôi dưỡng sự sống.
    c. Hệ thống giám sát đánh bắt cá toàn cầu
    Ảnh
    c. Hệ thống giám sát đánh bắt cá toàn cầu:
    + Hệ thống giám sát đánh bắt cá toàn cầu của Google sử dụng dữ liệu vệ tinh để cung cấp thông tin cho việc ngăn chặn đánh bắt cá bất hợp pháp (Hình 3). Mỗi ngày, hàng triệu vị trí của các con tàu trên các tuyến đường thủy khắp thế giới được ghi lại, cho phép xác định mục đích chuyến đi của mỗi con tàu kèm với điểm xuâ phát của nó từ quốc gia nào. Từ đó cho biết nơi đang diễn ra hoạt động đánh bắt cá theo thời gian thực để có thể xác định tàu nào đánh bắt cá bất hợp pháp và vào thời điểm cụ thể nào.
    Hình 3
    Ảnh
    Ảnh
    d. Các mô hình ngôn ngữ lớn
    Ảnh
    d. Các mô hình ngôn ngữ lớn:
    + Các mô hình ngôn ngữ lớn LLM (Large Langua Models) là một loại mô hình AI được thiết kế đặc biệt để hiểu ngôn ngữ tự nhiên. Một trong những LLM nổi tiếng nhất là GPT-3, có 175 tỉ tham gia. Số lượng tham số càng lớn, mô hình càng có thể hiểu và xử lí ngôn ngữ một cách tinh vi hơn. GPT đã đạt được thành tựu ấn tượng có tính cách mạng trong xử lí ngôn ngữ tự nhiên. Được đào tạo dựa trên lượng dữ liệu văn bản rất lớn, GPT có thể tạo ra người máy thông minh sáng ngang hoặc có thể vượt con người trong một số nhiệm vụ phức tạp.
    e. Mô hình phát hiện gian lận của American Express
    Ảnh
    e. Mô hình phát hiện gian lận của American Express:
    + Dịch vụ thẻ tín dụng American Express đã đạt được thành công đáng kể trong việc phát hiện gian lận nhờ có khoa học dữ liệu. Năm 2014, lần đầu American Express triển khai mô hình học máy để phát hiện gian lận đã giúp cải thiện 30% so với các hệ thống cũ. Năm 2017, American Express đã phát triển một công cụ xác thực nâng cao sử dụng sinh trắc học để xác định ai đang thực hiện giao dịch thẻ tín dụng.
    Luyện tập
    Bài 1
    Ảnh
    Câu hỏi: Khoa học dữ liệu có những mục tiêu cụ thể gì?
    Trả lời: - Mục tiêu: + Tìm kiếm thông tin chi tiết từ dữ liệu. + Xây dựng mô hình dự đoán. + Tự động hóa các quy trình. + Hỗ trợ ra quyết định sáng suốt. + Thúc đẩy đổi mới.
    Bài 2
    Ảnh
    Câu hỏi: Dự án khoa học dữ liệu gồm những giai đoạn nào?
    Trả lời: - Các giai đoạn của dự án khoa học dữ liệu: 1. Xác định vấn đề và mục tiêu. 2. Thu thập và chuẩn bị dữ liệu. 3. Phân tích dữ liệu. 4. Trực quan hoá dữ liệu. 5. Triển khai mô hình. 6. Báo cáo kết quả.
    Bài 3
    Ảnh
    Câu hỏi: Hãy nêu ví dụ về sự đóng góp của khoa học dữ liệu vào một thành tựu khoa học công nghệ?
    Trả lời: Ví dụ về sự đóng góp của khoa học dữ liệu vào thành tựu khoa học công nghệ: - Xe tự lái: + Khoa học dữ liệu đóng vai trò quan trọng trong việc phát triển xe tự lái. + Các thuật toán học máy được sử dụng để huấn luyện xe tự lái nhận diện môi trường xung quanh, dự đoán hành vi của người tham gia giao thông và đưa ra quyết định lái xe an toàn. + Dữ liệu thu thập từ các camera, radar và lidar được sử dụng để huấn luyện mô hình học máy. + Khoa học dữ liệu cũng giúp tối ưu hóa hiệu suất của xe tự lái, giảm thiểu tiêu hao năng lượng và nâng cao trải nghiệm lái xe.
    Bài tập ứng dụng
    Bài tập vận dụng
    Ảnh
    Câu hỏi: Theo em, khoa học dữ liệu có thể đóng góp cho cải tiến quản lí giao thông đô thị để giảm tắc đường hay không? Giải thích?
    Trả lời: Khoa học dữ liệu có thể đóng góp cho cải tiến quản lý giao thông đô thị để giảm tắc đường theo nhiều cách: + Phân tích dữ liệu giao thông để hiểu rõ nguyên nhân tắc đường. + Dự đoán nhu cầu giao thông trong tương lai để điều chỉnh hệ thống giao thông hiệu quả. + Tối ưu hóa hệ thống giao thông thông qua mô phỏng và lựa chọn giải pháp phù hợp. + Phát triển các hệ thống giao thông thông minh (ITS) để điều khiển giao thông và cung cấp thông tin cho người tham gia giao thông. + Nâng cao nhận thức của người tham gia giao thông.
    Câu hỏi
    Bài tập trắc nghiệm
    Câu hỏi: Hãy cho biết mỗi phát biểu sau đây về khoa học dữ liệu phát biểu nào đúng?
    a) Khoa học dữ liệu nhằm rút ra được những hiểu biết sâu sắc từ dữ liệu.
    b) Khoa học dữ liệu là bước tiếp theo của khoa học máy tính.
    c) Phân tích dữ liệu là áp dụng mô hình cho dữ liệu đã chuẩn bị để chọn lọc một số yếu tố quan trọng nhằm giải quyết vấn đề.
    d) Phân tích dữ liệu là mục đích của khoa học dữ liệu.
    Bài học
    Tóm tắt bài học
    Ảnh
    Tóm tắt bài học:
    + Khoa học dữ liệu là lĩnh vực liên ngành, nghiên cứu sử dụng để có những hiểu biết sâu sắc làm cơ sở cho những quyết định mang lại hiệu quả cao. + Khoa học dữ liệu đã có đóng góp quan trọng trong một số thành tựu khoa học như: dự án bộ gen người HGP, các dự án nghiên cứu và khám phá không gian vũ trụ, hệ thống giám sát đánh bắt cá toàn cầu, các mô hình ngôn ngữ lớn, mô hình phát hiện gian lận của American Express,....
    Cảm ơn
    Thank you
    Ảnh
     
    Gửi ý kiến

    ↓ CHÚ Ý: Bài giảng này được nén lại dưới dạng ZIP và có thể chứa nhiều file. Hệ thống chỉ hiển thị 1 file trong số đó, đề nghị các thầy cô KIỂM TRA KỸ TRƯỚC KHI NHẬN XÉT  ↓