Khai phá dữ liệu (data mining) Là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu. Đây là một lĩnh vực liên ngành của khoa học máy tính.[1][2][3] Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp.[1] Ngoài bước phân tích thô, nó còn liên quan tới cơ sở dữ liệu và các khía cạnh quản lý dữ liệu, xử lý dữ liệu trước, suy xét mô hình và suy luận thống kê, các thước đo thú vị, các cân nhắc phức tạp, xuất kết quả về các cấu trúc được phát hiện, hiện hình hóa và cập nhật trực tuyến.[1] Khai thác dữ liệu là bước phân tích của quá trình “khám phá kiến thức trong cơ sở dữ liệu” hoặc KDD.[4]

Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm:

  • Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding).
  • Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation).
  • Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.
  • Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tralọc nguồn tri thức thu được.
  • Triển khai (Deployment).

Quá trình khai thác tri thức không chỉ là một quy trình tuần tự từ bước tiên phong đến bước sau cuối mà là một quy trình lặp và có quay trở lại những bước đã qua .

Các chiêu thức khai thác dữ liệu.

  • Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước.
  • Hồi qui (Regression):  Khám phá chức năng học dự đoán, ánh xạ một mục dữ liệu thành biến dự đoán giá trị thực.
  • Phân nhóm (Clustering):  Một nhiệm vụ mô tả phổ biến trong đó người ta tìm cách xác định một tập hợp hữu hạn các cụm để mô tả dữ liệu.
  • Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp cho việc tìm kiếm một mô tả nhỏ gọn cho một bộ (hoặc tập hợp con) của dữ liệu.
  • Mô hình ràng buộc (Dependency modeling): Tìm mô hình cục bộ mô tả các phụ thuộc đáng kể giữa các biến hoặc giữa các giá trị của một tính năng trong tập dữ liệu hoặc trong một phần của tập dữ liệu.
  • Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Khám phá những thay đổi quan trọng nhất trong bộ dữ liệu.

Các yếu tố về tính riêng tư.

Vẫn có các mối lo ngại về tính riêng tư gắn với việc khai thác dữ liệu. Ví dụ, nếu một ông chủ có quyền truy xuất vào các hồ sơ y tế, họ có thể loại những người có bệnh tiểu đường hay bệnh tim. Việc loại ra những nhân viên như vậy sẽ cắt giảm chi phí bảo hiểm, nhưng tạo ra các vấn đề về tính hợp pháp và đạo đức.

Khai thác dữ liệu những tập dữ liệu thương mại hay chính phủ nước nhà cho những mục tiêu áp đặt lao lý và bảo mật an ninh vương quốc cũng là những mối quan ngại về tính riêng tư đang tăng cao. 5Có nhiều cách sử dụng hài hòa và hợp lý với khai thác dữ liệu. Ví dụ, một CSDL những miêu tả về thuốc được triển khai bởi một nhóm người hoàn toàn có thể được dùng để tìm kiếm sự phối hợp của những loại thuốc tạo ra những phản ứng ( hóa học ) khác nhau. Vì việc tích hợp hoàn toàn có thể chỉ xảy ra trong một phần 1000 người, một trường hợp đơn lẻ là rất khó phát hiện. Một dự án Bất Động Sản tương quan đến y tế như vậy hoàn toàn có thể giúp giảm số lượng phản ứng của thuốc và có năng lực cứu sống con người. Không suôn sẻ là, vẫn có năng lực lạm dụng so với một CSDL như vậy .Về cơ bản, khai thác dữ liệu đưa ra những thông tin mà sẽ không có sẵn được. Nó phải được quy đổi sang một dạng khác để trở nên có nghĩa. Khi dữ liệu tích lũy được tương quan đến những cá thể, thì có nhiều câu hỏi đặt ra tương quan đến tính riêng tư, tính hợp pháp, và đạo đức .

Các nghành nghề dịch vụ ứng dụng.

Các lĩnh vực hiện tại có ứng dụng Khai thác dữ liệu bao gồm:

Những ứng dụng đáng chú ý quan tâm của khai thác dữ liệu.

  • Khai thác dữ liệu được xem là phương pháp mà đơn vị Able Danger của Quân đội Mỹ đã dùng để xác định kẻ đứng đầu cuộc tấn công ngày 11 tháng 9, Mohamed Atta, và ba kẻ tấn công ngày 11 tháng 9 khác là các thành viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một năm trước cuộc tấn công.
    • Xem tin tức Wikinews tại: Wikinews: U.S. Army intelligence detection of 9/11 terrorists before attack
    • Xem bài viết về đơn vị Able Danger.

Trong bài:

Chú giải 1 : W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases : An Overview. AI Magazine, Fall 1992, pages 213 – 228 .Chú giải 2 : D. Hand, H. Mannila, P. Smyth : Principles of Data Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262 – 08290 – XChú giải 3 : Fred Schwed, Jr, Where Are the Customers ‘ Yachts ? ISBN 0471119792 ( 1940 ) .Chú giải 4 : T. Menzies, Y. Hu, Data Mining For Very Busy People. IEEE Computer, tháng 10 năm 2003, pages 18 – 25 .

Chú giải 5:  K. A. Taipale, Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data, Center for Advanced Studies in Science and Technology Policy. 5 Colum. Sci. & Tech. L. Rev. 2 Lưu trữ 2014-11-05 tại Wayback Machine (tháng 12 năm 2003).

Chú giải 6 : Eddie Reed, Jing Jie Yu, Antony Davies, et al., Clear Cell Tumors Have Higher mRNA Levels of ERCC1 and XPB than Other Types of Epithelial Ovarian Cancer Lưu trữ 2005 – 10-29 tại Wayback Machine, Clinical Cancer Research, 2003 .

Các link ngoài.

Tổng hợp thông tin báo chí truyền thông tự động hóa.

  • YALE Là công cụ miễn phí cho học máy và khai thác dữ liệu
  • Weka Phần mềm mã nguồn mở phục vụ cho khai thác dữ liệu viết bằng Java
  • Parago Lưu trữ 2005-12-13 tại Wayback Machine Khai thác dữ liệu và Quản lý ICT Asset cho trường học
  • Tanagra Phần mềm thống kê và khai thác dữ liệu mã nguồn mở

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *