Kho dữ liệu là gì?
Kho dữ liệu là kho lưu trữ điện tử của một lượng lớn thông tin của một doanh nghiệp hoặc tổ chức. Kho dữ liệu là một thành phần quan trọng của trí tuệ kinh doanh sử dụng các kỹ thuật phân tích trên dữ liệu kinh doanh.
Khái niệm kho dữ liệu được giới thiệu vào năm 1988 bởi các nhà nghiên cứu của IBM Barry Devlin và Paul Murphy. Nhu cầu lưu trữ dữ liệu phát triển khi các hệ thống máy tính trở nên phức tạp hơn và xử lý lượng dữ liệu ngày càng tăng. Một cuốn sách quan trọng về lưu trữ dữ liệu là "Xây dựng kho dữ liệu" của WH Inmon, được xuất bản lần đầu tiên vào năm 1990 và đã được tái bản nhiều lần kể từ đó.
Cách thức lưu trữ dữ liệu
Lưu trữ dữ liệu được sử dụng để cung cấp cái nhìn sâu sắc hơn về hiệu suất của một công ty bằng cách so sánh dữ liệu được hợp nhất từ nhiều nguồn không đồng nhất. Kho dữ liệu được thiết kế để chạy truy vấn và phân tích dữ liệu lịch sử có nguồn gốc từ các nguồn giao dịch.
Khi dữ liệu đã được tích hợp vào kho, nó không thay đổi và không thể thay đổi do kho dữ liệu chạy phân tích về các sự kiện đã xảy ra bằng cách tập trung vào các thay đổi trong dữ liệu theo thời gian. Dữ liệu lưu trữ phải được lưu trữ theo cách an toàn, đáng tin cậy, dễ truy xuất và dễ quản lý.
Có một số bước nhất định được thực hiện để tạo một kho dữ liệu. Bước đầu tiên là trích xuất dữ liệu, bao gồm thu thập lượng lớn dữ liệu từ nhiều điểm nguồn. Sau khi dữ liệu được biên dịch, nó sẽ trải qua quá trình làm sạch dữ liệu, quá trình xử lý dữ liệu để tìm lỗi và sửa hoặc loại trừ bất kỳ lỗi nào được tìm thấy.
Dữ liệu được dọn sạch sau đó được chuyển đổi từ định dạng cơ sở dữ liệu sang định dạng kho. Khi được lưu trữ trong kho, dữ liệu sẽ được sắp xếp, hợp nhất, tóm tắt, v.v… để nó được phối hợp và dễ sử dụng hơn. Theo thời gian, nhiều dữ liệu được thêm vào kho khi nhiều nguồn dữ liệu được cập nhật.
Chìa khóa chính
- Kho dữ liệu là kho lưu trữ điện tử một lượng lớn thông tin của một doanh nghiệp hoặc tổ chức. Kho dữ liệu được thiết kế để chạy truy vấn và phân tích dữ liệu lịch sử có nguồn gốc từ các nguồn giao dịch cho mục đích kinh doanh và khai thác dữ liệu. Kho dữ liệu được sử dụng để cung cấp nhiều hơn cái nhìn sâu sắc về hiệu suất của một công ty bằng cách so sánh dữ liệu được hợp nhất từ nhiều nguồn không đồng nhất.
Cân nhắc đặc biệt: Khai thác dữ liệu
Các doanh nghiệp có thể lưu trữ dữ liệu để sử dụng trong thăm dò và khai thác dữ liệu, tìm kiếm các mẫu thông tin sẽ giúp họ cải thiện quy trình kinh doanh của mình. Một hệ thống lưu trữ dữ liệu tốt cũng có thể giúp các bộ phận khác nhau trong công ty truy cập dữ liệu của nhau dễ dàng hơn.
Ví dụ: kho dữ liệu có thể cho phép một công ty dễ dàng đánh giá dữ liệu của nhóm bán hàng và giúp đưa ra quyết định về cách cải thiện doanh số hoặc hợp lý hóa bộ phận. Doanh nghiệp có thể chọn tập trung vào thói quen chi tiêu của khách hàng để định vị tốt hơn các sản phẩm của mình và tăng doanh số.
Với việc lưu trữ dữ liệu, công ty có thể thu thập dữ liệu lịch sử về chi tiêu của khách hàng trong quá khứ, nói 20 năm, và chạy phân tích về dữ liệu này. Thông tin kết quả có thể cung cấp cái nhìn sâu sắc về sở thích của người tiêu dùng; thời gian trong ngày, tháng hoặc năm với doanh số cao hơn; hoặc khách hàng chi tiêu cao nhất trong năm.
Quản lý và lưu trữ dữ liệu hiệu quả cũng là những gì tạo ra các quy trình, chẳng hạn như bắt đầu đặt chỗ du lịch và sử dụng máy rút tiền tự động có thể.
Quá trình khai thác dữ liệu được chia thành năm bước:
- Các tổ chức thu thập dữ liệu và tải dữ liệu vào kho dữ liệu của họ. Sau đó, họ lưu trữ và quản lý dữ liệu, trên máy chủ nội bộ hoặc đám mây. Các nhà phân tích, nhóm quản lý và chuyên gia công nghệ thông tin truy cập dữ liệu và xác định cách họ muốn tổ chức dữ liệu. Phần mềm ứng dụng sau đó sắp xếp dữ liệu dựa trên kết quả của người dùng. Người dùng cuối cuối cùng cũng trình bày dữ liệu theo định dạng dễ chia sẻ, chẳng hạn như biểu đồ hoặc bảng.
Kho dữ liệu so với cơ sở dữ liệu
Kho dữ liệu không nhất thiết phải là khái niệm giống như cơ sở dữ liệu tiêu chuẩn. Cơ sở dữ liệu là một hệ thống giao dịch được thiết lập để giám sát và cập nhật dữ liệu thời gian thực để chỉ có dữ liệu gần đây nhất có sẵn. Kho dữ liệu được lập trình để tổng hợp dữ liệu có cấu trúc trong một khoảng thời gian. Ví dụ: cơ sở dữ liệu có thể chỉ có địa chỉ gần đây nhất của khách hàng, trong khi kho dữ liệu có thể có tất cả các địa chỉ mà khách hàng đã sống trong 10 năm qua.
