Doanh nghiệp cần biết những gì để áp dụng “Máy móc tự học” vào sản xuất công nghiệp (Phần 3)

Nhìn chung, bất kể bạn đang sử dụng ứng dụng ML nào hay thuật toán nào, bạn đều cần một cơ sở dữ liệu có nền tảng tốt ngay từ đầu, đồng nghĩa với việc bạn cần một chiến lược hiệu quả để tìm đúng dữ liệu mà mình cần, sau đó là phát huy giá trị của nó. “Nên lấy mẫu trong một cơ sở dữ liệu lớn đã được thống kê để xác định xem dữ liệu đó có giá trị hay không”, McClusky nói.

“Bạn cần hiểu rõ về toàn bộ những gì bạn đang phải đối mặt để có thể thu được thành quả tốt. Vì vậy, việc sử dụng dữ liệu kế thừa là chưa đủ, bạn phải có kỹ thuật lấy mẫu và cân nhắc về những vấn đề có thể xảy ra, sau đó mới là đánh giá mẫu.” Đến bước này, các kiến thức và hiểu biết về quy trình sản xuất là yếu tố quan trọng nhất. Chỉ có các chuyên gia trong lĩnh vực sản xuất của mình (chứ không phải các nhà khoa học về dữ liệu) mới phân biệt được dữ liệu cần thiết và dữ liệu vô giá trị.

Những lưu ý trong quá trình triển khai

Khi đã có những hiểu biết tốt về ML và các thuật toán hỗ trợ, việc tiếp theo chính là đưa ra ý tưởng về cách ứng dụng. Applebaum đã vạch ra một lộ trình với 5 bước để các nhà quản lý có thể dễ dàng hơn khi bắt đầu ứng dụng ML tại tổ chức mình: Xác định vấn đề, thu thập dữ liệu, thiết kế mô hình, triển khai mô hình và theo dõi duy trì.

Để xác định vấn đề, Applebaum cho rằng tốt nhất bạn nên chọn một câu hỏi mà bạn muốn trả lời, ví dụ, bạn muốn cải thiện quy trình nào? giảm thiểu sai lỗi ở đâu?… Khi làm điều này, hãy cẩn thận với các mục tiêu lớn. “Hãy bắt đầu với những điều dễ dàng đầu tiên”, cô khuyên, “bởi vì các “mục tiêu lớn” có thể là điểm những điểm xuất phát khó khăn.”

Applebaum nhấn mạnh rằng một dự án hiệu quả là dự án có thể đem lại giá trị gia tăng cho tổ chức chứ không phải minh chứng về công nghệ. “Khả năng thấu hiểu về chi phí, sự khác biệt giữa kế hoạch dự tính và kết quả thực tế là những gì bạn cần cải thiện”.

Khi triển khai ứng dụng ML tại tổ chức, kiến thức về miền dữ liệu (Domain) đóng vai trò rất quan trọng. Người triển khai phải biết cách lựa chọn những dữ liệu có giá trị, bổ sung dữ liệu còn thiếu, đảm bảo đầu vào về chất lượng dữ liệu và xác định các biến phụ thuộc. Điều này đồng nghĩa với việc liên kết các điểm dữ liệu với nhau để tạo thành nhóm dữ liệu, chẳng hạn như biến nhiệt độ và thời gian trong 1 ngày.

McClusky chia sẻ thêm: Khi thực hiện một dự án ML, hãy chắc chắn rằng dữ liệu được trích xuất và chuyển đổi phù hợp thông qua hệ thống ETL (Extract-Transform-Load) chứ không phải thông qua cơ sở dữ liệu nguyên bản. Việc tự động hóa quy trình thu thập dữ liệu bằng ETL sẽ giúp bạn làm sạch dữ liệu và tự động xử lý các dữ liệu còn thiếu.

Việc tiếp theo bạn cần làm là trực quan hóa dữ liệu, và phần mềm Ignition có thể giúp bạn trong bước này. Khi cân nhắc về thuật toán mà bạn muốn áp dụng, “đừng ngại việc sử dụng thử nhiều hơn 1 thuật toán”, Applebaum khuyên. Ngoài các thuật toán của Ignition như K-mines, máy quét dữ liệu, mạng lưới nơ-ron và thuật toán hồi quy, bạn có thể sử dụng thêm các công cụ hỗ trợ từ Amazon Web Services, Microsoft Azure và Google Cloud.

Tổng kết lại, Applebaum lưu ý: “Rất nhiều người đang cố gắng để rút ngắn thời gian triển khai thử nghiệm ML, tuy nhiên thực tế không nên làm vậy. Để đảm bảo dự án của bạn được triển khai trôi chảy và mang lại hiệu quả, việc dành thời gian để tìm hiểu những điều bạn cần biết khi ứng dụng công nghệ ML sẽ hữu ích hơn là khắc phục các vấn đề phát sinh sau này.”

Văn phòng NSCL biên dịch

Tin mới