Có thể hiểu và tìm ra các nguyên nhân, lý do trong việc lựa chọn mô hình thích hợp cho các vấn đề phổ biến của khoa học dữ liệu dựa trên các thuật toán máy học (machine learning) và các thuật toán khai phá dữ liệu (data mining).
Có thể sử dụng ngôn ngữ lập trình Python và các công cụ phổ biến để giải quyết các vấn đề của khoa học dữ liệu.
Có thể thiết kế các thí nghiệm để đánh giá mô hình.
Có thể tinh chỉnh các mô hình để tạo ra các kết quả tối ưu từ các bộ dữ liệu thực.