Chúng ta đã định nghĩa thể nào là một suy diễn thống kê (statistical inference). Ta đã nói về vai trò của thuật toán trong việc tìm kiếm ra một thống kê thích hợp cho một vấn đề suy diễn cụ thể.
Chắc hẳn bạn đã bắt đầu sốt ruột, muốn biết mặt mũi ông Bayes và ông tần suất thế nào. Để còn quyết định chọn chỗ để ngồi xem hai ông ấy tỉ thí, và chọn phe nữa.
Để hiểu được sự khác biệt đầu tiên và căn bản nhất của hai phe, ta cần nói đến một khái niệm quan trọng nữa. Đó là mô hình xác suất, và vai trò của mô hình trong suy diễn thống kê.
Giả sử bạn muốn nhờ cậy một chuyên gia thống kê, học máy nào đó. Bạn cung cấp dữ liệu , và cần ông ta tìm ra được quy luật hay cơ chế
đằng sau mớ dữ liệu bùng nhùng bí ẩn ấy.
Nhà thống kê xào xáo các thủ thuật của ông ấy một hồi, rồi đưa cho bạn giải pháp . Ông ấy quả quyết rằng đó chính là quy luật mà bạn được tìm kiếm. Bạn kiểm chứng
với các dữ liệu mới khác và vô cùng kinh ngạc vì nhận thấy nó rất khớp vói các dữ liệu mới đó. Có vẻ như
đúng là cơ chế mà bạn cần tìm. Tại sao vậy?
Xin nhấn mạnh là chỉ được tính toán trên cơ sở dữ liệu
. Không ai biết thực sự
là gì cả. (Chỉ có ông Trời mới biết). Để có thể tìm ra
từ
, ắt hẳn phải có một chất keo gì đó để gắn dữ liệu
với chân lý
. Nếu không có chất keo này thì không thể nào suy được ra
từ dữ liệu được.
Cái chất kết dính giữa dữ liệu và cơ chế chân lý
sẽ được biểu diễn bằng một mô hình toán học liên hệ giữa hai đại lượng này. Một phần của mô hình dùng để mô tả cơ chế sinh dữ liệu
nếu ta đã biết quy luật
. Ta sẽ dùng ngôn ngữ xác suất để mô tả mô hình này, thông qua phân bố xác suất của
mà trong đó cơ chế
đóng vai trò là tham số của phân bố, còn
là biến ngẫu nhiên. Ký hiệu phân bố này dưới dạng
. Đây thường được gọi là một mô hình xác suất.
Xin có vài lời bình:
- Từng câu trong đoạn viết nghiêng trên đây, thoạt nghe thấy giản dị và trôi tuột với những người đã quen biết chút ít với kỹ thuật thống kê. Kỳ thực nó thể hiện những bước nhảy không tầm thường về tư duy của chúng ta đối với vai trò của mô hình và sự biểu diễn của mô hình để chuẩn bị cho các phép suy diễn sau này.
- Trước hết, ta ngầm đồng ý nhau về vai trò của ngôn ngữ xác suất trong việc biểu diễn mô hình trong suy diễn thống kê. Thứ hai, có vẻ như không phải bàn cãi nhau nhiều về việc gán cho dữ liệu
là bằng một biến ngẫu nhiên (random variable).
- Tại sao lại dùng ngôn ngữ xác suất và cho rằng dữ liệu là ngẫu nhiên? Tất nhiên nếu cơ chế ta cần học là cố định thì khỏi cần ngôn ngữ xác suất làm gì (các định luật của vật lý Newton là một ví dụ). Nhưng phần nhiều các vấn đề chúng ta quan tâm khó lòng mà tìm được một cơ chế nhất định chính xác, có thể viết được ra được bẳng một phương trình gọn ghẽ. Thậm chí, kể cả khi biết chính xác quy luật
ta có thể vẫn không thể truy ra được
một cách chắc chắn. Điều này có thể do quy luật đúng nhưng chưa đủ (do thiếu các biến số khác). Cũng có thể do quy luật đúng, đủ nhưng dữ liệu nhiễu. Hoặc dữ liệu nhiễu do không thể nào đo được chính xác. Cũng có thể do bản chất của sự liên hệ giữa quy luật
và dữ liệu thu thập được
mang tính ngẫu nhiên toán học thực sự, v.v.
- Nói chung các nhà thống kê toán học đều đồng tình ở vai trò của mô hình xác suất
nói riêng, và vai trò của ngôn ngữ xác suất nói chung trong xây dựng nên tảng của suy diễn thống kê. Lý thuyết xác suất cho phép chúng ta đo đạc được sự bất định giữa các đại lượng liên quan, qua đó thu tóm được sự liên hệ của chúng, cho dù bản chất của những liên hệ đấy phức tạp đến đâu.
Tóm lại, không thể phủ nhận sự tồn tại của một mô hình (xác suất) nếu ta muốn bảo vệ tính thuyết phục (hay độ chính xác) của một phương pháp suy diễn nào đó. Nhưng, khi nhà học máy thống kê đưa cho bạn giải pháp
, ông ta không nhất thiết sẽ nói cho bạn biết mô hình của ông ấy là gì.
Đôi khi từ cách thức định nghĩa ra , ta có thể đoán ra được ẩn đằng sau dó ông ta đã sử dụng mô hình xác suất gì. Nhưng, đôi khi rất khó mà đoán ra được nếu nhà thống kê không cho bạn biết. Và, nhiều khi bản thân nhà học máy thống kê cũng không rõ là mô hình của họ cụ thể gì nữa. Họ xào xáo ra phương pháp suy diễn
qua những trực quan tự nhiên từ dữ liệu thực tế và các liên hệ cụ thể, từ đó khái quát lên, nhưng họ không giải thích được tại sao
lại là giải pháp tốt. Trên thực tế khi
là một thuật toán phức tạp, thì việc các mô hình ẩn sau
và
trở nên phức tạp hơn nhiều. Tạo ra các giải pháp
bằng cách trực quan có khi dễ dàng hơn việc tìm ra được mô hình
ẩn đằng sau đó.
Ta quay lại các ví dụ của bài trước.
- Ví dụ 1: (Ví dụ về suy diễn tình trạng đường Kim Mã) Nhắc lại là
được định nghĩa dưới dạng:
.
Trong ví dụ này, ta dễ dàng đoán ra rằng một mô hìnhnhư sau: các biến số
được giả dụ là biến ngẫu nhiên theo phân bố Bernoulli với tham số
. Cụ thể hơn,
và $P(X=0|\theta) = 1-\theta$. Ta còn có thể cho rằng các biến
là độc lập với nhau.
- Ví dụ 2: Về bài toán phân cụm thông qua thuật toán k-means. Người ta có thể chứng minh được rằng thuật toán k-means là trường hợp đặc biệt của thuật toán Expectation-Maximization (EM) cho mô hình hỗn hợp. Chi tiết về thuật toán EM không quan trọng trong bài này. Chỉ cần biết rắng đằng sau k-means chính là một mô hình xác suất
được biểu diễn như sau:
Ở đây,được biểu diễn bởi một sự kết hợp lồi (convex combination) của
phân bố Gaussian với tham số trung bình (mean)
với
.
- Ví dụ 3: Bài toán phân lớp thông qua thuật toán support vector machines. Đây là một ví dụ thú vị, vì toàn bộ thuật toán tính ra
không hề cho ta thấy một hình ảnh rõ ràng nào về mô hình phân bố xác suất, ở đây cho cặp dữ liệu
hàm phân loại
. Mặc dù thuật toán này có tính chính xác rất cao so với các giải pháp đương thời khác, sự mơ hồ (thú vị) về một mô hình cụ thể làm cho người ta phải mất một thời gian khá dài mới hiểu được tại sao SVM lại có hiệu quả như thế và khi nào thì nó không còn hiệu quả nữa.
Phải mất gần 10 năm thì câu trả lời về SVM mới thực sự hé mở. Ngày nay chúng ta đã biết được khá rõ ràng các tính chất của mô hình xác suất ẩn đằng sau của thuật toán SVM. Qua đó biết được các thế mạnh cũng như các hạn chế của SVM, khi các tính chất của mô hình xác suất đó không còn được thỏa mãn.
Mô hình xác suất đóng vai trò cốt lõi của lý thuyết thống kê. Với những người học xác suất và thống kê, khái niệm mô hình đến từ định nghĩa đầu tiên. Ngược lại, với những người đến với học máy thống kê từ khoa học máy tính thì khái niệm thuật toán mới là khái niệm ban đầu. Nhìn lại, ta có thể thấy rằng đây là hai hướng đi ngược nhau, nhưng để hướng tới một mục đích chung của vấn đề suy diễn/ học máy/ thống kê, đó là làm thế nào ghép (ép) dữ liệu, thông qua thuật toán, vào cho khớp với các mô hình toán xác suất.
Bây giờ có lẽ chúng ta đã sẵn sàng để tham gia hiệp đấu đầu tiên giữa Bayes và tần suất.
Link to full article
No comments:
Post a Comment