[Xác Suất] Khái niệm cơ bản
Lý thuyết xác suất là công cụ cơ bản và là tiền đề cho học máy. Việc nắm được lý thuyết về xác suất là rất cần thiết để có thể dấn thân vào lĩnh vực này. Trong phần này, tôi sẽ viết lại các định nghĩa, lý thuyết cơ bản của xác suất thống kê.
Mục lục
1. Khái niệm xác suất
1.1. Phép thử và sự kiện
Phép thử là một thử nghiệm cho kết quả là một sự kiện (còn được gọi là biến cố - event). Ví dụ, tung một con xúc xắc 6 mặt được coi là một phép thử, kết quả thu được là là xuất hiện mặt 1 chấm, 2 chấm, … 6 chấm, và các kết quả này được gọi là các sự kiện thu được từ phép thử tung con xúc xắc.
Như vậy ta có thể phân sự kiện thành 3 dạng chính sau:
- Sự kiện chắc chắc: là sự kiện luôn luôn xảy ra
- Sự kiện bất khả: là sự kiện không bao giờ xảy ra
- Sự kiện ngẫu nhiên: là sự kiện có thể xảy ra hoặc không
Các sự kiện trong cùng một phép thử có thể có những quan hệ chính sau:
- Sự kiện đối: là 2 sự kiện không xảy ra đồng thời. Sự kiện đối của $A$ được kí hiệu là $\bar{A}$. Sự kiện này còn được gọi là sự kiện bù của $A$ và được kí hiệu là $A^C$.
- Sự kiện hợp: là sự kiện xảy ra khi có ít nhất một trong những sự kiện thành phần xảy ra. Sự kiện hợp của $A$ và $B$ được kí hiệu là $A \cup B$ hoặc $A+B$. Trường hợp tổng quát, hợp của các sự kiện $\{A_i\},i=\overline{1,n}$ là $\displaystyle\bigcup_{i=1}^n{A_i}$ hoặc $\displaystyle\sum_{i=1}^n{A_i}$.
- Sự kiện giao: Là sự kiện xảy ra khi tất cả các sự kiện thành phần cùng xảy ra. Giao của 2 sự kiện $ A $ và $ B $ được kí hiệu là $A \cap B$ hoặc $AB$. Trường hợp tổng quát, giao của các sự kiện $\{A_i\},i=\overline{1,n}$ là $\displaystyle\bigcap_{i=1}^n{A_i}$ hoặc $\displaystyle\prod_{i=1}^n{A_i}$.
- Sự kiện xung khắc: Là các sự kiện không đồng thời xảy ra. Các sự kiện $\{A_i\},i=\overline{1,n}$ xung khắc đôi một khi và chỉ khi $\displaystyle\bigcap_{i=1}^n{A_i}=\emptyset$.
- Sự kiện độc lập: các sự kiện được gọi là độc lập khi và chỉ khi việc xảy ra sự kiện này không ảnh hưởng tới việc xảy ra tập sự kiện còn lại. Như vậy có thể thấy nếu 2 sự kiện $ A, B $ là độc lập thì $ A,\bar{B} $;$ \bar{A},B $; $\bar{A},\bar{B} $ cũng là độc lập.
- Không gian sự kiện: là tập hợp của tất cả các sự kiện độc lập có thể xảy ra. Không gian sự kiện được kí hiệu là: $\Omega$.
Ở đây ta cần lưu ý rằng, các phép toán quan hệ của các sự kiện trên là giống như các phép toán trong đại số Boole, nên mọi tính chất và hệ quả của đại số Boole đều có thể áp dụng cho các sự kiện.
- Giao hoán:
- $A \cup B = B \cup A$
- $A \cap B = B \cap A$
- Kết hợp:
- $A \cup (B \cup C) = (A \cup B) \cup C$
- $A \cap (B \cap C) = (A \cap B) \cap C$
- Phân phối:
- $A \cap (B \cup C) = A \cap B \cup A \cap C$
- $A \cup (B \cap C) = (A \cup B) \cap (A \cup C)$
- Phần bù:
- $\overline{\overline{A}} = A $
- $\overline{A \cup B} = \bar{A} \cap \bar{B} $
- $\overline{A \cap B} = \bar{A} \cup \bar{B} $
1.2. Định nghĩa xác suất
Tần số của một sự kiện $ A $ là tần số xuất hiện $ n_A $ của nó sau $ n $ lần thực hiện phép thử.
$$ f_n(A) = \frac{n_A}{n} $$
Định nghĩa xác suất theo định luật số lớn là giới hạn của tần số sự kiện khi số lần thử lên tới vô hạn.
$$ P(A) = \lim\limits_{n \to \infty}f_n(A) $$
Trên thực tế ta không đủ thời gian và điều kiện để thực hiện vô hạn số lần gieo phép thử và $ n $ đủ lớn thì tần số $ f_n(A) $ sẽ tiến tới một giá trị gần như không biến thiên nhiều nên người ta chọn giá trị xấp xỉ đó là xác suất: $ |P(A) - f_n(A)| < \epsilon $ với $ \epsilon $ là một số dương rất bé.
Từ đây ra có thể rút ra được 1 vài điều sau:
- Xác suất của sự kiện $ A $ bất kì luôn nằm trong khoảng 0, 1: $ P(A) \in [0, 1] ~~~\forall A $
- Xác suất của sự kiện bất khả bằng 0: $ P(\emptyset) = 0 $
- Xác suất của sự kiện chắc chắn hay không gian sự kiện bằng 1: $ P(\Omega) = 1 $
- Xác suất hợp của 2 sự kiện độc lập $ A, B $ là tổng của chúng: $ P(A+B) = P(A) + P(B) $
- Xác suất kéo theo $ A \subseteq B $ thì: $ P(A) \le P(B) $
2. Các phép toán xác suất
Tương tự như quan hệ của các sự kiện, ta cũng có quan hệ của các xác suất.
2.1. Tổng xác suất
Tổng xác suất là xác suất của sự kiện hợp. Cho tập sự kiện $ \{A_i\}, i = \overline{1,n} $, khi đó ta có:
$$ \begin{aligned} P\Bigg(\bigcup_{i=1}^n{A_i}\Bigg) &= \sum_{i=1}^nP(A_i) \cr \ &- \sum_{1 \le i_1 < i_2 \le n}P(A_{i_1}A_{i_2}) \cr \ &+ \sum_{1 \le i_1 < i_2 < i_3 \le n}P(A_{i_1}A_{i_2}A_{i_3}) \cr \ &- \ldots + (-1)^{n+1}P(A_1A_2 \ldots A_n) \end{aligned} $$
Hay viết gọn thành:
$$P\Bigg(\bigcup_{i=1}^n{A_i}\Bigg) = \sum_{i=1}^n (-1)^{i+1} \sum_{1 \le k_1 < \cdots < k_i \le n} P\Big(\bigcap_{j=1}^iA_{k_j}\Big)$$
Trong đó, tổng $\displaystyle\sum_{1 \le k_1 < \cdots < k_i \le n} P\Big(\bigcap_{j=1}^iA_{k_j}\Big)$ là tổng của tất cả các xác suất giao của tập con gồm $i$ phần từ tập $\{1,2,…,n\}$. Như vậy ta có thể thấy rằng mỗi tổng này sẽ gồm $\dbinom{n}{i}=\dfrac{n!}{i!(n-i)!}$ phần tử.
Ví dụ: $$ \begin{aligned} \ &P(A+B) = P(A)+P(B)-P(AB) \cr \ &P(A+B+C) = P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC) \end{aligned} $$
Như vậy, ta có thể thấy được mối tương quan rất gần giữa công thức trên và sơ đồ ven. Tổng xác suất chính phần diện tích hợp nhau của các tập hợp nhau khi biểu diễn với sơ đồ ven.
Từ công thức trên ta có thể thấy rằng:
$$P\Bigg(\bigcup_{i=1}^n{A_i}\Bigg) \le \sum_{i=1}^nP(A_i) $$
Dấu bằng đạt được khi tập sự kiện này xung khắc đôi một:
$$ P\Bigg(\bigcup_{i=1}^n{A_i}\Bigg) = \sum_{i=1}^nP(A_i) $$.
Nếu các sự kiện này tạo thành không gian sự kiện $ \Omega $ thì:
$$ P(\Omega) = \sum_{i=1}^nP(A_i) = 1 $$
Do, $ A $ và $ \bar{A} $ tạo thành không gian sự kiện nên ta có: $$\begin{aligned} \ &P(A) + P(\bar{A}) = 1 \cr \iff &P(A) = 1 - P(\bar{A}) \cr \iff &P(\bar{A}) = 1 - P(A) \end{aligned} $$
2.2. Xác suất có điều kiện
Là xác suất của một sự kiện xảy ra khi biết xác suất của sự kiện khác đã xảy ra. Xác suất của sự kiện $ A $ khi biết $ B $ đã xảy ra được kí hiệu là $ P(A|B) $. Công thức tính xác suất của $ A $ được xác định như sau:
$$ P(A|B) = \frac{P(AB)}{P(B)} ~~~\forall P(B)>0 $$
Nếu $ A $ và $ B $ là độc lập, tức $ A $ không phụ thuộc vào $ B $ thì: $ P(A|B) = P(A) $ và $ P(B|A) = P(B) $.
Xác suất có điều kiện cũng có các tính chất hệt như xác suất thông thường:
$\displaystyle P\Bigg(\bigcup_{i=1}^n{A_i|B}\Bigg) = \sum_{i=1}^n (-1)^{i-1} \sum_{k_1 \le \cdots \le k_i} P\Big(\bigcap_{j=1}^iA_{k_j}|B\Big) $
$P(\bar{A}|B) = 1 - P(A|B)$
2.3. Tích xác suất
Tích xác suất là xác suất của sự kiện giao. Từ công thức xác suất có điều kiện ta có thể tính được xác suất giao như sau:
$$P(AB) = P(B)P(A|B) = P(A)P(B|A)$$
Trường hợp tổng quát, cho $\{A_i\}, i = \overline{1,n}$ thì tích xác suất của chúng được tính như sau: $$P\Bigg(\bigcap_{i=1}^nA_i\Bigg) = P(A_1)P(A_2|A_1)P(A_3|A_1A_2)…P(A_n|A_1A_2…A_{n-1})$$ Hay viết gọn thành: $$P\Bigg(\bigcap_{i=1}^nA_i\Bigg) = \prod_{i=1}^nP\Big(A_i|\bigcap_{j=1}^{i-1}A_j\Big)$$
Tích xác suất còn được gọi là quy tắc chuỗi xác suất bởi cách biểu diễn liên hoàn thành chuỗi như trên.
Nếu $\{A_i\}$ là độc lập từng đôi một thì ta có:
$$P\Big(\bigcap_{i=1}^nA_i\Big) = \prod_{i=1}^nP(A_i)$$
Do $0 \le P(A_i) \le 1$ nên xác suất của tích không thể nào lớn hơn xác suất thành phần được:
$$P\Bigg(\bigcap_{i=1}^nA_i\Bigg) \le \min\Big(P(A_i)\Big)$$
2.4. Xác suất hậu nghiệm - Bayes
Từ công thức tính tích xác suất ta có suy luận sau:
$$P(A)P(B|A) = P(B)P(A|B)$$
Từ đó, ta có thể tính xác suất của $ A $ khi biết $ B $ như sau:
$$ P(A|B) = \frac{P(A)P(B|A)}{P(B)} $$
Trong đó:
- $ P(A|B) $: xác suất hậu nghiệm
- $ P(A) $: xác suất tiền nghiệm
- $ P(B) $: hằng số chuẩn hóa
- $ P(B|A) $: khả năng (likelihood)
Trường hợp mở rộng, cho hệ xác suất tiền nghiệm $ \{A_i\}, i = \overline{1,n} $, với mỗi sự kiện $ B $ bất kì, vì $\displaystyle P\Big(\bigcup_{i=1}^nA_i\Big) = 1 $ ta có:
$$ \begin{aligned} P(B) &= P\Big(B\bigcup_{i=1}^nA_i\Big) \cr \iff P(B) &= P\Big(\bigcup_{i=1}^nBA_i\Big) \cr \iff P(B) &= \sum_{i=1}^nP(BA_i) \cr \iff P(B) &= \sum_{i=1}^nP(A_i)P(B|A_i) \end{aligned} $$
Công thức trên được gọi là công thức xác suất đầy đủ. Nếu $ P(B) > 0 $ thì với bất kì $ A \in {A_i} $, ta tính được xác suất của $ A $ sau khi quan sát $ B $ như sau:
$$P(A|B) = \frac{P(A)P(B|A)}{\sum_{i=1}^nP(A_i)P(B|A_i)}$$
2.5. Công thức Bec-nu-li (Bernoulli)
Một phép thử mà kết quả chỉ có 2 sự kiện là xảy ra $A$ với xác suất $P(A) = p$ hoặc không xảy ra $A$ với xác suất $P(\bar{A}) = 1 - p = q$ được gọi là phép thử Bec-nu-li. Khi đó xác suất để xảy ra sự kiện $A$ đúng $k$ lần được tính bằng công thức Bec-nu-li như sau:
$$P(A^k)=\dbinom{n}{k}p^kq^{n-k}$$
Chứng minh: Đặt $B$ là sự kiện mà $A$ xảy ra đúng $k$ lần. Vì ta không quan tâm tới thứ tự xảy ra của các sự kiện $A$ nên ta có cả thảy là $\dbinom{n}{k}$ kết quả. Hay nói cách khác $B$ là tổng của $\dbinom{n}{k}$ sự kiện. Vì các kết quả này là độc lập với nhau nên ta có thể biểu diễn $P(B)$ như sau: $$P(B) = \dbinom{n}{k}P(B_0)$$ Trong đó, $B_0$ là sự kiện mà $A$ xảy ra đúng $k$ lần và $\bar{A}$ xảy ra $n-k$ lần. Do 2 sự kiện này là độc lập nên ta có $P(B_0) = P(A_k)P(\bar{A_k})$. Ngoài ra, do $A$ xảy ra $k$ lần nên: $P(A_k) = p^k$, còn $\bar A$ xảy ra $n-k$ lần nên: $P(\bar{A_k})=q^{n-k}$. Như vậy $P(B_0) = p^kq^{n-k}$. Thế $P(B_0)$ vào công thức phía trên ta sẽ có: $$P(B)=\dbinom{n}{k}p^kq^{n-k}$$
Dễ thấy rằng để $A$ xảy ra trong khoảng $[k_1, k_2]$ lần thì xác suất sẽ là tổng của từng xác suất thành phần: $$ \begin{aligned} P(A;k_1,k_2) &= \sum_{k=k_1}^{k_2}P(A^k) \cr \ &=\sum_{k=k_1}^{k_2}\dbinom{n}{k}p^kq^{n-k} \end{aligned} $$
Phép thử Bec-nu-li được sử dụng rất rộng rãi trong thực tế, ví dụ như bài toán phân lớp nhị phân (chỉ có 2 nhãn) thì ta có thể sử dụng công thức này để tính khả năng có bao nhiêu phân tử thuộc vào 1 nhãn nào đó.
3. Kết luận
Bài này đã trình bày cơ bản về các khái niệm xác suất, cách tính tổng, tích, xác suất có điều kiện và đặc biệt là công thức tính xác suất hậu nghiệm Bayes. Trong bài viết tới chúng ta sẽ cùng xem các khái niệm xác suất với biến ngẫu nhiên cùng với một số mô hình xác suất phổ biến. Các mô hình xác suất này là nền mỏng của các bài toán học máy. Còn bây giờ, nếu có thắc mắc hay góp ý gì thì đừng quên để lại bình luận phía dưới cho mình nhé!