BÀI GIẢNG XÁC SUẤT THỐNG KÊ PHẠM QUANG KHOÁI (CHỦ BIÊN)

Page 1

TS. PHẠM QUANG KHOÁI (chủ biên) ThS. VŨ NGỌC TRÌU, ThS. NGUYỄN THỊ VÂN HÒA ThS. ĐẶNG THỊ NGỌC ÁNH

X¸C SUÊT THèNG K£

TRƯỜNG ĐẠI HỌC LÂM NGHIỆP - 2017


TS. PHẠM QUANG KHOÁI (chủ biên) THS.VŨ NGỌC TRÌU, THS.NGUYỄN THỊ VÂN HÒA THS. ĐẶNG THỊ NGỌC ÁNH

BÀI GIẢNG XÁC SUẤT THỐNG KÊ

TRƯỜNG ĐẠI HỌC LÂM NGHIỆP - 2017


2


LỜI NÓI ĐẦU Xác suất thống kê là môn học được giảng dạy cho các lớp hầu hết ngành học ở Trường Đại học Lâm nghiệp. Đặc biệt là hệ đào tạo Tín chỉ với thời lượng 3 tín chỉ. Do vậy cần có tài liệu học tập phù hợp với chương trình của môn học để cho sinh viên có thể tự học. Chúng tôi biên soạn bài giảng này dựa trên chương trình môn học nhằm đáp ứng nhu cầu học tập của sinh viên. Bài giảng do các giảng viên thuộc Bộ môn Toán, Khoa Cơ điện và Công trình biên soạn theo trình tự khoa học, chặt trẽ. Mỗi phần đều có ví dụ minh họa liên quan đến thực tế để tạo hứng thú cho người học. Cuối mỗi chương đều có bài tập để củng cố và nâng cao kiến thức môn học. Sau đây là nội dung chính của bài giảng: Chương 1 Biến cố ngẫu nhiên và phép tính xác suất Chương 2 Biến ngẫu nhiên Chương 3 Mẫu thống kê và thống kê mô tả Chương 4 Ước lượng tham số Chương 5 Kiểm định giả thuyết thống kê Chương 6 Sơ lược về lý thuyết tương quan và hồi quy tuyến tính Chương 7 Phân tích phương sai Mặc dù đã cố gắng nhưng cuốn sách khó tránh khỏi những khiếm khuyết. Chúng tôi mong nhận được những góp ý quý báu của độc giả. Hà Nội, tháng 11 năm 2017 Các tác giả

3


4


Chương 1 BIẾN CỐ NGẪU NHIÊN VÀ PHÉP TÍNH XÁC SUẤT 1.1.Các khái niệm mở đầu 1.1.1. Phép thử ngẫu nhiên Phép thử ngẫu nhiên (hay gọi tắt là phép thử) là một hành động hay một thí nghiệm hoặc một quan sát mà kết quả của nó không thể dự báo trước được. Ví dụ 1:  Một vật được thả từ trên cao chắc chắn sẽ rơi xuống đất;  Mặt trời mọc ở hướng Đông và lặn ở hướng Tây;  Nước đóng băng ở điều kiện nhiệt độ dưới 00C và áp suất 1atm… Đó là hiện tượng diễn ra có tính quy luật, tất định. => Những hành động này không phải là phép thử ngẫu nhiên. Ví dụ 2:  Gieo 1 đồng xu cân đối và đồng chất;  Gieo 1 con xúc xắc cân đối và đồng chất;  Rút 1 quân bài từ bộ bài tú lơ khơ. =>Những hành động này là các phép thử ngẫu nhiên. 1.1.2. Không gian mẫu Khi thực hiện một phép thử ngẫu nhiên, ta không thể dự báo trước được kết quả tuy vậy ta có thể liệt kê được cụ thể hoặc biểu diễn được tất cả các kết quả có thể xảy ra của phép thử ngẫu nhiên. Tập hợp tất cả các kết quả của một phép thử ngẫu nhiên được gọi là không gian mẫu của phép thử đó. Kí hiệu là  . Mỗi phần tử của không gian mẫu  cũng tức là mỗi kết quả của phép thử ngẫu nhiên được gọi là một phần tử mẫu.  Ta có dạng bài tập tìm không gian mẫu của một phép thử. Ví dụ 3: Tìm không gian mẫu cho phép thử gieo 1 lần một con xúc xắc cân đối và đồng chất. Các trường hợp có thể xảy ra: Xúc xắc xuất hiện mặt 1 chấm, 2 chấm, 3 chấm,4

chấm, 5

chấm, 6

chấm.Hay ta 5

viết

dưới

dạng

tập

hợp:


  1, 2 , 3 , 4 , 5 , 6  .

Ví dụ 4:Tìm không gian mẫu cho phép thử gieo liên tiếp 1 con xúc xắc cân đối và đồng chất cho tới khi xuất hiện mặt 6 chấm thì dừng lại. Các kết quả có thể có của phép thử này là 1 lần, 2 lần, 3 lần… Hay ta viết dưới dạng tập hợp số lần gieo là các số nguyên dương {1,2,3…}. Ví dụ 5: Tìm không gian mẫu cho phép thử đo thời gian sống của một con chip điện tử. Các kết quả có thể của phép thử là số thực không âm.  Có 2 loại không gian mẫu: - Không gian mẫu rời rạc: Gồm một số hữu hạn (ví dụ 1) hay vô hạn đếm được (ví dụ 2) các phần tử mẫu; - Không gian mẫu liên tục: Gồm một số vô hạn không đếm được các phần tử mẫu(ví dụ 3). Tương ứng với các loại không gian mẫu này ta sẽ có các khái niệm biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục sẽ học ở chương sau.  Chú ý rằng một phép thử có thể có nhiều không gian mẫu khác nhau tùy thuộc vào việc quan sát của chúng ta. 1.1.3. Biến cố Xét một phép thử. Chẳng hạn gieo một đồng xu trên một mặt phẳng. Các kết quả có thể xảy ra là: “Xuất hiện mặt sấp” hoặc “xuất hiện mặt ngửa”. Việc “xuất hiện mặt sấp” hay “xuất hiện mặt ngửa”là một sự kiệngắn với phép thử phép thử. Ta có khái niệm biến cố: Một sự kiện có thể xảy ra hay không tùy thuộc vào kết quả của phép thử được gọi là một biến cố của phép thử đó. Kí hiệu biến cố bằng các chữ cái in hoa A, B, C… Những kết quả làm cho biến cố xảy ra được gọi là kết quả thuận lợi của 6


biến cố đó. Như vậy, ta cũng có thể nói biến cố A là một tập con của không gian mẫu bao gồm các kết quả thuận lợi cho A. Ví dụ 6: Xét phép thử tung một con xúc xắc cân đối và đồng chất. Gọi A là biến cố “Mặt trên của con xúc xắc xuất hiện số chấm lẻ”. => Các kết quả thuận lợi của biến cố A là 1 chấm, 3 chấm, 5 chấm và các kết quả này nằm trong không gian mẫu của phép thử. * Cách cho biến cố: Người ta có thể cho biến cố dưới dạng 1 mệnh đề hoặc 1 tập hợp. Lưu ý:Một mệnh đề phải có đầy đủ chủ ngữ và vị ngữ. Mọi biến cố đều có thể biểu diễn dưới dạng các tập hợp, thường ở dưới dạng liệt kê và có thể dùng sơ đồ Venn để minh họa.

Hình1: Sơ đồ Venn của một biến cố A trong không gian mẫu Ω (Tính theo tỉ lệ diện tích, xác suất của A xấp xỉ bằng 0,2) * Phân loại biến cố: - Biến cố sơ cấp: Là biến cố không thể phân tích được nữa. Ví dụ 7: Tung một đồng tiền, biến cố đồng tiền xuất hiện mặt sấp hoặc mặt ngửa là các biến cố sơ cấp. Vì vậy không gian mẫu còn được gọi là không gian các biến cố sơ cấp. - Biến cố không thể:Là biến cố không bao giờ xảy ra khi thực hiệp phép thử. Biến cố không thểđồng nhất với tập rỗng của không gian mẫu. Ví dụ 8: Tung 1 con xúc xắc, gọi U là biến cố “Xúc xắc xuất hiện mặt có 7 chấm”. Khi đó U là biến cố không thể. - Biến cố chắc chắn: Là biến cố luôn xảy ra khi thực hiện phép thử. Biến cố 7


chắc chắnđồng nhất với tập không gian mẫuΩ. Ví dụ 9: Tung 1 con xúc xắc, gọi S là biến cố “Xúc xắc xuất hiện số chấm nhỏ hơn hoặc bằng 6” => S là biến cố chắc chắn. - Biến cố ngẫu nhiên: Là biến cố có thể xảy ra hoặc không xảy ra khi thực hiện phép thử. Ví dụ 10: Gieo 1 con xúc xắc cân đối và đồng chất. Gọi A là biến cố con xúc xắc xuất hiện chấm chẵn. => Các kết quả thuận lợi có thể xảy ra là A = {2,4,6}. 1.1.4. Quan hệ giữa các biến cố Trong lý thuyết xác suất, người ta xét các quan hệ sau đây của các biến cố:  Quan hệ kéo theo: Biến cố A gọi là kéo theo biến cố B nếu khi A xảy ra thì B cũng xảy ra. Kí hiệu A  B .  Quan hệ tương đương: Hai biến cố A và B được gọi là tương đương nếu A  B và B  A . Kí hiệu A = B.

 Phép hợp: Hợp của 2 biến cố A và B là một biến cố xảy ra nếu ít nhất một trong hai biến cố trên xảy ra. Kí hiệu là A  B . n

Hợp của một dãy hữu hạn biến cố  A1 , A2 ,..., An  là biến cố  Ai . Biến cố i 1

này xảy ra khi có ít nhất một trong các biến cố Ai xảy ra.  Phép giao: Giao của hai biến cố A và B là một biến cố xảy ra khi cả hai biến cố trên xảy ra. Kí hiệu: A  B hay AB. n

Giao của một dãy hữu hạn n biến cố  A1 , A2 ,..., An  là biến cố  Ai . Biến cố i 1

này xảy ra khi tất cả các biến cố Aicùng xảy ra.  Quan hệ đối lập: Biến cố đối của biến cố A là biến cố xảy ra khi và chỉ khi A không xảy ra. Kí hiệu là A .  Quan hệ xung khắc: Hai biến cố A và B được gọi là xung khắc với nhau nếu chúng không đồng thời xảy ra trong một phép thử. Kí hiệu AB   .

8


 Hiệu của hai biến cố: Hiệu của biến cố A và biến cố B là một biến cố xảy ra khi A xảy ra nhưng B không xảy ra. Kí hiệu A\B. Ta có bảng so sánh giữa lý thuyết tập hợp và lý thuyết xác suất như sau: Lý thuyết tập hợp Tập  Tập rỗng 

Lý thuyết xác suất -  là không gian các biến cố sơ cấp (không gian mẫu). -  là biến cố chắc chắn.  là biến cố không thể.

A B x  A  B nghĩa là: x  A thì x  B

Biến cố A kéo theo biến cố B.

A  B là hợp của hai tập hợp. x  A  B nghĩa là: x  A hoặc x  B

A  B là biến cố ít nhất một trong hai biến cố A hoặc B xảy ra.

A  B là giao của hai tập hợp x  A  B nghĩa là: x  A và x  B

A  B (hoặc kí hiệu là AB) là biến cố cả hai biến cố A và B cùng xảy ra.

A B  

A \ B là hiệu của hai tập hợp x  A \ B nghĩa là: x  A và x  B

Mô tả bằng hình vẽ

A  B   thì A và B là hai

biến cố xung khắc. A \ B là hiệu của hai biến cố,

tức là A xảy ra nhưng B không xảy ra.

A   \ A là biến cố đối của A \ A

biến cố A, tức là A xảy ra nếu A không xảy ra.

 Nguyên lý xác suất lớn, xác suất nhỏ: Qua thực nghiệm và quan sát thực tế, người ta thấy rằng các biến cố có xác suất nhỏ sẽ không xảy ra khi ta chỉ thực hiện một phép thử hay một vài phép thử. Từ đó ta thừa nhận nguyên lý sau đây, gọi là “Nguyên lý xác suất nhỏ”: Nếu một biến cố có xác suất rất nhỏ thì thực tế có thể cho rằng biến cố đó sẽ không xảy ra trong một lần thực hiện phép thử. 9


Ví dụ: Mỗi chiếc máy bay đều có một xác suất rất nhỏ bị xảy ra tai nạn. Nhưng trên thực tế ta vẫn không từ chối đi máy bay vì tin tưởng rằng trong chuyến bay ta đi biến cố máy bay bị rơi không xảy ra. Việc quy định một mức xác suất thế nào được gọi là nhỏ sẽ phụ thuộc vào từng bài toán cụ thể. Chẳng hạn nếu xác suất để máy bay rơi là 0,01 thì xác suất đó chưa thể được coi là nhỏ. Nhưng nếu xác suất một chuyến tàu khởi hành chậm là 0,01 thì có thể chấp nhận là nhỏ. Mức xác suất nhỏ này được gọi là mức ý nghĩa. Nếu  là mức ý nghĩa thì số   1   được gọi là độ tin cậy. Khi dựa trên nguyên lý xác suất nhỏ ta có thể phát biểu “Biến cố A có xác suất nhỏ (tức là P(A)   ) sẽ không xảy ra trên thực tế” thì độ tin cậy của phát biểu trên là  . Tương tự như vậy, ta có thể đưa ra “Nguyên lý xác suất lớn”: Nếu biến cố A có xác suất gần bằng 1 thì trên thực tế có thể cho rằng biến cố đó sẽ xảy ra trong một phép thử. BÀI TẬP Bài 1: Cho 3 biến cố A, B, C. Hãy biểu diễn các biến cố sau theo A, B, C. a) Cả 3 biến cố trên đều xảy ra. b) Cả 3 biến cố trên đều không xảy ra. c) Chỉ có A xảy ra. d) A, B xảy ra nhưng C không xảy ra. e) Có ít nhất 2 biến cố xảy ra. f) Có đúng 2 biến cố xảy ra. g) Có ít nhất một biến cố xảy ra. Bài 2: Gieo hai con xúc xắc cân đối và đồng chất. a) Xây dựng không gian mẫu. b) Xác định các biến cố sau: A: “Tổng số chấm xuất hiện trên hai con xúc sắc là một số chẵn”. B: “Ít nhất một con xúc xắc xuất hiện mặt một chấm”. C: “Tổng số chấm xuất hiện trên hai con xúc xắc bằng 5”. c) Miêu tả các biến cố A  B , B  C , AB và ABC. Bài 3: Gieo một đồng xu hai lần. Hãy mô tả không gian mẫu(Không gian 10


các biến cố sơ cấp). Mô tả biến cố: A: Mặt sấp xuất hiện ít nhất một lần. B: Lần gieo thứ hai xuất hiện mặt sấp. Bài 4: Gieo một lần một con xúc xắc cân đối và đồng chất. Mô tả không gian các biến cố sơ cấp. Mô tả biến cố A: Mặt trên con xúc xắc xuất hiện số chấm chia hết cho 3. Bài 5: Gieo một đồng xu sau đó gieo một con xúc xắc. Mô tả không gian các biến cố sơ cấp. Bài 6: Gieo liên tiếp 1 đồng xu đến khi xuất hiện mặt ngửa thì dừng. Mô tả không gian các biến cố sơ cấp. Bài 7: Một xạ thủ bắn ba lần, mỗi lần một viên đạn vào cùng một mục tiêu. Gọi Ai là biến cố viên đạn thứ i trúng mục tiêu, i=1,2,3. Hãy biểu diễn các biến cố sau theo Ai. a) Cả ba viên đạn đều trúng mục tiêu. b) Không có viên đạn nào trúng mục tiêu. c) Có đúng 1 viên đạn trúng mục tiêu. d) Có ít nhất hai viên đạn trúng mục tiêu. Bài 8: Hãy mô tả biến cố đối của các biến cố sau đây: A: Xuất hiện hai mặt ngửa khi gieo một đồng xu cân đối và đồng chất hai lần. B: Cả ba viên đạn đều trúng đích khi bắn độc lập ba lần, mỗi lần một viên đạn vào một mục tiêu. C: Có ít nhất một viên đạn trúng đích khi bắn độc lập ba lần, mỗi lần một viên đạn vào một mục tiêu. Bài 9: Bắn độc lập bốn viên đạn vào mục tiêu. Gọi Ai là biến cố viên đạn thứ i trúng mục tiêu(i =1,2,3,4). Hãy biểu diễn các biến cố sau theo Ai và Ai : a) Có đúng một viên trúng mục tiêu. b) Có ít nhất hai viên trúng mục tiêu. c) Có ít nhất một viên trúng mục tiêu. Bài 10: Gieo một con xúc xắc cân đối và đồng chất hai lần. Mô tả không 11


gian các biến cố sơ cấp. Mô tả biến cố: A: Tổng số chấm xuất hiện ở mặt trên con xúc xắc là 8. B: Mặt 6 chấm xuất hiện ít nhất một lần. 1.2. Các định nghĩa về xác suất 1.2.1. Định nghĩa xác suất cổ điển Xét một phép thử. Giả sử không gian mẫu của phép thử đó gồm n (hữu hạn) trường hợp đồng khả năng. Nếu biến cố A liên quan đến phép thử gồm có m trường hợp thuận lợi thì tỷ số Kí hiệu: P(A)=

m được gọi là xác suất của biến cố A. n

m . n

Các bước để tính xác suất của một biến cố theo định nghĩa cổ điển nếu xem biến cố A như là tập con của không gian mẫu  thì: + Xác định không gian mẫu  , rồi tính số phần tử n(  ) của  ; + Xác định các trường hợp thuận lợi của biến cố A, rồi tính số trường hợp thuận lợi để xảy ra biến cố A là n(A); + Tính P(A) theo công thức P(A) 

n( A) . n()

Phương pháp tính số phần tử của không gian mẫu và số trường hợp thuận lợi của biến cố A. 1.2.1.1. Phương pháp liệt kê các phần tử Ví dụ 1:Gieo một con xúc xắc cân đối và đồng chất. Tìm xác suất để: a) Mặt trên của con xúc xắc xuất hiện một chấm. b) Mặt trên của con xúc xắc có số chấm chẵn. c) Mặt trên của con xúc xắc có số chấm nhỏ hơn 7. d) Mặt trên của con xúc xắc xuất hiện 7 chấm. Giải: a) Gọi A là biến cố mặt trên của con xúc xắc có một chấm. Khi đó: - Không gian mẫu  gồm 6 trường hợp =>Số phần tử của không gian mẫu  là n(  )=6;

- Các kết quả thuận lợi của biến cố A có một trường hợp.

12


1 6

 P(A)= . b) Gọi B là biến cố mặt trên của con xúc xắc có số chấm chẵn. Khi đó: - Không gian mẫu  gồm 6 trường hợp; - Các kết quả thuận lợi của biến cố B là 3 trường hợp {2,4,6}. 3 6

 P(A)= . c) Gọi C là biến cố mặt trên của con xúc xắc xuất hiện số chấm nhỏ hơn 7. Khi đó: - Không gian mẫu  gồm 6 trường hợp; - Các kết quả thuận lợi của biến cố C là 6 trường hợp (bằng số trường hợp thuận lợi của không gian mẫu). 6 6

 P(A)=  1 . d) Gọi D là biến cố mặt trên của con xúc xắc xuất hiện 7 chấm. Khi đó: - Không gian mẫu  gồm 6 trường hợp; - Các kết quả thuận lợi của biến cố D là 0 (không có mặt 7 chấm). 0 6

 P(A)=  0 . 1.2.1.2. Phương pháp dùng quy tắc đếm Nhắc lại: Số cách lấy k phần tử từ n phần tử không quan tâm đến thứ tự là C nk .  Quy tắc cộng: Giả sử để thực hiện một công việc A ta có k phương án thực hiện: - Phương án 1 có n1 cách hoàn thành; - Phương án 2 có n2 cách hoàn thành; … - Phương án k có nk cách hoàn thành. Khi đó số cách thực hiện công việc A là n1 + n2 +…+ nk.  Quy tắc nhân: Giả sử để thực hiện một công việc A ta phải thực hiện qua k giai đoạn khác nhau: 13


- Giai đoạn 1 có n1 cách hoàn thành; - Giai đoạn 2 có n2 cách hoàn thành; … - Giai đoạn k có nk cách hoàn thành. Khi đó số cách thực hiện công việc A là n1.n2…nk. Nhận xét:  Điều quan trọng ở đây là làm sao khi đọc đề bài chúng ta biết được phải sử dụng quy tắc cộng hay quy tắc nhân. Thông thường, nếu một bài toán mà công việc có thể giải quyết theo nhiều phương án hay có nhiều trường hợp xảy ra thì ta thường dùng quy tắc cộng, còn nếu bài toán mà công việc được thực hiện bằng những công việc nhỏ liên tiếp, nhiều công đoạn hay là trường hợp nhỏ này liên kết với trường hợp nhỏ kia thì ta thường dùng quy tắc nhân.  Trong nhiều trường hợp chúng ta cần kết hợp cả hai quy tắc để giải bài toán. Ví dụ 2: Chọn ngẫu nhiên 3 quân bài trong một bộ bài tú lơ khơ gồm 52 quân. Tính xác suất để trong 3 quân chọn ra đó: a) Có đúng một quân bài mầu đỏ. b) Có ít nhất một quân át. Giải: Số phần tử của không gian mẫu là số cách chọn ngẫu nhiên 3 quân bài trong một bộ bài tú lơ khơ 52 quân => Số phần tử của không gian mẫu là 3 n (  )  C 52  22510 .

a) Gọi A là biến cố trong 3 quân bài chọn ra có đúng một quân bài mầu đỏ. Để A xảy ra ta phải thực hiện 2giai đoạn: - Giai đoạn 1: Lấy ra 2 quân bài khác màu đỏ trong số 26 quân bài khác 2 màu đỏ của bộ bài => Có C26 cách lấy.

- Giai đoạn 2: Lấy ra 1 quân bài màu đỏ trong số 26 quân bài màu đỏ của 1 bộ bài => Có C26 cách lấy.

 Áp dụng công thức nhân xác suất, số trường hợp thuận lợi của biến cố A 2 1 là n (A)  C 26 C 26 =325.

Vậy xác suất P(A) 

n( A) 325   0,0147 . n() 22150 14


b) Gọi B là biến cố trong 3 quân bài chọn ra có ít nhấtmột quân át. Để B xảy ra ta có các phương án(cách) thực hiện: Phương án 1: Có 1 quân át và 2 quân khác át => Số cách chọn ra 1 quân át trong 4 quân át của bộ bài là C 14 , số cách chọn 2 quân còn lại trong 48 quân bài 2 2 khác át là C48 => Tổng số cách thực hiện phương án 1 là C 41 C 48 .

Phương án 2: Có 2 quân át và 1 quân khác át. Lập luận tương tự phương án 1 1 ta có số cách thực hiện phương án 2 là C 42 C 48 .

Phương án 3: Có 3 quân át. Lập luận tương tự như trên ta có số cách thực 0 hiện phương án 3 là C 43 C 48 .

Áp dụng công thức cộng ta tính được số trường hợp thuận lợi của biến cố B 2 1 0 là C 41 C 48 + C 42 C 48 + C 43 C 48 = 4512+288+4 = 4804.

 P(B) 

n( B) 4804   0,217 . n() 22150

Tính chất của xác suất: 1. Nếu A là biến cố bất kỳ thì 0  P( A)  1; 2. Xác suất của biến cố chắc chắn là P()  1; 3. Xác suất của biến cố không thể là P()  0 ; 4. Nếu A là biến cố đối của biến cố A thì P( A)  1  P ( A) ; 5. Nếu A  B thì P( A)  P(B) ; 6. Nếu A và B là hai biến cố bất kỳ thì P(A\ B)  P(A)  P(AB). Ưu điểm: - Để tìm xác suất của biến cố ta không phải thực hiện phép thử (phép thử chỉ cần giả định); - Xác suất của biến cố tìm được chính xác. Nhược điểm: - Các kết quả của phép thử phải đồng khả năng; - Số trường hợp đồng khả năng phải hữu hạn. 1.2.2. Định nghĩa xác suất thống kê Trong các phép thử ngẫu nhiên, khi số kết quả có thể là vô hạn hoặc kết quả có thể là hữu hạn nhưng không đồng khả năng thì cách tính xác suất theo cổ điển không áp dụng được, người ta định nghĩa xác suất theo tần suất. Chẳng hạn khi gieo một con xúc xắc không cân đối thì các trường hợp của phép thử không 15


đồng khả năng.Vì vậy, không thể dùng định nghĩa xác suất cổ điển ở trên. Khái niệm tần suất: Giả sử trong thực tế ta đã lặp đi lặp lại nhiều lần một phép thử trong những điều kiện giống hệt nhau. Nếu trong n lần thực hiện phép thử đó biến cố A xuất hiện k lần thì tỷ số f n (A) 

k được gọi là tần suất xuất n

hiện biến cố A. Định nghĩa thống kê của xác suất: Người ta nhận thấy khi số phép thử tăng lên vô hạn thì fn(A) luôn dần tới một giới hạn xác định. Giới hạn đó gọi là xác suất của biến cố A. Như vậy: P( A)  lim fn (A). n 

Trong thực tế ta không thể tiến hành phép thử vô hạn lần, do đó với n đủ lớn ta có thể dùng tần suất thay cho xác suất. k n

Tức là: P( A)  fn (A)  . Ưu điểm: Định nghĩa thống kê về xác suất có ưu điểm lớn là nó không đòi hỏi những điều kiện áp dụng như đối với định nghĩa cổ điển. Nó hoàn toàn dựa trên các quan sát thực tế để làm cơ sở kết luận về xác suất xảy ra của một biến cố. Ví dụ 3: Để nghiên cứu khả năng xuất hiện mặt sấp khi tung một đồng xu, người ta tiến hành tung một đồng xu nhiều lần (đồng xu không cần cân đối đồng chất nhưng các lần tung phải giống nhau) và thu được kết quả sau đây: Ng­êi lµm thÝ nghiÖm Buffon Pearson Pearson

Sè lÇn xuÊt hiÖn

Sè lÇn tung (n)

mÆt sÊp (k)

4040 12000 24000

2048 6019 12012

TÇn suÊt

k n

0,5069 0,5016 0,5005

Qua ví dụ trên ta thấy khi số phép thử tăng lên thì tần suất xuất hiện mặt sấp dao động quanh giá trị 0,5. Điều này cho phép ta hy vọng rằng khi số phép thử tăng lên vô hạn thì tần suất xuất hiện mặt sấp hội tụ về 0,5. Chú ý: Từ định nghĩa này trong thống kê người ta hay dùng khái niệm tỷ lệ thay cho xác suất. Chẳng hạn tỷ lệ hạt thóc nảy mầm trong cùng một điều kiện về môi trường là 60% nghĩa là khi chọn một hạt thóc ngẫu nhiên thì xác suất của biến cố A hạt thóc nảy mầm là 0,6 hay P(A)=0,6. 16


1.2.3. Định nghĩa xác suất theo hệ tiên đề(Đọc thêm) Các định nghĩa cổ điển và thống kê của xác suất có nhiều hạn chế để xây dựng được một lý thuyết tổng quát. Khái niệm cổ điển không dùng được trong trường hợp không xây dựng được một hệ thống đầy đủ các sự kiện đồng khả năng. Khái niệm tần suất của định nghĩa theo thống kê chỉ là một giá trị xấp xỉ để đánh giá xác suất, số quan sát đòi hỏi lớn. Vì vậy, người ta đã xây dựng định nghĩa xác suất theo hệ tiên đề. Cách xác định xác suất theo tiên đề sẽ chứa trong nó các định nghĩa cổ điển và thống kê của xác suất như là các trường hợp riêng. Bản chất tiên đề khi xây dựng một lý thuyết toán học nào đó là không quan tâm với việc định nghĩa các đối tượng của lý thuyết đó, mà chỉ quan tâm tới mối quan hệ giữa các đối tượng đó. Các đối tượng đó có thể có bản chất khác nhau, miễn là cùng tuân theo bộ các quy tắc xác định, được gọi là hệ tiên đề. Xét một phép thử ngẫu nhiên và  là tập hợp tất cả các kết quả của phép thử. Một tập con của  được gọi là một biến cố. Một họ  nào đó các tập con của  được gọi là một  - đại số các biến cố nếu: i)    ,    ; ii) Nếu A  thì ( \ A)  ; 

iii) Nếu A1, A2…là một dãy các tập hợp của họ  thì hợp  An cũng thuộc n 1

. Ta gọi xác suất trên  - đại số  là một hàm số P biến mỗi biến cố A  thành một số P(A) thuộc đoạn [0,1]. Ta viết: P :   [0 ,1]

A  P( A) Và P(A) thỏa mãn 3 tiên đề sau: 1) A  , 0  P( A)  1 ; 2) P ( )  1, P ( )  0 ; 3) Nếu A1, A2…là một dãy các biến cố thuộc  đôi một xung khắc với nhau thì:

P(A1 A2 ...)  P( A1)  P(A2 )  ...

17


BÀI TẬP Bài 1: Gieo đồng thời hai con xúc xắc cân đối và đồng chất. Tính xác suất của biến cố: - Tổng số chấm xuất hiện là 7. - Tổng số chấm xuất hiện là 8. - Số chấm xuất hiện hơn kém nhau 2. Bài 2: Trong một lô N sản phẩm có n sản phẩm đạt tiêu chuẩn. Lấy ngẫu nhiên từ lô đó m sản phẩm. Tìm xác suất để trong m sản phẩm lấy ra đó có k sản phẩm đạt tiêu chuẩn( n  N , m  N , k  min(m, n) ). Bài 3: Một công ty cần tuyển hai nhân viên. Có 6 người nộp đơn trong đó có 4 nữ và 2 nam. Giả sử rằng khả năng trúng tuyển của 6 người là như nhau. a) Tính xác suất để hai người trúng tuyển đều là nam. b) Tính xác suất để hai người trúng tuyển đều là nữ. c) Tính xác suất để có ít nhất một nữ trúng tuyển. Bài 4: Trên một giá sách có 15 quyển sách, trong đó có 5 quyển văn nghệ. Lấy ngẫu nhiên từ đó ba quyển. Tìm xác suất sao cho có ít nhất một quyển văn nghệ. Bài 5:Một lô sản phẩm có 16 sản phẩm loại I, 4 sản phẩm loại II. Lấy ngẫu nhiên từ lô đó 2 sản phẩm. Tính xác suất để được ít nhất một sản phẩm loại I. Bài 6: Để kiểm tra một lô hàng gồm 100 sản phẩm người ta lấy ngẫu nhiên từ đó 10 sản phẩm để kiểm tra. Nếu cả 10 sản phẩm đều tốt thì sẽ nhận cả lô. Trong trường hợp ngược lại thì sẽ kiểm tra toàn bộ. Tính xác suất sao cho trong lô sản phẩm chứa 10 sản phẩm xấu nhưng lại được nhận. Bài 7:Một lô sản phẩm gồm 10 sản phẩm tốt và 2 sản phẩm xấu. Lấy ngẫu nhiên lần lượt không hoàn lại từ lô hàng hai sản phẩm để kiểm tra. Tính xác suất để: a) Cả hai sản phẩm được kiểm tra đều tốt. b) Có ít nhất một sản phẩm tốt trong hai sản phẩm đó. 1.3. Các công thức tính xác suất 1.3.1. Công thức cộng xác suất Công thức cộng xác suất cho 2 biến cố: Cho A và B là hai biến cố bất kỳ, khi đó: 18


P ( A  B )  P ( A)  P ( B )  P ( AB )

- Nếu A và B là hai biến cố xung khắc ( AB   ) thì: P( A  B)  P( A)  P(B) - Nếu B  A ta có: 1  P ( A  A)  P ( A)  P ( A) . Ví dụ 1:Một lớp học có 20 học sinh trong đó có 10 học sinh giỏi toán, 8 học sinh giỏi văn và 6 học sinh giỏi cả toán và văn. Chọn ngẫu nhiên một học sinh. a) Tính xác suất để học sinh này giỏi ít nhất một môn. b) Tính xác suất để học sinh này không giỏi môn nào cả. Giải: Gọi A là biến cố chọn được học sinh giỏi toán => P( A) 

10  0,5 . 20

A là biến cố chọn được học sinh không giỏi toán. Gọi B là biến cố chọn được học sinh giỏi văn => P( B) 

8  0, 4 . 20

B là biến cố chọn được học sinh không giỏi văn. Khi đó AB là biến cố học sinh giỏi cả hai môn => P ( AB) 

6  0,3 . 20

a) Biến cố học sinh được chọn giỏi ít nhất một môn là C  A  B . P(C)  P( A  B)  P( A)  P(B)  P( AB)  0,5  0,4  0,3  0,6 b) Biến cố học sinh chọn được không giỏi môn nào là D  A B . => Biến cố đối của biến cố D là biến cố C chọn được học sinh giỏi ít nhất một môn toán hoặc văn. P(D)  1  P(C)  1  0,6  0,4 Nhận thấy P(AB) = 0,3  0 => A, B không xung khắc. Tương tự với P(BC), P(AC) cũng khác 0 nên kết luận các biến cố A, B, C không xung khắc với nhau từng đôi một. Mở rộng công thức cộng xác suất: Cho A, B, C là 3 biến cố bất kỳ, khi đó: P(A B C)  P(A)  P(B)  P(C)  P(AB)  P(BC)  P(AC)  P(ABC) * Nếu 3 biến A, B, C là đôi một xung khắc thì ta có: P(A B C)  P(A)  P(B)  P(C) * Nếu có n biến cố Ai ( i = 1,2..., n) là đôi một xung khắc thì: 19


P( A1  A2  ...  An )  P( A1)  P( A2 )  ...  P( An ) Ví dụ 2: Khảo sát về mức độ quan tâm của người dân trong một khu phố đối với 3 tờ báo A, B, C, người ta thu được số liệu sau: Có 20% người dân xem báo A; 15% người dân xem báo B; 10% người dân xem báo C; Có 5% người dân xem A và B; 3% người dân xem B và C; 4% người dân xem A và C; Có 2% người dân xem cả A, B và C. a) Tính xác suất để người dân xem ít nhất một tờ báo nào đó. b) Tính xác suất để người dân không xem bất kỳ tờ báo nào. Giải: Gọi A, B, C lần lượt là các biến cố người dân xem báo A, B, C. Từ đó ta có: P(A) = 0,2; P(B) = 0,15; P(C) = 0,1; P(AB) = 0,05; P(BC) = 0,03; P(AC) = 0,04; P(ABC) = 0,02. a) Gọi D là biến cố “người dân xem ít nhất một tờ báo” => D = A  B  C . P (D)  P ( A  B  C )  P ( A)  P ( B )  P (C )  P ( AB )  P ( BC )  P ( AC )  P ( ABC )  0, 2  0,15  0,1  0,05  0,03  0,04  0, 02  0,35  35%

b) Gọi E là biến cố “người dân không xem tờ báo nào” => E  ABC . Từ giả thiết bài toán ta không thể trực tiếp được E, vì vậy ta phải sử dụng biến cố đối của E chính là biến cố D. P(E)  1  P(D)  1  0,35  0,65  65% Mở rộng công thức cho n biến cố A1,A2…,An: n

n

i 1

i 1

P(  Ai )   P (Ai )   P (A i A j )   P (A i A j A k )  ...  ( 1) n 1 P (A1A 2 ...A n ) i j

i jk

1.3.2. Công thức nhân xác suất a. Khái niệm về xác suất có điều kiện Cho A và B là hai biến cố bất kỳ thỏa mãn P(A)>0. Xác suất có điều kiện của biến cố B với điều kiện biến cố A đã xảy ra (gọi là xác suất của B với điều kiện A), kí hiệu là P(B|A) được định nghĩa như sau:

20


P(B | A) 

P(AB) P(A)

Tương tự nếu P(B)>0, ta có xác suất của A với điều kiện B: P(A | B) 

P(AB) P(B)

* Nhận xét: P ( B | A)  1  P(B | A) . Ví dụ 3: Lớp Toán có 96 sinh viên, trong đó có 46 nam và 50 nữ. Trong một kỳ thi có 22 sinh viên đạt điểm giỏi (trong đó có 12 nam và 10 nữ). Chọn ngẫu nhiên một sinh viên trong lớp. a) Tính xác suất để chọn được sinh viên đạt điểm giỏi. b) Tính lại xác suất để chọn được sinh viên đạt điểm giỏi biết rằng sinh viên đó là nữ. Giải: Gọi A là biến cố “chọn được sinh viên đạt điểm giỏi”. a) P(A) =

22  0, 229 96

b) B là biến cố “sinh viên được chọn là nữ”, ta cần tính P(A|B). Ta có: P(AB) = P(A | B) 

10 50 ; P(B) = 96 96

P( AB) 10 96  .  0,2 P(B) 96 50

b. Công thức nhân xác suất cho 2 biến cố Từ công thức xác suất có điều kiện ta suy ra công thức nhân xác suất của hai biến cố là: P (AB)  P (A | B) P(B)  P(B | A) P(A)

Ví dụ 4: Trong một hộp kín có 20 nắp bia Tiger, trong đó có 2 nắp ghi “Chúc mừng bạn đã trúng thưởng xe BMW”. Bạn được chọn lên rút thăm lần lượt hai nắp bia (rút không hoàn lại).Tính xác suất để cả hai nắp đều trúng thưởng. Giải: Gọi A là biến cố “nắp bia rút được lần đầu là nắp có thưởng”. Gọi B là biến cố “nắp bia rút được lần hai là nắp có thưởng”. Ta cần tính P(AB).

21


Ta có: P(A) =

2 1 và P(B|A) = 20 19

Áp dụng công thức nhân: P(AB) = P(A)P(B|A) =

2 1 1 .   0,0053 20 19 190

 Khái niệm sự độc lập của hai biến cố: Hai biến cố A và B được gọi là độc lập với nhau trong một phép thử nếu biến cố A có xảy ra hay không cũng không ảnh hưởng đến khả năng xảy ra của biến cố B và ngược lại. Các phát biểu sau là tương đương: i) Hai biến cố A và B là độc lập với nhau  P(AB)=P(A)P(B). ii) Hai biến cố A và B là độc lập với nhau  P(A|B) = P(A) hoặc P(B|A) = P(B). Ví dụ 5: Trong bình có 4 quả cầu trắng và 5 quả cầu xanh. Lấy ngẫu nhiên từ trong bình ra 1 quả cầu. Gọi A là biến cố “lấy được quả cầu xanh”. Hiển nhiên P(A) = 5/9. Quả cầu lấy ra được bỏ lại vào bình và tiếp tục lấy 1 quả cầu. Gọi B là biến cố “lần thứ 2 lấy được quả cầu xanh”, khi đó P(B) = 5/9. Rõ ràng xác suất của biến cố B không thay đổi khi biến cố A xảy ra hay không xảy ra và ngược lại. Vậy hai biến cố A và B độc lập nhau. * Chú ý: Nếu A và B độc lập với nhau thì A và B, A và B , A và B cũng độc lập với nhau. * Mở rộng công thức nhân xác suất cho nhiều biến cố: Cho 3 biến cố A, B, C, khi đó: P(ABC)  P(A)P(B | A)P(C | AB) .  Khái niệm về một dãy biến cố độc lập: Một dãy n biến cố A1, A2,…,An được gọi là độc lập với nhau (hay độc lập trong toàn bộ) nếu mỗi biến cố độc lập với tích bất kỳ của các biến cố còn lại. Khi đó: P(A1A2 ...An )  P(A1)P(A2 )...P(An ) . Ví dụ 6:Một xí nghiệp có 3 ô tô hoạt động độc lập. Xác suất để trong một ngày các ô tô bị hỏng lần lượt là 0,1;0,15 và 0,2. Tìm xác suất để trong một ngày có: a) Cả 3 ô tô bị hỏng. b) Có ít nhất một ô tô bị hỏng. 22


Giải: Gọi A,B,C lần lượt là các biến cố trong một ngày ô tô thứ nhất, thứ hai và thứ ba bị hỏng. P(A)=0,1; P(B)=0,15; P(C)=0,2 a) Gọi D là biến cố có đúng một ô tô bị hỏng, ta sẽ biểu diễn biến cố D thông qua cácbiến cố A,B,C như sau: D  ABC . Vì các biến cố A, B, C độc lập nên áp dụng công thức nhân xác suất ta được: P(D)  P( A)P(B)P(C)  0,1.0,15.0,2  0,003 b) Gọi E là biến cố có ít nhất một ô tô bị hỏng trong ngày, ta sẽ biểu diễn biến cố Ethông qua các biến cố A,B,C: E  A  B  C khi đó E  A B C

Cách 1: Vì các biến cố A , B , C độc lập, áp dụng công thức nhân xác suất: P ( E )  1  P ( E )  1  P (A) P(B) P(C)  1  0,9.0,85.0,8  0,388

Cách 2: Tính trực tiếp bằng công thức cộng xác suất cho 3 biến cố: P (E)  P ( A  B  C )  P ( A)  P ( B )  P (C )  P ( AB )  P ( BC )  P ( AC )  P ( ABC )  0,388

* Các biến cố A,B,C độc lập nhưng không xung khắc với nhau (Vì P(AB) ≠ 0) nên không thể tính P(E)  P( A)  P(B)  P(C) . Nhận xét: Hai biến cố A và B xung khắc với nhau thì chưa chắc A và B là hai biến cố độc lập và ngược lại, hai biến cố A và B là độc lập với nhau thì chưa chắc A và B xung khắc với nhau. Ví dụ 7:Tung 2 đồng xu cân đối và đồng chất lên một mặt phẳng. Gọi A là biến cố “Có đúng một đồng xu xuất hiện mặt sấp” => P(A) = 2/4. B là biến cố “Cả hai đồng xu xuất hiện mặt sấp” => P(B) = 1/4. Ta thấy A và B là hai biến cố xung khắc nhưng không độc lập vì P(AB)  P(A)P(B). BÀI TẬP Bài 1: Cho A và B là các biến cố sao cho: P ( A) 

1 3 5 , P(A  B)  , P (B)  2 4 8 23


Tìm P (AB), P( A B), P( A  B ), P(B\ A) . Giải: 5 8

Ta có: P( B)  1  P( B)  1  

3 8

Theo công thức cộng xác suất: P( A  B)  P( A)  P(B)  P( AB)  P( AB)  P( A)  P( B)  P( A  B)  P( AB)  P( A  B)  1  P( A  B)  P( A  B)  P( AB)  1  P( AB)  P(B\ A)  P(B)  P(AB) 

1 8

1 4

1 4

1 4 3 8

Bài 2: Cho A và B là các biến cố với P ( A)  , P ( B ) 

1 1 , P(AB)= . 2 4

Tìm: a) P(A B). b) P( A), P ( B ). c) P( AB), P( A  B), P( B \ A), P( A | B). 3 4

Bài 3: Cho A và B là các biến cố với P( A  B)  , P( A) 

2 1 và P ( AB)  . 3 4

Tìm P(A), P(B) và P(A\B). Bài 4:Hệ thống báo cháy gồm một chuông và một đèn tín hiệu. Xác suất để khi có cháy chuông hỏng là 0,1; đèn hỏng là 0,05; cả hai thiết bị đều hỏng là 0,01. Tính xác suất để khi có cháy cả hai thiết bị đều hoạt động. Bài 5: Một lớp sinh viên có 50% học tiếng Anh, 40% học tiếng Pháp, 30% học tiếng Đức, 10% học tiếng Anh và tiếng Pháp, 15% học tiếng Anh và tiếng Đức, 10% học Pháp và tiếng Đức, 5% học cả ba thứ tiếng. Tìm xác suất để khi chọn ngẫu nhiên một sinh viên của lớp đó thì người đó học ít nhất một trong ba ngoại ngữ kể trên. Bài 6: Cho A, B là hai biến cố bất kỳ, chứng minh: a) P( A B)  1  P( A)  P( B)  P( AB). b) P( A)  P( AB)  P( B)  P( BA). 24


Giải: a) P ( A B )  P (A  B)  1  P (A  B)  1  P ( A)  P ( B )  P ( AB ). b) Xét: VT  P( A)  P( AB)  P( A)  P( A  B)  P(A)  1  P(A B)  P(A)  1  P(A)  P( B)  P( AB)  1  P( B)  P( AB)  P( B)  P( BA)  VP

Bài 7: Một người chuẩn bị đấu thầu hai dự án A và B (A đấu thầu trước B). Người đó có khả năng trúng thầu dự án A là 70%. Nếu trúng thầu dự án A thì khả năng trúng thầu dự án B là 90%. Nếu không trúng thầu dự án A thì khả năng trúng thầu dự án B còn 50%. Tìm khả năng của người đó: a) Trúng thầu cả hai dự án. b) Chỉ trúng thầu một dự án. Giải: Gọi A là biến cố người đó trúng thầu dự án A. B là biến cố người đó trúng thầu dự án B. Từ giả thiết: P(A)=0,7;P(B|A)=0,9; P (B | A)  0,5. a) Biến cố trúng thầu cả hai dự án là AB: P(AB)  P(B| A)P(A)  0,9.0,7  0,63 b) Biến cố chỉ trúng thầu một dự án là: AB  AB. Vì AB và AB là hai biến cố xung khắc nên áp dụng công thức cộng xác suất. P ( AB  AB )  P ( AB )  P( AB )  P( B | A) P(A)  P(B | A) P( A)  (1  P(B | A)) P(A)  P(B | A) P( A)  0,1.0, 7  0,5.0,3  0, 22

Bài 8: Một người chuẩn bị tham dự lấy phiếu tín nhiệm vào một chức vụ, bắt buộc phải qua hai vùng, ở vùng I khả năng đủ tín nhiệm là 60%. Nếu đủ ở vùng I thì khả năng đủ tín nhiệm ở vùng II là 85%, nếu không đủ ở vùng I thì khả năng đủ tín nhiệm ở vùng II là 30%. Tìm khả năng của người đó: a) Đủ tín nhiệm ở cả hai vùng. 25


b) Chỉ đủ tín nhiệm ở một vùng. Bài 9:Một người có nguyện vọng thi vào hai trường đại học. Đợt I thi vào trường A, khả năng đỗ là 90%. Nếu đợt I người đó thi đỗ thì khả năng thi đỗ đợt hai vào trường B là 99%, ngược lại nếu đợt I thi trượt thì khả năng thi đỗ lần hai chỉ còn là 50%. Tính xác suất người đó chỉ thi đỗ một trường. Bài 10: Một người đi mua hàng với xác suất chọn được hàng tốt là 0,9. Nếu lần trước chọn được hàng xấu thì xác suất chọn được hàng tốt lần sau là 95%, còn nếu lần trước người đó chọn được hàng tốt thì không có kinh nghiệm gì khi mua lần sau. Người đó mua hàng hai lần, mỗi lần một sản phẩm. Tìm xác suất để có một lần mua phải hàng xấu. Bài 11: Cho A và B là các biến cố độc lập. Chứng minh rằng: a) A và B độc lập. b) A và B độc lập. c) A và B độc lập. Giải: Theo giả thiết A và B là các biến cố độc lập nên P(A|B)=P(A) hoặc P(B|A)=P(B) hoặc P(AB)=P(A)P(B). a) Để chứng minh A và B độc lập ta cần chứng minh P(A B )=P(A)P( B ). Thật vậy: P(A B)  P(A) P( B | A)  P(A)(1  P(B | A))  P(A)(1  P(B))  P(A) P(B)

b) Tương tự trên: P (A B)  P(B) P( A | B)  P(B)(1  P(A | B))  P(B)(1  P(A))  P(B) P( A)

c) Tương tự trên, ta xét:

26


P (AB)  P(B) P( A | B)  P(B)(1  P(A | B))  P(B)(1  P(A))  P(B) P( A)

(Vì A và B độc lập (theo cmt) nên có P(A | B) = P(A)). Bài 12: Chứng minh rằng nếu A, B, C là ba biến cố độc lập thì A và B  C là hai biến cố độc lập. Giải: Ta cần chứng minh P( A(B C))  P(A)P(B C) . Từ giả thiết A,B,C độc lập ta có: P(AB)=P(A)P(B); P(AC)=P(A)P(C); P(ABC)=P(A)P(BC). Xét: P ( A(B C))  P(AB A C)  P(AB)  P(AC)  P(AB.AC)  P(A) P(B)  P(A) P(C)  P(ABC)  P(A) P(B)  P(A) P(C)  P(A) P(BC)  P(A)(P(B)  P(C)  P(BC))  P(A) P(B C)

Bài 13: Hai xạ thủ mỗi người bắn một viên đạn vào cùng một bia. Xác suất trúng đích của người thứ nhất là 0,9 và của người thứ hai là 0,7. Tính các xác suất của biến cố: a) Có đúng một phát trúng. b) Cả hai phát đều trúng. c) Có ít nhất một phát trúng. Giải: Gọi A là biến cố người thứ nhất bắn trúng bia. B là biến cố người thứ hai bắn trúng bia. Theo giả thiết: P(A) = 0,9; P(B) = 0,7. a) Biến cố có đúng một phát trúng là biến cố AB  AB. Các biến A và B là độc lập và các biến cố AB và AB xung khắc với nhau nên ta có: 27


P( AB  AB)  P(A B)  P( A B)  P(A) P( B)  P( A) P(B)  0,9.0,3  0,1.0,7  0,34

b) Biến cố cả hai phát đều trúng đích là AB. P(AB)=P(A)P(B)=0,9.0,7=0,63 c) Biến cố có ít nhất một phát trúng là A  B. P( A  B)  P( A)  P( B)  P( AB)  0,9  0,7  0,63  0,97

Bài 14: Ba người mỗi người độc lập bắn một viên vào mục tiêu với xác suất trúng tương ứng là 0,6; 0,8; 0,7. Tính xác suất: a) Chỉ có người thứ hai bắn trúng. b) Có đúng một người bắn trúng. c) Có ít nhất một người bắn trúng. d) Cả ba người cùng bắn trúng. e) Có đúng hai người bắn trúng. f) Có ít nhất hai người bắn trúng. g) Có không quá hai người bắn trúng. Bài 15: Bắn ba viên đạn vào bia một cách độc lập. Xác suất để có ít nhất một lần trúng đích là 0,875. Tìm xác suất bắn trúng bia trong một lần bắn. Bài 16: Bắn độc lập ba viên đạn vào cùng một bia. Xác suất trúng đích của viên thứ nhất, viên thứ hai, viên thứ ba lần lượt là 0,4;0,5;0,7. a) Tìm xác suất sao cho trong ba viên có đúng một viên trúng đích. b) Tìm xác suất để có ít nhất một viên trúng đích. Bài 17:Bắn ba viên đạn vào bia một cách độc lập. Xác suất để có ít nhất một lần trúng đích là 0,936. Tìm xác suất bắn trúng bia trong một lần bắn. Bài 18: Một máy tính điện tử gồm n bộ phận hoạt động độc lập. Xác suất hỏng trong khoảng thời gian t của bộ phận thứ k bằng pk (k=1,2...n). Nếu ít nhất một bộ phận hỏng thì máy sẽ ngừng làm việc. Tính xác suất để máy ngừng làm việc trong khoảng thời gian t. Giải: Gọi Ak là biến cố bộ phận thứ k hỏng trong khoảng thời gian t. => P(Ak)=pk (k=1,2...n). 28


Gọi B là biến cố để máy ngừng làm việc: P (B)  1  P( A1 ) P( A2 )...P( An )  1  (1  p1 )(1  p 2 )...(1  p k ) n

 1   (1  pi ) i 1

Bài 19:Ở một cơ quan có ba chiếc xe ô tô hoạt động độc lập. Khả năng có sự cố của mỗi ô tô tương ứng là 0,15;0,2;0,1. a) Tìm khả năng cả ba ô tô cùng bị hỏng. b) Tìm khả năng có ít nhất một chiếc hoạt động được. c) Tìm khả năng cả ba ô tô cùng hoạt động được. d) Tìm khả năng có không quá hai ô tô bị hỏng. Bài 20: Một chi tiết được gia công một cách độc lập qua ba công đoạn nối tiếp với nhau và chất lượng chi tiết chỉ được kiểm tra sau khi đã được gia công xong. Xác suất gây ra khiếm khuyết cho chi tiết ở các công đoạn tương ứng là 0,2; 0,15; 0,1. Tìm xác suất để sau khi gia công chi tiết. a) Có khiếm khuyết. b) Bị ít nhất hai khiếm khuyết. c) Bị cả ba khiếm khuyết. d) Không bị khiếm khuyết nào. e) Bị không quá một khiếm khuyết. 1.4. Công thức Bernoulli 1.4.1. Dãy phép thử Bernoulli Khái niệm dãy phép thử Bernoulli: Xét một dãy các phép thử độc lập. Các phép thử này được gọi là dãy phép thử Bernoulli nếu thỏa mãn: - Mỗi phép thử chỉ có hai kết quả: A và A; - Xác suất P(A) = p(0 <p<1) không đổi cho mọi phép thử. Giá trị p được gọi là xác suất thành công trong mỗi lần thử. Chú ý: Dãy phép thử độc lập là dãy các phép thử mà kết quả của phép thử này không làm ảnh hưởng tới kết quả của phép thử khác. Công thức này mang tên nhà toán học người Thụy Sĩ Jacob Bernoulli (còn được biết đến với tên James hoặc Jacques) (1654 – 1705). Ví dụ 1: Gieo một đồng xu cân đối và đồng chất 5 lần => Đó là dãy 5 phép 29


thử Bernoulli. Ví dụ 2:Một người bắn độc lập lần lượt 10 viên đạn vào bia => Đó là dãy 10 phép thử Bernoulli. 1.4.2. Công thức Bernoulli Xác suất để trong n lần thực hiện phép thử, biến cố A xảy ra đúng k lần (0  k  n) với xác suất mỗi lần A xảy ra là p (0<p<1). Được ký hiệu là Pn(k,p) và cho bởi công thức sau: Pn (k,p) = Cnk p k (1- p)n-k

Công thức trên được gọi là công thức Bernoulli. Chứng minh công thức Bernoulli: Gọi B là biến cố trong n lần thực hiện phép thử biến cố A xảy ra đúng k lần.Ta biểu diễn biến cố B là tích của các biến cố A và A như sau: B  AAAA A...AAA  n

Lưu ý là vị trí của các biến cố A và A xuất hiện trong dãy trên là ngẫu nhiên, các biến cố A và A là độc lập với nhau. Ta có số cách xếp k vị trí cho A trong n vị trí trên là C nk . Từ đó:   P ( B )  Cnk  P ( A) P ( A)...P( A) P ( A)...P( A) P ( A)   Cnk p k (1  p ) n  k     k nk  

Ví dụ 3: Xác suất để một cây con sống sót sau khi mắc một loại sâu bệnh hiếm thấy là 0,4. Nếu biết rằng có 8 cây con mắc loại sâu bệnh này, tìm xác suất để trong 8 cây đó: a) Có đúng 1 cây sống sót. b) Có đúng 3 cây sống sót. Biết rằng khả năng sống sót của mỗi cây là độc lập với nhau. Giải: Đây là dãy các phép thử Bernoulli với n = 8 và p = 0,4. a) Xác suất để có 1 cây sống sót là: P8 (1; 0, 4)  C 81 (0, 4)(0, 6) 7  0, 0896

b) Xác suất để có 3 cây sống sót là: 30


P8 (3; 0, 4)  C83 (0, 4) 3 (0, 6) 5  0, 279

Mở rộng bài toán: Tính xác suất để trong n lần thực hiện phép thử: i) Biến cố A xảy ra từ k1 đến k2 lần. ii) A xảy ra ít nhất 1 lần. iii) Tìm số lần biến cố A xảy ra có khả năng nhất. iv) Tìm số lần thực hiện phép thử tối thiểu để thỏa mãn điều kiện nào đó. Giải quyết bài toán: Sử dụng công thức Bernoulli đã xây dựng ở trên và các quy tắc đếm, ta dễ dàng chứng minh được các công thức sau: i) Xác suất để biến cố A xảy ra từ k1 đến k2 lần là: Pn ( k1  k  k 2 )  Pn ( k1 )  Pn ( k1  1)  ....  Pn ( k 2 )

ii) Xác suất để biến cố A xảy ra ít nhất một lần là: Pn (1  k  n)  1  Pn (0)  1  (1  p)n

iii) Số lần A xảy ra có khả năng nhất là số nguyên k0 thỏa mãn: (n  1) p  1  k0  (n  1) p  k0   (n  1) p 

Số nguyên k0 ở trên được gọi là giá trị chắc chắn nhất của số thành công hay giá trị có khả năng xảy ra lớn nhất. Pn(k0,p) là số hạng trung tâm của phân bố nhị thức mà ta sẽ học ở chương sau. iv) Phương pháp giải sẽ được xét trong từng bài toán cụ thể. Ví dụ 3: Một xạ thủ bắn lần lượt 6 viên đạn vào một mục tiêu với xác suất trúng trong mỗi lần bắn là 0,8. Tìm xác suất sao cho: a) Có đúng 2 viên trúng mục tiêu. b) Có không quá 2 viên trúng mục tiêu. c) Có ít nhất 1 viên trúng mục tiêu. d) Tìm số viên trúng mục tiêu có khả năng nhất. e) Phải bắn bao nhiêu lần để xác suất có ít nhất 1 viên trúng mục tiêu là 90%? Giải: Dãy phép thử ở đây là dãy phép thử Bernoulli với n=6 và p=0,8. a) Áp dụng công thức Bernoulli: Pn ( k ; p )  Pn ( k )  C nk p k q n  k Xác suất có đúng 2 viên trúng mục tiêu là: P6 (2; 0, 8)  P6 (2)  C 62 (0, 8) 2 (0, 2) 4  0, 01536

31


b) Xác suất có không quá 2 viên trúng mục tiêu là: P6 (0  k  2)  P6 (0)  P6 (1)  P6 (2)  C60 0,80.0, 26  C61 0,8.0, 25  C62 0,82.0, 24  0,01696

c) Xác suất có ít nhất 1 viên trúng mục tiêu là: P6 (1  k  6)  1  (1  0, 8) 6  1  0, 000064  0, 999936

d) Số viên trúng có khả năng nhất là k0 thỏa mãn: 7.0,8  1  k0  7.0,8  4,6  k0  5,6  k0  5 e) Gọi n0 là số lần bắn để xác suất có ít nhất 1 viên trúng mục tiêu là 0,9. Vậy 1  (1  p ) n0  0,9  (1  p ) n0  0,1 . Với p = 0,8 thay vào trên ta được (1  0,8)n0  0,1  n0 

log0,1 . log0,2

Ví dụ 4: Tín hiệu thông tin được phát đi 3 lần độc lập nhau. Xác suất thu được tín hiệu ở mỗi lần là 0,4. a) Tìm xác suất để nguồn thu nhận được thông tin đúng 2 lần. b) Tìm xác suất để nguồn thu nhận được thông tin đó. c) Nếu muốn xác suất thu được tin  0,9 thì phải phát đi ít nhất bao nhiêu lần? Giải: Có thể xem mỗi lần phát tin là một phép thử Bernoulli với mục đích thành công của phép thử là nguồn thu nhận được tin. Theo giả thiết xác suất thành công p của mỗi lần thử là 0,4. a) Xác suất để nguồn thu nhận được thông tin đúng 2 lần là: P3 (2, 0, 4)  C 32 (0, 4) 2 (0, 6)  0, 288

b) Xác suất để nguồn thu nhận được thông tin là xác suất để có ít nhất 1 lần nguồn thu nhận được thông tin. P3 (1  k  3)  1  P3 (0)  1  (1  p) 3  1  (0, 6) 3  0, 784

c) Xác suất để nguồn thu nhận được thông tin khi phát đi n lần là: Pn (1  k  n )  1  Pn (0)  1  (1  p) n  1  (0, 6) n n

n

Để: Pn (1  k  n)  0,9  1   0,6   0,9   0,6   0,1  n 

log(0,1)  4,504. log(0,6)

Vì n nguyên dương nên ta chọn n = 5. BÀI TẬP Bài 1:Xác suất nảy mầm của mỗi hạt giống là 0,4. Người ta gieo các hạt giống vào các hốc, mỗi hốc 4 hạt. Tính xác suất để mỗi hốc có ít nhất một hạt 32


nảy mầm. Giải: Phép thử này thỏa mãn là phép thử Bernoulli. Xác suất để mỗi hốc có ít nhất một hạt nảy mầm là: P4 (1  k  4)  1  (1  p) 4  1  (0, 6) 4  0, 8704

Bài 2: Một lô hàng chứa rất nhiều sản phẩm với tỷ lệ phế phẩm là p = 0,02. Cần phải lấy một mẫu với cỡ mẫu bằng bao nhiêu sao cho xác suất để có ít nhất một phế phẩm trong mẫu đó không bé hơn 0,95? Giải: Phép thử này thỏa mãn là phép thử Bernoulli. Gọi n là số sản phẩm cần lấy. A là biến cố có ít nhất một phế phẩm trong n sản phẩm lấy ra. P ( A )  Pn (1  k  n )  1  (1  p) n  1  (0, 98) n

Để: n

n

P( A)  0,95  1   0,98  0,95   0,98  0,05  n 

log(0,05)  n  148 log(0,98)

Vậy số hạt giống cần lấy là n = 148. Bài 3: Tỷ lệ học sinh trong trường bị cận thị là 1%. Hỏi cần lấy một mẫu cỡ bao nhiêu (chọn bao nhiêu học sinh) để trong mẫu đó có ít nhất một học sinh bị cận thị với xác suất không bé hơn 0,95? Bài 4: Bắn độc lập 14 viên đạn vào một mục tiêu. Xác suất trúng đích của mỗi viên đạn bằng 0,2. Mục tiêu bị phá hủy hoàn toàn nếu có ít nhất hai viên đạn trúng mục tiêu. Tìm xác suất để mục tiêu bị phá hủy hoàn toàn. Bài 5: Một nữ công nhân quản lý 12 máy dệt. Xác suất để mỗi máy dệt trong khoảng thời gian T cần đến sự chăm sóc của nữ công nhân bằng 1/3. Tính xác suất để: a) Trong khoảng thời gian T có 4 máy cần đến sự chăm sóc của nữ công nhân. b) Trong khoảng thời gian T số máy cần đến sự chăm sóc của nữ công nhân không bé hơn 3, không lớn hơn 6. Bài 6: Phải gieo 2 đồng xu bao nhiêu lần để với xác suất không nhỏ hơn 0,99 có thể tin rằng có ít nhất một lần được cả hai mặt sấp. 1.5. Công thức xác suất đầy đủ và công thức Bayes 33


1.5.1. Giới thiệu khái niệm nhóm đầy đủ Dãy n biến cố B1, B2, …, Bn lập thành một nhóm đầy đủ các biến cố nếu nó thỏa mãn các điều kiện sau đây: - Hợp của chúng là biến cố chắc chắn, tức là: n

B

i

S

i 1

- Các biến cố đó đôi một xung khắc, tức là:

Bi B j  , i  j; i, j  1, n  Một số ví dụ về nhóm đầy đủ: Ví dụ 1: Trong 1 thùng thóc chỉ có 2 loại thóc là thóc đã nảy mầm và thóc chưa nảy mầm. Lấy ngẫu nhiên 1 hạt thóc trong thùng. Gọi A là biến cố “Hạt thóc lấy ra là thóc đã nảy mầm”. Gọi B là biến cố “Hạt thóc lấy ra là thóc chưa nảy mầm”. Nhóm các biến cố A, B tạo thành nhóm đầy đủ các biến cố. Ví dụ 2: Một người bắn 3 viên đạn vào bia. Bilà biến cố “Sau 3 lần bắn có đúng i viên trúng vào bia”, i = 0,1,2,3. Nhóm các biến cố B1, B2, B3 không tạo thành nhóm đầy đủ các biến cố. Nhóm các biến cố B0, B1, B2, B3 tạo thành nhóm đầy đủ các biến cố. 1.5.2. Công thức xác suất đầy đủ và công thức Bayes Giả sử B1, B2, …, Bn là một nhóm đầy đủ các biến cố. Xét biến cố A sao cho A xảy ra khi và chỉ khi một trong các biến cố B1, B2, …, Bn xảy ra. Đặt: n

B

i

S

i 1

Ta có: A  AS  A( B1  B2  ...  Bn )  AB1  AB2  ...  ABn

Vì các Bi xung khắc từng đôi nên các ABi cũng xung khắc từng đôi (i = 1,…,n): n

P( A)   P ( ABi ) i 1

Công thức xác suất đầy đủ: n

P( A)   P ( A | Bi ) P ( Bi ) i

Tiếp tục áp dụng công thức nhân xác suất: 34


P( Bk | A) 

P( ABk ) P( A | Bk ) P( Bk )  P ( A) P ( A)

Thay công thức tính P(A) ở trên ta đượccông thức Bayes: P( A | Bk ) P( Bk ) P ( Bk | A)  n  P( A | Bi ) P( Bi ) i

Công thức Bayes(mang tên Thomas Bayes, 1702-1761, một linh mục đồng thời là người có những nghiên cứu về xác suất). Ví dụ 3:Có 2 hộp đựng sản phẩm, hộp thứ nhất có 10 sản phẩm trong đó có 9 sản phẩm màu trắng và 1 sản phẩm màu đen, hộp thứ 2 có 20 sản phẩm trong đó có 18 sản phẩm màu trắng và 2 sản phẩm màu đen. Từ hộp thứ nhất lấy ngẫu nhiên ra 1 sản phẩm bỏ sang hộp thứ 2. Tìm xác suất để lấy ngẫu nhiên một sản phẩm từ hộp thứ 2 được sản phẩm màu trắng. Giải: Gọi A là biến cố “Sản phẩm lấy từ hộp thứ 2 là sản phẩm màu trắng”. Biến cố A xảy ra đồng thời với một trong hai biến cố sau: B1: “Sản phẩm bỏ từ hộp 1 sang hộp 2 là sản phẩm màu trắng”. B2: “Sản phẩm bỏ từ hộp 1 sang hộp 2 là sản phẩm màu đen”. Khi đó (B1, B2) tạo thành nhóm biến cố đầy đủ. Áp dụng công thức xác suất đầy đủ ta có: P ( A)  P ( B1 ) P( A | B1 )  P( B2 ) P ( A | B2 ) 

9 19 1 18   0,9 10 21 10 21

Ví dụ 4:Tỷ lệ người dân nghiện thuốc lá là 30%, biết rằng tỷ lệ người viêm phổi trong số người nghiện thuốc lá là 60%, còn tỷ lệ người viêm phổi trong số người không hút thuốc là 40%. a. Chọn ngẫu nhiên 1 người.Tính xác suất để người đó bị viêm phổi. b. Chọn ngẫu nhiên 1 người, biết rằng người đó viêm phổi.Tính xác suất người đó nghiện thuốc lá. Giải: Gọi A là biến cố “Chọn ra một người bị viêm phổi”. Gọi B1 là biến cố “Người được chọn ra là người nghiện thuốc”. Gọi B2 là biến cố “Người được chọn ra là người không nghiện thuốc”. 35


Nhóm biến cố đầy đủ ở đây là {B1, B2}. Ta có: P(B1)=0,3; P(B2)=0,7 P(A|B1)=0,6, P(A|B2)=0,4 a)Áp dụng công thức xác suất đầy đủ: P(A) = 0,3.0,6 + 0,7.0,4 = 0,46 b)Áp dụng công thức Bayes: P ( B1 | A) 

P ( A | B1 ) P ( B1 ) 0,3.0, 6   0,39 P ( A) 0, 46

 Nhận xét: Người ta thường áp dụng công thức xác suất đầy đủ khi phép thử có nhiều hơn 1 bước thử. Mấu chốt để giải bài toán là phải thành lập được nhóm biến cố đầy đủ, thông thường người ta lấy nhóm biến cố đầy đủ là các kết quả có thể có của bước thứ nhất. Nhóm biến cố đầy đủ không duy nhất, để tính xác suất của biến cố A có thể dựa vào nhóm đầy đủ này hoặc nhóm đầy đủ khác, miễn là quan hệ giữa A và nhóm đầy đủ phải thỏa mãn:A xảy ra khi và chỉ khi 1 trong các biến cố của nhóm đầy đủ phải xảy ra. Khi nào dùng công thức xác suất đầy đủ và khi nào dùng công thức Bayes? Công thức xác suất đầy đủ giúp ta tính xác suất của 1 biến cố A thông qua 1 nhóm các giả thiết đầy đủ B1, B2, …, Bn. Công thức Bayes thì ngược lại, giúp ta tính xác suất xảy ra của các giả thiết B1, B2, …, Bnkhi biến cố A xảy ra.  Ý nghĩa của công thức Bayes: - B1, B2, …, Bn thường được gọi là các giả thuyết; - Các P(B1), P(B2), …, P(Bn) được xác định trước khi phép thử được tiến hành gọi là các xác suất tiên nghiệm; - Các xác suất P(B1|A), P(B2|A), …, P(Bn|A) gọi là các xác suất hậu nghiệm (được xác định sau khi phép thử đã tiến hành và biến cố A đã xảy ra). Công thức Bayes cho phép đánh giá lại xác suất xảy ra các giả thuyết sau khi đã biết kết quả của phép thử. Vì vậy, công thức Bayes còn được gọi là công thức xác suất hậu nghiệm.  Mô tả một áp dụng bằng sơ đồ chẩn đoán bệnh: Giả sử tại 1 bệnh viện nào đó các bệnh nhân mắc một trong n bệnh B1, B2, …, Bn. Ta kí hiệu A là tập các triệu chứng có ở bệnh nhân. Khi đó các xác suất P(B1), P(B2), …, P(Bn) và P(A|B1), P(A|B2), …, P(A|Bn) có thể được tính dựa 36


trên số liệu thống kê của các năm trước. Cụ thể: P(Bi) bằng tần suất bệnh Bi trong số những bệnh nhân của bệnh viện đó. P(A|Bi) bằng tần suất thấy tập hợp dấu hiệu A ở những bệnh nhân bị bệnh Bi ở bệnh viện. Áp dụng công thức Bayes cho ta xác suất chuẩn đoán bệnh Bi khi thấy các triệu chứng A. BÀI TẬP Bài 1: Tại một phòng khám bệnh chuyên khoa, trong số những người đến khám có 80% mắc bệnh. Phòng khám dùng một dụng cụ chuyên dụng để chuẩn đoán bệnh. Nếu có bệnh thì thiết bị cho kết quả dương tính với xác suất 0,8. Nếu không có bệnh thì cho kết quả dương tính với xác suất 0,3. a) Tính xác suất để một người đến khám bệnh cho kết quả dương tính. b) Giả sử một người đến khám bệnh và máy cho kết quả dương tính. Tính xác suất để người đó có bệnh; không có bệnh. Giải: a) Gọi B1 là biến cố người đến khám có bệnh. B2 là biến cố người đến khám không có bệnh. A là biến cố thiết bị cho kết quả dương tính. Khi đó B1, B2 lập thành một hệ đầy đủ các biến cố. Theo giả thiết: P(B1) = 0,8; P(B2) = 0,2; P(A|B1) = 0,8; P(A|B2) = 0,3 Theo công thức xác suất đầy đủ ta có: P(A) = P(A|B1)P(B1) + P(A|B2)P(B2) = 0,8.0,8 + 0,2.0,3 = 0,7 b) Theo công thức Bayes: P( A | B1) P( A1) 0,64 P( B1 | A)    0,91 P( A) 0,7 P( B2 | A) 

P( A | B2 ) P( B2 ) 0,06   0,086 P( A) 0,7

Bài 2: Tiến hành thử phản ứng thuốc trên 100 người trong đó có 50 người khỏe và 50 người yếu. Tỷ lệ phản ứng dương tính trong số người khỏe là 0,05 còn trong số người yếu là 0,8. Chọn ngẫu nhiên một người trong số đó: a) Tính xác suất để người đó có phản ứng dương tính. b) Giả sử người đó có phản ứng dương tính. Tìm xác suất để người đó là người khỏe; người yếu. Bài 3:Đem kiểm tra một lô hàng gồm các sản phẩm do hai xí nghiệp I và II 37


sản xuất. Sản phẩm của xí nghiệp I chiếm 45%, xí nghiệp II chiếm 55%. Tỷ lệ sản xuất ra phế phẩm của xí nghiệp I là 2%, xí nghiệp II là 2,5%. Biết rằng sản phẩm đem kiểm tra là phế phẩm. Khả năng sản phẩm đó do xí nghiệp nào sản xuất ra nhiều nhất? Bài 4: Hai nhà máy cùng sản xuất một loại sản phẩm. Tỷ lệ phế phẩm của nhà máy I là 0,03; của nhà máy II là 0,02. Từ một kho gồm 2/3 sản phẩm của nhà máy I và 1/3 của nhà máy II ta lấy ra một sản phẩm a) Tính xác suất để sản phẩm lấy ra đó là tốt b) Giả sử sản phẩm lấy ra là tốt. Tính xác suất để sản phẩm đó thuộc ô I, lô II. Bài 5: Có 14 xạ thủ: 5 người bắn trúng đích với xác suất 0,8, 7 người bắn trúng đích với xác suất 0,6 và 2 người bắn trúng đích với xác suất 0,5. Chọn ngẫu nhiên một người cho bắn một phát nhưng không trúng. Người đó có khả năng thuộc nhóm nào nhất? Bài 6: Có 10 hộp bi trong đó có 4 hộp loại I mỗi hộp chứa 3 bi trắng 5 bi đỏ; 3 hộp loại II mỗi hộp chứa 4 bi trắng và 6 bi đỏ; 3 hộp loại III mỗi hộp chứa 2 bi trắng và 5 bi đỏ. a) Lấy ngẫu nhiên một hộp và từ đó lấy ngẫu nhiên 1 bi. Tính xác suất để được bi đỏ. b) Lấy ngẫu nhiên một hộp và từ đó lấy ngẫu nhiên 1 bi thì được bi trắng. Tìm xác suất để bi đó được lấy từ hộp loại I; loại II; loại III. Bài 7*: Một xạ thủ bắn vào một mục tiêu ba viên đạn độc lập với nhau. Xác suất trúng đích của mỗi viên đạn là 0,4. Mục tiêu bị phá hủy với xác suất 0,2 nếu có 1 viên trúng đích; với xác suất 0,5 nếu có hai viên trúng đích và 0,8 nếu có ba viên trúng đích. Tìm xác suất để mục tiêu bị phá hủy. Bài 8: Một lô hạt giống được thu gom từ ba nguồn khác nhau. Nguồn I chiếm ½ số hạt của lô; nguồn II chiếm 1/3 số hạt của lô; còn lại là nguồn III. Tỷ lệ hạt nảy mầm đối với các hạt thuộc các nguồn tương ứng là 90%; 80%; 70%. a)Tính tỷ lệ nảy mầm chung của cả lô hạt giống. b)Lấy ngẫu nhiên từ lô ra một hạt gặp hạt không nảy mầm. Thử đoán xem hạt đó từ nguồn nào? Vì sao? Bài 9:Có hai hộp đựng các mẫu hàng xuất khẩu. Hộp thứ nhất đựng 10 mẫu trong đó có 6 mẫu loại A và 4 mẫu loại B. Hộp thứ hai đựng 10 mẫu trong đó có 3 mẫu loại A và 7 mẫu loại B. a)Giả sử xác suất lựa chọn các hộp lần lượt là 0,55 và 0,45. Chọn ngẫu nhiên một hộp và từ đó lấy ngẫu nhiên một mẫu. Tính xác suất để mẫu lấy ra là 38


loại A. b)Chọn ngẫu nhiên một hộp và từ đó lấy ngẫu nhiên một mẫu thì được mẫu loại A. Hỏi mẫu đó có khả năng thuộc loại nào? Bài 10: Trong một thùng kín thứ nhất có 10 viên bi gồm 8 bi trắng và 2 bi đen; trong thùng kín thứ hai có 20 viên bi trong đó có 4 trắng và 16 đen. Lấy ngẫu nhiên từ mỗi thùng một viên bi và sau đó lại lấy ngẫu nhiên một trong hai viên đó. Tính xác suất để lấy được bi trắng. TÓM TẮT CHƯƠNG I 1. Định nghĩa cổ điển về xác suất: Xác suất của biến cố A là P(A) =

m . n

Trong đó: + m là số trường hợp thuận lợi đối với A; + n là số trường hợp đồng khả năng (số các trường hợp có thể xảy ra). 2. Định nghĩa thống kê về xác suất: P( A)  lim f n (A) , trong đó tỷ số f n (A)  n 

k được gọi là tần suất xuất hiện n

biến cố A. 3. “Nguyên lý xác suất nhỏ”: Nếu một biến cố có xác suất rất nhỏ thì thực tế có thể cho rằng biến cố đó sẽ không xảy ra trong một lần thực hiện phép thử. 4. “Nguyên lý xác suất lớn”: Nếu biến cố A có xác suất gần bằng 1 thì trên thực tế có thể cho rằng biến cố đó sẽ xảy ra trong một phép thử. 5. Quan hệ của các biến cố: Lý thuyết tập hợp

Lý thuyết xác suất

Tập 

-  là không gian các biến cố sơ cấp (không gian mẫu). -  là biến cố chắc chắn.

Tập rỗng 

 là biến cố không thể.

A B x  A  B nghĩa là x  A thì x  B

Biến cố A kéo theo biến cố B.

A  B là hợp của hai tập hợp.

A  B là biến cố ít nhất một trong hai

x  A  B nghĩa là x  A hoặc x  B

biến cố A hoặc B xảy ra.

A  B là giao của hai tập hợp

A  B (hoặc kí hiệu là AB) là biến cố cả

39


x  A  B nghĩa là x  A và x  B

hai biến cố A và B cùng xảy ra. A  B   thì A và B là hai biến cố

A B  

xung khắc.

A \ B là hiệu của hai tập hợp

A \ B là hiệu của hai biến cố: A xảy ra

x  A \ B nghĩa là x  A và x  B

nhưng B không xảy ra.

A  S \ A là biến cố đối của biến cố A,

AS \ A

tức là A xảy ra nếu A không xảy ra.

6. Công thức cộng: Trường hợp tổng quát: P( A  B)  P( A)  P(B)  P( AB) . Trường hợp xung khắc: P( A  B)  P( A)  P(B) . Nếu B  A ta có: 1  P ( A  A)  P ( A)  P ( A) . 7. Công thức nhân: Xác suất của B với điều kiện A đã xảy ra là P(A | B) 

P(AB) . P(B)

Công thức nhân trong trường hợp tổng quát: P(AB)  P(A | B)P(B)  P(B| A)P(A) Nếu A và B độc lập thì P(AB)=P(A)P(B). Nếu A và B độc lập với nhau thì A và B, A và B , A và B cũng độc lập với nhau. 8. Công thức xác suất đầy đủ: n

P( A)   P( A | Bi ) P( Bi ) i

9. Công thức Bayes(CT hậu nghiệm): P( A | Bk ) P( Bk ) P ( Bk | A)  n  P( A | Bi ) P( Bi ) i

10. Công thức Bernoulli: Các phép thử được gọi là dãy phép thử Bernoulli nếu thỏa mãn: - Mỗi phép thử có hai kết quả: A và A ; - Xác suất P(A) = p không đổi cho mọi phép thử. i) Xác suất để biến cố A xảy ra đúng k lần trong n phép thử là: Pn (k; p)  Pn (k )  Cnk pk qn k ; q  1  p 40


ii) Xác suất để biến cố A xảy ra từ k1 đến k2 lần là: Pn ( k1  k  k 2 )  Pn ( k1 )  Pn ( k1  1)  ....  Pn ( k 2 )

iii) Xác suất để biến cố A xảy ra ít nhất một lần là: Pn (1  k  n)  1  Pn (0)  1  (1  p)n

iv) Số lần A xảy ra có khả năng nhất là số nguyên k0 thỏa mãn: ( n  1) p  1  k 0  ( n  1) p

Chương 2 BIẾN NGẪU NHIÊN 2.1. Khái niệm biến ngẫu nhiên 2.1.1. Khái niệm Khi tiến hành một phép thử ngẫu nhiên, các kết quả của phép thử thường là các đặc trưng định tính (biến cố ngẫu nhiên). Tuy nhiên, trong nhiều phép thử mỗi một kết quả của phép thử thường được gán tương ứng với một giá trị định lượng nào đó. Ví dụ 1: Gieo một con xúc xắc cân đối và đồng chất. Kí hiệu A1, A2, A3, A4, A5, A6 lần lượt là biến cố “mặt 1 chấm xuất hiện”, “mặt 2 chấm xuất hiện”... “mặt 6 chấm xuất hiện”. Thay vì xét các biến cố như trên, ta xét đại lượng X là số chấm xuất hiện khi gieo con xúc xắc. Khi đó X có thể nhận các giá trị 1, 2, 3, 4, 5, 6 một cách ngẫu nhiên. a) Khái niệm:Biến ngẫu nhiên là đại lượng nhận giá trị thực tùy thuộc vào kết quả của phép thử ngẫu nhiên. Ta thường dùng các chữ cái X, Y, Z,... để kí hiệu các biến ngẫu nhiên và các chữ cái thường x, y, z hoặc xi, yi, zi,... để chỉ các giá trị cụ thể mà biến ngẫu nhiên đó nhận. Như vậy, đối với biến ngẫu nhiên người ta chỉ quan tâm xem nó nhận một giá trị nào đó hoặc nhận giá trị trong một khoảng nào đó với xác suất bằng bao nhiêu. b) Ví dụ Ví dụ 2: Gieo đồng thời hai con xúc xắc. Gọi X là tổng số chấm xuất hiện ở 41


hai mặt trên. => X là biến ngẫu nhiên nhận một trong các giá trị: {2,3,4,5,6, ...., 11, 12}. Ví dụ 3: Một người bắn vào bia cho tới khi trúng mục tiêu thì dừng. Gọi Y là số viên đạn cần dùng. => Y là biến ngẫu nhiên nhận các giá trị: 1, 2, 3,..., n,... Ví dụ 4: Gọi Z là thời gian sống của một con chíp điện tử. => Z là biến ngẫu nhiên nhận các giá trị thực 0  Z   . 2.1.2. Phân loại Người ta phân các biến ngẫu nhiên thành hai loại: biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục. - Biến ngẫu nhiên rời rạc là biến ngẫu nhiên mà các giá trị nó có thể nhận là tập hữu hạn hoặc vô hạn đếm được (ví dụ 2, ví dụ 3). - Biến ngẫu nhiên liên tục là biến ngẫu nhiên mà các giá trị của nó có thể nhận là tất cả mọi điểm trong khoảng (a; b) nào đó, a có thể bằng  và b có thể bằng  (ví dụ 4). 2.2. Luật phân phối xác suất 2.2.1. Hàm phân phối xác suất a) Định nghĩa Hàm phân phối xác suất của biến ngẫu nhiên X, ký hiệu F(x), được xác định theo công thức: F(x) = P(X < x),  x  R Như vậy, tại một điểm x bất kỳ, hàm F(x) chính là xác suất để biến ngẫu nhiên nhận giá trị nhỏ hơn x hoặc để biến ngẫu nhiên nhận giá trị bên trái x. b) Tính chất Hàm phân phối của biến ngẫu nhiên có các tính chất sau: 1. 0  F (x)  1. 2. Hàm phân phối là hàm đơn điệu không giảm, nghĩa là nếu x1  x2 thì

F ( x1)  F ( x2 ) . 3. P(a  X  b)  F (b)  F (a) . 4. Hàm phân phối là hàm liên tục bên trái, nghĩa là lim F ( x)  F (a) . xa

42


5. lim F ( x)  0 và lim F ( x)  1 . x

x 

Ví dụ 1: Cho biến ngẫu nhiên liên tục X có hàm phân phối F(x) như sau: F(x) = a + b.arctanx Tìm a và b. Giải:  lim F ( x )  0 Từ điều kiện:  x  lim F ( x )  1  x 

Ta có hệ phương trình: 1    a  a  b  0  lim ( a  b arctan x)  0  x    2 2    lim ( a  b arctan x)  1  x  a  b   1 b  1    2

2.2.2. Bảng phân phối xác suất Giả sử X là biến ngẫu nhiên rời rạc nhận các giá trị có thể xi với xác suất tương ứng là pi (P{X=xi} = pi); pi >0, i = 1, 2... Ta có thể biểu diễn dưới dạng bảng như sau: X

x1

x2

...

xn

...

P

p1

p2

...

pn

...

với  pi  1. i

Bảng trên được gọi là bảng phân phối xác suất (hay phân phối xác suất) của biến ngẫu nhiên X. Ví dụ 2:Gieo một con xúc xắc cân đối và đồng chất. Ký hiệu X là số chấm thu được trên con xúc xắc. a) Tìm phân phối xác suất của X. b) Viết hàm phân phối của X. c) Tìm P(2  X  5); P(2  X  5). Giải: a) Vì X là biến ngẫu nhiên rời rạc nên để tìm phân phối xác suất của X nghĩa là ta phải xây dựng bảng phân phối xác suất. - Các giá trị mà X có thể nhận: X = {1, 2, 3, 4, 5, 6}. 43


- Tìm xác suất để X lần lượt nhận các giá trị trên: P(X = 1) = 1/6; P(X = 2) = 1/6; P(X = 3) = 1/6; P(X = 4) = 1/6; P(X = 5) = 1/6 ; P(X = 6) = 1/6. - Kiểm tra điều kiện P(X = 1) + P(X = 2) + …. + P(X = 6) = 1. Vậy phân phối của X là một bảng có dạng: X

1

2

3

4

5

6

P

1 6

1 6

1 6

1 6

1 6

1 6

b) Tìm hàm phân phối của X dựa vào định nghĩa ở trên: F ( x)  P( X  x)   P( X  xi )   pi xi  x

xi  x

+ Với x < 1 thì F(x) = P(X < x) = P(X < 1) = 0. + Với 1  x  2 thì F(x) = P(X < x) = P(X =1) = 1/6. + Với 2  x  3 thì F(x) = P(X < x) = P(X =1) + P(X = 2) = 2/6. ...... Xét tương tự ta có kết quả sau: 0  1 / 6   2 / 6 F ( x )  3 / 6  4 / 6 5 / 6  1

khi x  1

1 5/6

khi 1  x  2 khi khi khi khi

4/6

2 x3 3 x 4 4 x5 5 x6

3/6 2/6 1/6

1

2

3

4

khi x  6

5

6

c) Cách 1: Sử dụng tính chất của hàm phân phối: P(2  X  5)  F (5)  F (2) 

4 1 3 1    6 6 6 2

P(2  X  5)  P(2  X  5)  P( X  2) 

3 1 2 1    6 6 6 3

Cách 2: Tính trực tiếp từ bảng phân phối: 2  X  5  X  {2, 3, 4}. Vậy P( 2  X  5 ) = P(X=2)+P(X=3)+P(X=4). 2  X  5  X  {3, 4} . Vậy P( 2  X  5 ) = P(X=3)+P(X=4). 44


 Tổng quát: Hàm phân phối xác suất của biến ngẫu nhiên rời rạc có phân phối xác suất pi = P(X = xi), i = 1, 2, ...n được cho bởi công thức: khi x  x1 0 p khi x1  x  x2  1 F ( x)   p1  p2 khi x2  x  x3 ......  khi x  xn 1

Nhận xét:Hàm phân phối của biến ngẫu nhiên rời rạc X là hàm bậc thang, không giảm, gián đoạn tại các điểm có thể có của X, độ lớn của bước nhảy tại xilà pi. 2.2.3. Phân phối xác suất cho biến ngẫu nhiên liên tục Đối với biến ngẫu nhiên liên tục X, xác suất để X nhận một giá trị cụ thể nào đó luôn luôn bằng không: P{X = a} = 0. Thành thử ta quan tâm đến xác suất để X rơi vào một khoảng (a, b) nào đó, chứ không quan tâm tới xác suất để X nhận một giá trị cụ thể như trong trường hợp biến rời rạc. Phân phối xác suất của biến ngẫu nhiên liên tục X được xác định bởi một hàm f(x) gọi là hàm mật độ xác suất. a) Định nghĩa Giả sử X là biến ngẫu nhiên liên tục có hàm phân phối F(x). Nếu hàm F(x) khả vi thì đạo hàm của F(x) được gọi là hàm mật độ xác suất của X, ký hiệu f(x): F ( x)  f ( x) b) Tính chất của hàm mật độ x

i. F(x) =  f (u ) du , x  R. 

ii. f ( x)  0. 

iii.  f ( x )dx  1.  b

iv. P(a  X < b) = F(b) - F(a) =  f ( x )dx. a

Chú ý: b

P(a  X  b) = P(a < X  b) = P(a < X < b) = P(a  X < b) = F(b) - F(a) =  f (x)dx. a

Nhận xét: i) Giá trị của hàm F(x) bằng diện tích hình phẳng giới hạn bởi đồ thị của 45


hàm mật độ f(x), trục hoành và đường thẳng song song với trục tung có hoành độ là x.

ii) Các diện tích dưới đường cong mật độ xác suất là các xác suất: b

P ( a  X  b)  S   f ( x) dx a

Mô tả bằng hình học:

Ví dụ 3: Cho hàm mật độ của biến ngẫu nhiên liên tục X có dạng: 3 2  x f ( x)   8 0

khi x  [0, 2] khi x  [0, 2]

Tìm hàm phân phối của X. Giải: x

x





+ Nếu x <0: F(x) =  f (u ) du   0.du  0. + Nếu 0  x  2 : x 0 x x3 3 3x 3 3 F ( x)   f (u ) du   f (u )du   f (u ) du  0   u 2 du  u |  x 24 0 24   0 08

+ Nếu x > 2:

46


x

0

x

2

F ( x)   f (u ) du   f (u )du   f (u )du   f (u )du  1 

0  3 Vậy F( x)   x3  24 1



0

2

khi x  0 khi 0  x  2 khi x  2

Ví dụ 4: Cho hàm mật độ của biến ngẫu nhiên liên tục X có dạng: 1  f ( x)   x 2 0 

khi x  1 khi x  1

Tìm hàm phân phối của X. Giải: x

x





+ Nếu x < 1: F(x) =  f (u ) du   0.du  0. + Nếu x  1: x

x

1

x

1 1 x 1 du   |1x    1  u x x 1u

F ( x)   f (u ) du   f (u ) du   f (u ) du  0   

 x 1  Vậy F( x)   x 0 



1

khi x  1

1

2

.

khi x  1

Ví dụ 5: Cho hàm phân phối của biến ngẫu nhiên liên tục X như sau: F ( x)  a 

1

cosx; x  R

Tìm hàm mật độ của X. Giải: 1

Từ định nghĩa ta có: f(x) = F’(x) =  sin x; x  R   Một số phân phối xác suất phổ biến đối với biến ngẫu nhiên liên tục: 1. Phân phối đều: Hàm mật độ xác suất của phân phối đều:

47


 1  f ( x)   b  a 0 

khi x   a, b  khi x   a, b 

2. Phân phối chuẩn: Hàm mật độ xác suất của phân phối chuẩn: f ( x) 

1 e  2

( x  a )2 2 2

2.3. Các số đặc trưng của biến ngẫu nhiên Đối với một biến ngẫu nhiên nếu đã xác định được luật phân phối xác suất của nó thì xem như ta đã nắm được toàn bộ thông tin về biến ngẫu nhiên đó. Tuy nhiên trong thực tế, nhiều bài toán chỉ cần đòi hỏi khảo sát những đặc trưng cơ bản của biến ngẫu nhiên. Các tham số đặc trưng của biến ngẫu nhiên được phân loại như sau: - Các tham số đặc trưng cho vị trí trung tâm, giá trị trung bình của biến ngẫu nhiên: kỳ vọng toán (expected value), trung vị (median), mốt (mode)...; - Các tham số đặc trưng cho độ phân tán của biến ngẫu nhiên: phương sai, độ lệch chuẩn, hệ số biến thiên, giá trị tới hạn, mômen (moment)...; - Các tham số đặc trưng cho dạng phân phối xác suất; hệ số bất đối xứng (skewness), hệ số nhọn (kurtosis)... 2.3.1. Kỳ vọng toán a) Định nghĩa 1 (Kỳ vọng của biến ngẫu nhiên rời rạc) Giả sử phân phối xác suất của biến ngẫu nhiên X là: X

x1

x2

...

xn …

P

p1

p2

...

pn …

Nếu tổng  xi pi   , khi đó kỳ vọng toán của biến ngẫu nhiên X, ký i 1

hiệu là E(X) được định nghĩa như sau: 48


E ( X )   xi pi i 1

Ví dụ 1: Cho biến ngẫu nhiên X với phân phối xác suất: X

-1

1

P

1 4

3 4

Giải: 1 3 1 E ( X )  (1)  1.  4 4 2

Ví dụ 2: Chọn ngẫu nhiên 3 viên bi từ 1 túi có 6 bi đen và 4 bi trắng. Gọi X là số bi trắng trong 3 bi vừa chọn. Tìm bảng phân bố của X và tính kỳ vọng của X. Giải: Từ giả thiết, ta dễ dàng tính được bảng phân bố xác suất của X như sau: 0

X P

C63C40 3 C10

1 

C62C41

5 30

3 C10

2 

15 30

C61C42 3 C10

3 

9 30

C60C43 3 C10

1 30

Khi đó: E ( X )  0.

5 15 9 1  1.  2.  3.  1, 2 30 30 30 30

b) Định nghĩa 2 (Kỳ vọng của biến ngẫu nhiên liên tục) 

Biến ngẫu nhiên liên tục X có hàm mật độ là f(x) và nếu  x f ( x ) dx   thì 

kỳ vọng toán của biến ngẫu nhiên X, ký hiệu là E(X) được định nghĩa như sau: 

E ( X )   x f ( x) dx 

Ví dụ 3: Tuổi thọ của 1 loài côn trùng nào đó là một biến ngẫu nhiên X có hàm mật độ như sau: 2  f ( x)   x3 0 

khi x  [1, 4] khi x  [1, 4]

49


Tìm kỳ vọng của biến ngẫu nhiên X. Giải: Ta có: 

1

4



4

E ( X )   xf ( x)dx   xf ( x)dx   xf ( x)dx   xf ( x)dx  0   x.  4

2



1

4

1

2 x3

dx  0

4

2 3   2 dx   x 1 2 1x

c) Ý nghĩa của kỳ vọng toán Kỳ vọng của một biến ngẫu nhiên là giá trị trung bình (theo nghĩa xác suất) mà biến ngẫu nhiên đó nhận. Nó phản ánh giá trị trung tâm của phân phối xác suất với khối lượng 1.Chính vì vậy mà người ta hay dùng kỳ vọng để xác định vị trí của phân phối. Khái niệm kỳ vọng được áp dụng rộng rãi trong nhiều lĩnh vực. Trong kinh doanh và quản lý, kỳ vọng được ứng dụng dưới dạng lợi nhuận kỳ vọng hay doanh số kỳ vọng. d) Tính chất của kỳ vọng 1. E(C) = C với mọi hằng số C. 2. E(CX) = CE(X) với mọi hằng số C. 3. E(X + Y) = E(X) + E(Y); E(X – Y) = E(X) – E(Y). 4. E(X  C) = E(X)  C. 5. Nếu X và Y là hai biến ngẫu nhiên độc lập và E(X), E(Y) tồn tại thì: E(XY) = E(X).E(Y) 6. Nếu Y  ( X ) , với ( X ) là một hàm số xác định nào đó, khi đó E(Y) được xác định theo các trường hợp sau: - Nếu X là biến ngẫu nhiên rời rạc thì: E (Y )    (x i ) pi i

- Nếu X là biến ngẫu nhiên liên tục và có hàm mật độ f(x) thì: 

E (Y )    (x) f(x) dx 

2.3.2. Phương sai a) Định nghĩa Phương sai của biến ngẫu nhiên X, ký hiệu là D(X) được xác định bởi công thức: 50


D( X )  E ( X  EX) 2 Hay:

D ( X )  E ( X 2 )  (EX)2 Phương sai hay độ lệch bình phương trung bình của biến ngẫu nhiên X là đại lượng đo sự phân tán bình phương trung bình của X xung quanh giá trị trung bình E(X). Đại lượng   D ( X ) được gọi là độ lệch tiêu chuẩn (hay sai tiêu chuẩn). Ví dụ 4: Tính phương sai của biến ngẫu nhiên X cho trong ví dụ 2. Ta có: E ( X 2 )  02.

5 15 9 1  12.  22.  32.  2 30 30 30 30

D(X) = E(X2) – (EX)2 = 2 – 1,22 = 0,56 Ví dụ 5:Tính phương sai của biến ngẫu nhiên X cho trong ví dụ 3. 

1

4



4

2

1

x3

E ( X 2 )   x 2 f ( x)dx   x 2 f ( x)dx   x 2 f ( x) dx   x 2 f ( x)dx  0   x 2 .  42



1

4

dx 0

4

  dx  2ln x  2ln 4  4ln 2 1 1x

 3 D( X )  E ( X 2 )  E 2 ( X )  4ln 2     2

2

Ví dụ 6: Cho hai biến ngẫu nhiên X, Y độc lập và có phân phối tương ứng là: X

0

1

P

0,5

0,5

Y P

-2 1/6

0 2/3

2 1/6

Tính D(X), D(Y), E(XY), D(X + Y). Giải: E(X) = 0  0,5 + 1  0,5 = 0,5 E(X2) = 02  0,5 + 12  0,5 = 0,5 D(X) = E(X2) - (EX)2 = 0,25 Tương tự:E(Y) = 0; E(Y2) = 4/3; D(Y) = 4/3. Vì X và Y độc lập nên E(XY) = E(X). E(Y)=0,5  0 = 0. 51


D( X  Y )  D( X )  D(Y ) 

1 4 19   . 4 3 12

b) Ý nghĩa của phương sai Phương sai của biến ngẫu nhiên X là một số không âm dùng để đo mức độ phântán (mức độ tản mát) của các giá trị của biến ngẫu nhiên X xung quanh tâm E(X) của nó. D(X) nhỏ thì mức độ phân tán nhỏ, độ tập trung lớn. D(X) càng lớn thì độ phân tán càng cao. Trong kỹ thuật phương sai đặc trưng cho mức độ phân tán của các chi tiết gia cônghay sai số của thiết bị. Trong quản lý và kinh doanh thì phương sai đặc trưng cho mức độ rủi ro của các quyết định. c) Tính chất của phương sai 1. D(C) = 0 với mọi hằng số C. 2. D(CX) = C2D(X) với mọi hằng số C. 3. Nếu X và Y là 2 biến ngẫu nhiên độc lập và có D(X), D(Y) thì: D(X±Y) = D(X) + D(Y) Chú ý: 1. D ( X )   ( xi  EX )2 pi nếu X có phân phối rời rạc. i



2. D ( X )   ( x  E ( X )) 2 f ( x ) dx nếu X có phân phối liên tục với hàm mật 

độ f(x). 2.3.3. Một số đặc trưng khác a) Mod Ký hiệu: xmod Định nghĩa: Mode (Mốt) của biến ngẫu nhiên X là giá trị mà biến ngẫu nhiên X nhận với xác suất lớn nhất. Cụ thể: - Nếu X là biến ngẫu nhiên rời rạc thì xmod là giá trị của X mà tại đó xác suất P(X=Xmod) là lớn nhất. Nghĩa là: X có phân bố: X

x1

x2

...

xn..

P

p1

p2

...

pn...

Thì x0 = xmod  p(X=x0) = max{p1, p2,...} - Nếu X là biến ngẫu nhiên liên tục thì xmod là giá trị mà tại đó hàm mật độ 52


xác suất của X đạt cực đại. Nghĩa là: X có hàm mật độ là f(x) thì c = xmod  f(c) = max{f(x) : x  R}. * Chú ý: Một biến ngẫu nhiên không phải chỉ có duy nhất một Mod. b) Trung vị (Median) Định nghĩa: Trung vị của biến ngẫu nhiên X, ký hiệu là xMe là số thỏa mãn: P(X  xMe ) 

1  P(X  xMe ) 2

 Nếu X là biến ngẫu nhiên liên tục và hàm phân phối xác suất F(x) liên tục thì xMe là nghiệm của phương trình F(x) = 1/2.  Nếu X là biến ngẫu nhiên rời rạc có bảng phân phối: X

x1

x2

...

xn..

P

p1

p2

...

pn...

thì xMe được xác định như sau: Tính Ti = p1 + p2 + ... + pi. xMe

  x0 , x0   xi , xi 1   x  i 1

1  Ti 1 2 1 khiTi   Ti 1 2 khiTi 

Nhận xét: Trung vị là điểm phân chia phân phối xác suất thành hai phần bằng nhau. Ví dụ 1: Tìm trung vị và Mod của biến ngẫu nhiên rời rạc có bảng phân bố xác suất như sau: X

20

21

22

23

24

P

0,3

0,25

0,18

0,14

0,13

Dễ thấy xMod = 20 (Vì P(X=20) = 0,3 là lớn nhất). Để tìm xMe, ta tính: T1 = p1 = 0,3; T2 = p1 + p2 = 0,55 >1/2. Vậy xMe = x2 = 21. Ví dụ 2: Tìm trung vị và Mod của biến ngẫu nhiên liên tục có hàm phân phối. 0 khi x  0  F ( x)   x 2 khi 0  x  1 1 khi x  1  53


xMe là nghiệm của phương trình F(x)=1/2  x2 = ½ với 0  x  1 . Vậy x =

1 1 (vì 0  x  1 nên loại nghiệm x = - ). 2 2

xMod là giá trị mà tại đó f(x) đạt lớn nhất. Ta cần tìm hàm mật độ f(x) từ F(x). 0 khi x  0  F ( x)   x 2 khi 0  x  1  f ( x)  1 khi x  1 

 2 x khi x   0,1  0 khi x   0,1

Vậy f(x) đạt max tại x = 1 hay xMod = 1. Ví dụ 3: Tìm trung vị và Mod của biến ngẫu nhiên liên tục có hàm mật độ: 0 khi x   0,1 f( x)    2 khi x   0,1

Ta thấy ngay xmod= 1. Để tìm xme ta cần xây dựng hàm phân phối F(x). khi x  0 khi x  0 0 0 x x   F( x )    2 du khi x   0,1  F( x )    2 du khi x   0,1   0 1 1 khi x  1 khi x  1

0 khi x  0   F( x )  2 x khi x   0,1 1 khi x  1 

F(xme) = 1/2 tương đương với 2xme = 1/2 hay xme = ¼. c) Hệ số bất đối xứng Nếu biến ngẫu nhiên X có kỳ vọng  , phương sai  2 thì tỷ số E (X   )3    được gọi là hệ số bất đối xứng. 3

d) Hệ số nhọn Nếu biến ngẫu nhiên X có kỳ vọng  , phương sai  2 thì tỷ số E  (X   ) 4     3 được gọi là hệ số nhọn. 4

54


2.4. Một vài quy luật phân phối xác suất thường gặp 2.4.1. Phân phối chuẩn a) Định nghĩa phân phối chuẩn: Biến ngẫu nhiên X được gọi là có phân phối chuẩn với hai tham số µ và  2 nếu hàm mật độ của nó có dạng: f ( x) 

1 e  2

(   a )2 2 2

, xR

Ký hiệu: X N(µ;  2 ) hoặc X N(µ;  2 ).  Đồ thị của hàm f(x): - Đồ thị của hàm f(x) là đường cong hình chuông đối xứng qua đường x = µ và đạt giá trị cực đại tại điểm x = µ. Vì vậy giá trị Mod(X)= µ. - Tiệm cận với trục hoành khi x   . - Diện tích giới hạn bởi đồ thị và trục hoành bằng 1.

2 2  Kỳ vọng và phương sai: Nếu X N(µ;  ) thì E(X) = a và D(X) =  .

DX   được gọi là độ lệch chuẩn. Phân phối chuẩn chiếm vị trí quan trọng trong lý thuyết xác suất, là vị trí trung tâm trong các kết luận thống kê sau này. Trong thực tế có nhiều biến ngẫu nhiên tuân theo quy luật chuẩn hoặc tiệm cận chuẩn chẳng hạn như trọng lượng, chiều cao của một nhóm người nào đó, điểm thi của các thí sinh, lực chịu đựng của một thanh sắt, các sai số đo đạc, độ bền dẻo của máy móc, khối lượng, kích thước của các sản phẩm, năng suất cây giống, mức lãi suất của công ty, nhu cầu 55


tiêu thụ của một mặt hàng nào đó… b) Phân phối chuẩn tắc Nếu X N(µ;  2 ), ta đổi biến Z 

X 

.  Khi đó Z có phân phối chuẩn N(0,1) với kỳ vọng bằng 0 và phương sai bằng 1 gọi là có phân phối chuẩn tắc (hay phân phối tiêu chuẩn). Phép đổi biển Z 

X 

được gọi là phép chuẩn hóa.  Hàm mật độ của biến ngẫu nhiên có phân phối chuẩn tắc là:  ( x) 

1  e 2

x2 2

1 x  Hàm phân phối của N(0,1) là: ( x)   e 2 

u2 2 du,

xR.

Đồ thị của hàm mật độ của phân phối chuẩn tắc N(0,1) như sau:

Người ta đã xây dựng sẵn bảng các giá trị của hàm (x) và ( x) . Trong các bài tập cần lưu ý đưa về phân phối chuẩn tắc để tính toán. Tính xác suất theo phân phối chuẩn: 1. (x)  1 ( x), x R. 2. Nếu Z  N(0;1) thì: P(Z   )  ( ) P(Z   )  1  ( ) P(  Z   )  ( )  ( ) 3. Nếu X N(µ;  2 ), với µ và  2 đã biết. Tìm P(   X   ) ta đổi biến Z  56

X 

, Khi đó Z có phân phối chuẩn


dạng N(0,1) nên: P(  X   )  P(

  X             )                

    X         P( X   )  P     PZ                    P( X   )  1  P  X     1       

Từ công thức trên, suy ra xác suất của sự sai lệch giữa biến ngẫu nhiên có phân phối chuẩn N(a;  2 ) và kỳ vọng µ của nó được xác định như sau:  P | X   |    2  

  1 

Nếu chọn  =  thì P(|X - µ| <) = 2(1) – 1 = 0,6826. Nếu chọn  = 2 thì P(|X - µ| <) = 2(2) – 1 = 0,9546. Nếu chọn  = 3 thì P(|X - µ| <) = 2(3) – 1 = 0,9974. Quy tắc 2: Nếu biến ngẫu nhiên X có phân phối chuẩn với hai tham số µ và  2 thì có đến 95,46% giá trị của X sẽ nằm trong khoảng (µ - 2 ; µ + 2). Quy tắc 3: Nếu biến ngẫu nhiên X có phân phối chuẩn với hai tham số µ và  2 thì hầu như chắc chắn X nhận các giá trị trong khoảng (µ - 3 ; µ + 3). Ví dụ 1: Giả sử X có phân phối chuẩn N(2100;2002). Tính: a) P(X > 2400). b) P(1700 < X < 2200). c) Xác định a để P( X > a) = 0,03. Giải: Từ giả thiết ta có µ = 2100 và   200 . a) P(X  2400)  1  (

2400  2100 )  1  (1,5)  1  0,9332  0,0668 200

b) P(1700  X  2200)  (

2200  2100 1700  2100 )  ( )  (0,5)  (2)  0,6688 200 200

57


c) P(X  a)  1  (

a  2100 a  2100 )  0,03  ( )  0,97 200 200

Tra bảng ta được (1,881)  0,97 

a  2100  1,881  a  2476, 2 . 200

Ví dụ 2: Chiều cao của phụ nữ Việt Nam là biến ngẫu nhiên có phân phối chuẩn N(155; 2,52). Tính tỷ lệ phụ nữ có chiều cao trên 160cm. Giải: Gọi X là chiều cao của phụ nữ Việt Nam. 160  155 P ( X  160)  1  P ( X  160)  1   ( )  0, 228 2,5

Vậy tỷ lệ phụ nữ Việt Nam có chiều cao trên 160cm là 22,8%. 2.4.2. Phân phối nhị thức a) Định nghĩa: Biến ngẫu nhiên X được gọi là có phân phối nhị thức với tham số (n, p) (trong đó n  N và 0 <p< 1) nếu: P ( X  k )  C nk p k q n  k ; q  1  p , k  0 , ..., n .

Kí hiệu: X  B(n; p) . Nhận xét: Chúng ta đã xét dãy phép thử độc lập và công thức Bernoulli. Nếu thực hiện n phép thử độc lập, trong mỗi phép thử biến cố A xuất hiện với xác suất p không đổi thì biến ngẫu nhiên X chỉ số lần xuất hiện biến cố A trong n phép thử có phân phối nhị thức.

58


Một số công thức tính xác suất của phân phối nhị thức: P ( X  k )  C nk p k q n  k

là xác suất để biến cố A xảy ra đúng k lần.

P ( X  1)  1  q n là xác suất để biến cố A xảy ra ít nhất một lần. k2

P ( k1  X  k 2 )   P ( X  k ) là xác suất để biến cố A xảy ra từ k1 đến k2 lần. k  k1

Ví dụ 3: Bắn 5 phát súng độc lập vào 1 bia, xác suất trúng của mỗi phát là 0,8. Tính các xác suất sau: a) Có đúng 3 phát trúng. b) Có từ 3 phát trúng trở lên. c) Có ít nhất một phát trúng. Giải: Gọi X là số viên đạn trúng bia, X có phân phối nhị thức B(5;0,8). a) P ( X  3)  C 53 p 3 q 2  C 53 (0, 8) 3 (0, 2) 2 b) P(3  X  5)  P(X  3)  P(X  4)  P(X  5) c) P ( X  1)  1  P (X  1)  1  P(X  0)  1  (0, 2)5 b) Kỳ vọng, phương sai, mod Nếu X  B(n,p) thì E(X) = np; DX = np(1-p)=npq. Số có khả năng nhất: - Nếu np+p-1 là số nguyên thì modX = np+p-1 và np +p; 59


- Nếu np+p-1 là số thập phân thì modX chính là phần nguyên của np+p-1. c) Xấp xỉ phân phối nhị thức bằng phân phối chuẩn Phân phối nhị thức là một phân phối rời rạc có đồ thị là các đường thẳng gấp khúc như hình trên. Phân phối chuẩn sẽ là một xấp xỉ tốt đối với phân phối nhị thức khi các số liệu của phân phối nhị thức tạo nên một đường gấp khúc có hình dáng gần giống với một quả chuông (dáng đồ thị của phân phối chuẩn). Giả sử X  B(n,p). Khi n lớn và p không quá gần 0 hoặc 1, X có phân phối xấp xỉ chuẩn N(np;npq). P( X  k ) 

 k  np  1    npq  npq 

 k  np  P( X  k )     npq     k  np   k  np  P ( k1  X  k2 )    2   1   npq   npq     

Nhận xét:Người ta thấy rằng xấp xỉ là tốt khi np và nq lớn hơn 5 hoặc khi npq lớn hơn 20. Ví dụ 4: Gieo 3200 lần một đồng xu cân đối và đồng chất. Gọi X là số lần xuất hiện mặt sấp trong 3200 lần gieo đó. a) Tìm số lần xuất hiện mặt sấp có khả năng nhất. Tính xác suất tương ứng. b) Tính xác suất P (5 2  1600  X  10 2  1600) .

Giải: Gọi A là biến cố xuất hiện mặt sấp khi gieo 1 lần một đồng xu cân đối và đồng chất: P(A) = 0,5 = p = 1-p. Theo giả thiết n = 3200 nên (n + 1)p – 1 = 1599,5 => Số lần xuất hiện mặt sấp có khả năng nhất là 1600 với xác suất tương ứng: 1600

1600

Cách 1: Dùng phân phối nhị thức P(X  1600)  C3200 .(0,5) Cách 2: Dùng xấp xỉ phân phối chuẩn.

60

.(0,5)1600 .


P (X  1600)  

1 1600  3200.0,5 1 ( ) . (0) 3200.0,5.0,5 3200.0,5.0,5 3200.0,5.0,5

0,39894  0,014 20 2

 1600  10 2  3200.0,5   1600  5 2  3200.0,5  P(5 2  1600  X  1600  10 2)        3200.0,5.0,5 3200.0,5.0,5      (0,5)  (0,25)  0,6915  0,5987  0,0928

2.4.3. Phân phối Poisson a) Định nghĩa Biến ngẫu nhiên X được gọi là có phân phối Poisson với tham số  >0 nếu X nhận các giá trị nguyên không âm 0, 1, 2... với xác suất tương ứng: P( X  k )  e



k k!

; ( k  0, 1, 2...)

Kí hiệu: P(). b) Kỳ vọng, phương sai Nếu X  P() thì E(X) =  ; D(X) =  ; Mod (X)=  . Trong thực tế, với một số giả thiết thích hợp thì các biến ngẫu nhiên Poisson là các quá trình đếm sau: - Số cuộc gọi đến một tổng đài; - Số khách hàng đến một điểm giao dịch; - Số xe cộ đi qua một ngã tư... Trong một khoảng thời gian xác định nào đó sẽ có phân phối Poisson với tham số  là tốc độ trung bình diễn ra trong khoảng thời gian này. Ví dụ 5: Ở một tổng đài điện thoại, các cuộc gọi đến một cách ngẫu nhiên, độc lập và trung bình có 2 cuộc gọi trong 1 phút. Cho trước X là số cuộc gọi đến tổng đài trong khoảng thời gian t phút là biến ngẫu nhiên có phân phối Poisson. Tìm xác suất để có đúng 5 cuộc gọi đến trong 2 phút (Đặt là biến cố A). Giải: Theo giả thiết trung bình có 2 cuộc gọi trong 1 phút vậy trong 2 phút trung bình có 4 cuộc gọi. Lúc này số cuộc gọi X trong 2 phút là biến ngẫu nhiên có 61


phân phối Poisson với tham số  =4. Ta cần tính P(X=5). Áp dụng công thức: P( X  k )  e



k k!

với k =5 và  = 4 ta được P ( X  5)  e

4

45  0,156 5!

2.4.4. Phân phối khi bình phương Định nghĩa: Biến ngẫu nhiên X được gọi là có phân phối khi bình phương (  2 ) với n bậc tự do nếu hàm mật độ của nó có dạng:

1  n /2 1  x /2 e khi x  0  2n /2 (n / 2) x f ( x)   .  khi x  0 0

Trong đó: Hàm gamma là hàm thuộc lớp các hàm đặc biệt và được định nghĩa như sau: 

(u )   e x xu 1dx, (u  1)  u(u ) 0

(1)  1; (1 / 2)   .

Kí hiệu: X   2 Định lý: Nếu X1, X2, …, Xnlà các biến ngẫu nhiên độc lập có cùng phân phối chuẩn tắc N(0,1) thì: n

2 2 2 2 2  Xi  X1  X 2  ...  X n  n

i 1

Phân phối  2 do Karl Pearson đưa ra.

Giá trị tới hạn khi bình phương n bậc tự do mức  ,với   (0, 1) kí hiệu 62


2 2  2 ( n ) được định nghĩa như sau: P (    (n))   .

Bảng các giá trị tới hạn 2 ( n ) được tính sẵn. 2.4.5. Phân phối Student Định nghĩa:Biến ngẫu nhiên T được gọi là có phân phối Student với n bậc tự do nếu hàm mật độ của nó có dạng: n 1  n 1    t 2  2  2  1 f(t )  , tR   n  n   n / 2 

Định lý: Nếu X, X1, X2…, Xn là các biến ngẫu nhiên độc lập có phân phối N(0,1) thì T 

X 1 n 2  Xi n i 1

có phân phối Student với n bậc tự do.

Hoặc phát biểu: Nếu Z  N(0,1) và V   n2 và Z và V độc lập thì T

Z  T (n) . V /n

Giả sử biến ngẫu nhiên T có bậc tự do k cho trước, với   (0, 1) , ta tìm được hằng số tn () , tn ( / 2) thỏa mãn:

P(T  t n ( ))   P(| T | t n ( / 2))  

k  20;   0,05; t20(0,05) 1,725; t20(0,025)  2,086 Bảng các giá trị tới hạn tn () đã được tính sẵn. Nhận xét: Hàm mật độ là hàm chẵn nên đồ thị đối xứng qua trục tung. Khi 63


số bậc tự do tăng lên, phân phối Student hội tụ rất nhanh về phân bố chuẩn tắc N(0,1). Do đó khi n đủ lớn (n  30) có thể dùng phân bố chuẩn tắc thay cho phân phối Student. Tuy nhiên khi n nhỏ (n < 30) việc thay thế như trên sẽ gặp sai số lớn. 2.4.6. Phân phối Fisher (Phân phối F) Định nghĩa: Biến ngẫu nhiên F được gọi là có phân phối Fisher với (n1, n2) bậc tự do nếu hàm mật độ của nó có dạng:   n1  n2  n n    2  n1 n2 n1 1  1 2   2 2 2  n1 n1 u ( n2  n1u ) 2 khi u  0 n n f (u )     1    2    2   2   khi u  0 0

Định lý: Nếu (X1, X2,…, Xm) và (Y1, Y2,…, Yn) là các biến ngẫu nhiên độc m

n  X i2

lập có phân phối N(0,1) thì F 

i 1 n

m  Yi

có phân phối Fisher với (n,m) bậc tự do. 2

i 1

Tính xác suất theo phân phối Fisher: Giả sử biến ngẫu nhiên F có bậc tự do (k1, k2) cho trước, với   0, 01 hoặc 0,05 ta tìm được (bằng cách tra bảng) hằng số F thỏa mãn: P(F> F ) = . 2.5.Sơ lược về biến ngẫu nhiên hai chiều (Đọc thêm) Trong nhiều bài toán thực tế chúng ta phải xét một cách đồng thời một hệ gồm n biến ngẫu nhiên X1, X2, …, Xn. Khi đó về mặt toán học ta có thể coi hệ 

này là một biến ngẫu nhiên n - chiều X  ( X 1 , X 2 ,..., X n ) hay còn gọi là một véc tơ ngẫu nhiên n – chiều với các thành phần X1, X 2 ,..., X n . Tuy nhiên, trong nội dung này chúng ta chỉ xét biến ngẫu nhiên hai chiều hay còn gọi là véc tơ ngẫu nhiên (X, Y). 2.5.1. Phân phối đồng thời Bảng phân phối xác suất của biến ngẫu nhiên hai chiều rời rạc X và Y có dạng sau: (được gọi là bảng phân bố xác suất đồng thời của X và Y). Y X x1

y1

y2

yj

...

yn

p11

p12

p1j

p1n

64


x2

P21

P22

p2j

p2n

pi1

pi2

pij

pin

pm1

pm2

pmj

pmn

… xi … xm

Chú ý rằng   pij  1 . Trong đó pij  P{X  xi , Y  y j }; i  1,..., m; j  1,..., n. Ví dụ 1: Gieo 3 đồng xu cân đối và đồng chất A, B, C. Gọi X là số mặt ngửa của đồng xu A và B. Y là số mặt ngửa của cả ba đồng xu A, B và C. Hãy lập bảng phân phối xác suất đồng thời của X và Y. Giải: Ta có X(Ω) = {0, 1, 2} và Y(Ω) = {0, 1, 2, 3}. Chúng ta có 8 kết quả đồng khả năng của việc gieo 3 đồng xu và giá trị của X và Y tương ứng với mỗi kết quả đó: A N N N N S S S S

B N N S S N N S S

C N S N S N S N S

X 2 2 1 1 1 1 0 0

Y 3 2 2 1 1 2 1 0

Vậy bảng phân bố xác suất đồng thời của X và Y là: Y

0

1

2

3

0

1/8

1/8

0

0

1

0

2/8

2/8

0

2

0

0

1/8

1/8

X

Nếu biết phân bố đồng thời của X và Y ta có thể tìm được phân bố của X và Y. Thật vậy: 65


n

n

j 1

j 1

m

m

i 1

i 1

P ( X  xi )   P{X  xi , Y  y j }   pij

P(Y  y j )   P{X  xi , Y  y j }   pij

Như vậy cộng các dòng trong bảng ta được phân bố xác suất của X (được gọi là quy luật biên duyên của X) và cộng các cột trong bảng ta được phân bố xác suất của Y (được gọi là quy luật biên duyên của Y). Chẳng hạn trong ví dụ trên ta có phân bố xác suất của X là: 0 1 2 X 2 8

P

4 8

Cộng các cột ta có phân bố xác suất của Y là: 0 1 Y P

1 8

3 8

2 8

2

3

3 8

1 8

Hàm phân bố biến ngẫu nhiên hai chiều (X, Y) được xác định bởi: F ( x, y )  P{X  x, Y  y}

Hàm mật độ. Nếu hàm phân phối F(x, y) liên tục và có đạo hàm chéo cấp hai liên tục thì hàm: f ( x , y ) 

 2 F ( x, y ) được gọi là hàm mật độ đồng thời của  x y

véc tơ ngẫu nhiên (X, Y). Xác suất để véc tơ ngẫu nhiên (X, Y) thuộc vào miền D được tính bằng tích phân kép  f ( x, y)dxdy. D

Trong phạm vi của bài giảng chúng ta không đi sâu vào chi tiết vấn đề này. 2.5.2. Phân phối có điều kiện Xét biến ngẫu nhiên hai chiều (X, Y). Nếu ở kết quả của phép thử Y lấy giá trị yj thì xác suất để X lấy giá trị xi (khi Y = yj) được gọi là xác suất có điều kiện P{xi | y j } . Tương tự, nếu ở kết quả của phép thử X lấy giá trị xi thì xác suất để Y

lấy giá trị yj (khi X = xi) được gọi là xác suất có điều kiện P{ y j | xi } . Theo công thức nhân xác suất ta có: P{xi | y j } 

P{X=xi , Y  y j } P{Y  y j }

pij p j 66


P{ y j | xi } 

P{X=xi , Y  y j } P{X  xi }

pij pi 

Nếu (X, Y) là véc tơ ngẫu nhiên liên tục có hàm mật độ f(x, y) thì quy luật có điều kiện của X biết Y = y và quy luật có điều kiện của Y khi biết X = x được xác định bởi các hàm mật độ: g ( x | y) 

f ( x, y ) f ( x, y ) ; h( y | x)  f2 ( y) f1 ( x )

Trong đó: f1( x), f2 ( y) là các hàm mật độ biên duyên của X và Y. Hai biến ngẫu nhiên độc lập. Hai biến ngẫu nhiên X và Y là độc lập nếu luật phân phối có điều kiện của một biến bằng luật phân phối không điều kiện của nó. P{ xi | y j }  P (X = xi )

Tương tự P{ y j | xi }  P (Y = y j ). Như vậy nếu X và Y độc lập ta có pij  pi  p j . Với cặp (X, Y) liên tục thì: f ( x, y)  f1( x). f2 ( y) . 2.5.3. Kỳ vọng có điều kiện Kỳ vọng có điều kiện của biến ngẫu nhiên rời rạc Y với điều kiện X = xi được xác định bởi: E(Y | X  xi )   y j P( y j | xi ) j

Nếu Y là biến ngẫu nhiên liên tục thì: 

E (Y | X  xi )   yh( y | x) dy 

Ví dụ 2: Với bảng phân phối xác suất: Y

y1 = 0

y2 = 1

y3 = 2

y4 = 3

pi 

x1 = 0 x2 = 1 x3 = 2

1/8 0 0

1/8 2/8 0

0 2/8 1/8

0 0 1/8

1/4 1/2 1/4

p j

1/8

3/8

3/8

1/8

X

Thì: 67


P{Y  y1 | X  x1} 

p11 1 1 1  :  p1 8 4 2

P{Y  y2 | X  x1} 

p12 1 1 1  :  p1 8 4 2

P{Y  y3 | X  x1} 

p13 1  0:  0 p1 4

P{Y  y4 | X  x1} 

p14 1  0:  0 p1 4

1 1 1 E{Y | X  x1}  0.  1.  2.0  3.0  2 2 2

BÀI TẬP Bài1: Trong một lô hàng gồm 10 sản phẩm trong đó có 7 sản phẩm loại A và 3 sản phẩm loại B. Lấy ngẫu nhiên cùng một lúc 3 sản phẩm để kiểm tra chất lượng. Gọi X là số sản phẩm loại A gặp khi kiểm tra. Tìm phân phối xác suất của X. Bài2: Bắn ba viên đạn vào một mục tiêu một cách độc lập. Xác suất trúng đích của từng viên lần lượt là 0,6; 0,4 và 0,5. Gọi X là số viên đạn không trúng mục tiêu. Tìm phân phối xác suất của X. Bài3:Giả sử chiều cao X của trẻ em có phân phối chuẩn N(1,3; 0,01). Tính 68


xác suất để trẻ em có chiều cao nằm trong khoảng (1,2; 1,4). Bài4:Chiều cao của một loại cây gỗ đến tuổi khai thác là một biến ngẫu nhiên liên tục X có phân phối chuẩn với chiều cao trung bình là 20m và độ lệch chuẩn là 2,5 m. Cây đạt tiêu chuẩn khai thác là cây có chiều cao tối thiểu là 15m. Hãy tính tỷ lệ cây đạt tiêu chuẩn khai thác. Bài5:Cho biến ngẫu nhiên liên tục X có hàm mật độ: 1   a  x 1 x  2 3 f ( x)   0 x  [1; 2] 

a) Chứng minh a =

1 . 2

b) Tìm P(X > 1,8). c) Tính E(X). Bài6: Cho biến ngẫu nhiên X có hàm mật độ:  kx f ( x)   0

khi x  [ 0; 5] khi x  [ 0; 5]

a) Chứng minh k = 2/25. b) Tìm hàm phân phối xác suất của X. c) Chứng minh các xác suất để X thuộc các khoảng 1 < X ≤ 2; 2 < X ≤ 3; 3 < X ≤ 4; 4 < X ≤ 5 có tỷ lệ 3:5:7:9. Bài7:Cho biến ngẫu nhiên X có hàm mật độ xác suất:  a (3 x - x 2 ) khi x  [0; 3] f ( x)   khi x  [0; 3] 0

a) Tìm hệ số a. b) Vẽ đồ thị hàm mật độ f(x). c) Tìm xác suất để X thuộc vào khoảng (1, 2). Bài8:Cho biến ngẫu nhiên X có hàm mật độ: 1  khi x  (-a; a)  f ( x)   a 2  x 2 0 khi x  (-a; a) 

Tìm E(X), D(X). a) Viết bảng phân phối của X. 69


b) Tìm hàm phân phối xác suất F(x). Bài9:Biến ngẫu nhiên X có hàm phân phối:   x2  F ( x)  1  e 2 2 khi x  0  khi x  0 0

Tìm hàm mật độ xác suất, Median, Mốt. Bài10:Cho f ( x) 

a

, x  (-,  ) 1  x2 a) Tìm a để f(x) là hàm mật độ.

b) Tìm P(0<X<1). c) Tìm hàm phân phối xác suất F(x).

70


Chương 3 MẪU THỐNG KÊ VÀ THỐNG KÊ MÔ TẢ 3.1. Một vài khái niệm cơ bản Thống kê toán là bộ môn toán học nghiên cứu quy luật của các hiện tượng ngẫu nhiên có tính chất số lớn trên cơ sở thu thập và xử lý số liệu thống kê các kết quả quan sát về những hiện tượng ngẫu nhiên này. Nếu ta thu thập được tất cả số liệu liên quan đến đối tượng cần nghiên cứu thì ta có thể biết được đối tượng này. Tuy nhiên, trong thực tế điều đó không thể thực hiện được vì những khó khăn chính sau: - Quy mô của tập hợp cần nghiên cứu quá lớn nên việc nghiên cứu toàn bộ đòi hỏi nhiều chi phí về vật chất và thời gian, có thể không kiểm soát được dẫn đến bị chồng chéo hoặc bỏ sót; - Trong nhiều trường hợp không thể nắm được toàn bộ các phần tử của tập hợp cần nghiên cứu, do đó không thể tiến hành toàn bộ; - Có thể trong quá trình điều tra sẽ phá hủy đối tượng nghiên cứu. Vì vậy, người ta thường sử dụng phương pháp nghiên cứu bằng mẫu. Đây là một trong những phương pháp quan trọng của lý thuyết thống kê. Trong chương này, chúng ta sẽ tìm hiểu những vấn đề cơ bản của lý thuyết thống kê toán học: - Các phương pháp trình bày mẫu và các đặc trưng của mẫu; - Lý thuyết về ước lượng; - Lý thuyết kiểm định giả thiết thống kê. 3.1.1.Tổng thể và mẫu Toàn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu định tính hay định lượng nào đó được gọi là tổng thể (hay tập hợp chính). Các dấu hiệu này được gọi là dấu hiệu quan sát (hay tiêu thức nghiên cứu). Mỗi phần tử của tổng thể được gọi là một cá thể. Chẳng hạn một doanh nghiệp muốn nghiên cứu các khách hàng của mình về dấu hiệu định tính có thể là mức độ hài lòng của khách hàng đối với sản phẩm/dịch vụ nào đó của doanh nghiệp, còn dấu hiệu định lượng là số lượng sản phẩm của doanh nghiệp tiêu thụ trong tháng/quý. 71


Nếu dấu hiệu nghiên cứu có tính định lượng, nghĩa là được thể hiện bằng cách cho tương ứng mỗi cá thể của tổng thể nhận một giá trị thực nào đó thì ta có thể xem dấu hiệu X này là một biến ngẫu nhiên xác định trên tổng thể. Mẫu là một tập con nào đó của tổng thể. Việc chọn ra từ tổng thể một mẫu được gọi là phép lấy mẫu. Số phần tử của mẫu được gọi là cỡ mẫu. Ta nói rằng một mẫu là mẫu ngẫu nhiên nếu trong phép lấy mẫu đó mỗi cá thể của tổng thể được chọn một cách độc lập và có khả năng được chọn như nhau. Giả sử các cá thể của tổng thể được nghiên cứu thông qua dấu hiệu X. Với mẫu ngẫu nhiên kích thước n (có n phần tử), gọi Xi là dấu hiệu X của phần tử thứ i của mẫu (i=1,2,..., n). Bằng cách đồng nhất mẫu ngẫu nhiên với các dấu hiệu nghiên cứu của mẫu ta có định nghĩa về mẫu ngẫu nhiên như sau: Mẫu ngẫu nhiên kích thước n là một dãy gồm n biến ngẫu nhiên X1, X2,…, Xn độc lập cùng phân phối với X. Kí hiệu X = (X1, X2,…, Xn). Thực hiện một phép thử đối với mẫu ngẫu nhiên X chính là thực hiện một phép thử đối với mỗi thành phần của mẫu. Giả sử Xi nhận giá trị xi (i=1,2,…, n), khi đó các giá trị x1, x2,…, xn tạo thành một giá trị của mẫu ngẫu nhiên hay bộ n giá trị quan sát của mẫu ngẫu nhiên. Kí hiệu: x = (x1, x2,…, xn). 3.1.2.Các phương pháp trình bày mẫu Giả sử ta có mẫu ngẫu nhiên cỡ n gồm các giá trị quan sát (x1, x2,…, xn). a) Bảng phân bố thực nghiệm Trong trường hợp mẫu nhỏ và các giá trị tương đối rời rạc ta có thể trình bày mẫu dưới dạng bảng gọi là bảng phân phối thực nghiệm. Nếu trong n giá trị của mẫu có đúng k giá trị phân biệt x1, x2,…, xk (k<n), ta gộp các giá trị giống nhau lại và đếm số lần xuất hiện giá trị đó trong mẫu thu được kết quả: x1 xuất hiện m1 lần x2 xuất hiện m2 lần … xk xuất hiện mk lần 72


k

Với  mi  m1  m2  ...  mk  n. i 1

Khi đó mi được gọi là tần số của xi. fi = miđược gọi là tần suất của xi Ta có bảng phân bố tần số thực nghiệm như sau: xi

x1

x2

...

xk

mi(tần số)

m1

m2

...

mk

Bảng phân bố tần suất thực nghiệm như sau: xi

x1

x2

...

xk

fi (tần suất)

f1

f2

...

fk

k

 fi  f1  f 2  ...  f k  1

i 1

Ví dụ 1: Lấy một mẫu ngẫu nhiên có kích thước 120 ta có bảng phân bố thực nghiệm tần số và tần suất như sau: X/xi

31

34

35

36

38

40

42

44

mi

10

20

30

15

10

10

5

20

120

fi

2/24

4/24

6/24

3/24

2/24

2/24

1/24

4/24

1

Từ bảng phân bố thực nghiệm trên ta có biểu diễn hình học của mẫu. Trên hệ trục tọa độ đặt các điểm có tọa độ (xi, mi) hay (xi, fi), i = 1, 2,…, k. Lần lượt nối các điểm đó với nhau bằng các đoạn thẳng ta được đa giác tần số (tần suất). Nối các điểm đó tương ứng với (xi,0) ta được biểu đồ tần số (tần suất) hình gậy. Ví dụ 2: Vẽ đa giác tần số của mẫu ngẫu nhiên X được cho dưới dạng bảng như sau: xi

114

115

116

117

118

119

mi

21

57

111

78

45

18

73


- Đa giác tần số:

114 115 116 117 118 119

- Đa giác tần suất:

114 115 116 117 118 119

b) Bảng phân bố ghép lớp Trường hợp mẫu có kích thước lớn hoặc khi các giá trị tương đối nhiều và gần nhau ta thường phân số liệu thành lớp (khoảng). Các khoảng này lập nên một phân hoạch miền giá trị của biến X. Người ta thường phân lớp sao cho mỗi số liệu mẫu rơi vào đúng một lớp. Có thể có nhiều cách chia lớp khác nhau. Ngoài ra độ rộng của mỗi lớp không nhất thiết phải bằng nhau nhưng thông thường người ta hay lấy bằng nhau để dễ so sánh. 74


Ví dụ 3: Một mẫu về chiều cao của 400 cây được trình bày trong bảng phân bố ghép lớp như sau: Khoảng chiều cao

Tần số

Tần suất

[4,5-9,5)

18

0,045

9,5-11,5

58

0,145

11,5-13,5

62

0,155

13,5-16,5

72

0,18

16,5-19,5

57

0,1425

19,5-22,5

42

0,105

22,5-26,5

36

0,09

26,5-36,5

55

0,025

Tổng

400

1

 Tổ chức đồ: Trên hệ trục tọa độ, dựng các hình chữ nhật vuông góc với trục hoành, diện tích bằng tần số (hay tần suất) còn chiều rộng là độ rộng tương ứng của lớp đó ta được tổ chức đồ tần số (tần suất). Ví dụ 4: Tổ chức đồ tần số cho mẫu ngẫu nhiên cho trong ví dụ trên như sau: 80 70

72

60 58

50

62 57

40

55 42 36

30 20 10

18

0 [4.5-9.5)

9.5-11.5

11.5-13.5

13.5-16.5

16.5-19.5

19.5-22.5

22.5-26.5

26.5-36.5

Nhận xét: Diện tích giới hạn bởi tổ chức đồ tần số ở trên chính bằng tần số xuất hiện. Chẳng hạn số cây có chiều cao nằm trong khoảng từ (12,25] là diện tích của tổ chức đồ được giới hạn bởi đường thẳng x = 12 và x = 25 và bằng: (13,5 12).31 (16,5 13,5).24  (19,5 16,5).19  (22,5 19,5).14  (25  22,5).9  240 Vậy có 240 cây có chiều cao từ 12m đến 25m. 75


Ví dụ 5: Vẽ tổ chức đồ tần số cho mẫu ngẫu nhiên X cho dưới dạng bảng phân bố ghép lớp như sau: Các lớp [20,25) [25,30) [30,35) [35,40) [40,45) [45,50) [50,55) [55,60) [60,65)

Tần số 3 6 5 4 4 4 2 1 1

Tần suất 0.1 0.2 0.166667 0.133333 0.133333 0.133333 0.066667 0.033333 0.033333

Ta được: - Tổ chức đồ tần số: Tần số 7 6 5 4 3 2 1 0 [20,25) [25,30) [30,35) [35,40) [40,45) [45,50) [50,55) [55,60) [60,65)

- Tổ chức đồ tần suất: 0,25 0,2 0,2 0,15

0,166667 0,133333 0,133333 0,133333

0,1 0,1 0,05

0,066667 0,033333 0,033333

0 [20,25)

[25,30)

[30,35)

[35,40)

[40,45)

76

[45,50)

[50,55)

[55,60)

[60,65)


3.1.3.Hàm phân phối thực nghiệm Với mẫu ngẫu nhiên cỡ n các quan sát về biến ngẫu nhiên X cho bởi bảng phân bố thực nghiệm, hàm phân phối thực nghiệm (hàm phân phối mẫu) của X, ký hiệu là Fn(X) là hàm xác định bởi công thức: Fn ( x) 

m   fi , x  R n xi  x

Trong đó mx là số các quan sát xi < x. Nếu mẫu cho dưới dạng bảng phân phối ghép lớp thì ta tính tần số cộng 

dồn mxi tại các đầu mút của mỗi lớp rồi nối các điểm  xi , 

m xi   lại với nhau ta n 

được hình ảnh hàm phân phối thực nghiệm. Với mỗi giá trị của n ta được một hàm phân phối thực nghiệm. Khi n  các hàm phân phối thực nghiệm tiến dần tới hàm phân phối lý thuyết cần tìm (là xấp xỉ của hàm phân phối lý thuyết). 3.2. Các số đặc trưng mẫu Một thống kê của mẫu là một hàm của các biến ngẫu nhiên thành phần của mẫu. Thống kê của mẫu ngẫu nhiên X = (X1, X2,..., Xn) cũng là một biến ngẫu nhiên tuân theo một quy luật phân bố xác suất nhất định và có các tham số đặc trưng như kỳ vọng E(X), phương sai D(X)… Mặt khác, khi mẫu ngẫu nhiên nhận một giá trị cụ thể x = (x1, x2,…, xn) thì X cũng nhận một giá trị cụ thể. 3.2.1. Kỳ vọng mẫu, phương sai mẫu a. Kỳ vọng mẫu Kỳ vọng mẫu (trung bình mẫu) của mẫu ngẫu nhiên X = (X1, X2,..., Xn) được định nghĩa và ký hiệu là: X

1 n  Xi n i 1

b. Phương sai mẫu - Phương sai mẫu chưa chỉnh lý:

77


S *2 

1 n  Xi  X n i 1

2

2   n     xi  1  n 2  i 1      Xi   n i 1 n     

- Phương sai mẫu đã chỉnh lý:

S2 

1 n  Xi  X n  1 i 1

  n  x 1  n 2  i 1 i      Xi   n  1 i 1 n   

2

 Ý nghĩa của kỳ vọng mẫu và phương sai mẫu: Kỳ vọng mẫu hay trung bình mẫu là số đặc trưng về vị trí trung tâm của mẫu (xu thế các số liệu mẫu tập trung quanh một con số nào đó), có thể dùng để thay thế cho toàn bộ các số liệu mẫu. Phương sai mẫu đặc trưng cho độ phân tán của các số liệu mẫu so với kỳ vọng mẫu X . 3.2.2. Cách tính giá trị cụ thể của trung bình mẫu và phương sai mẫu Với mẫu ngẫu nhiên cỡ n được cho dưới dạng bảng phân phối thực nghiệm. Ta lập bảng tính sau: xi

x1

x2

...

xk

Tổng

mi

m1

m2

...

mk

n

mixi

m1x1

m2x2

mkxk

(*)

mixi2

m1x12

m2x22

mkxk2

(**)

Từ bảng tính trên ta tính được trung bình mẫu và phương sai mẫu theo công thức. X

S2 

1 n 1 k  xi   mi xi n i 1 n i 1

1 n  xi  X n  1 i 1

2

  n    xi   1  k 2  i 1      mi xi   n  1 i 1 n   

78


Ví dụ 1: Tính trung bình mẫu và phương sai mẫu của biến ngẫu nhiên X với các giá trị quan sát được cho dưới bảng sau: 7,6

8,8

9,3

9,7

10,6

11

11,8

11,9

12,3

Từ giả thiết ta lập bảng: xi

7,6

xi 2

57,76

8,8

9,3

9,7

10,6

11

11,8

11,9

12,3

101,9

77,44 86,49 94,09 112,36 121 139,24 141,61 151,29 1060

Kỳ vọng mẫu: X 

1 .101,9  10,19 10 1 9

Phương sai mẫu: S 2  {1060  10.10,192}  2, 4043 Phương sai mẫu chưa chỉnh lý: S *2 

n 1 2 9 S  .2, 4043  2,1639 n 10

Chú ý: 1. Nếu các giá trị của mẫu cụ thể được cho dưới dạng bảng phân bố ghép lớp với các khoảng với điểm đầu là a và điểm cuối là b thì xiđược lấy bằng trung bình cộng của a và b. 2. Đổi biến: Nếu các giá trị của mẫu cụ thể xi không gọn (quá lớn hoặc quá bé hoặc phân tán) ta có thể thu gọn mẫu bằng cách đổi biến: ui 

xi  c h

Trong đó c và h được chọn một cách hợp lý sao cho u , S u2 tính dễ dàng hơn. Thông thường c là giá trị mẫu ứng với tần số lớn nhất và h là khoảng cách (đều nhau) giữa các giá trị mẫu. Sau đó, ta tính u , S u2 từ bảng số liệu mới, sau đó tính lại X , S X2 theo công thức: X  hu  c , S X2  h 2 .S u2 . 3.2.3. Các đặc trưng khác Ngoài kỳ vọng mẫu, phương sai mẫu ta còn có các đặc trưng khác: a. Mode mẫu (KH là Mo) - Nếu mẫu cho dưới dạng bảng phân bố tần số thì mode là giá trị của mẫu ứng với tần số lớn nhất. 79


- Nếu mẫu cho dưới dạng bảng phân bố ghép lớp thì khoảng mode là khoảng có tần số lớn nhất. Ví dụ 2: Một cửa hàng muốn dự trữ hàng hóa đáp ứng nhu cầu của người mua thì phải tìm hiểu loại hàng nào khách hàng hay hỏi mua nhất. Thống kê số người mắc bệnh theo độ tuổi thì độ tuổi có nhiều người mắc bệnh thường được quan tâm hơn là độ tuổi trung bình mắc bệnh. b. Median (KH là Me) Trung vị hay median của mẫu là số có tính chất: Số các giá trị mẫu ≤ Me bằng số giá trị mẫu ≥ Me. Cách tìm trung vị: - Nếu mẫu gồm các giá trị phân biệt, sắp xếp theo thứ tự tăng dần x1< x2<…<xn thì: + Me 

1  xn /2  xn /2 1  nếu n chẵn; 2

+ Me  x( n 1)/ 2 nếu n lẻ. - Nếu mẫu cho dưới dạng bảng phân lớp: Bước 1: Tìm khoảng trung vị là tìm khoảng thứ k với k là chỉ số bé nhất thỏa mãn:m1 + m2 + … + mk ≥ n/2. Bước 2: Tìm đường x = Me chia đôi diện tích của tổ chức đồ tần số. Me là trung vị cần tìm. 3.2.4. Phân phối của kỳ vọng mẫu và phương sai mẫu Trường hợp biến ngẫu nhiên gốc X tuân theo quy luật phân phối chuẩn. Định lý 1:Cho biến ngẫu nhiên X có phân phối chuẩn N (a,  2 ) , (X1, X2,…, Xn) là mẫu ngẫu nhiên cỡ n rút ra từ X. Khi đó:  2  .  n   

a) X có phân phối chuẩn N  a, b) c)

( n  1) S 2

2

có phân phối  2 với (n-1) bậc tự do.

( X  a) n có phân phối Student với (n-1) bậc tự do. S

Định lý 2: Cho (X1, X2,…, Xn) và (Y1, Y2,…, Ym) là các mẫu ngẫu nhiên 80


độc lập rút ra từ các biến ngẫu nhiên X có phân phối chuẩn N ( a1 ,  12 ) và Y có phân phối chuẩn N (a 2 ,  22 ) tương ứng. Khi đó: a) Biến ngẫu nhiên F 

S12 / 12 S22 /  22

có phân phối Fisher với (n-1, m-1) bậc tự do.

b) X  Y có phân phối chuẩn N (a1  a 2 ,

12 n1

 22 n2

).

BÀI TẬP Bài 1:Cho dãy số liệu: 47

45

41

34

20

26

38

53

45

38

31

20

43

44

27

22

29

45

55

42

29

32

27

37

61

30

35

33

27

43

50

a) Tính số trung vị. b) Nhóm các số liệu thành lớp có độ dài 5 (lấy lớp đầu là [20;25)), vẽ tổ chức đồ tần số. c) Tính trung bình và phương sai mẫu theo lớp và theo mẫu ban đầu. Bài 2:Năng suất một loại cây trồng trên 36 thửa đất là: 19,2 17,7 20,0 21,1 21,5 18,5 20,6 19,3 19,0 18,2 17,1 19,2 19,1 15,2 19,5 17,3 16,3 19,6 17,5 19,1 19,7 16,0 16,7 16,4 20,8 19,3 16,0 17,4 15,3 17,2 17,6 11,5 11,4 16,1 17,8 20,0 a) Phân các số liệu trên thành lớp có độ dài 1,5 (lớp đầu tiên từ [11 – 12,5)). Vẽ tổ chức đồ tần suất. b) Tính kỳ vọng và phương sai mẫu. Bài 3:Gặt ngẫu nhiên 20 thửa ruộng người ta thu được năng suất X (tính theo tạ/ha) của một loại lúa như sau: 10,25

21,50

27,80

29,00

13,50

19,50

24,00

35,00

18,00

24,75

23,75

32,00

16,50

22,00

26,00

22,50

15,50

23,50

29,75

21,50

81


a) Lập bảng phân phối ghép lớp với lớp đầu [10 - 15) b) Tính phương sai mẫu theo mẫu ban đầu và theo mẫu ghép lớp. Bài 4:Cho bảng số liệu sau: Khoảng

0-10

10-20

20-30

30-50

50-70

70-100

Tần số

7

20

15

20

10

9

Tính trung bình mẫu, khoảng mode và số trung vị. Bài 5:Tính trung bình mẫu và độ lệch tiêu chuẩn mẫu từ bảng số liệu sau: xi

114

115

116

117

118

119

mi

21

57

111

78

45

18

82


Chương 4 ƯỚC LƯỢNG THAM SỐ 4.1. Ước lượng điểm Xét một tổng thể được đặc trưng bởi một biến ngẫu nhiên X nào đó. Thông thường dạng phân phối của X đã biết nhưng còn phụ thuộc một vài tham số  nào đó chưa biết mà ta đang quan tâm. Bài toán đặt ra là: Căn cứ vào các giá trị mẫu x1, x2,…, xn về X để tìm một ước lượng cho  . Ví dụ 1: Giả sử X có phân phối chuẩn N (  ,  2 ) . - Nếu a chưa biết thì  = µ. - Nếu cả hai tham số µ và  2 chưa biết thì   (  ,  2 ) . Trong chương này ta sẽ tìm hiểu ba loại ước lượng: - Ước lượng điểm; - Ước lượng hợp lý cực đại; - Ước lượng khoảng. Phương pháp ước lượng điểm chủ trương dùng một giá trị để thay cho giá trị của tham số  chưa biết của tổng thể. Thông thường giá trị được chọn này là giá trị cụ thể của một biến ngẫu nhiên ˆ nào đó của mẫu. 4.1.1. Khái niệm ước lượng điểm và tính chất 4.1.1.1. Khái niệm Với mẫu ngẫu nhiên X = (X1, X2,…, Xn), thống kê ước lượng cho tham số  có dạng công thức: ˆ  T ( X 1 , X 2 ,..., X n )

Lúc này, với một mẫu cụ thể x = (x1, x2,…, xn) ta tính được giá trị cụ thể của biến ngẫu nhiên ˆ  T (x1 , x 2 ,..., x n ) . Giá trị cụ thể này được gọi là ước lượng điểm cho tham số  . Chú ý: Ước lượng điểm ˆ  T ( X 1 , X 2 ,..., X n ) chỉ phụ thuộc vào các quan sát x1, x2,…, xn và không phụ thuộc vào tham số  . 83


Ví dụ 2: Cho X là biến ngẫu nhiên có phân phối chuẩn N (  ;  2 ) . Giả sử (X1, X2,…, Xn) là mẫu ngẫu nhiên về X: 1 n

- Đại lượng X  ( X1  X 2  ...  X n ) là ước lượng điểm của kỳ vọng µ của biến ngẫu nhiên X; - Đại lượng S 2 

n 1 n 2 *2 1 2  ( X i  X ) hoặc S   ( X i  X ) là ước lượng n  1 i 1 n i 1

điểm của phương sai  2 của biến ngẫu nhiên X. 4.1.1.2. Tính chất Như vậy, một ước lượng ˆ  T là một hàm của n biến ngẫu nhiên. Giá trị của ước lượng cũng thay đổi từ mẫu quan sát này đến mẫu quan sát khác. Nghĩa là, với cùng một mẫu ngẫu nhiên ta có thể xây dựng nhiều thống kê

ˆ khác nhau để ước lượng cho tham số  . Vì vậy ta cần lựa chọn thống kê tốt nhất để ước lượng cho tham số  dựa vào các tính chất sau: a) Tính không chệch Định nghĩa: Ước lượng ˆ được gọi là ước lượng không chệch của tham số 



nếu E ˆ   .



Nếu E ˆ   thì ˆ được gọi là ước lượng chệch của  . Ví dụ 3: Ta chứng minh được: 1 n

- X  ( X1  X 2  ...  X n ) là ước lượng không chệch của kỳ vọng µ; - S2 

1 n 2 2  ( X i  X ) là ước lượng không chệch của phương sai  ; n  1 i 1

- S *2 

1 n 2 2  ( X i  X ) là ước lượng chệch của phương sai  . n  1 i 1

b) Tính vững Định nghĩa: Ước lượng ˆ được gọi là ước lượng vững của tham số  nếu với mọi   0 cho trước tùy ý ta có: lim P | ˆ   |    1 n 

( ˆ hội tụ theo xác suất tới  ). 84


1 n

Ví dụ 4 : X  ( X1  X 2  ...  X n ) là ước lượng vững của kỳ vọngµ. c) Tính hiệu quả Định nghĩa: Ước lượng ˆ được gọi là ước lượng hiệu quả của tham số  nếu ˆ là ước lượng không chệch và có phương sai nhỏ nhất trong lớp các ước lượng không chệch. 1 n

Ví dụ 5: X  ( X1  X 2  ...  X n ) là ước lượng hiệu quả của kỳ vọng µ. 4.1.2. Phương pháp ước lượng hợp lý cực đại Cho biến ngẫu nhiên X có phân phối f (X, ) với dạng của f đã biết, nhưng  chưa biết. Để ước lượng  ta lấy mẫu ngẫu nhiên (X1, X2, …, Xn) và lập hàm:

L( )  f (X1, )f(X2 , )...f(Xn , ),  

(1)

L( ) gọi là hàm hợp lý của mẫu, nó phụ thuộc vào X1, X2,…, Xn và  nhưng coi X1, X2,…, Xn là hằng số đã biết và  là biến. Vấn đề đặt ra là tìm ˆ ( X 1 , X 2 ,..., X n ) sao cho:

L ˆ( X1, X 2 ,..., X n )  L( )  

(2)

Điều kiện (2) ở trên tương đương với:





ln L ˆ( X1, X 2 ,..., X n )  ln  L( )

(3)

Đặt  ( )  ln  L ( )  , khi đó điều kiện (3) tương đương với:



 ˆ    

(4)

Ước lượng ˆ ( X 1 , X 2 ,..., X n ) xác định bởi điều kiện trên gọi là ước lượng hợp lý cực đại của  . Nếu    khả vi theo  thì tại ˆ ( X 1 , X 2 ,..., X n ) ta có:  0 

(5)

Phương trình (5) này được gọi là phương trình hợp lý và mọi nghiệm của nó nếu thỏa mãn điều kiện (3) hoặc (4) đều là ước lượng hợp lý cực đại của  . Ví dụ 1: Cho biến ngẫu nhiên X có phân phối chuẩn N (  , 32 ) với a chưa biết và cho (x1, x2,…, xn) là mẫu cỡ n của X. Hãy tìm ước lượng hợp lý cực đại của µ. 85


Giải: Theo giả thiết X có phân phối chuẩn N (  , 32 ) nên có hàm mật độ là:  1 f ( x)  e 3 2

( x   )2 18

Từ đó, ta có hàm hợp lý là: L( x1 , x2 ,..., xn ,  ) 

1 3 2

( x   )2  1 18 e .

1 e 3 2

( x2   )2 18 ...

1 e 3 2

( xn   )2 18

n 2  ( xi   ) n  i 1  18 e

 1    3 2 

 1  ln L  n ln   3 2

 1 n 2   18  (x i   )   (  ) i 1 

Ta tìm được ước lượng cho µ từ phương trình: n    ( )  1 n 1 n  0   ( xi   )  0   ( xi   )  0     xi  9 i 1 n i 1 i 1

Hay   X là ước lượng hợp lý cực đại cần tìm. Ghi chú: Trường hợp X là biến ngẫu nhiên rời rạc, ta cũng định nghĩa tương tự như trên về khái niệm ước lượng hợp lý cực đại. Khái niệm ước lượng hợp lý cực đại định nghĩa theo (3) hoặc (4) thực chất là dựa trên quan điểm “giá trị của  trong thực tế là giá trị ứng với xác suất xảy ra lớn nhất” (vì vậy nó là hợp lý nhất). Ví dụ 2: Cho biến ngẫu nhiên X có phân phối xác suất như sau: X

1

0

P

1

Với   (0,1) và (x1, x2,…, xn) là mẫu cỡ n của X. Hãy tìm ước lượng hợp lý cực đại cho  . Giải: Từ bảng phân phối trên ta rút ra hàm mật độ cho biến ngẫu nhiên X là: f ( xi ,  )   xi (1   )1 xi

86


Với xi = 0 hoặc xi = 1. Ta có hàm hợp lý cực đại của  là:

 



 ( )  ln   x1 (1   )1 x1  x2 (1   )1 x2 ...  xn (1   )1 xn    n

  ( )   ln  xi (1   )1 xi i 1

Xét:

ln  xi (1   )1 xi  xi ln   (1  xi ) ln(1   ) 

  ln  f ( xi , )   

xi

(1  xi ) x   i 1  (1   )

Ước lượng hợp lý cực đại cho  là nghiệm của phương trình: n

n x  d   ( )  1  n  0  i 0  xi  n   0     d  (1   )  i 1 i 1  (1   ) 

 xi

i 1

n

k n

Trong đó, k là số lần xi = 1 (i =1,..,n) trong số n giá trị (x1, x2, …, xn). 4.2. Ước lượng khoảng Các phương pháp ước lượng điểm nói trên có nhược điểm là khi kích thước mẫu bé thì ước lượng điểm có thể sai lệch rất nhiều so với giá trị của tham số cần ước lượng. Mặt khác phương pháp trên cũng không thể đánh giá được khả năng mắc sai lầm khi ước lượng là bao nhiêu. Do đó, khi kích thước mẫu bé người ta thường dùng phương pháp ước lượng khoảng tin cậy.  Độ tin cậy là gì? Khi ta ước lượng cho tham số X thuộc khoảng nào đó thì xác suất để X thuộc khoảng giá trị ấy được gọi là độ tin cậy. Nghĩa là từ mẫu ngẫu nhiên tìm khoảng (a, b) chứa tham số  với xác suất  đủ lớn cho trước (  được gọi là độ tin cậy).

Khái niệm về khoảng tin cậy: Cho mẫu ngẫu nhiên (x1, x2,…,xn) về X. Khoảng (a;b) có hai đầu mút là hai thống kê a = a(x1, x2,…, xn) và b = b(x1, x2,…, xn) gọi là khoảng tin cậy của tham số  với độ tin cậy nếu: P(a    b)   Trong thực tế, thường yêu cầu độ tin cậy  khá lớn, khi đó theo nguyên lý xác suất lớn thì biến cố { a    b } hầu như chắc chắn sẽ xảy ra trong một phép thử. 87


Khi đó  

ba được gọi là độ chính xác của ước lượng. 2

Như vậy, với cùng một độ tin cậy thì khoảng tin cậy càng hẹp thì ước lượng càng chính xác. 4.2.1. Khoảng tin cậy cho kỳ vọng của biến ngẫu nhiên X có phân phối chuẩn Giả sử biến ngẫu nhiên X có phân phối chuẩn N (  ,  2 ) nhưng chưa biết tham số µ của nó. Từ tổng thể rút ra một mẫu ngẫu nhiên X=(x1, x2,…, xn) kích thước n. Ta cần ước lượng khoảng cho µ với độ tin cậy  trong các trường hợp sau. 4.2.1.1. Trường hợp phương sai  2 đã biết Theo định nghĩa của ước lượng khoảng, ta cần tìm  sao cho:

PX     X    

hay P X      

 2  Theo giả thiết X ~ N   ;  áp dụng công thức tính xác suất theo phân  n  

phối chuẩn ta có:  n  P X      2   1     

  n   1 .   2  

Suy ra   Đặt

 n   u / 2    u / 2 .  n

Trong đó uα/2 được tìm từ điều kiện   u /2  

 1 1  1 

2

2

 1

 2

.

Như vậy, khoảng tin cậy của tham số a với độ tin cậy  có dạng:

 X ;

X 

 

Trong đó, độ chính xác của ước lượng là   u /2 được tìm từ điều kiện (u /2 )  1 

 2

n

, với   1   ; và u /2

. 

Kết luận, khoảng ước lượng của µ là:  X  u / 2 

88

 n

; X  u / 2

 

. n


 Một số giá trị u /2 thường gặp:

  90%    0,1  (u /2 )  0,95  u /2  1,64   95%    0,05  (u /2 )  0,975  u /2  1,96   98%    0,02  (u /2 )  0,99  u /2  2,32   99%    0,01  (u /2 )  0,995  u /2  2,57 Ví dụ 1: Chiều cao của một loại gỗ quý là một biến ngẫu nhiên X phân bố theo quy luật chuẩn với độ lệch tiêu chuẩn 1cm. Đo thử 25 cây loại này ta tính được chiều cao trung bình là X  196, 4 cm . Với độ tin cậy 95%, hãy tìm khoảng tin cậy của chiều cao trung bình của loại cây trên. Giải: Gọi X là biến ngẫu nhiên về chiều cao của loại gỗ quý. Theo giả thiết X có phân phối chuẩn với   1 . Từ mẫu đã cho ta đã có: X  196, 4  (u /2 )  1  Độ chính xác của ước lượng là:   u /2

 n

 1,96.

 2

 0,975  u /2  1,96.

1  0,392. 25

Vậy ta có khoảng ước lượng của chiều cao trung bình a là:     1 1   ; X  u /2 ; 196,4  1,96.  X  u /2   196,4  1,96.   197,008; 196,792  n n  25 25  

4.2.1.2. Trường hợp phương sai  2 chưa biết Trong nhiều bài toán thực tế, ta không biết trước phương sai  2 của biến ngẫu nhiên gốc X của tổng thể. Ta có thể dùng phương sai mẫu S2 (tính toán được từ mẫu) để thay thế phương sai  2 (Vì S2 là ước lượng vững không chệch của  2 ). Biến ngẫu nhiên T 

X  có phân phối Student với (n-1) bậc tự do. Theo S/ n

phân phối Student, ta tìm được t /2 (n 1) thỏa mãn: P | T | t / 2 ( n  1)     P | T | t / 2 ( n  1)   

89


Khoảng ước lượng cho kỳ vọng a là: S S   ; X  t / 2 ( n  1)  X  t / 2 ( n  1)  n n 

với độ chính xác   t /2 (n  1)

S . n

Trong đó tα/2(n-1) tra từ bảng phân phối Student với (n-1) bậc tự do, mức ý nghĩa/2. Chú ý: Khi cỡ mẫu n > 30, phân phối Student tiệm cận phân phối chuẩn nên có thể sử dụng u /2 thay cho t /2 (n 1). Ví dụ 2: Năng suất của một loại giống mới là biến ngẫu nhiên X có phân phối chuẩn N (  ,  2 ) . Tiến hành gieo thử hạt giống mới này tại 16 vườn thí nghiệm và thu được kết quả như sau: 19,2

18,7 22,4 20,3 16,8 25,1 17,0 15,8

21,0

18,6 23,7 24,1 23,4 19,8 21,7 18,9

Với độ tin cậy 95%. Hãy tìm khoảng tin cậy cho năng suất trung bình của loại giống trên. Giải: Từ mẫu đã cho ta tính được: X  20, 406 và S = 3,038. Tra bảng phân phối Student ta được t0,025(15) = 2,13. Ta có khoảng ước lượng của năng suất trung bình a là: S S   ; X  t /2 (n  1)  X  t /2 (n  1)  n n  3,038 3,038     20, 406  2,13. ; 20, 406  2,13.   18,79; 20,02  16 16  

Ví dụ 3: Chiều cao của cây con tại một vườn ươm là một biến ngẫu nhiên X có phân phối chuẩn N (  ,  2 ) . Người ta tiến hành đo ngẫu nhiên 200 cây con tại vườn và thu được kết quả sau: Chiều cao

19,7

18,9

20,2

23

22,5

19,5

Số cây con

10

15

35

75

55

10

90


Dựa vào kết quả này hãy tìm khoảng ước lượng cho chiều cao trung bình? Với mức ý nghĩa   0, 05 . Giải: Từ mẫu trên, ta tính được: X  21, 725 và S = 2,244

Vì cỡ mẫu n = 200 nên ta có thể sử dụng u /2 thay cho t /2 (n 1)   u / 2   1   / 2 = 0,975 => u /2 =1,96

Vậy khoảng ước lượng cần tìm là: S S   2, 244 2, 244   ; X  u / 2 ; 21, 725  1,96.  X  u / 2    21, 725  1, 96.  n n  200 200     21, 414; 22, 036 

Bảng tóm tắt các công thức cần nhớ: Độ chính xác

  u /2

 2 đã biết  2 chưa biết và n

 30

  u /2

> 30

    ; X  u / 2  X  u / 2  n n 

n

  t /2 (n  1)

 2 chưa biết và n

Khoảng tin cậy

S n

S S   ; X  t / 2 ( n  1)  X  t / 2 ( n  1)  n n 

S n

S S   ; X  u / 2  X  u / 2  n n 

4.2.2. Khoảng tin cậy cho xác suất Giả sử trong một tổng thể, mỗi cá thể mang hoặc không mang dấu hiệu A nào đó. Gọi p (chưa biết) là tỷ lệ cá thể có dấu hiệu A trong tổng thể. Lấy một mẫu quan sát ngẫu nhiên cỡ n từ tổng thể. Bài toán đặt ra là căn cứ trên các giá trị thu được từ mẫu, hãy ước lượng giá trị của p. Gọi X là số cá thể có dấu hiệu A trong mẫu. Ta có ước lượng không chệch cho p là tần suất f 

X . n

Khi n lớn thì f có phân phối xấp xỉ phân phối chuẩn N ( p, 91

pq ) với q  1  p . n


Vì p chưa biết nên phương sai D(f) cũng chưa biết. Mặt khác, tần suất mẫu f là ước lượng vững, không chệch và hiệu quả cho tần suất p của tổng thể nên với n đủ lớn, thỏa mãn điều kiện nf>10 và n(1-f)>10 ta có thể xấp xỉ D( f ) 

p(1  p) f (1  f )  . n n

Gọi  là độ chính xác của ước lượng.   Khi đó: P  f  p     2    

    1 f (1  f )   n 

  Để P  f  p       2    

    1   f (1  f )   n 

Đặt u /2 

 f (1  f ) n

   u / 2

f (1  f ) n

Với u /2 được xác định từ điều kiện (u /2 )  1 

 2

 1

1  1   2 2

Từ đó ta có khoảng tin cậy cho tỷ lệ là:

 f  ;

 f     f  u /2 

f (1  f ) ; f  u /2 n

f (1  f )   n 

Ví dụ 4: Trong đợt vận động bầu cử tổng thống ở một nước, người ta phỏng vấn ngẫu nhiên 1600 cử tri và thấy trong số đó có 960 người sẽ bỏ phiếu cho ứng cử viên A. Với độ tin cậy 99%, hãy ước lượng khoảng tin cậy cho tỷ lệ số phiếu bầu cho ứng cử viên A? Giải: Gọi p là tỷ lệ số phiếu sẽ bầu cho ứng cử viên A. Với mẫu cụ thể cho ở trên, ta có : f 

960  0,6 1600

Kiểm tra điều kiện nf=960>10 và n(1-f)=640>10 thấy thỏa mãn: (u /2 )  1 

 2

1

1  1    0,995  u /2  1,96 2 2 92


Vậy độ chính xác của ước lượng là:   u / 2

f (1  f ) 0, 6.0, 4  1,96  0, 024 n 1600

Vậy khoảng tin cậy cho tỷ lệ là (0,6  0,024; 0,6  0,024) tức là (0,576;0,624). 4.2.3. Khoảng tin cậy cho phương sai Bài toán: Giả sử X  N (  ,  2 ) . Lấy được mẫu kích thước n về X. Cho trước độ tin cậy  . Cần ước lượng khoảng cho  2 . Giải pháp: Từ mẫu thu được, ta tính được phương sai mẫu S2 và đại lượng 2 

 n  1 S 2 có phân phối khi bình phương với n – 1 bậc tự do. 2 

Như vậy, với độ tin cậy  đã cho, ta tìm được hai giá trị  12 và  22 thỏa mãn: P

12

2

 

 22

 2  n  1 S 2  2    P  1    2    2    

  n  1 S 2  n  1 S 2    2  P     2 2     2 1     n  1 S 2  n  1 S 2  Vậy khoảng ước lượng cho  với độ tin cậy  là:  ; . 2 2     2 1   2

Trong đó hai giá trị  12 và  22 tìm được bằng cách tra bảng phân phối khi bình phương với n-1 bậc tự do từ điều kiện:

  1 2 1  1  P   2  12    P   2  12   2 2 P  2   22 

Ví dụ 5: Kích thước của một chi tiết máy là một biến ngẫu nhiên có phân bố chuẩn. Trong một mẫu gồm 30 chi tiết được kiểm tra ta tính được X =0,47; S=0,032. Tìm khoảng tin cậy 95% cho phương sai của kích thước toàn bộ các chi tiết máy. Giải: Tra bảng phân phối khi bình phương với 29 bậc tự do: 2 2  0,975 (29)  16, 047;  0,25 (29)  45, 722

93


Khoảng ước lượng cho phương sai:  29.0, 0322 29.0, 032 2  ;   16, 047   45,722

4.3. Bài toán xác định cỡ mẫu Với độ tin cậy  cho trước, ta thấy kích thước mẫu càng lớn thì khoảng tin cậy càng hẹp. Tuy nhiên, kích thước mẫu càng lớn thì càng mất nhiều thời gian và công sức. Bài toán đặt ra là cần chọn kích thước mẫu tối thiểu là bao nhiêu để đạt được độ chính xác mong muốn. 4.3.1. Trường hợp ước lượng cho giá trị trung bình Cỡ mẫu tối thiểu n là số nguyên nhỏ nhất thỏa mãn điều kiện: 

     n  u /2   n 

u /2

2

Hay: u /2

S S     n  u /2   n 

2

Chú ý: Trong công thức thứ hai, người ta thường lấy sơ bộ một mẫu có kích thước khoảng 30 để ước lượng cho phương sai. Vì vậy, cỡ mẫu tối thiểu sử dụng được khi kết quả n > 30. Ví dụ 6: Người ta muốn xây dựng khoảng tin cậy 95% với độ chính xác là 2 (dặm) cho vận tốc trung bình của ô tô trên đường cao tốc. Một mẫu điều tra sơ bộ cho ta S = 9. Hỏi cần phải lấy mẫu với kích thước tối thiểu là bao nhiêu? Giải: α = 1 – 0,95 = 0,05  u(0,025) = 1,96. Cỡ mẫu n thỏa mãn điều kiện: 2

9  n  1,96   77,79 2 

Như vậy, cần phải lấy mẫu với kích thước tối thiểu là 78. 4.3.2. Trường hợp ước lượng cho tỷ lệ Cỡ mẫu tối thiểu n là số nguyên nhỏ nhất thỏa mãn điều kiện:

  u /2

f (1  f ) u  n    /2 n   94

 f (1  f )  

2


với f là ước lượng điểm cho p. Hoặc nếu f chưa biết, ta sử dụng bất đẳng thức: f (1  f ) 1 u    n    /2  n 2  2 

2

Chú ý: Nếu p gần 0,5 thì hai phương pháp cho kết quả gần như nhau. Nếu p gần 0 hoặc 1 thì hai phương pháp cho kết quả rất khác nhau. Nên sử dụng theo cách thứ nhất. Ví dụ 7: Một nhà nông học muốn ước lượng tỷ lệ nảy mầm của một loại hạt giống với độ tin cậy 99%, sai số không quá 0,02. a) Hỏi cần phải lấy mẫu với kích thước tối thiểu là bao nhiêu? b) Nếu nhà nông học đó lấy mẫu với kích thước 1000, thấy có 640 hạt nảy mầm. Hỏi với yêu cầu như trên thì cần phải lấy mẫu với kích thước tối thiểu là bao nhiêu? Giải: a) α = 1 – 0,99 = 0,01  u0,005 = 2,38. 2

2

 2,58  u  n    /2      4160, 25  2   2.0,02  b) f 

640  0,64 1000

u n    /2  

2

2

 2,58   f (1  f )    0,64.0,36   3834,08   0,02 

BÀI TẬP Bài 1: Điều tra 200 mảnh ruộng, mỗi mảnh 4m2 ta được: Sản lượng (kg)

1,02

1,08

1,14

1,20

1,26

1,32

Số mảnh

10

15

35

75

55

10

a) Hãy tính năng suất trung bình (tạ/ha). b) Ước lượng khoảng tin cậy của năng suất toàn vùng với độ tin cậy 95%. Giả thiết sản lượng là biến ngẫu nhiên có phân phối chuẩn. 95


Bài2: Các kết quả đo độ dài một đoạn thẳng (theo m) không chứa sai số hệ thống được cho trong bảng: Kết quả

114

115

116

117

118

Số lần đo

2

5

8

4

3

Với độ tin cậy 95%. a) Hãy tìm khoảng tin cậy của độ dài đoạn thẳng cần đo. b) Nếu muốn ước lượng với độ chính xác không quá 0,3 thì cần phải đo ít nhất bao nhiêu đoạn thẳng? Bài3: Hãy ước lượng kỳ vọng và phương sai của một tổng thể có quy luật phân phối chuẩn với độ tin cậy 98% dựa theo kết quả của mẫu: 3,1

3,3

2,9

3,0

3,2

2,8

2,7

3,2

3,2

2,9

3,1

2,8

2,9

3,1

3,3

2,9

3,1

3,2

3,0

3,1

3,0

2,9

Bài4: Để xác định tỷ lệ phế phẩm trong một lô sản phẩm người ta rút ra một mẫu gồm 500 sản phẩm đem kiểm tra và thấy có 50 phế phẩm. Hãy ước lượng tỷ lệ phế phẩm trong lô với độ tin cậy =99%. Bài5: Trên cơ sở 100 lần thực nghiệm, người ta thấy rằng thời gian trung bình để sản xuất 1 chi tiết máy là 5,5 giây và sai tiêu chuẩn là 1,7 giây. Giả sử thời gian để sản xuất xong 1 chi tiết máy là biến ngẫu nhiên có phân phối chuẩn 2 N (  ,  2 ) . Hãy tìm khoảng tin cậy của  và  với độ tin cậy 90%.

Bài6: Điều tra ngẫu nhiên 180 người ta thấy có 162 người hoàn thành định mức công việc. Với độ tin cậy 95%. a) Hãy ước lượng tỷ lệ hoàn thành định mức chung của toàn nhà máy. b) Nếu muốn ước lượng với độ chính xác không quá 0,03 thì cần phải điều tra ít nhất bao nhiêu người? Bài7: Một phương pháp điều trị mới đang được xem xét để đánh giá tính hiệu quả của nó. Một chỉ tiêu đánh giá là số ngày trung bình  từ lúc điều trị cho đến lúc bệnh nhân khỏi bệnh. Một mẫu ngẫu nhiên gồm 11 bệnh nhân được theo dõi và đánh số ngày điều trị cho tới khi khỏi bệnh được ghi lại như sau: 44

3

8

5

6

7

12

Tìm khoảng tin cậy 95% cho số ngày trung bình  . 96

5

3

8


Bài8:Tìm các khoảng tin cậy 90%, 95% và 98% cho giá trị trung bình dựa trên các mẫu sau: a ) n  100, X  250, S  80. b ) n  64, X  250, S  80.

Bài9:Một công ty lớn muốn ước lượng trung bình một ngày một thư ký phải đánh máy bao nhiêu trang giấy. Một mẫu gồm 50 thư ký được chọn ngẫu nhiên cho thấy số trang trung bình mà họ đánh máy là 32 với độ lệch tiêu chuẩn là 6. Tìm khoảng tin cậy 99% cho số trang trung bình mà một thư ký của công ty đánh máy trong một ngày. Bài10:Một nhà sưu tập tem khảo giá chiếc tem A trong 9 cửa hàng thì thấy giá trung bình là 17 (nghìn đồng) với độ lệch tiêu chuẩn là 3 (nghìn đồng). Tìm khoảng tin cậy 90% cho giá của chiếc tem này trong tất cả các cửa hàng bán tem. Bài11:Cơ quan cảnh sát giao thông kiểm tra hệ thống phanh của 40 chiếc xe tải trên quốc lộ. Họ phát hiện 14 xe tải có phanh chưa đảm bảo an toàn. a) Tìm khoảng tin cậy 95% cho tỷ lệ xe tải có phanh chưa đảm bảo an toàn. b) Tìm khoảng tin cậy 98% cho tỷ lệ xe tải có phanh đảm bảo an toàn. Bài12:Từ một tập hợp chính có quy luật chuẩn N(µ; 2)kết quả lấy mẫu n=10 thu được như sau: 51

48

56

57

44

52

54

Tìm khoảng tin cậy cho µ và 2 với độ tin cậy 90%.

97

60

46

47


Chương 5 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ 5.1. Đặt vấn đề Trong các hoạt động thực tiễn, ta thường đặt ra và giải quyết nhiều bài toán mà ta sẽ gọi là bài toán kiểm định giải thuyết. Sau đây là một số ví dụ. Trên truyền thông, ta bắt gặp nhiều tuyên bố của các nhà quản lí. Chẳng hạn, một trường đại học tuyên bố tỉ lệ sinh viên có việc làm đúng ngành được đào tạo của trường này sau khi tốt nghiệp là trên 80%. Một người nghi ngờ thông tin trên và muốn kiểm chứng lại khẳng định đó. Câu hỏi là phương pháp nào giải quyết được vấn đề trên? Trong nông nghiệp, khi đưa vào trồng thử nghiệm một giống lúa mới trên một địa phương. Biết rằng năng suất trung bình sau khi thu hoạch của giống lúa mới trên các thửa ruộng được trồng thử nghiệm là 6,0 tấn/ha. Năng suất lúa trung bình của giống lúa truyền thống là 5,5 tấn/ha. Câu hỏi đặt ra là năng suất trung bình của giống lúa mới có cao hơn giống lúa truyền thống hay không? Từ thông tin thu được (từ mẫu), có phương pháp nào trả lời câu hỏi trên không và nếu có thì cách thức giải quyết như thế nào? Trong lâm nghiệp, người ta nhận thấy rằng sinh trưởng của cây rừng có vẻ như chịu ảnh hưởng của yếu tố vị trí cây mọc (được trồng). Giả sử, ta xét trên một quả đồi và ta chia vị trí mà cây mọc (được trồng) thành ba mức: chân đồi, sườn đồi và đỉnh đồi. Sinh trưởng của cây được xếp hạng: sinh trưởng kém, sinh trưởng trung bình và sinh trưởng tốt. Có thể có một số câu hỏi được đặt ra như sau: Câu hỏi 1: Có ảnh hưởng thực sự của yếu tố vị trí đối với sinh trưởng của cây hay không? Câu hỏi 2: Có sự khác biệt nào về sinh trưởng khi vị trí cây ở các mức khác nhau không? Nói nôm na, khi các điều kiện khác xấp xỉ nhau thì cây mọc hoặc được trồng ở các vị trí đỉnh đồi, sườn đồi và chân đồi sinh trưởng nói chung của nó có khác biệt không? Phương pháp thống kê giúp ta trả lời một cách “hợp lí” các câu hỏi ở dạng trên từ dữ liệu có được. Khi đó, các yếu tố mà thực tế đang quan tâm được xét như là các biến ngẫu nhiên với phân phối, tham số chưa biết. 98


5.2. Bài toán và phương pháp chung giải quyết kiểm định giả thuyết Cho X là một biến ngẫu nhiên có phân phối

( , ), (

,

,…,

) là

mẫu về X. Định nghĩa 1: Giả thuyết là một khẳng định về phân phối hay về tham số chưa biết của biến ngẫu nhiên, thông thường ta kí hiệu là H hoặc

.

Định nghĩa 2: Đối thuyết là khẳng định về phân phối hay tham số của biến ngẫu nhiên nhưng trái ngược với giả thuyết được nêu, kí hiệu là K hoặc

.

Ví dụ 1: Giả thuyết H: Biến ngẫu nhiên X có phân phối chuẩn tắc. Đối thuyết K: Biến ngẫu nhiên X không có phân phối chuẩn tắc. Đây là giả thuyết đặt ra đối với phân phối chưa biết của biến, tức là ta đang ngờ rằng biến có phân phối chuẩn tắc. ~ ( , 4), biến X có phân phối chuẩn và phương sai

Ví dụ 2: Giả sử = 4 đã biết, kì vọng

=

là tham số chưa biết. Ta có thể đặt ra các giả

thuyết và đối thuyết tương ứng với Giả thuyết

:

=

Đối thuyết

:

Đối thuyết :

<

như sau:

có thể được thay bằng các đối thuyết

:

>

hoặc

.

Bài toán đặt ra như sau: Ta quan tâm tới biến ngẫu nhiên X có phân phối chưa biết. Có hai khẳng định trái ngược nhau về biến X là giả thuyết và đối thuyết. Với dữ liệu thu được về X (mẫu ngẫu nhiên), ta phải quyết định lựa chọn một trong hai khẳng định đó theo một cách “hợp lí nhất”. Phương pháp chung giải bài toán kiểm định giả thuyết: Để giải bài toán kiểm định giả thuyết, người ta làm như sau: Dựa trên mẫu ngẫu nhiên (

,

,…,

)thu được về X, người ta xây dựng

tiêu chuẩn kiểm định (test thống kê) T là hàm của mẫu, tức là = (

,

,…,

).

Nói đơn giản, tiêu chuẩn T đo sự sai khác giữa giả thuyết đặt ra và thực tế quan sát được về X. Ta sẽ đưa ra quyết định chấp nhận hay bác bỏ giả thuyết dựa vào tiêu chuẩn T một cách “hợp lí”. Thông thường, nếu có sự khác biệt lớn hay T nhận giá trị lớn ta sẽ bác bỏ giả thuyết. Nếu T nhận giá trị nhỏ thì ta sẽ chấp nhận giả thuyết, tức là, sự sai khác không đáng kể (sai do yếu tố ngẫu nhiên- lấy mẫu). 99


Vì ta không có toàn bộ thông tin về biến X nên quyết định mà ta đưa ra dựa trên tiêu chuẩn T hoàn toàn có thể dẫn tới sai lầm. Có hai sai lầm có thể mắc phải như sau: a) Sai lầm loại 1: Giả thuyết sai nhưng ta lại chấp nhận nó. b) Sai lầm loại 2: Giả thuyết đúng nhưng ta lại bác bỏ nó. Một cách tự nhiên, ta cố gắng tìm một tiêu chuẩn sao cho khi đưa ra quyết định dựa trên nó thì khả năng mắc hai sai lầm trên là nhỏ nhất. Tuy nhiên, người ta chứng minh được rằng một tiêu chuẩn như vậy là không tồn tại. Trong tình huống này, người ta xử lí như sau: Ta khống chế xác suất mắc sai lầm loại 1 nhỏ hơn một mức

đã ấn định

trước (thường nhỏ) và tìm một tiêu chuẩn cực tiểu xác suất mắc sai lầm loại 2. May mắn thay, một tiêu chuẩn như vậy luôn tồn tại. Nguyên tắc đưa ra quyết định: Người ta đưa ra quyết định dựa trên “nguyên lí xác suất nhỏ”. Nguyên lí xác suất nhỏ: Nếu một biến cố có xác suất nhỏ thì nó sẽ không xảy ra trong một hoặc một vài lần thực hiện phép thử. Đến đây, bài toán kiểm định giả thuyết được giải quyết bằng phương pháp phản chứng như sau: Giả sử, giả thuyết đặt ra là đúng, khi ấy tiêu chuẩn T có một phân phối hoàn toàn xác định. Dựa vào phân phối này, ta tìm một miền S thỏa mãn ( ∈ |

) = . Miền S được gọi là miền tiêu chuẩn hay miền bác bỏ giả thuyết.

Từ dữ liệu thực tế có được, ta tính ra giá trị của T và đối chiếu giá trị của T với miền tiêu chuẩn. Nếu

thì ta sẽ bác bỏ giả thuyết. Nếu ngược lại, ta

chấp nhận giả thuyết. Đó là lời giải của bài toán kiểm định giả thuyết. Cơ sở của quyết định trên được giải thích: Nếu giả thuyết là đúng đắn thì S là miền có xác suất nhỏ (vì

được chọn nhỏ). Do đó, biến cố

có xác suất

nhỏ. Một biến cố có xác suất nhỏ phải không xảy ra trong một hoặc một vài lần lấy mẫu mới là hợp lí. Do đó, nếu trong lần đầu lấy mẫu, ta thấy rằng T rơi vào miền S, điều này mâu thuẫn với nguyên lí xác suất nhỏ và quyết định ta đưa ra là bác bỏ giả thuyết. Khả năng phạm sai lầm loại 1 khi chọn quyết định này nhỏ hơn hoặc bằng . 100


Chú ý: Phương pháp giải trên được gọi là phương pháp kiểm định truyền thống. Một phương pháp khác thường được dùng trong các phần mềm thống kê là phương pháp P-value (P- giá trị). Tiêu chuẩn T là một biến ngẫu nhiên. Ta đưa ra quyết định dựa trên T hay chính dựa trên mẫu (những bằng chứng thu thập được). Nếu hai mẫu khác nhau có thể dẫn tới hai quyết định trái ngược nhau. Xác suất mắc sai lầm loại 1 được ưu tiên khống chế vì người ta cho rằng sai lầm này nghiêm trọng hơn nếu phạm phải. Xác suất mắc sai lầm loại 2 chưa được xác định. Do vậy, quyết định bác bỏ giả thuyết nói chung “an toàn” hơn quyết định chấp nhận giả thuyết vì

nhỏ và

đã biết. 5.3 Các bài toán kiểm định giả thuyết thường gặp 5.3.1. Bài toán kiểm định giả thuyết cho kì vọng ,

Cho X là biến ngẫu nhiên và(

,…,

)là mẫu ngẫu nhiên thu được về

biến X. Bài toán kiểm định: Với mức

cho trước, kiểm định các giả thuyết sau:

Bài toán 1: Giả thuyết

:

=

/ Đối thuyết

:

.

Bài toán 2: Giả thuyết

:

=

/ Đối thuyết

:

>

.

Bài toán 3: Giả thuyết

:

=

/ Đối thuyết

:

<

.

Bài toán 1 được gọi là bài toán kiểm định hai phía, bài toán 2 và bài toán 3 được gọi là bài toán kiểm định một phía. Ta giải các bài toán trên trong ba trường hợp sau: Trường hợp 1: ~ ( ,

) và

đã biết,

là tham số chưa biết.

Lời giải bài toán 1: : : Tiêu chuẩn kiểm định: = Giả sử,

đúng, tức là

= ≠

( )

√ =

.Người ta chứng minh được rằng tiêu

chuẩn T có phân phối chuẩn tắc. Với

cho trước, ta tìm một số

/

thỏa mãn

101

| |>

/

= .


Ta có: | |>

/

=

| |<

⟺1−

=

/

/

<

<

/

=1− Vì tiêu chuẩn U có phân phối chuẩn tắc nên: −

/

<

<

Do đó, ta có Φ

/

= | |>

/

= 2Φ

/

−1=1−

= 1 − . Từ đây, tra bảng phân phối chuẩn tắc ta sẽ

/

tìm được giá trị cụ thể của Đặt

−Φ −

/

/

.

. Đây chính là miền có xác suất nhỏ hơn hoặc bằng .

/

Như vậy, với việc xác định được phân phối của U và mức ý nghĩa

cho

trước, ta luôn xác định được miền tiêu chuẩn hay bác bỏ giả thuyết. Từ mẫu ngẫu nhiên thu được về biến X, tính giá trị của tiêu chuẩn U. Sau đó, ta so sánh | | với

/

Kết luận:Nếu | | >

. /

thì ta bác bỏ giả thuyết.Ngược lại, ta chấp nhận

giả thuyết. Ví dụ 1: Một người khẳng định năng suất trung bình của giống lúa A là 6,0 tấn/ha. Tuy nhiên, khi trồng loại lúa này trên 100 thửa ruộng thì thấy rằngnăng suất trung bình 6,5tấn/ha. Giả sử, năng suất lúaA có phân phối chuẩn với phương sai là 4. Với mức ý nghĩa 5%, khẳng định đưa ra có đáng tin không? Giải: Gọi X là năng suất của lúa A. Theo giả thiết, ~ ( , 4). Bài toán đặt ra: với mức ý nghĩa

Với

= 5%, kiểm định giả thuyết: : = 6,0 : ≠ 6,0

= 5%, tra ngược bảng phân phối chuẩn tắc tại mức 0,975 ta tìm

được giá trị

/

= 1,96.

Từ mẫu và giả thiết, ta có

= 6,5;

= 4. Do đó, giá trị của tiêu chuẩn

kiểm định là: 6,5 − 6,0 √100 = 2,5 2 Ta có | | = 2,5 > 1,96. Như vậy, mẫu điều tra được rơi vào miền bác bỏ =

√ =

giả thuyết. Kết luận đưa ra là bác bỏ giả thuyết, tức là năng suất trung bình của lúa A khác 6,0 tấn/ha hay khẳng định đưa ra chưa hợp lí. 102


Lời giải bài toán 2: Với cách làm hoàn toàn tương tự, bài toán 2 được giải như sau: Tiêu chuẩn kiểm định: = Với mức

cho trước, ta tìm một số ( ) thỏa mãn: ( >

)= .

Nếu giả thuyết đúng người ta chứng minh được tiêu chuẩn U có phân phối chuẩn tắc. Do đó, ta có: ( > Mặt khác, ( > nhận được giá trị của Đặt

={ >

)=1− ( < )=

= 1 − Φ(

) = 1 − Φ(

)

). Tra bảng phân phối chuẩn tắc ta

. } đây chính là miền bác bỏ giả thuyết của bài toán 2.

Từ mẫu quan sát được, tính giá trị của tiêu chuẩn U. Kết luận: Nếu giá trị của tiêu chuẩn U rơi vào miền

ta sẽ bác bỏ

.

Nếu ngược lại, ta chấp nhận nó. Ví dụ 2: Tiêu chuẩn khai thác gỗ keo Tai Tượng của một nhà máy là đường kính 1m30 phải từ 30cm trở lên. Tại một lâm trường trồng loại keo này, khi đo đường kính 1m30 của 50 cây thì đường kính trung bình là 32cm. Giả sử, đường kính có phân phối chuẩn với phương sai là 25cm. Loại keo của lâm trường này đã đạt tiêu chuẩn khai thác chưa, với mức 10%? Giải: Gọi X là đường kính cây keo. Ta có ~ ( , 25). Bài toán đặt ra: : :

= 30 ( = 10%) > 30

Tiêu chuẩn kiểm định: = Với

= 10%, ta có

= 1,65.

Với mẫu thu được, giá trị của tiêu chuẩn kiểm định là: =

√ =

32 − 30 √50 = 2,82 5 103


Kết luận: Vì

= 2,82 > 1,65 nên ta bác bỏ giả thuyết, tức là đường kính trung bình

của cây keo Tai Tượng tại lâm trường được khảo sát lớn hơn 30 cm. Bài toán 3 được giải quyết tương tự như Bài toán 1 và Bài toán 2 với cùng tiêu chuẩn kiểm định. Miền bác bỏ giả thuyết được xác định như sau: Ta tìm số ( <−

thỏa mãn

) = . Dựa vào phân phối chuẩn tắc của tiêu chuẩn kiểm định miền

bác bỏ giả thuyết là: = {( Trong đó,

,

,…,

):

<−

}

được tra từ bảng phân phối chuẩn tắc với mức 1 − .

Trường hợp 2: ~ ( ,

),

là tham số cần kiểm định và

chưa biết,

cỡ mẫu nhỏ (n<30). Ta vẫn xét ba bài toán kiểm định giả thuyết: Bài toán 1; Bài toán 2 và Bài toán 3 với cùng mức . Lời giải bài toán 1: Ta phát biểu lại bài toán 1: : :

= ≠

( )

Tiêu chuẩn kiểm định được sử dụng: = Trong đó,

√ ℎ

=

√ −1

là ước lượng không chệch, vững và hiệu quả cho

;

phương sai mẫu. Ta chứng minh được rằng khi

đúng thì tiêu chuẩn T có phân phối

Student với bậc tự do là n-1. Do vậy, miền bác bỏ giả thuyết được tìm như sau: Với

cho trước, ta tìm số

( − 1) thỏa mãn

Vì T có phân phối Student với n-1 bậc tự do nên của phân phối này. Vậy miền bác bỏ = (

,

,…,

| |>

( − 1) chính là phân vị mức

là: ): | | >

104

( − 1) = .

( − 1)


( − 1) được tra ở bảng phân phối Student n-1 bậc tự do và

Trong đó, mức .

,

Từ mẫu quan sát được, tính −

= - So sánh | | với

hoặc

√ ℎ

=

và giá trị của tiêu chuẩn T: −

√ −1

( − 1).

- Kết luận:Nếu | | >

( − 1) thì ta bác bỏ giả thuyết, ngược lại ta tạm

thời chấp nhận giả thuyết đặt ra. Ví dụ 3:Nhiệt độ tháng 6 đo được tại một địa phương ở nhiều điểm quan trắc khác nhau là: 25; 26; 28; 34; 37; 39; 34; 30; 26; 36; 38; 39 và 35 (thang đo độ C). Giả sử, nhiệt độ là biến có phân phối chuẩn. Với mức 5% có thể khẳng định rằng nhiệt độ trung bình trên địa phương này vào tháng 6 là 350C không? Giải: Gọi X là nhiệt độ tại địa phương đó. Ta có ~ ( ,

).

Bài toán đặt ra: : :

= 32,9;

Từ mẫu ta tính được: Và =

√ =

= 35 ( = 5%) ≠ 35

, ,

= 27,4;

= 13

√13 = −2,09

Tra bảng phân phối Student bậc tự do 12 mức 2,5% Ta được

,

(12) = 2,17.

Vậy | | = 2,09 < 2,17. Ta chấp nhận giả thuyết, tức là, có thể coi nhiệt độ trung bình vào tháng 6 tại địa phương này là 350C. Ở ví dụ này, ta thấy rằng mặc dù trung bình mẫu và giả thuyết chêch lệch khá lớn 2,10C nhưng giả thuyết không bị bác bỏ là vì cỡ mẫu nhỏ và độ lệch mẫu lớn. Tương tự như trong trường hợp 1, Bài toán 2 và Bài toán 3 có miền bác bỏ giả thuyết lần lượt là: ={ >

( − 1)

= { < − ( − 1)} 105


Trong đó,

( − 1)được tra ở bảng phân phối Student n-1 bậc tự do, mức .

Trường hợp 3:Cỡ mẫu lớn (n>30), trong trường hợp này, ta không cần giả thiết về tính chuẩn của biến. Trong trường hợp này, ta ước lượng phương sai chưa biếtcủa biến từ mẫu . Sau đó, thay

=

và giải ba bài toán kiểm định giả thuyết như trường =

hợp 1. Điều này đạt được vì tiêu chuẩn

√ có phân phối xấp xỉ phân

phối chuẩn tắc khi cỡ mẫu đủ lớn. Người ta thường chọn cỡ mẫu n >30 được cho là mẫu lớn vì khi cỡ mẫu lớn hơn 30 thì sai số khi xấp xỉ khá nhỏ. Ví dụ: ,

(35) = 1,689 ;

(50) = 1,675;

,

,

(100) = 1,66; (0,05) = 1,644

Ví dụ 4:Chiều cao của một số sinh viên đo được cho ở bảng sau: Chiều cao (m) 1,40-1,50 1,50-1,55 1,55-1,60 1,60-1,65 1,65-1,70 1,70-1,80 Số sinh viên

7

25

30

34

18

10

Với mức 5%, có thể khẳng định chiều cao trung bình của sinh viên lớn hơn 1,55m được không? Giải: Gọi X là chiều cao sinh viên. Bài toán kiểm định là: : μ = 1,55 ( = 5%) : μ > 1,55 Dựa vào mẫu ta tính được: Và = Với mức Vì

√ =

,

, ,

= 1,60; = 0,07; = 124 √124 = 7,57

= 5%, tra bảng phân phối chuẩn tắc, ta được (0,05) = 1,65.

= 7,57 > 1,65 nên ta bác bỏ giả thuyết, tức là chiều cao trung bình

của sinh viên lớn hơn 1,55m. 5.3.2. Kiểm định cho xác suất hay tỉ lệ Bài toán: Giả sử, tỉ lệ cá thể mang đặc tính A trong tổng thể đang quan tâm là p (chưa biết). Khi quan sát n cá thể trong tổng thể này thì thấy rằng có k cá thể mang đặc tính A. Từ dữ liệu có được và với mức ý nghĩa

cho trước, hãy kiểm

định các giả thuyết sau: Bài toán 1: Giả thuyết

:

=

/ đối thuyết 106

:

.


Bài toán 2: Giả thuyết

:

=

/ đối thuyết

:

>

.

Bài toán 3: Giả thuyết

:

=

/ đối thuyết

:

<

.

Ở đây ta chỉ giải chi tiết bài toán 1. Bài toán 2 và bài toán 3 giải một cách hoàn toàn tương tự. Ta xây dựng biến ngẫu nhiên từ phép thử: 1 khi cá thể mang đặc tính 0 khi cá thể không mang đặc tính Khi đó, thông tin thu được là mẫu ( , , … , ). Tần suất bắt gặp cá thể Đặt

=

mang đặc tính A là: =

=

1

Như vậy, tần suất f là một biến ngẫu nhiên. Tiêu chuẩn kiểm định được chọn là: − = (1 −

)

Người ta chứng minh được rằng khi giả thuyết đúng và 5; (1 −

) > 5 thì ~

Với mức ý nghĩa

(

,

)

do đó, ~ (0,1).

cho trước, ta tìm số

Vì T có phân phối chuẩn tắc nên

/

>

/

thỏa mãn

| |>

/

= .

được xác định bằng cách tra bảng phân

phối chuẩn tắc tại mức 1 − . Miền bác bỏ giả thuyết

là:

= | |>

/

.

Dựa vào mẫu, ta tính f và tính giá trị của tiêu chuẩn kiểm định U. So sánh | | với

/

Kết luận:Nếu | | >

. /

thì ta bác bỏ giả thuyết. Ngược lại, ta chấp nhận

giả thuyết đặt ra. Với cách làm tương tự, miền bác bỏ giả thuyết của bài toán 2 và bài toán 3 là: ={ > ={ <−

} }

Ví dụ 1:Một đơn vị cung cấp cây giống khẳng định tỉ lệ cây sống sau khi trồng trong điều kiện bình thường là 90%. Công ty A mua 500 cây của đơn vị này trồng và thấy rằng có 430 cây sống. Với mức ý nghĩa 5%, tuyên bố của đơn vị cung cấp cây giống có đáng tin không? 107


Giải: Gọi p là tỉ lệ cây sống sau khi trồng.Bài toán đặt ra: : :

= 0,9 ( = 5%) ≠ 0,9 Từ mẫu ta tính được: = Và: =

, √ ,

, . ,

430 = 0,86 500

=

√500 = −2,57

Với mức ý nghĩa 5%, tra bảng phân phối chuẩn tắc ta được

= 1,96.

,

Vì | | = 2,57 > 1,96 nên ta bác bỏ giả thuyết, tức là tỉ lệ cây sống không phải là 90% như tuyên bố. Ở đây, tần suất bắt gặp cây sống chỉ là 0,86 nên nhiều khả năng nhà sản xuất đã tuyên bố trội lên chất lượng sản phẩm của mình. 5.3.3. Kiểm định cho phương sai Cho ~ ( ,

);

chưa biết. (

,

,…,

)là một mẫu về X. Với mức

ý nghĩa , hãy kiểm định giả thuyết: Bài toán 1: Giả thuyết

:

=

/ đối thuyết

:

.

Bài toán 2: Giả thuyết

:

=

/ đối thuyết

:

>

.

Bài toán 1: Giả thuyết

:

=

/ đối thuyết

:

<

.

Lời giải toán bài toán 1: Tiêu chuẩn kiểm định: = Khi

( − 1)

đúng người ta chứng minh được rằng tiêu chuẩn

khi bình phương (

có phân phối

) với n-1 bậc tự do.

Ta sẽ bác bỏ giả thuyết khi tiêu chuẩn phía. Với mức ý nghĩa

nhận giá trị “cách xa” ( − 1) và

cho trước, ta tìm hai giá trị

thỏa mãn: > <

( − 1) =

2

( − 1) =

108

2

về hai ( − 1)


Do tiêu chuẩn 1) và

có phân phối khi bình phương n-1 bậc tự do nên

( − 1) chính là phân vị mức

và 1 −

( −

của phân phối này. Ta tra

được các giá trị này từ bảng phân phối khi bình phương. Như vậy, miền bác bỏ giả thuyết là: =

( − 1) ℎ ặ

>

Dựa vào mẫu quan sát được, tính giá trị của Kết luận:Nếu giá trị của

rơi vào miền

( − 1)

< .

thì ta bác bỏ giả thuyết. Ngược

lại, ta chấp nhận giả thuyết đặt ra. Bài toán 2 và Bài toán 3 được giải một cách tượng tự bằng việc vẫn dùng tiêu chuẩn

=

(

)

nhưng miền bác bỏ

Đối với bài toán 2, tìm số

được xác định như sau:

( − 1) sao cho

>

( − 1) = .

Miền bác bỏ giả thuyết là: ={

( − 1)}

>

( − 1) sao cho

Đối với Bài toán 3, tìm số

<

( − 1) = .

Miền bác bỏ giả thuyết là: ={

( − 1)}

<

Ví dụ 1:Một kĩ sư đo đường kính của 25 chi tiết máy và tính được

=

0,25. Biết rằng nếu độ biến động về đường kính của chi tiết máy lớn hơn 0,2 thì dây truyền này phải điều chỉnh lại. Với mức 5% dây truyền này có phải điều chỉnh lại không? Giải: Bài toán: : :

= 0,04 ( = 5%) > 0,04

Tiêu chuẩn kiểm định: =

( − 1)

=

24. (0,25) = 37,5 0,04

Tra bảng phân phối khi bình phương 24 bậc tự do với mức 5%, ta có ,

(24) = 36,41. 109


Như vậy,

= 37,5 >

,

(24) = 36,41. Do đó, ta bác bỏ giả thuyết

,

có nghĩa rằng dây truyền này phải được điều chỉnh lại. 5.4. Bài toán so sánh các tham số 5.4.1.So sánh hai giá trị trung bình Trong thực tế, ta thường xuyên phải so sánh hai hay nhiều đại lượng với nhau. Trong thống kê, ta cũng có các công cụ giúp giải quyết vấn đề này dựa trên những bằng chứng thu được về các đại lượng quan tâm. Bài này sẽ so sánh giá trị trung bình của hai biến ngẫu nhiên dựa trên hai mẫu độc lập và hai biến được giả thiết là có phân phối chuẩn hoặc cỡ mẫu lớn. Cho X và Y là hai biến ngẫu nhiên, (

,

,…,

)và ( ,

,…,

) là hai

mẫu về X và Y. Bài toán đặt ra như sau: Với mức ý nghĩa

cho trước, kiểm định giả thuyết sau:

Bài toán 1: Giả thuyết

:

=

/ đối thuyết

:

.

Bài toán 2: Giả thuyết

:

=

/ đối thuyết

:

>

.

Bài toán 3: Giả thuyết

:

=

/ đối thuyết

:

<

.

Ta giải ba bài toán trên trong các trường hợp sau: Trường hợp 1: Các biến được giả thiết có phân phối chuẩn và phương sai đã biết, tức là ~ (

) và ~ (

;

) với

;

;

đã biết.

Lời giải bài toán 1: Tiêu chuẩn kiểm định: −

=

+ Nếu giả thuyết Với mức ý nghĩa

đúng thì tiêu chuẩn U có phân phối chuẩn tắc. cho trước, ta tìm số | |>

/

/

thỏa mãn:

=

Vì ~ (0,1) nên tra bảng phân phối chuẩn tắc tại mức 1 − /2, ta tìm được giá trị này. Do vậy, miền bác bỏ giả thuyết của bài toán là: = | |> Dựa vào mẫu, tính

,

và tiêu chuẩn U: =

− +

110

/


So sánh | | với

/

.

Kết luận:Nếu | | >

/

ta bác bỏ giả thuyết

. Ngược lại, ta chấp nhận

giả thuyết đặt ra. Một cách tượng tự, miền bác bỏ giả thuyết của Bài toán 2 và Bài toán 3 lần lượt là: = { > ( )} = { < − ( )} Trường hợp 2: Các biến được giả thiết có phân phối chuẩn và phương sai chưa biết, cỡ mẫu nhỏ, tức là

~ (

) và ~ (

;

;

) với

;

chưa

biết và n<30 hoặc m<30. a) Mặc dù

;

chưa biết nhưng ta giả thiết chúng bằng nhau.Ta vẫn xét

ba bài toán kiểm định giả thuyết đã nêu Lời giải bài toán 1: Ta ước lượng phương sai chung: =

( − 1)

+ ( − 1) + −2

Tiêu chuẩn kiểm định: −

=

+ Giả sử, giả thuyết phân phối Student với Với mức ý nghĩa

đúng, người ta chứng minh được rằng tiêu chuẩn T có +

− 2 bậc tự do. ( +

cho trước, ta tìm số | |>

( +

− 2) =

Vì tiêu chuẩn T có phân phối chuẩn tắc nên của phân phối Student với

+

− 2) thỏa mãn:

( +

− 2) là phân vị mức

− 2 bậc tự do. Miền bác bỏ giả thuyết của

bài toán là: = | |> - Dựa vào mẫu, tính

,

, ,

,

( +

− 2)

và giá trị tiêu chuẩn T. 111


- So sánh | | với

( +

- Kết luận: Nếu | | >

− 2). ( +

− 2)ta bác bỏ giả thuyết. Ngược lại, ta

chấp nhận nó. Một cách tương tự, miền bác bỏ giả thuyết của Bài toán 2 và Bài toán 3 lần lượt là: ( +

={ >

={ <− ( + Trong đó,

( +

− 2)} − 2)}

− 2) được tra ở bảng phân phối Student với

+

2 bậc tự do mức . a. Phương sai của hai biến khác nhau, tức là

(đọc thêm)

Ta vẫn xét ba bài toán kiểm định đã nêu. - Tiêu chuẩn kiểm định: −

=

+ Khi giả thuyết đúng, tiêu chuẩn T có phân phối xấp xỉ Student với bậc tự do được ước lượng là phần nguyên của: + + Dựa vào phân phối này, ta sẽ đưa ra được miền bác bỏ giả thuyết. Trường hợp 3: Phương sai của biến chưa biết và mẫu có kích thước lớn ( > 30;

> 30), trong trường hợp này có thể bỏ qua tính chuẩn của biến.

Đối với trường hợp này, ta tìm ước lượng không chệch của biến X và bằng

cho phương sai của biến Y. Sau đó, thay

cho phương sai bằng

và giải các bài toàn kiểm định giả thuyết như trường hợp 1. Ví dụ 1:Khảo sát chiều cao của 28 cây keo và 29 cây Lát Hoa giống được

ươm trồng với các điều kiện khá giống nhau, ta được kết quả: Chiều cao trung bình và phương sai mẫu của các cây keo và cây Lát Hoa lần lượt là 0,75m với phương sai 0,25 và 0,5m với phương sai 0,2. Với mức ý nghĩa 5%, có thể nói rằng chiều cao của cây keo lớn hơn cây Lát Hoa không? Giả thiết, chiều cao cây có phân phối chuẩn. 112


Giải: Gọi X và Y lần lượt là chiều cao của cây Keo và cây Lát Hoa. Theo giả thiết: ~ ( ; ) và ~ ( ; ) với ; chưa biết. Ta có:

= 0,75;

= 0,25;

= 0,5;

= 0,2;

= 28;

= 29.

Bài toán đặt ra: : :

= >

( = 5%)

Phương sai chung: =

( − 1)

+ ( − 1) + −2

=

27.0,25 + 28.0,2 = 0,22 27 + 28

Tiêu chuẩn kiểm định: =

− +

=

0,75 − 0,5 = 2,08 0,47.0,26

Tra bảng phân phối Student 55 bậc tự do mức 5%, ta có . (55) = 2,00. Như vậy, T=2,08> . (55) nên ta bác bỏ giả thuyết, nghĩa là chiều cao của cây keo là lớn hơn. 5.4.2. Bài toán so sánh hai tỉ lệ (xác suất) Giả sử, ta quan tâm tới tỉ lệ cá thể mang đặc tính A nào đó ở hai tổng thể. Trong tổng thể 1, tỉ lệ cá thể mang đặc tính A là (chưa biết). Tỉ lệ này ở tổng thể 2 là (chưa biết). Khi điều tra cá thể ở tổng thể 1 thấy rằng có cá thể mang đặc tính A. Điều tra cá thể ở tổng thể 2 có cá thế mang đặc tính A. Bài toán đặt ra: Với mức cho trước, hãy kiểm định giả thuyết: Bài toán 1: Giả thuyết : = / đối thuyết : ≠ . Bài toán 2: Giả thuyết : = / đối thuyết : > . Bài toán 3: Giả thuyết : = / đối thuyết : < . Lời giải bài toán 1: - Ta ước lượng tần suất chung (tần suất bắt gặp cá thể mang đặc tính A ở cả tổng thể 1 và tổng thể 2): + = + Tiêu chuẩn kiểm định: − = (1 − ) +

113


> 10; (1 − ) > 10 thì

Ta chứng minh được rằng khi giả thuyết đúng và tiêu chuẩn T có phân phối chuẩn tắc. Với mức

cho trước, miền bác bỏ giả thuyết là: = | |>

Trong đó, 1−

/

/

được xác định bằng cách tra ngược bảng chuẩn tắc tại mức

. - Từ mẫu thu được, tính - So sánh | | với

/

,

, và tiêu chuẩn U.

/

ta bác bỏ giả thuyết. Nếu ngược lại, ta chấp

.

- Kết luận: Nếu | | > nhận giả thuyết đó.

Với cách làm tượng tự, miền bác bỏ giả thuyết của Bài toán 2 và Bài toán 3 lần lượt là: ={ >

}

={ <−

}

Trong đó, ( ) được xác định bằng cách tra ngược bảng phân phối chuẩn tắc tại mức (1 − ). Ví dụ 1:Khi hỏi 150 sinh viên nam và 200 sinh viên nữ về quan điểm đối với bộ phim A, người ta thấy rằng có 50 sinh viên nam và 150 sinh viên nữ thích bộ phim đó. Với mức ý nghĩa 5%, có thể khẳng định có sự khác biệt về tỉ lệ thích phim A ở hai nhóm nam và nữ được không? Giải: Gọi

;

lần lượt là tỉ lệ thích phim A ở nhóm sinh viên nam và nữ.

Bài toán: : :

= ≠

( = 5%)

Các tần suất: =

50 = 0,33; 150

=

150 = 0,75; 200

=

50 + 150 = 0,57 150 + 200

Tiêu chuẩn kiểm định: =

− (1 − )

= +

0,33 − 0,75 0,57.0,43.0,01

Tra bảng phân phối chuẩn ở mức 0,025 ta có 114

.

= −8,5

= 1,96


Vậy | | = 8,5 > 1,96 nên ta bác bỏ

, tức là có sự khác biệt rõ ràng về tỉ

lệ thích phim A ở hai nhóm nam và nữ. 5.4.3. Bài toán so sánh hai phương sai ~ (

Cho hai biến ngẫu nhiên nhiên (

,

,…,

) về X và ( ,

Với mức ý nghĩa

;

) và

,…,

~ (

;

). Hai mẫu ngẫu

) là mẫu về Y.

cho trước, kiểm định giả thuyết sau:

Bài toán 1:

:

=

/

:

.

Bài toán 2:

:

=

/

:

>

.

Bài toán 3:

:

=

/

:

<

.

Lời giải bài toán 1: Từ mẫu tìm ước lượng không chệch cho là

.

Lập tỉ số: = Khi giả thuyết H0 đúng thì F có phân phối Fisher với ( − 1;

− 1) bậc tự do.

Miền bác bỏ giả thuyết của bài toán này là: =

<

( − 1;

( − 1;

− 1)ℎ ặ >

− 1)

Bài toán 2 và Bài toán 3 được giải tương tự với miền bác bỏ giả thuyết lần lượt là: ( )(

= > = <

− 1;

)(

(

− 1)

− 1;

− 1)

5.5. Kiểm định tính độc lập của hai biến ngẫu nhiên (hai dấu hiệu) Trong thực tế, ta thường nghiên cứu nhiều biến ngẫu nhiên đồng thời. Việc phát hiện ra các biến có mối quan hệ với nhau hay không là một vấn đề rất quan trọng. Trong bài này, ta sẽ trình bày cách thức giải quyết vấn đề trên với hai dấu hiệu (biến ngẫu nhiên) có thể là dấu hiệu định lượng hay định tính. Xét hai dấu hiệu A và B. Dấu hiệu A được chia thành r mức Dấu hiệu B được chia thành k mức

,

,…, 115

.

,

,…,

.


Dữ liệu điều tra được từ các cá thể cho ở bảng sau (bảng liên hiệp các dấu hiệu): B

A

… … …

… Trong đó,

là số cá thể mang đồng thời đặc tính

.

Bài toán đặt ra là hãy kiểm định sự độc lập của hai dấu hiệu trên với mức ý nghĩa cho trước . Giải: Đầu tiên, ta lập bảng tính sau đây: B

A

Tổng

… … …

… Tổng

Trong bảng này, tính

trong mẫu.

n

là tổng hàng i. Đây chính là tổng số cá thể mang đặc là tổng cột i. Đây là tổng số cá thể mang đặc tính

. Tổng hàng hoặc cột cuối cùng là cỡ mẫu n. Nếu A và B là hai dấu hiệu độc lập với nhau thì: = ( )

,∀ ,

Ta chưa biết các xác suất này nhưng ta sẽ ước lượng chúng từ mẫu. Tần suất xuất hiện

là ước lượng cho xác suất xuất hiện

:

=

.

Tần suất xuất hiện

là ước lượng cho xác suất xuất hiện

:

=

.

Giả sử A và B độc lập thì xác suất bắt gặp một cá thể mang đồng thời đặc tính

được ươc lượng là: = .

= 116

.


Và do đó tần số cá thể mang đặc tính tính =

.

là:

.

=

Như vậy, nếu A và B độc lập thì số các thể mang đồng thời đặc tính và được ước lượng là . Tuy nhiên, thực tế chỉ quan sát được số cá thể này là . Một cách hình thức ta sẽ tìm một tiêu chuẩn để so sánh hai tần số này và dựa trên nó để đưa ra quyết định. Tiêu chuẩn kiểm định: −

= ,

Người ta chứng minh được rằng nếu A và B độc lập thì khi bình phương với ( − 1)( − 1) bậc tự do. Do đó, ta bác bỏ giả thuyết nếu

>

có phân phối

( − 1)( − 1) .

Ví dụ 1:Nghiên cứu ảnh hưởng của thành phần thức ăn của mẹ (X) đối với giới tính của trẻ (Y) ta có kết quả sau: X Y

Thiếu vitamin

Đủ vitamin

111 125

145 78

Trai Gái

Với mức ý nghĩa 5%, có thể nói rằng thành phần thức ăn độc lập với giới tính không. Giải: Các tính toán trong bảng sau: X Y Trai Gái Tổng

Thiếu vitamin

Đủ vitamin

Tổng

111 (131,6) 125 (104,4) 236

145 (124,4) 78 (98,7) 223

256 203 459

Tiêu chuẩn kiểm định: (111 − 131,6) (145 − 124,4) (125 − 104,4) (78 − 98,7) = + + + 131,6 124,4 104,4 98,7 =10,79 117


Tra bảng phân phối khi bình phương 1 bậc tự do, ta có Như vậy,

= 10.79 >

,

(0,05) = 3.84.

(1) nên ta bác bỏ giả thuyết, tức là có vẻ như

chế độ ăn có ảnh hưởng tới giới tính của trẻ. BÀI TẬP Bài 1: Một vườn ươm cây con phi lao có chiều cao trung bình chưa xác định. Theo hợp đồng ký kết giữa người sản xuất cây con và lâm trường: Chỉ khi nào chiều cao trung bình cây con đạt được trên 1m mới đem trồng. Qua điều tra 25 cây thì chiều cao trung bình thu được là 1,1m. Hỏi vườn cây con đó đã đem trồng được chưa? Biết rằng sự biến động chiều cao cây con trong giai đoạn vườn ươm là

= 0,1 m và luật phân bố chiều

cao có dạng chuẩn. Bài 2: Đo chiều cao của 38 sinh viên được chon ngẫu nhiên từ một trường đại học. Số liệu thu được cho ở bảng sau: Chiều cao (m)

1,45

1,55

1,57

1,60

1,65

1,70

1,75

Số sinh viên

3

6

5

11

7

4

2

Giả sử, chiều cao của sinh viên là biến ngẫu nhiên có phân phối chuẩn. a) Cho biết phương sai là

= 0,25, với mức ý nghĩa 5%, có thể nói rằng

chiều cao trung bình của sinh viên lớn hơn 1,60 m được không? b) Với mức ý nghĩa 10%, có thể khẳng định chiều cao trung bình của sinh viên lớn hơn 1,55m được không? Bài 3: Năng suất trung bình của 25 mảnh ruộng trồng lúa A là 6,0 tấn/ha. Với mức 5%, có thể khẳng định được năng suất trung bình của loại lúa A này là 6,5 tấn/ha được không? Giả sử năng suất lúa có phân phối chuẩn. Bài 4: Một mẫu có kích thước n = 25 được rút ra từ một tổng thể có phân phối chuẩn với phương sai là 64. Với mức ý nghĩa 5% hãy kiểm định giả thiết trung bình tổng thể là 52. Biết rằng trung bình mẫu tìm được là 55,4. Bài 5:Một công ty khẳng định rằng tỉ lệ sản phẩm đạt tiêu chuẩn là 98%. Tuy nhiên, khi kiểm tra 250 sản phẩm của công ty này thì thấy rằng có 33 sản phẩm không đạt tiêu chuẩn. Với mức ý nghĩa 5%, tuyên bố của công ty trên có đáng tin không? 118


Bài 6:Tiến hành 100 phép thửmột cách độc lập và thấy rằng có 14 lần xuất hiện biến cố A. Gọi p là xác suất xuất hiện biến cố A. Hãy giải các bài toán kiểm định giả thiết sau với mức ý nghĩa 5%. a) b)

H 0 : p  0, 2 H1 : p  0, 2 H 0 : p  0, 2 H1 : p  0, 2

Bài 7:Một kho hạt giống có tỷ lệ nảy mầm xác định là p = 0,9. Ngẫu nhiên thiết bị bị hỏng làm thay đổi điều kiện bên trong của kho. Tỷ lệ nảy mầm của hạt giống còn giữ nguyên không?Biết rằng khi kiểm tra 200 hạt giống thì có 140 hạt nảy mầm, với   10% . Bài 8:Trong một đàn gia súc kiểm tra 805 con có 80 con mắc bệnh A. Trong một đàn khác kiểm tra 2756 con có 357 con mắc bệnh A. Có thể coi tỷ lệ mắc bệnh ở cả hai đàn là như nhau không? Với mức ý nghĩa   5% . Bài 9: Một lâm trường thí nghiệm nghiên cứu sinh trưởng về chiều cao của lim trồng dưới tán và trồng thuần loài kết quả như sau: Quan sát 100 cây lim trồng dưới tán có chiều cao bình quân là 4,73m và sai tiêu chuẩn là 0,786m Quan sát 100 cây lim trồng thuần loài có chiều cao bình quân là 4,43m và sai tiêu chuẩn là 0,866m. Hỏi lim trồng theo 2 phương pháp trên có khác nhau cơ bản về sinh trưởng chiều cao hay không? Với mức ý nghĩa   5% . Bài 10: Trong một khu rừng người ta dự định phân thành hai khối. Giả sử rằng phân bố trữ lượng gỗ trên các ô có tính ngẫu nhiên và luật phân bố của nó có dạng chuẩn. Ở khối thứ nhất người ta điều tra 36 ô, trữ lượng gỗ bình quân là 12,04m3, sai tiêu chuẩn là 7,7m3. Ở khối thứ hai quan sát 36 ô, trữ lượng gỗ bình quân là 17m3, sai tiêu chuẩn là 7,36 m3. Hãy so sánh trữ lượng gỗ trung bình trên 2 khối có bằng nhau hay không? Với mức ý nghĩa   5% Bài 11:Kiểm tra hàm lượng nicotin trong hai loại thuốc lá A và B ở một bao thuốc, kết quả như sau: loại A: 24; 21;26;27;20;22; 28 và loại B: 22;25;21;21;20. (Đơn vị miligam). Với mức ý nghĩa 5%, có thể khẳng định hàm lượng nicotin trong hai loại thuốc trên là như nhau hay không? Giả sử, hàm lượng nicotin có phân phối chuẩn. 119


Bài 12:Lấy hai mẫu độc lập từ hai tổng thể X và Y có phân phối chuẩn ta được: = 12; = 18;

= 31,2;

= 0,84

= 29,2;

= 0,4

a) Với mức 5%, hãy kiểm định sự bằng nhau giữa phương sai của biến X và Y. b) Với mức 10%, có thể khẳng định giá trị trung bình của biến X và Y là bằng nhau được không? Bài 13: Để đánh giá một phương pháp điều trị mới, người ta điều trị 46 người theo phương pháp mới thấy khỏi 38 người, điều trị 47 người theo phương pháp cũ thấy khỏi 33 người. Có thể coi phương pháp mới đã có tác dụng rõ rệt không?   5% . Bài 14:Cho 2 mẫu độc lập: Mẫu 1: xi

3,4

3,5

3,7

3,9

ni

2

3

4

1

Mẫu 2: yi

3,2

3,4

3,6

ni

2

2

8

Với mức ý nghĩa 5%, kiểm định giả thiết H0: E(X) = E(Y) và đối thiết H1: EX  EY .

Bài 15:Hai phương pháp phân tích hàm lượng mùn trong đất cho kết quả sau: Phương pháp 1: 27,5

27

27,3

27,6

27,8

Phương pháp 2: 27,9

27,2 26,5

26,3

27 27,4 27,3

26,8

Hai phương pháp đó có cùng độ chính xác không? Với   1% Bài 16: Hai máy cùng gia công một loại chi tiết. Người ta muốn kiểm tra xem 2 máy này có độ chính xác như nhau hay không? Để làm điểu đó người ta lấy ngẫu nhiên từ mỗi máy 7chi tiết đem đo và thu được kết quả sau: Máy A: 135 138

136

140

138

135

139

Máy B: 140 135

140

138

135

138

140

Với mức ý nghĩa 5% có thể cho rằng hai máy có độ chính xác như nhau hay không? Biết kích thước chi tiết có phân phối chuẩn. 120


Bài 17:Số liệu điều tra về ảnh hưởng của hoàn cảnh kinh tế gia đình đối với chỉ số thông minh của trẻ được cho ở bảng sau. Chỉ số thông minh được chia thành 3 mức: ≤

<

≤ 130

> 130

Giàu

57

123

138

Nghèo

65

98

76

Với mức 5%, có thể khẳng định hoàn cảnh kinh tế của gia đình trẻ có ảnh hưởng tới chỉ số thông minh của trẻ em hay không? Bài 18: Quan sát một mẫu 3200 người về màu mắt và màu tóc ta được kết quả sau: Vàng

Nâu

Đen

Hung

Xanh lam

872

380

90

22

Xanh nâu

500

815

488

33

Có thể coi màu mắt và màu tóc là các đặc tính độc lập hay không? Lấy   5% .

121


Chương 6 SƠ LƯỢC VỀ LÝ THUYẾT TƯƠNG QUANVÀ HỒI QUY TUYẾN TÍNH 6.1.Phân tích tương quan tuyến tính Khi xét hai biến ngẫu nhiên X và Y, ta cần biết chúng có quan hệ với nhau hay độc lập với nhau. Nếu chúng có quan hệ với nhau thì cần xác định mức độ của mối quan hệ đó (mạnh hay yếu). Đại lượng cho biết mức độ quan hệ giữa hai biến ngẫu nhiên X và Y được gọi là hệ số tương quan của hai biến X và Y. 6.1.1.Định nghĩa Hệ số tương quan của hai đại lượng ngẫu nhiên X và Y, ký hiệu  ( X ,Y ) được xác định bởi công thức:

 ( X ,Y ) 

E  X  E ( X ) Y  E (Y )   D( X ) D(Y )

6.1.2.Tính chất a) 1   ( X ,Y )  1. b) Nếu  ( X , Y )  1 thì X và Y phụ thuộc tuyến tính, tức là có hai số a và b để Y = aX + bhoặc hai số c và d để X = cY + d. Người ta quy ước rằng: - Nếu 0, 7    1 : Ta nói các biến X và Y có tương quan tuyến tính mạnh; - Nếu 0,3    0,7 : Ta nói các biến X và Y có tương quan trung bình; - Nếu   0,3 thì sự tương quan giữa chúng là yếu. 6.1.3.Tiêu chuẩn độc lập của hai biến ngẫu nhiên Nếu X và Y độc lập thì  ( X ,Y ) = 0. Ngược lại chưa chắc đúng. 6.1.4.Hệ số tương quan mẫu Người ta quan sát các biến ngẫu nhiên X và Y thu được kết quả thực nghiệm như sau:

x

x1

x2

….

xn

y

y1

y2

yn

122


Khi đó, ta tính được hệ số tương quan mẫu r bởi công thức: n

  xi  x  yi  y 

i 1

r

n

,

2 n

  xi  x    yi  y 

i 1

2

i 1

n

n

 xi

 yi

n

n

Trong đó: x  i 1 ; y  i 1

Hoặc r cũng được xác định bằng công thức:

r

 n  n    xi   yi  n  i 1  i 1   xi yi  n i 1 2 2 n n   n 2 1 n   2 1   xi    xi     yi    yi   n  i 1   i 1 n  i 1   i 1  

Đặt:

QXY

 n  n    xi   yi  n   xi yi   i 1  i 1  n i 1 n

QX  

xi2

1 n     xi  n  i 1 

yi2

1 n     yi  n  i 1 

i 1 n

QY  

i 1

2

2

Thay vào công thức trên ta được r 

Q XY . QX  QY

Ví dụ 1: Tính hệ số tương quan mẫu của 2 biến X và Y với mẫu được cho trong bảng sau:

x

9,9

10,2

11.0

11,6

11,8

12,5

12,8

13,5

14,3

14,4

y

10,7

10,8

12,1

12,5

12,2

12,8

12,4

11,8

11,8

12,6

123


Giải: Ta lập bảng tính: x TT 1 2 3 4 5 6 7 8 9 10 Tổng

9,9 10,2 11 11,6 11,8 12,5 12,8 13,5 14,3 14,4 122

y

y2

xy

114,49 116,64 146,41 156,25 148,84 163,84 153,76 139,24 139,24 158,76 1437,47

105,93 110,16 133,1 145 143,96 160 158,72 159,3 168,74 181,44 1466,35

2

10,7 10,8 12,1 12,5 12,2 12,8 12,4 11,8 11,8 12,6 119,7

x 98,01 104,04 121 134,56 139,24 156,25 163,84 182,25 204,49 207,36 1511,04

Từ đó ta có: n  10 n

n

n

n

n

i 1

i 1

i 1

i 1

i 1

2 2  xi  122 ;  yi  119,7 ;  xi  1511,04 ;  yi  1437,47 ;  xi yi  1466,35

Q XY

 n  n    xi   yi  n 122.119,7   xi yi   i 1  i 1   1466,35   6, 01 n 10 i 1 2

n

QX  

xi2

1 n  1    xi   1511,04  .1222  22,64 n  i 1  10

yi2

1 n  1    yi   1437, 47  .119,7 2  4,66 n  i 1  10

i 1 n

QY  

i 1

2

Hệ số tương quan mẫu: r 

Q XY  Q X  QY

6, 01  0,59 . 22, 64  4, 66

6.2. Phân tích hồi quy tuyến tính 6.2.1. Mô hình Phân tích hồi quy là phương pháp dùng để dự đoán, ước lượng giá trị của một biến (được gọi là biến phụ thuộc, biến được giải thích) theo giá trị của một hay nhiều biến khác (được gọi là biến độc lập, biến giải thích). Ta đi xét trường hợp có một biến giải thích. Giả sử Y là một đại lượng ngẫu nhiên phụ thuộc vào biến X theo phương trình: 124


Y  0  1X  

(1)

Y được gọi là biến phụ thuộc, biến được giải thích hay biến đáp ứng (response). X được gọi là biến độc lập, hay biến giải thích.  là sai số hay phần dư của mô hình, là đại lượng đặc trưng cho những ảnh hưởng ngẫu nhiên đối với Y . Giả sử  có phân phối chuẩn với giá trị trung bình

bằng 0 và phương sai D ( )   2 . Các tham số (chưa biết) của mô hình hồi quy tuyến tính bao gồm 0 , 1 và  2 . Phương trình đường thẳng y  0  1x gọi là phương trình hồi quy tuyến tính lý thuyết. Hệ số 1 được gọi là độ dốc (slope), hệ số 0 được gọi là hằng số hồi quy. Giả sử ( x1, y1),( x2 , y2 ),...,( xn , yn ) là các giá trị quan sát của các biến X , Y , hay còn gọi là dữ liệu. Khi đó mô hình được viết lại như sau: (2)

yi  0  1xi  i , i  1, 2,..., n Trong đó: - Các giá trị xi đã biết và không ngẫu nhiên; - Các tham số 0 , 1 của mô hình là chưa biết;

-  i là các biến ngẫu nhiên độc lập, cùng phân phối chuẩn N (0,  2 ) ; - yi là các quan sát của một biến ngẫu nhiên Y . Các giả thiết trên được gọi là các giả thiết của mô hình hồi quy. Bài toán đặt ra là hãy ước lượng các tham số của 0 , 1 và  2 của mô hình hồi quy dựa trên mẫu quan sát ( x1, y1),( x2 , y2 ),...,( xn , yn ) . Trước hết, ta đi ước lượng 0 và 1 từ dữ liệu bằng phương pháp bình phương cực tiểu. 6.2.2. Ước lượng bình phương cực tiểu Từ các phương trình (2), ta tìm 0 và 1 sao cho tổng bình phương sai số: n

n

i 1

i 1

2

l (0 , 1)    i2    yi  ( 0  1xi )  đạt giá trị nhỏ nhất.

Ta có hệ phương trình:  l (  0 , 1 ) 0     0 n  1  xi   yi  0   2  l (  0 , 1 )  0   0  xi  1  x i   xi yi  1 125

(1) (2)


(1)  0 

 yi  1  xi n

Thế vào (2) :   

yi  1  xi n

 2   xi  1  xi   xi yi 

 xi  yi n 1  2 2   xi   xi  n  xi  yi  xi yi  QXY n Vậy b  , và a  y  bx là các giá trị ước lượng của  2 Q x X 2  i   xi  n  xi yi 

1 và 0 . Khi đó, đường thẳng có phương trình y  a  bx được gọi là đường thẳng hồi quy. Phương trình y  a  bx được gọi là phương trình hồi quy tuyến tính thực nghiệm của Y đối với X . Nó được dùng để dự báo giá trị trung bình của Y khi biết giá trị của X . Khi X  x thì ŷ  a  bx gọi là giá trị dự báo bởi đường hồi quy tuyến tính thực nghiệm . Từ dữ liệu ban đầu ( x1, y1),( x2 , y2 ),...,( xn , yn ) ta có các giá trị dự báo theo phương trình hồi quy yˆi  a  bxi , i  1, 2,..., n , và các sai số (phần dư) tương ứng là ˆi  yi  yˆi . Sai số ˆi là sự sai khác giữa giá trị quan sát yi và giá trị dự báo yˆi dựa theo đường thẳng hồi quy. Một số tính chất của đường thẳng hồi quy: - Nếu x tăng lên m đơn vị thì:

ym  a  b( x  m) = a + bx + mb = y + mb + Nếu b > 0 thì ta nói y tăng lên mb đơn vị. + Nếu b < 0 thì ta nói y giảm đi m|b| đơn vị. -Đường thẳng hồi quy đi qua điểm ( x , y ) : y  a  bx . -Giá trị trung bình của các giá trị dự báo theo đường thẳng hồi quy yˆi bằng giá trị trung bình của các quan sát yi : yˆi  yi . -Giá trị trung bình của các sai số ˆi bằng 0: ˆ  126

1 n  ( yi  yˆi )  0 . n i 1


n

n

i 1

i 1

2

- Tổng bình phương sai số:  ˆi2    yi  yˆi  . Ví dụ 2:Để đánh giá trữ lượng gỗ của cây trong một khu rừng, người ta đo thiết diện ngang, X (m) , của cây ở độ cao 1,3 m và thể tích, Y ( m 3 ) , của 8 cây thu được số liệu như sau:

x

0,005

0,011

0,020

0,031

0,045

0,061

0,08

0,101

y

0,020

0,054

0,128

0,320

0,530

0,750

1,100

1,450

a)Tính hệ số tương quan mẫu r. b)Hãy lập phương trình đường hồi quy tuyến tính thực nghiệm của thể tích đối với thiết diện của cây. Giải: a)Các tính toán được thể hiện trong bảng: TT

x

y

y2

xy

0,02

x2 0,000025

1

0,005

0,0004

0,0001

2

0,011

0,054

0,000121

0,00292

0,00059

3

0,02

0,128

0,0004

0,01638

0,00256

4

0,031

0,32

0,000961

0,1024

0,00992

5

0,045

0,53

0,002025

0,2809

0,02385

6

0,061

0,75

0,003721

0,5625

0,04575

7

0,08

1,1

0,0064

1,21

0,088

8

0,101

1,45

0,010201

2,1025

0,14645

Tổng

0,354

4,352

0,023854

4,278

0,31722

Ta có: n=8

 xi =0,354,  yi = 4,352, 2  xi

= 0,02385,  y i2 = 4,278,

 xi y i

= 0,31722,

Qxy = 0,317 -

1 .0,354. 4,352 = 0,12465, 8

Qx = 0,00819, 127


Qy = 1,9105 Vậy hệ số tương quan mẫu: r= 

Q xy Q x ×Q y

0,12465  0,9965 0,00819 1,9105

b)Viết phương trình đường hồi quy tuyến tính của Y theo X y = a + bx với b=

Q xy Qx

= 15,22

a = y  bx = - 0,129 Vậy phương trình hồi quy tuyến tính thực nghiệm của Y theo X : y = - 0,129 + 15,22 x BÀI TẬP Bài 1:Theo dõi mức độ đầu tư X (trệu đồng) và lợi nhuận Y (triệu đồng) của 10 xí nghiệp khác nhau trong cùng một ngành người ta thu được bảng số liệu sau đây:

x

1

1

2

3

3

5

6

7

8

y

2,3

2,5

2,6

3

3,1

3,5

3,7

4,5

5

a) Hãy tìm hệ số tương quan mẫu r. b) Lập phương trình hồi quy tuyến tính thực nghiệm của Y đối với X. Bài 2:Theo dõi mức thu nhập X (triệu đồng/năm) và giá trị của chiếc điện thoại di động Y (triệu đồng) của nhân viên công ty A ta thu được bảng số liệu sau:

x

15

18

22

23

28

30

33

33

y

1

0,7

2,6

0,6

3

7,8

3,8

4,8

a) Hãy tìm hệ số tương quan mẫu r. b) Lập phương trình hồi quy tuyến tính thực nghiệm của Y đối với X. Bài 3:Tìm hiểu mức tiêu dùng bia trong một tháng Y (lít) và thu nhập X (triệu đồng/tháng) của 8 người ta thu được bảng số liệu sau đây: 128


x

1,6

2

3,5

3

5

6,5

7

8

y

2,5

2,6

3

3,2

3,5

4

4

4,5

a) Hãy tìm hệ số tương quan mẫu r. b) Lập phương trình hồi quy tuyến tính thực nghiệm của Y đối với X. Bài 4:Thí nghiệm về loại loại phân bón X (tạ/ha) và năng suất lúa Y (tạ/ha) ta thu được kết quả sau:

x

2,5

2,6

2,7

2,8

2,9

3

3,1

3,2

y

45

47

47

48

52

54

55

54

a) Hãy tìm hệ số tương quan mẫu r. b) Lập phương trình hồi quy tuyến tính thực nghiệm của Y đối với X.

129


Chương 7 PHÂN TÍCH PHƯƠNG SAI Phương pháp hồi quy tương quan chủ yếu nghiên cứu mối liên hệ tương quan giữa các biến định lượng hoặc đã lượng hóa. Phương pháp phân tích phương sai (hay còn viết tắt là ANOVA) mà chúng ta sẽ trình bày trong chương này cho phép nghiên cứu mối liên hệ giữa tiêu chí nguyên nhân định tính với tiêu chí kết quả định lượng. Mục đích bài toán: Xem xét 1 hoặc 2 nguyên nhân (mặt định tính) có ảnh hưởng hay không ảnh hưởng đến kết quả (mặt định lượng).  Nếu ta chỉ xem xét 1 nguyên nhân tác động tới một kết quả, trường hợp này dẫn đến bài toán phân tích phương sai 01 nhân tố.  Nếu xét 2 nguyên nhân tác động tới cùng một kết quả, trường hợp này dẫn đến bài toán phân tích phương sai 02 nhân tố. Phương pháp nghiên cứu:  Chia tổng thể nghiên cứu thành k nhóm theo nguyên nhân;  Đặt giả thuyếtH0là giá trị trung bình của k nhóm bằng nhau;

H0 : 1  2  ...  k  Xét bài toán kiểm định giả thuyết H0 với đối thuyết H1 là tồn tại ít nhất một cặp giá trị trung bình khác nhau (mức ý nghĩa cho trước).  Điều kiện bác bỏ H0: Giá trị kiểm định F  F  k  1, n  k  . Trong đó F  k  1, n  k  được tra từ bảng phân phối Fisher.

Kết quả bài toán dẫn đến 2 trường hợp:  Bác bỏ H0: Tức là   i , j  :  i   j . Khi đó, kết luận là tiêu chí nguyên nhân có ảnh hưởng đến kết quả (vì giá trị trung bình của các nhóm xét trên cùng một nguyên nhân có sự khác nhau). Có thể tiến hành tiếp tục Phân tích sâu ANOVA nhằm xác định các nhóm có trung bình khác nhau.

130


 Chấp nhận H0: Tức là H0 : 1  2  ...  k . Trong trường hợp này tiêu chí nguyên nhân không ảnh hưởng đến kết quả (Vì giá trị trung bình của các nhóm xét trên cùng một nguyên nhân không có sự khác nhau). Tư duy phương pháp: Phương pháp đưa ra các tính toán dựa trên nhận xét sau: Có hai loại chênh lệch khác nhau trong bài toán phân tích phương sai. Thứ nhất là sự chênh lệch về kết quả giữa các nhóm, phần này do ảnh hưởng của tiêu chí nguyên nhân nghiên cứu. Thứ hai là chênh lệch trong nội bộ các nhóm, phần này do các nguyên nhân khác gây ra. Từ đó, phương pháp phân tích phương sai sẽ thực hiện theo ý tưởng: - Sử dụng phương sai để đo sự chênh lệch (phương sai) giữa các nhóm với nhau, và đo sự chênh lệch trong chính nội bộ các nhóm theo tiêu chí nghiên cứu; - Giá trị kiểm định F là tỷ lệ của phương sai giữa các nhóm và phương sai trong nội bộ các nhóm. Như vậy, F càng lớn thì ảnh hưởng của tiêu chí nguyên nhân càng lớn, các trị số trung bình càng khác nhau. 7.1. Phân tích phương sai một nhân tố(One -Way Analysis of Variance) 7.1.1. Trường hợp các nhóm có phân phối chuẩn và phương sai bằng nhau Giả sử nhân tố mà chúng ta đang xét được chia thànhk mức X1, X2,…, Xk và các biến Xj(j = 1, 2,…, k)đều có phân phối chuẩn với phương sai bằng nhau. Số liệu của bài toán trong trường hợp tổng quát cho trong bảng sau: X1

X2

Xk

x11

x12

x1k

x21

x22

x2k

xn11

x nk k

xn2 2

Chú ý: Số hàng ứng với từng cột ở bảng trên có thể khác nhau. Ta lần lượt kí hiệu: - Số hàng từ cột 1 đến cột k lần lượt là n1, n2,…, nk.; 131


- Tổng các giá trị mẫu theo từng cột từ cột 1 đến cột k là T1, T2,…, Tk. Yêu cầu đặt ra là xét xem có sự khác nhau về trung bình số liệu theo từng nhóm hay không với mức ý nghĩa  cho trước. Xét bài toán kiểm định giả thuyết: H0 : 1  2  ...  k . Kí hiệu: 1) Tổng bình phương chung (biến động chung): bậc tự do n-1. k ni

Q    xij  x i 1 j 1

2

  xij2 i, j

T2  n

2) Tổng bình phương do nhân tố (biến động do nhân tố): bậc tự do k-1. k

Q1   ni xi  x i 1

2

T2 T2 T12 T22   ...  k  n1 n2 nk n

3) Tổng bình phương do sai số (biến động do sai số): bậc tự do n-k.  T12 T22 Tk2  Q2       ...    n1 n2 nk  i, j  Q  Q1  Q2  Q2  Q  Q1 xij2

Tính phương sai bằng cách lấy biến động chia cho bậc tự do tương ứng. Khi đó ta có: o Phương sai do nhân tố: S12  o Phương sai do sai số: S22 

Q1 . k 1

Q2 . nk

o Test thống kê: F

S12 S22

Kết luận: - Nếu F  F( )  k  1, n  k  thì bác bỏ H0, tức là trung bình theo các nhóm có sự khác nhau hay yếu tố nguyên nhân có ảnh hưởng đến kết quả. - Nếu F  F( )  k  1, n  k  thì chấp nhận H0, tức là trung bình theo các nhóm không có sự khác nhau hay yếu tố nguyên nhân không ảnh hưởng đến kết quả. 132


Ta có bảng ANOVA tóm tắt các kết quả tính toán như sau: Nguồn

Biến động

Bậc tự do

Phương sai

Nhân tố

Q1

k-1

S 12

Sai số

Q2

n-k

Tổng

Q

n-1

S 22

Tỷ số F F

S12 S22

Tỷ số tra bảng F( )  k  1, n  k 

Ví dụ 1: Trường phổ thông cơ sở A mời 3 giáo viên bồi dưỡng cho 100 học sinh dự thi học sinh giỏi tin học. Sau một thời gian ôn tập, chọn mẫu 12 học sinh trong 100 học sinh trên thi thử với kết quả theo bảng sau (thang điểm 100). Với mức ý nghĩa 5% hãy kiểm định xem điểm thi của học sinh theo học 3 giáo viên trên có khác nhau không? Số liệu về điểm thi của học sinh được cho trong bảng dưới đây. Giả thiết điểm thi của học sinh tuân theo luật phân phối chuẩn. Điểm của học sinh(xij) GV A

GV B

GV C

79

71

83

86

77

69

93

81

71

83

77

Giải: Trong bài toán này yếu tố nguyên nhân là giáo viên (định tính) và kết quả là điểm thi của học sinh (định lượng) theo các giáo viên đó. Như vậy, theo đề bài ta thấy số nhóm theo nguyên nhân là k =3 (Vì quan sát 3 giáo viên A, B, C). Gọi 1, 2 , 3 lần lượt là điểm trung bình của học sinh theo 3 giáo viên. Xét bài toán kiểm định giả thuyết:

H0 : 1  2  3. H1: Có ít nhất một cặp i và  j khác nhau. 133


Để thuận tiện trong tính toán, ta lập bảng tính như sau: Điểm của học sinh (xij)

Số mẫu quan sát(ni) ni

Tổng theocột: Ti   xij

Chung các nhóm

GV A

GV B

GV C

79

71

83

86

77

69

93

81

71

83

77

n1 = 3

n2 = 4

n3 = 4

n = 11

258

312

300

T = 870

x1  86

x2  78

x3  75

j 1

Trung bình mẫu: xi 

Ti ni

x

870  79,091 12

Áp dụng các công thức ở trên vào ví dụ ta tính được: C

870 2  68809, 091 11

Q  79 2  712  832  86 2  ...  832  77 2  76800  69513  68809, 091  703, 909

Tk2 T12 T22 2582 3122 3002 Q1    ...  C     C  69024  68809,091  214,909 n1 n2 nk 3 4 4

Q2 = 703,909 – 214,909 = 489 S12 

Q1 214,909   107, 4545 k 1 3 1

S22 

Q2 489   61,125 n  k 11  3

F

S12 S22

107, 4545  1,758 61,125

Tra bảng phân phối F(2,8)(0,05) = 4,459. 134


Ta có bảng ảng ANOVA như sau: Nguồn Nhân tố

Sai số

Tổng

Biến động

Bậc tự do

Phương sai

Q1

k-1

S 12

214,909

2

107,4545

Q2

n-k

S 22

489

8

61,125

Q

n-1

703,909

10

Tỷ số F F

F( )  k  1, n  k 

S12 S22

1,758

F( )  k  1, n  k 

= 4,459

Vậy F <F(0,05)(2;8), 2;8), nên chấp ch nhận giả thuyếtH0, nghĩa ĩa llà với độ tin cậy 95% thì điểm ểm thi theo 3 giáo viên như nhau. Hay yếu ếu tố giáo vi viên không ảnh hưởng ởng tới kết quả điểm thi của học sinh. 7.1.2. Trường ờng hợp các nhóm có phân phối bất kỳ (Đọc thêm) êm) Trong trường ờng hợp này n ta phải sử dụng phương pháp kiểm ểm định phi tham số. Giảả sử rằng chúng ta có các c mẫu ngẫu nhiên độc ộc lập gồm n1, n2, ..., nk quan sát từ k tổng ổng thể có phân phối bất kỳ. Ta sử dụng kiểm định KRUSKAL KRUSKALWALLIS bằng cách xếp x hạng các quan sát mẫu. Mặc dùù ssố quan sát của cácmẫu làà khác nhau nhưng khi xếp x hạng thì được ợc sắp xếp một cách li liên tục từ nhỏỏ đến lớn, nếu giá trị quan sát trùng tr nhau thì hạng ạng xếp giống nhau bằng cách dùng số trung bình cộng ộng các hạng của chúng để chia đều. đề Ðặt n = n1 + n2 + ... + nklà tổng ổng các quan sát thuộc các mẫu, vvà R1, R2,..., Rklà tổng ổng của các hạng được đ xếp theo thứ tự của k mẫu. ẫu. Kiểm định giả thuyết ở mức ý nghĩa  cho trường ờng hợp này n là: H0: Trung bình của ủa k tổng thể đều bằng nhau. Ở đây ta sử dụng biến W thay cho tỉ số F trong phần ần tính toán giá trị kiểm định.

Tra bảng ảng phân phối khi k bình phương để so sánh, và giảả thuyết H0 bị bác bỏ khi: W   k21 ( )

135


Ví dụ 2: Một ột quản trị Marketing muốn xem xét chi phí bán hàng hàng trung bình trên tháng (đơn vịị 1000 đồng) của một sản phẩm điện tử ở 3 cửa hàng hàng khác nhau A, B, C. Số liệu của chỉ tiêu êu trên được được thu nhập trong 7 tháng cho cửa hhàng A, 7 tháng cho cửa hàng àng B và 6 tháng cho cửa hàng C như trong bảng ảng sau: Cửa hàng A

B

C

22,2

24,6

22,7

19,9

23,1

21,9

20,3

22,0

23,3

21,4

23,5

24,1

21,2

23,6

22,1

21,0

22,1

23,4

20,3

23,5

Tổng: 146,3

162,4

137,5

Giả thuyết chi phí bán hàng có phân phối ph tùy ý. Hãy kiểm ểm định xem chi phí bán hàng theo các cửa hàng àng có khác nhau hay không với với mức ý nghĩa 0,5%. Giải: Trong ví dụ này, ta lập ập bảng xếp hạng cho 3 cửa hàng như trong bbảng sau:

Bảng ảng dữ liệu: Xếp hạng liên li tục các dữ liệu ở ba cửa hàng (Đơn Đơn vvị 1000 đồng). Trong cách xếp hạng này, chi phí nhỏ nh nhất trong ba cửa hàng àng là 19,9 (ngàn đồng) được xếp hạng 1, tương ương tự t hạng được ợc xếp cho đến chi phí lớn nhất llà 24,6 (ngàn đồng) được ợc xếp hạng 20. Những chi phí trùng tr nhau sẽẽ có hạng bằng nhau, chẳng hạn như ư có hai chi phí là 20,3 (ngàn đồng) đ trong cửa hàng àng A, hhạng thứ tự của chúng là 2 và 3. Vì vậy, ậy, hai giá trị 20,3 có hạng bằng nhau và v bằng ằng (2+3)/2 = 2,5. 136


Từ ừ bảng tính, ta có giá trị kiểm định:

= 11,10. Ở đây chúng ta có bậc tự do (k ( -1) = 2 và nếu ếu kiểm định ở mức ý nghĩa 0,5% khi tra bảng ảng phân phối khi k bình phương ta tìm được:  22 ( )   22 (0, 005)  10, 6

Bởi vì W = 11,10 >10,6 nên giả gi thuyết H0 bịị bác bỏ ở mức ý nghĩa 0,5% nghĩa là chi phí bán hàng trung bình/sản bình/s phẩm ở ba cửa hàng không bằng ằng nhau. 7.2. Phân tích phương sai hai nhân tố t (Đọc thêm)(Two -Way Way Analysis of Variance) Phân tích phương sai hai nhân tố t là xét đến ến hai yếu tố (hai nguy nguyên nhân) ảnh hưởng đến hiện tư ượng nghiên cứu. Ví dụ:Trong rong phân tích phương sai m một chiều ở trên cho ta biết ết kết quả học tập trung bình của ủa học sinh do 3 giáo vi viên dạy làà khác nhau mà chưa nghiên cứu c đến hoàn cảnh gia đình ình ccủa từng học sinh. Phân tích phương sai hai nhân tố t sẽ có ý nghĩa trong trường ờng hợp nnày. 7.2.1. Trường ờng hợp các nhân tố không tương t tác Ta xét bài toán tổng ổng quát: Phân tích đánh giá sự ảnh hư hưởng của 2 nhân tố (yếu tố) A vàà B trên các giá trị tr quan sát xij. Giảả thiết: Nhân tố A có n mức a1, a2,…, an (Nhân tố hàng) àng) Nhân tố B có m mức m b1, b2,…, bm (Nhân tố cột) Cho bảng ảng quan sát mẫu như nh sau: B

b1

b2

bm

a1

x11

x12

x1m

a2

x21

x22

x2m

xn1

xn2

xnm

A

… an  Giả thuyếtH0: - Trung bình nhân tố t cột bằng nhau; - Trung bình nhân tố t hàng bằng nhau; - Không có sự tương ương tác giữa gi nhân tố cột và nhân tố hàng àng. 137


 Các bước tính toán: n

B

b1

A

b2

Ti*   xij

bm

j 1

n

2  xij

j 1 n

a1

x11

x12

x1m

T1*

a2

x21

x22

x2m

T2*

xn1

xn2

xnm

Tn*

T*1

T*2

T*m

T   xij

2  xim

2  x1j

j 1 n

2  x2j

j 1

… n

an m

T* j   xij i 1

m

m

2

 xij

m

2

2  xi2

 xi1

i 1

i 1

j 1

i, j

m

i 1

2  xnj

2

 xij

i, j

i 1

Lập bảng ANOVA: Nguồn

Tổng bình phương (SS) 2

Yếu tố A

 Ti* SSA 

Bậc tự do

Trung bình bình phương

T2 m.n

n -1

MSA 

SSA n 1

FA 

MSA MSE

T2  n m.n

m -1

MSB 

SSB m 1

FB 

MSB MSE

i

m 2

Yếu tố B

Sai số Tổng

 T* j SSB 

j

F

SSE = SST – SSA – SSB SST   i, j

xij2

T2  m.n

(n-1)(m-1) MSE 

SSE (n  1)(m 1)

n.m -1

Kết luận: F  F(n 1),(n 1)(m 1) (1   )  Nếu A thì bác bỏ giả thuyếtH0 cho rằng trung bình của tổng thể theo chỉ tiêu hàng thì bằng nhau.

 Nếu FB  F(m 1),(n 1)(m 1) (1   ) thì bác bỏ giả thuyếtH0 cho rằng trung bình của tổng thể theo chỉ tiêu cột thì bằng nhau. 138


Ví dụ 1: Chiết suất chất X từ một loại dược liệu bằng 3 phương pháp và 5 loại dung môi, ta có kết quả: PP chiết suất(B) Dung môi(A) a1

b1

b2

b3

120

60

60

a2

120

70

50

a3

130

60

50

a4

150

70

60

a5

110

75

54

Xét ảnh hưởng của phương pháp chiết suất và dung môi đến kết quả chiết suất chất X với mức ý nghĩa 0,01. Giải: Đặt giả thuyết H0: - Chiết suất trung bình của 3 phương pháp là như nhau; - Chiết suất trung bình từ 5 loại dung môi là như nhau; - Nhân tố phương pháp và dung môi không có sự tương tác với nhau. Lập bảng tính: PP chiết suất(B) Dung môi(A) a1 a2 a3 a4 a5 T*j 2

 xij

i, j

b1

b2

b3

Ti*

120 120 130 150 110 630

60 70 60 70 75 335

60 50 50 60 54 274

240 240 240 280 239 T= 1239

80300

22625

15116

Tính: SST   xij2  i, j

2

 Ti* SSA 

i

m

T2 12392  118041   155699,6 m.n 5.3 T 2 308321 12392    432, 2667 m.n 3 5.3 139

2

 xij

i, j

2  xij  118041

i, j


2

 T*j SSB 

j

n

T 2 584201 12392     14498,8 m.n 5 5.3

SSE = SST - SSA- SSB = 768,5333 Lập bảng ANOVA: Nguồn

Tổng bình phương (SS)

Bậc tự do

Trung bình bình phương

F

Yếu tố A

SSA  432, 2667

4

MSA  108, 0667

FA  1,1249

Yếu tố B

SSB  14498,8

2

MSB  7249, 4

FB  74,4622

Sai số

SSE = 768,5333

8

MSE  96, 0667

Tổng

SST  155699, 6

14

Kết luận: FA< F4,8(0,99)=7,006 => Chấp nhận giả thuyết trung bình chiết suất của 5 loại dung môi là như nhau hay nói dung môi không ảnh hưởng đến kết quả chiết suất. FB> F2,8(0,99) = 8,649 => Bác bỏ giả thuyết trung bình chiết suất của 3 phương pháp như nhau, nghĩa là phương pháp có ảnh hưởng đến kết quả chiết suất. 7.2.2. Trường hợp các nhân tố có tương tác Tương tự như bài toán phân tích phương sai hai nhân tố không tương tác ở trên, nhưng ở đây khác là mỗi mức (ai, bj) có sự lặp lại r lần thí nghiệm và ta cần khảo sát thêm sự tương tác FAB giữa 2 nhân tố A và B. Cho bảng quan sát mẫu như sau: A

B

b1

b2

a1

x111 x112 … x11r

x121 x122 … x12r

a2

x211 x212 … x21r

x221 x222 … x22r

xn11 xn12 … xn1r

xn21 xn22 … xn2r

bm

x1m1 x1m2 … x1mr

x2m1 x2m2 …

x2mr

… an

140

xnm1 xnm2 … xnmr


 Giả thuyết H0: - Trung bình nhân tố cột bằng nhau; - Trung bình nhân tố hàng bằng nhau; - Không có sự tương tác giữa nhân tố cột và nhân tố hàng.  Các bước tính toán:Tính tổng hàng Ti**   xijk , tổng cột T* j*   xijk . i, k

j,k

B

b1

b2

a1

x111 x112 … x11r

x121 x122 … x12r

a2

x211 x212 … x21r

x221 x222 … x22r

xn11 xn12 … xn1r

xn21 xn22 … xn2r

A

bm

x1m1 x1m2 … x1mr

x2m1 x2m2

Ti** T1**   x1jk j, k

T2**   x2jk j, k

x2mr

an

T*1*   xi1k T*2*   xi 2k

T*j*

i, k

i,k

i

j

2

xij2k

i, j

Suy ra: SST   xijk  x i , j ,k

  i, j ,k

T2  nmr

2

SSA  mr  xi**  x i

2

 Ti**

T2   mr nmr i

2

SSB  nr  x* j*  x i

2

T*m*   ximk i,k

2 2 2 Cần tính:  xij2k ;  Ti** ;  T*j*;  Tij* . i, j, k

xnm1 xnm2 … xnmr

 T*j*

T2   nr nmr j

141

Tn**   xnjk j, k

T   xijk i, j, k


2

SSAB  r  xij*  xi**  x* j*  x i

2

2

 Tij*

i, j

r

2

 T*j* 

j

 Ti** 

nr

i

mr

T2 nmr

2

 xij*

SSE  SST  SSA  SSB  SSAB   xij2k  i, j ,k

i, j

r

Bảng ANOVA: Nguồn

Tổng bình phương (SS)

Bậc tự do

Trung bình bình phương

F

Yếu tố A

SSA

n -1

MSA 

SSA n 1

FA 

MSA MSE

Yếu tố B

SSB

m -1

MSB 

SSB m 1

FB 

MSB MSE

Tương tác

SSAB

AB

Sai số

Tổng

SSE = SST – SSA – SSB – SSAB SST

  xij2 i, j

T2  m.n

(n-1)(m-

MSAB 

1)

nm(r-1)

MSE 

SSAB MSAB FAB  (n  1)(m  1) MSE

SSE nm(r  1)

nmr -1

 Nếu FA  F(n 1),nm(r 1) (1   ) thì bác bỏ giả thuyết H0 cho rằng trung bình của tổng thể theo chỉ tiêu hàng thì bằng nhau.  Nếu FB  F(m 1),nm(r 1) (1   ) thì bác bỏ giả thuyết H0 cho rằng trung bình của tổng thể theo chỉ tiêu cột thì bằng nhau.  Nếu FAB  F(n 1)(m 1),nm(r 1) (1   ) thì bác bỏ giả thuyết H0 cho rằng không có sự tương tác giữa nhân tố hàng và nhân tố cột. Ví dụ 2:Hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái trong 2 mùa (khô và mưa; trong mỗi mùa lấy mẫu 3 lần:đầu mùa, giữa mùa, cuối mùa) và từ 3 miền (Nam, Trung, Bắc)thu được kết quả sau: 142


Miền Mùa

Thời điểm Nam

Trung

Bắc

Khô

Đầu mùa Giữa mùa Cuối mùa

2,4 2,4 2,5

2,1 2,2 2,2

3,2 3,2 3,4

Mưa

Đầu mùa Giữa mùa Cuối mùa

2,5 2,5 2,6

2,2 2,3 2,3

3,4 3,5 3,6

Hãy cho biết hàm lượng Saponin có khác nhau theo mùa hay miền không? Nếu có thì 2 yếu tố mùa và miền có sự tương tác với nhau hay không?  = 0,05. Giải: Miền

Nam

Mùa Khô

2,4 2,4 2,5

Mưa

2,5 2,5 2,6

T*j*

Trung

7,3

7,6 14,9

2,1 2,2 2,2

6,5

3,2 3,2 3,4

9,8

Bắc 2,2 2,3 2,3 3,4 3,5 3,5

16,3

:

Tính: 2  xijk  134,64

i , j,k

2 2 2  Ti**  20, 6  27,8  1197, 2 i

2 2 2 T*j*  20,6  27,8  783,54 j

2 2 2 2 2 2 2  Tij*  7,3  7,6  6,5  6,8  9,8  10,4  403,74

i, j

T2 = 48,42 = 2342,56 143

17,2

Ti**

6,8

20,6

10,4

27,8 T=48,4


SST   xijk  x i , j ,k

2

  i, j , k

T2 2342,56   134,64   4, 4978 nmr 18

xij2k 2

SSA  mr  xi**  x i

2

 Ti**

T 2 1197,2 2342,56      2,88 mr nmr 9 18 i

2

SSB  nr  x* j*  x i

2

 T*j* 

j

nr

T2 783,54 2342,56    0, 448 nmr 6 18 2

 xij*

SSE  SST  SSA  SSB  SSAB   xij2k  i, j,k

i, j

r

 134,642 

403,74  0,06 3

SSAB = SST – SSA – SSB – SSAB = 4,4978 – 2,88 – 0,448 – 0,06 = 1,1098 Bảng ANOVA: Nguồn

Tổng bình phương

Bậc

Trung bình bình

(SS)

tự do

phương

2,88

1

Yếu tố A(Mùa) Yếu tố

0,448

B(Miền)

2

MSA 

SSA =2,88 n 1

MSB 

SSB m 1

F

FA = 576

FB = 44,8

=0,224

Tương tác AB

SSAB = 1,1098

2

MSAB = 0,5549

Sai số

SSE = 0,06

12

MSE = 0,005

Tổng

SST = 4,4978

17

FAB  110,98

Kết luận: FA> F1;12(0,95) = 4,7472=> Bác bỏ giả thuyết hàm lượng Saponin giống nhau theo mùa. FB> F2;12(0,95) = 3,8853 => Bác bỏ giả thuyết hàm lượng Saponin giống nhau theo miền. FAB> F2;12(0,95) = 3,8853 => Bác bỏ giả thuyết nhân tố mùa và miền không có tương tác với nhau. 144


BÀI TẬP Bài 1: Điều tra số liệu về đường kính thân cây (mm) của một loại cây lâm nghiệp được trồng ở ba vùng khác nhau được kết quả sau: Vùng 1: 7,5 6,8 7,1 7,5 6,8 6,6 7,8 Vùng 2: 5,8 5,6 6,1 6,0 5,7 Vùng 3: 6,1 6,3 6,5 6,4 6,5 6,3 Hỏi đường kính thân cây có khác nhau theo vùng hay không? Với mức ý nghĩa 5%. Bài 2:So sánh 3 loại thuốc bổ A, B, C trên 3 nhóm, người ta được kết quả tăng trọng (kg) như sau: A: 1,0 1,2 1,4 1,1 0,8 0,6 B: 2,0 1,8 1,9 1,2 1,4 1,0 1,5 1,8 C: 0,4 0,6 0,7 0,2 0,3 0,1 0,2 Hãy so sánh kết quả tăng trọng của 3 loại thuốc bổ trên với mức ý nghĩa là 0,01. Bài 3: Một nghiên cứu được thực hiện nhằm xem xét năng suất lúa trung bình của 3 giống lúa. Kết quả thu thập qua 4 năm như sau: Năm A BC 1 65 69 75 2 74 72 70 3 64 68 78 4 83 78 76 Hãy cho biết năng suất lúa trung bình của 3 giống lúa có khác nhau hay không? Với   0, 01 . Bài 4: So sánh hiệu quả giảm đau của 4 loại thuốc A, B, C, D bằng cách chia 20 bệnh nhân thành 4nhóm, mỗi nhóm dùng một loại thuốc giảm đau trên. Kết quả mức độ giảm đau là: A: 82 89 77 72 92 B: 80 70 72 90 68 C: 77 69 67 65 57 D: 65 75 67 55 63 Hỏi hiệu quả giảm đau của 4 loại thuốc có khác nhau không với   0, 05 ?

145


TÀI LIỆU THAM KHẢO 1. Đào Hữu Hồ (2007). Xác suất thống kê.Nhà xuất bản Đại học Quốc gia, Hà Nội. 2. Nguyễn Văn Hữu, Nguyễn Hữu Dư (2003). Phân tích thống kê và dự báo. Nhà xuất bản Đại học Quốc gia, Hà Nội. 3. Tống Đình Quỳ (2007).Giáo trình xác suất thống kê. Nhà xuất bản Bách Khoa, Hà Nội. 4. Đặng Hùng Thắng(2008). Mở đầu về lý thuyết xác suất và ứng dụng (tái bản lần thứ 3). Nhà xuất bản Giáo dục. 5. Đặng Hùng Thắng (2009). Thống kê và ứng dụng. Nhà xuất bản Giáo dục. 6. D.R. Anderson, D.J. Sweeney, T.A. Williams (1994).Introduction to Statistics Concepts and Applications.Third edition, West Publishing Company. 7.Pierre Lafaye de Micheaux, Rémy Drouilhet, Benoît Liquet(2011).Le logiciel R -Maîtriser le langage Effectuer des analyses statistiques.Nhà xuất bản Springer.

146


MỤC LỤC

Chương 1. BIẾN CỐ NGẪU NHIÊN VÀ PHÉP TÍNH XÁC SUẤT ............. 5 1.1.Các khái niệm mở đầu..................................................................................... 5 1.1.1. Phép thử ngẫu nhiên ...........................................................................................5 1.1.2. Không gian mẫu ..................................................................................................5 1.1.3. Biến cố ..................................................................................................................6 1.1.4. Quan hệ giữa các biến cố ...................................................................................8 1.2. Các định nghĩa về xác suất ........................................................................... 12 1.2.1. Định nghĩa xác suất cổ điển ............................................................................. 12 1.2.2. Định nghĩa xác suất thống kê ........................................................................... 15 1.2.3. Định nghĩa xác suất theo hệ tiên đề (Đọc thêm) ............................................. 17 1.3. Các công thức tính xác suất.......................................................................... 18 1.3.1. Công thức cộng xác suất .................................................................................. 18 1.3.2. Công thức nhân xác suất .................................................................................. 20 1.4. Công thức Bernoulli ..................................................................................... 29 1.4.1. Dãy phép thử Bernoulli .................................................................................... 29 1.4.2. Công thức Bernoulli.......................................................................................... 30 1.5. Công thức xác suất đầy đủ và công thức Bayes ........................................... 33 1.5.1. Giới thiệu khái niệm nhóm đầy đủ ................................................................... 34 1.5.2. Công thức xác suất đầy đủ và công thức Bayes .............................................. 34 TÓM TẮT CHƯƠNG I....................................................................................... 39 Chương 2. BIẾN NGẪU NHIÊN ..................................................................... 41 2.1. Khái niệm biến ngẫu nhiên .......................................................................... 41 2.1.1. Khái niệm........................................................................................................... 41 2.1.2. Phân loại............................................................................................................ 42 2.2. Luật phân phối xác suất................................................................................ 42 2.2.1. Hàm phân phối xác suất ................................................................................... 42 2.2.2. Bảng phân phối xác suất .................................................................................. 43 147


2.2.3. Phân phối xác suất cho biến ngẫu nhiên liên tục ............................................45 2.3. Các số đặc trưng của biến ngẫu nhiên .......................................................... 48 2.3.1. Kỳ vọng toán ......................................................................................................48 2.3.2. Phương sai .........................................................................................................50 2.3.3. Một số đặc trưng khác .......................................................................................52 2.4. Một vài quy luật phân phối xác suất thường gặp ......................................... 55 2.4.1. Phân phối chuẩn ................................................................................................55 2.4.2. Phân phối nhị thức.............................................................................................58 2.4.3. Phân phối Poisson .............................................................................................61 2.4.4. Phân phối khi bình phương ...............................................................................62 2.4.5. Phân phối Student ..............................................................................................63 2.4.6. Phân phối Fisher (Phân phối F) .......................................................................64 2.5. Sơ lược về biến ngẫu nhiên hai chiều (Đọc thêm) ....................................... 64 2.5.1. Phân phối đồng thời ..........................................................................................64 2.5.2. Phân phối có điều kiện ......................................................................................66 2.5.3. Kỳ vọng có điều kiện..........................................................................................67 Chương 3. MẪU THỐNG KÊ VÀ THỐNG KÊ MÔ TẢ.............................. 71 3.1. Một vài khái niệm cơ bản ............................................................................. 71 3.1.1. Tổng thể và mẫu.................................................................................................71 3.1.2. Các phương pháp trình bày mẫu ......................................................................72 3.1.3. Hàm phân phối thực nghiệm .............................................................................77 3.2. Các số đặc trưng mẫu ................................................................................... 77 3.2.1. Kỳ vọng mẫu, phương sai mẫu .........................................................................77 3.2.2. Cách tính giá trị cụ thể của trung bình mẫu và phương sai mẫu ...................78 3.2.3. Các đặc trưng khác............................................................................................79 3.2.4. Phân phối của kỳ vọng mẫu và phương sai mẫu .............................................80 Chương 4. ƯỚC LƯỢNG THAM SỐ ............................................................. 83 4.1. Ước lượng điểm............................................................................................ 83 4.1.1. Khái niệm ước lượng điểm và tính chất ...........................................................83 148


4.1.2. Phương pháp ước lượng hợp lý cực đại .......................................................... 85 4.2. Ước lượng khoảng ........................................................................................ 87 4.2.1. Khoảng tin cậy cho kỳ vọng của biến ngẫu nhiên X có phân phối chuẩn..... 88 4.2.2. Khoảng tin cậy cho xác suất ............................................................................ 91 4.2.3. Khoảng tin cậy cho phương sai ....................................................................... 93 4.3. Bài toán xác định cỡ mẫu............................................................................. 94 4.3.1. Trường hợp ước lượng cho giá trị trung bình................................................. 94 4.3.2. Trường hợp ước lượng cho tỷ lệ ...................................................................... 94 Chương 5. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ .................................. 98 5.1. Đặt vấn đề..................................................................................................... 98 5.2. Bài toán và phương pháp chung giải quyết kiểm định giả thuyết ............... 99 5.3 Các bài toán kiểm định giả thuyết thường gặp ........................................... 101 5.3.1. Bài toán kiểm định giả thuyết cho kì vọng .................................................... 101 5.3.2. Kiểm định cho xác suất hay tỉ lệ .................................................................... 106 5.3.3. Kiểm định cho phương sai.............................................................................. 108 5.4. Bài toán so sánh các tham số...................................................................... 110 5.4.1. So sánh hai giá trị trung bình......................................................................... 110 5.4.2. Bài toán so sánh hai tỉ lệ (xác suất)............................................................... 113 5.4.3. Bài toán so sánh hai phương sai ................................................................... 115 5.5. Kiểm định tính độc lập của hai biến ngẫu nhiên (hai dấu hiệu) ................ 115 Chương 6. SƠ LƯỢC VỀ LÝ THUYẾT TƯƠNG QUAN VÀ HỒI QUY 122 TUYẾN TÍNH .................................................................................................. 122 6.1. Phân tích tương quan tuyến tính ................................................................ 122 6.1.1. Định nghĩa ....................................................................................................... 122 6.1.2. Tính chất .......................................................................................................... 122 6.1.3. Tiêu chuẩn độc lập của hai biến ngẫu nhiên ................................................ 122 6.1.4. Hệ số tương quan mẫu.................................................................................... 122 6.2.1. Mô hình ............................................................................................................ 124 6.2.2. Ước lượng bình phương cực tiểu ................................................................... 125 149


Chương 7. PHÂN TÍCH PHƯƠNG SAI ....................................................... 130 7.1. Phân tích phương sai một nhân tố (One -Way Analysis of Variance) ............131 7.2. Phân tích phương sai hai nhân tố (Đọc thêm) (Two -Way Analysis of Variance) 137 7.2.1. Trường hợp các nhân tố không tương tác ............................................... 137 7.2.2. Trường hợp các nhân tố có tương tác ..................................................... 140 TÀI LIỆU THAM KHẢO .............................................................................. 146 MỤC LỤC ........................................................................................................ 147

150


PHỤ LỤC

151


Bảng 4. Giá trị ck(a) với k bậc tự do

k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 70 80 90 100

0,99 0,000 0,020 0,115 0,297 0,554 0,872 1,239 1,646 2,088 2,558 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 8,897 9,542 10,196 10,856 11,524 12,198 12,879 13,565 14,256 14,953 22,164 29,707 45,442 53,540 61,754 70,065

0,975 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 10,283 10,982 11,689 12,401 13,120 13,844 14,573 15,308 16,047 16,791 24,433 32,357 48,758 57,153 65,647 74,222

0,95 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 11,591 12,338 13,091 13,848 14,611 15,379 16,151 16,928 17,708 18,493 26,509 34,764 51,739 60,391 69,126 77,929

0,9 0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 13,240 14,041 14,848 15,659 16,473 17,292 18,114 18,939 19,768 20,599 29,051 37,689 55,329 64,278 73,291 82,358

0,5 0,455 1,386 2,366 3,357 4,351 5,348 6,346 7,344 8,343 9,342 10,341 11,340 12,340 13,339 14,339 15,338 16,338 17,338 18,338 19,337 20,337 21,337 22,337 23,337 24,337 25,336 26,336 27,336 28,336 29,336 39,335 49,335 69,334 79,334 89,334 99,334

0,1 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 51,805 63,167 85,527 96,578 107,565 118,498

0,05 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 55,758 67,505 90,531 101,879 113,145 124,342

0,025 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,195 44,461 45,722 46,979 59,342 71,420 95,023 106,629 118,136 129,561

0,01 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 63,691 76,154 100,425 112,329 124,116 135,807

0,001 10,828 13,816 16,266 18,467 20,515 22,458 24,322 26,124 27,877 29,588 31,264 32,909 34,528 36,123 37,697 39,252 40,790 42,312 43,820 45,315 46,797 48,268 49,728 51,179 52,620 54,052 55,476 56,892 58,301 59,703 73,402 86,661 112,317 124,839 137,208 149,449


Bảng 3. Giá trị tk(a) của phân phối Student

Bậc tự do k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 

0,1 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,289 1,284

0,05 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658 1,640

0,025 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,980 1,961

Mức ý nghĩa a 0,02 0,01 15,895 31,821 4,849 6,965 3,482 4,541 2,999 3,747 2,757 3,365 2,612 3,143 2,517 2,998 2,449 2,896 2,398 2,821 2,359 2,764 2,328 2,718 2,303 2,681 2,282 2,650 2,264 2,624 2,249 2,602 2,235 2,583 2,224 2,567 2,214 2,552 2,205 2,539 2,197 2,528 2,189 2,518 2,183 2,508 2,177 2,500 2,172 2,492 2,167 2,485 2,162 2,479 2,158 2,473 2,154 2,467 2,150 2,462 2,147 2,457 2,123 2,423 2,099 2,390 2,076 2,358 2,063 2,330

0,005 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617 2,577

0,002 159,153 15,764 8,053 5,951 5,030 4,524 4,207 3,991 3,835 3,716 3,624 3,550 3,489 3,438 3,395 3,358 3,326 3,298 3,273 3,251 3,231 3,214 3,198 3,183 3,170 3,158 3,147 3,136 3,127 3,118 3,055 2,994 2,935 2,901

0,001 318,309 22,327 10,215 7,173 5,893 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,307 3,232 3,160 3,114


2,030108 1,667916


Bảng 5. Giá trị F01 k1 k2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 36 40 46 50 60 70 80 100 150 200 400 1000 

1 4052,18 98,50 34,12 21,20 16,26 13,75 12,25 11,26 10,56 10,04 9,65 9,33 9,07 8,86 8,68 8,53 8,40 8,29 8,18 8,10 8,02 7,95 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88 7,88

2 4999,50 99,00 30,82 18,00 13,27 10,92 9,55 8,65 8,02 7,56 7,21 6,93 6,70 6,51 6,36 6,23 6,11 6,01 5,93 5,85 5,78 5,72 5,66 5,61 5,57 5,53 5,49 5,45 5,42 5,39 5,25 5,18 5,10 5,06 4,98 4,92 4,88 4,82 4,75 4,71 4,66 4,63 4,60

3 5403,35 99,17 29,46 16,69 12,06 9,78 8,45 7,59 6,99 6,55 6,22 5,95 5,74 5,56 5,42 5,29 5,18 5,09 5,01 4,94 4,87 4,82 4,76 4,72 4,68 4,64 4,60 4,57 4,54 4,51 4,38 4,31 4,24 4,20 4,13 4,07 4,04 3,98 3,91 3,88 3,83 3,80 3,78

4 5624,58 99,25 28,71 15,98 11,39 9,15 7,85 7,01 6,42 5,99 5,67 5,41 5,21 5,04 4,89 4,77 4,67 4,58 4,50 4,43 4,37 4,31 4,26 4,22 4,18 4,14 4,11 4,07 4,04 4,02 3,89 3,83 3,76 3,72 3,65 3,60 3,56 3,51 3,45 3,41 3,37 3,34 3,32

5 5763,65 99,30 28,24 15,52 10,97 8,75 7,46 6,63 6,06 5,64 5,32 5,06 4,86 4,69 4,56 4,44 4,34 4,25 4,17 4,10 4,04 3,99 3,94 3,90 3,85 3,82 3,78 3,75 3,73 3,70 3,57 3,51 3,44 3,41 3,34 3,29 3,26 3,21 3,14 3,11 3,06 3,04 3,02

6 5858,99 99,33 27,91 15,21 10,67 8,47 7,19 6,37 5,80 5,39 5,07 4,82 4,62 4,46 4,32 4,20 4,10 4,01 3,94 3,87 3,81 3,76 3,71 3,67 3,63 3,59 3,56 3,53 3,50 3,47 3,35 3,29 3,22 3,19 3,12 3,07 3,04 2,99 2,92 2,89 2,85 2,82 2,80

7 5928,36 99,36 27,67 14,98 10,46 8,26 6,99 6,18 5,61 5,20 4,89 4,64 4,44 4,28 4,14 4,03 3,93 3,84 3,77 3,70 3,64 3,59 3,54 3,50 3,46 3,42 3,39 3,36 3,33 3,30 3,18 3,12 3,06 3,02 2,95 2,91 2,87 2,82 2,76 2,73 2,68 2,66 2,64

8 5981,07 99,37 27,49 14,80 10,29 8,10 6,84 6,03 5,47 5,06 4,74 4,50 4,30 4,14 4,00 3,89 3,79 3,71 3,63 3,56 3,51 3,45 3,41 3,36 3,32 3,29 3,26 3,23 3,20 3,17 3,05 2,99 2,93 2,89 2,82 2,78 2,74 2,69 2,63 2,60 2,56 2,53 2,51

9 6022,47 99,39 27,35 14,66 10,16 7,98 6,72 5,91 5,35 4,94 4,63 4,39 4,19 4,03 3,89 3,78 3,68 3,60 3,52 3,46 3,40 3,35 3,30 3,26 3,22 3,18 3,15 3,12 3,09 3,07 2,95 2,89 2,82 2,78 2,72 2,67 2,64 2,59 2,53 2,50 2,45 2,43 2,41

10 6055,85 99,40 27,23 14,55 10,05 7,87 6,62 5,81 5,26 4,85 4,54 4,30 4,10 3,94 3,80 3,69 3,59 3,51 3,43 3,37 3,31 3,26 3,21 3,17 3,13 3,09 3,06 3,03 3,00 2,98 2,86 2,80 2,73 2,70 2,63 2,59 2,55 2,50 2,44 2,41 2,37 2,34 2,32

11 6083,32 99,41 27,13 14,45 9,96 7,79 6,54 5,73 5,18 4,77 4,46 4,22 4,02 3,86 3,73 3,62 3,52 3,43 3,36 3,29 3,24 3,18 3,14 3,09 3,06 3,02 2,99 2,96 2,93 2,91 2,79 2,73 2,66 2,63 2,56 2,51 2,48 2,43 2,37 2,34 2,29 2,27 2,24

12 6106,32 99,42 27,05 14,37 9,89 7,72 6,47 5,67 5,11 4,71 4,40 4,16 3,96 3,80 3,67 3,55 3,46 3,37 3,30 3,23 3,17 3,12 3,07 3,03 2,99 2,96 2,93 2,90 2,87 2,84 2,72 2,66 2,60 2,56 2,50 2,45 2,42 2,37 2,31 2,27 2,23 2,20 7,28

13 6125,86 99,42 26,98 14,31 9,82 7,66 6,41 5,61 5,05 4,65 4,34 4,10 3,91 3,75 3,61 3,50 3,40 3,32 3,24 3,18 3,12 3,07 3,02 2,98 2,94 2,90 2,87 2,84 2,81 2,79 2,67 2,61 2,54 2,51 2,44 2,40 2,36 2,31 2,25 2,22 2,17 2,15


Bảng 5. Giá trị F01 k1 k2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 36 40 46 50 60 70 80 100 150 200 400 1000 

14 6142,67 99,43 26,92 14,25 9,77 7,60 6,36 5,56 5,01 4,60 4,29 4,05 3,86 3,70 3,56 3,45 3,35 3,27 3,19 3,13 3,07 3,02 2,97 2,93 2,89 2,86 2,82 2,79 2,77 2,74 2,62 2,56 2,50 2,46 2,39 2,35 2,31 2,27 2,20 2,17 2,13 2,10 2,07

15 6157,28 99,43 26,87 14,20 9,72 7,56 6,31 5,52 4,96 4,56 4,25 4,01 3,82 3,66 3,52 3,41 3,31 3,23 3,15 3,09 3,03 2,98 2,93 2,89 2,85 2,81 2,78 2,75 2,73 2,70 2,58 2,52 2,45 2,42 2,35 2,31 2,27 2,22 2,16 2,13 2,08 2,06 1,99

16 6170,10 99,44 26,83 14,15 9,68 7,52 6,28 5,48 4,92 4,52 4,21 3,97 3,78 3,62 3,49 3,37 3,27 3,19 3,12 3,05 2,99 2,94 2,89 2,85 2,81 2,78 2,75 2,72 2,69 2,66 2,54 2,48 2,42 2,38 2,31 2,27 2,23 2,19 2,12 2,09 2,05 2,02

17 6181,43 99,44 26,79 14,11 9,64 7,48 6,24 5,44 4,89 4,49 4,18 3,94 3,75 3,59 3,45 3,34 3,24 3,16 3,08 3,02 2,96 2,91 2,86 2,82 2,78 2,75 2,71 2,68 2,66 2,63 2,51 2,45 2,38 2,35 2,28 2,23 2,20 2,15 2,09 2,06 2,01 1,98

18 6191,53 99,44 26,75 14,08 9,61 7,45 6,21 5,41 4,86 4,46 4,15 3,91 3,72 3,56 3,42 3,31 3,21 3,13 3,05 2,99 2,93 2,88 2,83 2,79 2,75 2,72 2,68 2,65 2,63 2,60 2,48 2,42 2,35 2,32 2,25 2,20 2,17 2,12 2,06 2,03 1,98 1,95

19 6200,58 99,45 26,72 14,05 9,58 7,42 6,18 5,38 4,83 4,43 4,12 3,88 3,69 3,53 3,40 3,28 3,19 3,10 3,03 2,96 2,90 2,85 2,80 2,76 2,72 2,69 2,66 2,63 2,60 2,57 2,45 2,39 2,33 2,29 2,22 2,18 2,14 2,09 2,03 2,00 1,95 1,92

20 6208,73 99,45 26,69 14,02 9,55 7,40 6,16 5,36 4,81 4,41 4,10 3,86 3,66 3,51 3,37 3,26 3,16 3,08 3,00 2,94 2,88 2,83 2,78 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,43 2,37 2,30 2,27 2,20 2,15 2,12 2,07 2,00 1,97 1,92 1,90 1,87

21 6216,12 99,45 26,66 13,99 9,53 7,37 6,13 5,34 4,79 4,38 4,08 3,84 3,64 3,48 3,35 3,24 3,14 3,05 2,98 2,92 2,86 2,81 2,76 2,72 2,68 2,64 2,61 2,58 2,55 2,53 2,41 2,35 2,28 2,24 2,17 2,13 2,09 2,04 1,98 1,95 1,90 1,87

22 6222,84 99,45 26,64 13,97 9,51 7,35 6,11 5,32 4,77 4,36 4,06 3,82 3,62 3,46 3,33 3,22 3,12 3,03 2,96 2,90 2,84 2,78 2,74 2,70 2,66 2,62 2,59 2,56 2,53 2,51 2,38 2,33 2,26 2,22 2,15 2,11 2,07 2,02 1,96 1,93 1,88 1,85

23 6228,99 99,46 26,62 13,95 9,49 7,33 6,09 5,30 4,75 4,34 4,04 3,80 3,60 3,44 3,31 3,20 3,10 3,02 2,94 2,88 2,82 2,77 2,72 2,68 2,64 2,60 2,57 2,54 2,51 2,49 2,37 2,31 2,24 2,20 2,13 2,09 2,05 2,00 1,94 1,90 1,86 1,83

24 6234,63 99,46 26,60 13,93 9,47 7,31 6,07 5,28 4,73 4,33 4,02 3,78 3,59 3,43 3,29 3,18 3,08 3,00 2,92 2,86 2,80 2,75 2,70 2,66 2,62 2,58 2,55 2,52 2,49 2,47 2,35 2,29 2,22 2,18 2,12 2,07 2,03 1,98 1,92 1,89 1,84 1,81 1,79

25 6239,83 99,46 26,58 13,91 9,45 7,30 6,06 5,26 4,71 4,31 4,01 3,76 3,57 3,41 3,28 3,16 3,07 2,98 2,91 2,84 2,79 2,73 2,69 2,64 2,60 2,57 2,54 2,51 2,48 2,45 2,33 2,27 2,20 2,17 2,10 2,05 2,01 1,97 1,90 1,87 1,82 1,79

26 6244,62 99,46 26,56 13,89 9,43 7,28 6,04 5,25 4,70 4,30 3,99 3,75 3,56 3,40 3,26 3,15 3,05 2,97 2,89 2,83 2,77 2,72 2,67 2,63 2,59 2,55 2,52 2,49 2,46 2,44 2,32 2,26 2,19 2,15 2,08 2,03 2,00 1,95 1,88 1,85 1,80 1,77


Bảng 5. Giá trị F01 k1 k2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 36 40 46 50 60 70 80 100 150 200 400 1000 

27 6249,07 99,46 26,55 13,88 9,42 7,27 6,03 5,23 4,68 4,28 3,98 3,74 3,54 3,38 3,25 3,14 3,04 2,95 2,88 2,81 2,76 2,70 2,66 2,61 2,58 2,54 2,51 2,48 2,45 2,42 2,30 2,24 2,17 2,14 2,07 2,02 1,98 1,93 1,87 1,84 1,79 1,76

28 6253,20 99,46 26,53 13,86 9,40 7,25 6,02 5,22 4,67 4,27 3,96 3,72 3,53 3,37 3,24 3,12 3,03 2,94 2,87 2,80 2,74 2,69 2,64 2,60 2,56 2,53 2,49 2,46 2,44 2,41 2,29 2,23 2,16 2,12 2,05 2,01 1,97 1,92 1,85 1,82 1,77 1,74

29 6257,05 99,46 26,52 13,85 9,39 7,24 6,00 5,21 4,66 4,26 3,95 3,71 3,52 3,36 3,23 3,11 3,01 2,93 2,86 2,79 2,73 2,68 2,63 2,59 2,55 2,51 2,48 2,45 2,42 2,40 2,28 2,22 2,15 2,11 2,04 1,99 1,96 1,91 1,84 1,81 1,76 1,73

30 6260,65 99,47 26,50 13,84 9,38 7,23 5,99 5,20 4,65 4,25 3,94 3,70 3,51 3,35 3,21 3,10 3,00 2,92 2,84 2,78 2,72 2,67 2,62 2,58 2,54 2,50 2,47 2,44 2,41 2,39 2,26 2,20 2,13 2,10 2,03 1,98 1,94 1,89 1,83 1,79 1,75 1,72 1,69

40 6286,78 99,47 26,41 13,75 9,29 7,14 5,91 5,12 4,57 4,17 3,86 3,62 3,43 3,27 3,13 3,02 2,92 2,84 2,76 2,69 2,64 2,58 2,54 2,49 2,45 2,42 2,38 2,35 2,33 2,30 2,18 2,11 2,04 2,01 1,94 1,89 1,85 1,80 1,73 1,69 1,64 1,61 1,59

50 6302,52 99,48 26,35 13,69 9,24 7,09 5,86 5,07 4,52 4,12 3,81 3,57 3,38 3,22 3,08 2,97 2,87 2,78 2,71 2,64 2,58 2,53 2,48 2,44 2,40 2,36 2,33 2,30 2,27 2,25 2,12 2,06 1,99 1,95 1,88 1,83 1,79 1,74 1,66 1,63 1,58 1,54 1,52

75 6323,56 99,49 26,28 13,61 9,17 7,02 5,79 5,00 4,45 4,05 3,74 3,50 3,31 3,15 3,01 2,90 2,80 2,71 2,64 2,57 2,51 2,46 2,41 2,37 2,33 2,29 2,26 2,23 2,20 2,17 2,04 1,98 1,91 1,87 1,79 1,74 1,70 1,65 1,57 1,53 1,48 1,44 1,41

100 6334,11 99,49 26,24 13,58 9,13 6,99 5,75 4,96 4,41 4,01 3,71 3,47 3,27 3,11 2,98 2,86 2,76 2,68 2,60 2,54 2,48 2,42 2,37 2,33 2,29 2,25 2,22 2,19 2,16 2,13 2,00 1,94 1,86 1,82 1,75 1,70 1,65 1,60 1,52 1,48 1,42 1,38 1,36

200 6349,97 99,49 26,18 13,52 9,08 6,93 5,70 4,91 4,36 3,96 3,66 3,41 3,22 3,06 2,92 2,81 2,71 2,62 2,55 2,48 2,42 2,36 2,32 2,27 2,23 2,19 2,16 2,13 2,10 2,07 1,94 1,87 1,80 1,76 1,68 1,62 1,58 1,52 1,43 1,39 1,32 1,28 1,25

500 6359,50 99,50 26,15 13,49 9,04 6,90 5,67 4,88 4,33 3,93 3,62 3,38 3,19 3,03 2,89 2,78 2,68 2,59 2,51 2,44 2,38 2,33 2,28 2,24 2,19 2,16 2,12 2,09 2,06 2,03 1,90 1,83 1,76 1,71 1,63 1,57 1,53 1,47 1,38 1,33 1,25 1,19 1,15

 6366,00 99,50 26,12 13,46 9,02 6,88 5,65 4,86 4,31 3,91 3,60 3,36 3,16 3,00 2,87 2,75 2,65 2,57 2,49 2,42 2,36 2,31 2,26 2,21 2,17 2,13 2,10 2,06 2,03 2,01 1,88 1,81 1,72 1,68 1,60 1,53 1,49 1,43 1,33 1,28 1,19 1,11 1,00


Bảng giá trị F05 k1 k2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 36 40 46 50 60 70 80 100 150 200 400 1000 

1 161,45 18,51 10,13 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,84 4,75 4,67 4,60 4,54 4,49 4,45 4,41 4,38 4,35 4,32 4,30 4,28 4,26 4,24 4,23 4,21 4,20 4,18 4,17 4,11 4,08 4,05 4,03 4,00 3,98 3,96 3,94 3,90 3,89 3,86 3,85 3,84

2 199,50 19,00 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,98 3,89 3,81 3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,47 3,44 3,42 3,40 3,39 3,37 3,35 3,34 3,33 3,32 3,26 3,23 3,20 3,18 3,15 3,13 3,11 3,09 3,06 3,04 3,02 3,00 2,99

3 215,71 19,16 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,07 3,05 3,03 3,01 2,99 2,98 2,96 2,95 2,93 2,92 2,87 2,84 2,81 2,79 2,76 2,74 2,72 2,70 2,66 2,65 2,63 2,61 2,60

4 224,58 19,25 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,18 3,11 3,06 3,01 2,96 2,93 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,73 2,71 2,70 2,69 2,63 2,61 2,57 2,56 2,53 2,50 2,49 2,46 2,43 2,42 2,39 2,38 2,37

5 230,16 19,30 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 3,03 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,68 2,66 2,64 2,62 2,60 2,59 2,57 2,56 2,55 2,53 2,48 2,45 2,42 2,40 2,37 2,35 2,33 2,31 2,27 2,26 2,24 2,22 2,21

6 233,99 19,33 8,94 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,09 3,00 2,92 2,85 2,79 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,53 2,51 2,49 2,47 2,46 2,45 2,43 2,42 2,36 2,34 2,30 2,29 2,25 2,23 2,21 2,19 2,16 2,14 2,12 2,11 2,09

7 236,77 19,35 8,89 6,09 4,88 4,21 3,79 3,50 3,29 3,14 3,01 2,91 2,83 2,76 2,71 2,66 2,61 2,58 2,54 2,51 2,49 2,46 2,44 2,42 2,40 2,39 2,37 2,36 2,35 2,33 2,28 2,25 2,22 2,20 2,17 2,14 2,13 2,10 2,07 2,06 2,03 2,02 2,01

8 238,88 19,37 8,85 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,77 2,70 2,64 2,59 2,55 2,51 2,48 2,45 2,42 2,40 2,37 2,36 2,34 2,32 2,31 2,29 2,28 2,27 2,21 2,18 2,15 2,13 2,10 2,07 2,06 2,03 2,00 1,98 1,96 1,95 1,94

9 240,54 19,38 8,81 6,00 4,77 4,10 3,68 3,39 3,18 3,02 2,90 2,80 2,71 2,65 2,59 2,54 2,49 2,46 2,42 2,39 2,37 2,34 2,32 2,30 2,28 2,27 2,25 2,24 2,22 2,21 2,15 2,12 2,09 2,07 2,04 2,02 2,00 1,97 1,94 1,93 1,90 1,89 1,88

10 241,88 19,40 8,79 5,96 4,74 4,06 3,64 3,35 3,14 2,98 2,85 2,75 2,67 2,60 2,54 2,49 2,45 2,41 2,38 2,35 2,32 2,30 2,27 2,25 2,24 2,22 2,20 2,19 2,18 2,16 2,11 2,08 2,04 2,03 1,99 1,97 1,95 1,93 1,89 1,88 1,85 1,84 1,83

11 242,98 19,40 8,76 5,94 4,70 4,03 3,60 4,07 3,10 2,94 2,82 2,72 2,63 2,57 2,51 2,46 2,41 2,37 2,34 2,31 2,28 2,26 2,24 2,22 2,20 2,18 2,17 2,15 2,14 2,13 2,07 2,04 2,00 1,99 1,95 1,93 1,91 1,89 1,85 1,84 1,81 1,80 1,79

12 243,91 19,41 8,74 5,91 4,68 4,00 3,57 4,07 3,07 2,91 2,79 2,69 2,60 2,53 2,48 2,42 2,38 2,34 2,31 2,28 2,25 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,10 2,09 2,03 2,00 1,97 1,95 1,92 1,89 1,88 1,85 1,82 1,80 1,78 1,76 2,75

13 244,69 19,42 8,73 5,89 4,66 3,98 3,55 4,07 3,05 2,89 2,76 2,66 2,58 2,51 2,45 2,40 2,35 2,31 2,28 2,25 2,22 2,20 2,18 2,15 2,14 2,12 2,10 2,09 2,08 2,06 2,00 1,97 1,94 1,92 1,89 1,86 1,84 1,82 1,79 1,77 1,74 1,73


Bảng giá trị F05 k1 k2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 36 40 46 50 60 70 80 100 150 200 400 1000 

14 245,36 19,42 8,71 5,87 4,64 3,96 3,53 4,07 3,03 2,86 2,74 2,64 2,55 2,48 2,42 2,37 2,33 2,29 2,26 2,22 2,20 2,17 2,15 2,13 2,11 2,09 2,08 2,06 2,05 2,04 1,98 1,95 1,91 1,89 1,86 1,84 1,82 1,79 1,76 1,74 1,72 1,70 1,69

15 245,95 19,43 8,70 5,86 4,62 3,94 3,51 4,07 3,01 2,85 2,72 2,62 2,53 2,46 2,40 2,35 2,31 2,27 2,23 2,20 2,18 2,15 2,13 2,11 2,09 2,07 2,06 2,04 2,03 2,01 1,95 1,92 1,89 1,87 1,84 1,81 1,79 1,77 1,73 1,72 1,69 1,68

16 246,46 19,43 8,69 5,84 4,60 3,92 3,49 4,07 2,99 2,83 2,70 2,60 2,51 2,44 2,38 2,33 2,29 2,25 2,21 2,18 2,16 2,13 2,11 2,09 2,07 2,05 2,04 2,02 2,01 1,99 1,93 1,90 1,87 1,85 1,82 1,79 1,77 1,75 1,71 1,69 1,67 1,65 1,64

17 246,92 19,44 8,68 5,83 4,59 3,91 3,48 4,07 2,97 2,81 2,69 2,58 2,50 2,43 2,37 2,32 2,27 2,23 2,20 2,17 2,14 2,11 2,09 2,07 2,05 2,03 2,02 2,00 1,99 1,98 1,92 1,89 1,85 1,83 1,80 1,77 1,75 1,73 1,69 1,67 1,65 1,63

18 247,32 19,44 8,67 5,82 4,58 3,90 3,47 4,07 2,96 2,80 2,67 2,57 2,48 2,41 2,35 2,30 2,26 2,22 2,18 2,15 2,12 2,10 2,08 2,05 2,04 2,02 2,00 1,99 1,97 1,96 1,90 1,87 1,83 1,81 1,78 1,75 1,73 1,71 1,67 1,66 1,63 1,61

19 247,69 19,44 8,67 5,81 4,57 3,88 3,46 4,07 2,95 2,79 2,66 2,56 2,47 2,40 2,34 2,29 2,24 2,20 2,17 2,14 2,11 2,08 2,06 2,04 2,02 2,00 1,99 1,97 1,96 1,95 1,88 1,85 1,82 1,80 1,76 1,74 1,72 1,69 1,66 1,64 1,61 1,60

20 248,01 19,45 8,66 5,80 4,56 3,87 3,44 4,07 2,94 2,77 2,65 2,54 2,46 2,39 2,33 2,28 2,23 2,19 2,16 2,12 2,10 2,07 2,05 2,03 2,01 1,99 1,97 1,96 1,94 1,93 1,87 1,84 1,80 1,78 1,75 1,72 1,70 1,68 1,64 1,62 1,60 1,58 1,57

21 248,31 19,45 8,65 5,79 4,55 3,86 3,43 3,14 2,93 2,76 2,64 2,53 2,45 2,38 2,32 2,26 2,22 2,18 2,14 2,11 2,08 2,06 2,04 2,01 2,00 1,98 1,96 1,95 1,93 1,92 1,86 1,83 1,79 1,77 1,73 1,71 1,69 1,66 1,63 1,61 1,58 1,57

22 248,58 19,45 8,65 5,79 4,54 3,86 3,43 3,13 2,92 2,75 2,63 2,52 2,44 2,37 2,31 2,25 2,21 2,17 2,13 2,10 2,07 2,05 2,02 2,00 1,98 1,97 1,95 1,93 1,92 1,92 1,85 1,81 1,78 1,76 1,72 1,70 1,68 1,65 1,61 1,60 1,57 1,55

23 248,83 19,45 8,64 5,78 4,53 3,85 3,42 3,12 2,91 2,75 2,62 2,51 2,43 2,36 2,30 2,24 2,20 2,16 2,12 2,09 2,06 2,04 2,01 1,99 1,97 1,96 1,94 1,92 1,91 1,91 1,83 1,80 1,77 1,75 1,71 1,68 1,67 1,64 1,60 1,58 1,56 1,54

24 249,05 19,45 8,64 5,77 4,53 3,84 3,41 3,12 2,90 2,74 2,61 2,51 2,42 2,35 2,29 2,24 2,19 2,15 2,11 2,08 2,05 2,03 2,01 1,98 1,96 1,95 1,93 1,91 1,90 1,90 1,82 1,79 1,76 1,74 1,70 1,67 1,65 1,63 1,59 1,57 1,54 1,53 1,52

25 249,26 19,46 8,63 5,77 4,52 3,83 3,40 3,11 2,89 2,73 2,60 2,50 2,41 2,34 2,28 2,23 2,18 2,14 2,11 2,07 2,05 2,02 2,00 1,97 1,96 1,94 1,92 1,91 1,89 1,89 1,81 1,78 1,75 1,73 1,69 1,66 1,64 1,62 1,58 1,56 1,53 1,52

26 249,45 19,46 8,63 5,76 4,52 3,83 3,40 3,10 2,89 2,72 2,59 2,49 2,41 2,33 2,27 2,22 2,17 2,13 2,10 2,07 2,04 2,01 1,99 1,97 1,95 1,93 1,91 1,90 1,88 1,88 1,81 1,77 1,74 1,72 1,68 1,65 1,63 1,61 1,57 1,55 1,52 1,51


Bảng giá trị F05 k1 k2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 36 40 46 50 60 70 80 100 150 200 400 1000 

27 249,63 19,46 8,63 5,76 4,51 3,82 3,39 3,10 2,88 2,72 2,59 2,48 2,40 2,33 2,27 2,21 2,17 2,13 2,09 2,06 2,03 2,00 1,98 1,96 1,94 1,92 1,90 1,89 1,88 1,88 1,80 1,77 1,73 1,71 1,67 1,65 1,63 1,60 1,56 1,54 1,51 1,50

28 249,80 19,46 8,62 5,75 4,50 3,82 3,39 3,09 2,87 2,71 2,58 2,48 2,39 2,32 2,26 2,21 2,16 2,12 2,08 2,05 2,02 2,00 1,97 1,95 1,93 1,91 1,90 1,88 1,87 1,87 1,79 1,76 1,72 1,70 1,66 1,64 1,62 1,59 1,55 1,53 1,50 1,49

29 249,95 19,46 8,62 5,75 4,50 3,81 3,38 3,08 2,87 2,70 2,58 2,47 2,39 2,31 2,25 2,20 2,15 2,11 2,08 2,05 2,02 1,99 1,97 1,95 1,93 1,91 1,89 1,88 1,86 1,86 1,78 1,75 1,71 1,69 1,66 1,63 1,61 1,58 1,54 1,52 1,50 1,48

30 250,10 19,46 8,62 5,75 4,50 3,81 3,38 3,08 2,86 2,70 2,57 2,47 2,38 2,31 2,25 2,19 2,15 2,11 2,07 2,04 2,01 1,98 1,96 1,94 1,92 1,90 1,88 1,87 1,85 1,85 1,78 1,74 1,71 1,69 1,65 1,62 1,60 1,57 1,54 1,52 1,49 1,47 1,46

40 251,14 19,47 8,59 5,72 4,46 3,77 3,34 3,04 2,83 2,66 2,53 2,43 2,34 2,27 2,20 2,15 2,10 2,06 2,03 1,99 1,96 1,94 1,91 1,89 1,87 1,85 1,84 1,82 1,81 1,79 1,73 1,69 1,65 1,63 1,59 1,57 1,54 1,52 1,48 1,46 1,42 1,41 1,40

50 251,77 19,48 8,58 5,70 4,44 3,75 3,32 3,02 2,80 2,64 2,51 2,40 2,31 2,24 2,18 2,12 2,08 2,04 2,00 1,97 1,94 1,91 1,88 1,86 1,84 1,82 1,81 1,79 1,77 1,76 1,69 1,66 1,62 1,60 1,56 1,53 1,51 1,48 1,44 1,41 1,38 1,36 1,35

75 252,62 19,48 8,56 5,68 4,42 3,73 3,29 2,99 2,77 2,60 2,47 2,37 2,28 2,21 2,14 2,09 2,04 2,00 1,96 1,93 1,90 1,87 1,84 1,82 1,80 1,78 1,76 1,75 1,73 1,72 1,65 1,61 1,57 1,55 1,51 1,48 1,45 1,42 1,38 1,35 1,32 1,30 1,28

100 253,04 19,49 8,55 5,66 4,41 3,71 3,27 2,97 2,76 2,59 2,46 2,35 2,26 2,19 2,12 2,07 2,02 1,98 1,94 1,91 1,88 1,85 1,82 1,80 1,78 1,76 1,74 1,73 1,71 1,70 1,62 1,59 1,55 1,52 1,48 1,45 1,43 1,39 1,34 1,32 1,28 1,26 1,24

200 253,68 19,49 8,54 5,65 4,39 3,69 3,25 2,95 2,73 2,56 2,43 2,32 2,23 2,16 2,10 2,04 1,99 1,95 1,91 1,88 1,84 1,82 1,79 1,77 1,75 1,73 1,71 1,69 1,67 1,66 1,59 1,55 1,51 1,48 1,44 1,40 1,38 1,34 1,29 1,26 1,22 1,19 1,17

500 254,06 19,49 8,53 5,64 4,37 3,68 3,24 2,94 2,72 2,55 2,42 2,31 2,22 2,14 2,08 2,02 1,97 1,93 1,89 1,86 1,83 1,80 1,77 1,75 1,73 1,71 1,69 1,67 1,65 1,64 1,56 1,53 1,48 1,46 1,41 1,37 1,35 1,31 1,25 1,22 1,17 1,13 1,11

 254,00 19,50 8,53 5,63 4,36 3,67 3,23 2,93 2,71 2,54 2,40 2,30 2,21 2,13 2,07 2,01 1,96 1,92 1,88 1,84 1,81 1,87 1,76 1,73 1,71 1,69 1,67 1,65 1,64 1,62 1,55 1,51 1,46 1,44 1,39 1,35 1,32 1,28 1,22 1,19 1,19 1,08 1,00


Bảng 1. Hàm phân bố chuẩn

1 x  x22 ( x)   e dx 2  x 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9

0,00 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000

0,01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000

0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,03 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,06 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000


 ( x)  x 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9

0,00 0,3989 0,3970 0,3910 0,3814 0,3683 0,3521 0,3332 0,3123 0,2897 0,2661 0,2420 0,2179 0,1942 0,1714 0,1497 0,1295 0,1109 0,0940 0,0790 0,0656 0,0540 0,0440 0,0355 0,0283 0,0224 0,0175 0,0136 0,0104 0,0079 0,0060 0,0044 0,0033 0,0024 0,0017 0,0012 0,0009 0,0006 0,0004 0,0003 0,0002

x2 1  e 2 2

0,01 0,3989 0,3965 0,3902 0,3802 0,3668 0,3503 0,3312 0,3101 0,2874 0,2637 0,2396 0,2155 0,1919 0,1691 0,1476 0,1276 0,1092 0,0925 0,0775 0,0644 0,0529 0,0431 0,0347 0,0277 0,0219 0,0171 0,0132 0,0101 0,0077 0,0058 0,0043 0,0032 0,0023 0,0017 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002

0,02 0,3989 0,3961 0,3894 0,3790 0,3653 0,3485 0,3292 0,3079 0,2850 0,2613 0,2371 0,2131 0,1895 0,1669 0,1456 0,1257 0,1074 0,0909 0,0761 0,0632 0,0519 0,0422 0,0339 0,0270 0,0213 0,0167 0,0129 0,0099 0,0075 0,0056 0,0042 0,0031 0,0022 0,0016 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002

0,03 0,3988 0,3956 0,3885 0,3778 0,3637 0,3467 0,3271 0,3056 0,2827 0,2589 0,2347 0,2107 0,1872 0,1647 0,1435 0,1238 0,1057 0,0893 0,0748 0,0620 0,0508 0,0413 0,0332 0,0264 0,0208 0,0163 0,0126 0,0096 0,0073 0,0055 0,0040 0,0030 0,0022 0,0016 0,0011 0,0008 0,0005 0,0004 0,0003 0,0002

0,04 0,3986 0,3951 0,3876 0,3765 0,3621 0,3448 0,3251 0,3034 0,2803 0,2565 0,2323 0,2083 0,1849 0,1626 0,1415 0,1219 0,1040 0,0878 0,0734 0,0608 0,0498 0,0404 0,0325 0,0258 0,0203 0,0158 0,0122 0,0093 0,0071 0,0053 0,0039 0,0029 0,0021 0,0015 0,0011 0,0008 0,0005 0,0004 0,0003 0,0002

0,05 0,3984 0,3945 0,3867 0,3752 0,3605 0,3429 0,3230 0,3011 0,2780 0,2541 0,2299 0,2059 0,1826 0,1604 0,1394 0,1200 0,1023 0,0863 0,0721 0,0596 0,0488 0,0396 0,0317 0,0252 0,0198 0,0154 0,0119 0,0091 0,0069 0,0051 0,0038 0,0028 0,0020 0,0015 0,0010 0,0007 0,0005 0,0004 0,0002 0,0002

0,06 0,3982 0,3939 0,3857 0,3739 0,3589 0,3410 0,3209 0,2989 0,2756 0,2516 0,2275 0,2036 0,1804 0,1582 0,1374 0,1182 0,1006 0,0848 0,0707 0,0584 0,0478 0,0387 0,0310 0,0246 0,0194 0,0151 0,0116 0,0088 0,0067 0,0050 0,0037 0,0027 0,0020 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002

0,07 0,3980 0,3932 0,3847 0,3725 0,3572 0,3391 0,3187 0,2966 0,2732 0,2492 0,2251 0,2012 0,1781 0,1561 0,1354 0,1163 0,0989 0,0833 0,0694 0,0573 0,0468 0,0379 0,0303 0,0241 0,0189 0,0147 0,0113 0,0086 0,0065 0,0048 0,0036 0,0026 0,0019 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002

0,08 0,3977 0,3925 0,3836 0,3712 0,3555 0,3372 0,3166 0,2943 0,2709 0,2468 0,2227 0,1989 0,1758 0,1539 0,1334 0,1145 0,0973 0,0818 0,0681 0,0562 0,0459 0,0371 0,0297 0,0235 0,0184 0,0143 0,0110 0,0084 0,0063 0,0047 0,0035 0,0025 0,0018 0,0013 0,0009 0,0007 0,0005 0,0003 0,0002 0,0001

0,09 0,3973 0,3918 0,3825 0,3697 0,3538 0,3352 0,3144 0,2920 0,2685 0,2444 0,2203 0,1965 0,1736 0,1518 0,1315 0,1127 0,0957 0,0804 0,0669 0,0551 0,0449 0,0363 0,0290 0,0229 0,0180 0,0139 0,0107 0,0081 0,0061 0,0046 0,0034 0,0025 0,0018 0,0013 0,0009 0,0006 0,0004 0,0003 0,0002 0,0001


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.