Chúng ta đang sống trong kỷ nguyên của dữ liệu. Dữ liệu có
mặt mọi nơi, mọi lúc, và càng ngày càng nhiều. Dữ liệu cần phải được chuyển hóa
thành thông tin thì mới có ý nghĩa và có ích. Dữ liệu, tự chúng,
không có ý nghĩa và có thể nói là vô dụng. Dữ liệu cần phải được chuyển
hóa sao cho dễ hiểu, có ích, và quan trọng hơn là có thể chuyển tải đến
người sử dụng. Khi dữ liệu thành thông tin, và thông tin được đặt trong
bối cảnh, thì có thể trở thành tri thức. Do đó, từ dữ liệu thành tri
thức phải qua một giai đoạn hoán chuyển trung gian là phân tích. Khoa học thống
kê giúp cho chúng ta hoán chuyển dữ liệu thành thông tin. Những phương pháp cổ
điển như kiểm định Ki bình phương và kiểm
định t có thể xem là những cách thức đơn giản để chiết xuất tín
hiệu từ dữ liệu phức tạp. Nhưng một nhóm phương pháp tương đối ‘mới’ thuộc gia
đình mô hình tuyến tính (linear models) còn giúp cho chúng ta mô
tả và khám phá các mối liên quan bị ẩn trong rừng dữ liệu. Đây chính là
những phương pháp đã giúp giới khoa học khám phá hạt Higgs (còn gọi là
‘hạt của Chúa’), khám phá gen, đánh giá hiệu quả của thuốc, xây dựng mô hình
tiên lượng trong bệnh viện, và nhiều phát hiện quan trọng khác.
Cuốn sách là một tập hợp những ghi chú các phương pháp
như hồi quy tuyến tính, hồi quy logistic, hồi quy Cox, hồi quy Poisson,
v.v. vốn đã được ứng dụng rất phổ biến trong các nghiên cứu khoa học thực
nghiệm. Tôi hy vọng rằng những ghi chú này sẽ giúp cho quý vị và các
bạn làm quen với các phương pháp trong mô hình tuyến tính. Làm quen về ý
tưởng đằng sau mỗi mô hình, giả định, cách ứng dụng, và nhất là cách diễn giải
ý nghĩa của kết quả phân tích.