1. Cuộc đời
John Wilder Tukey có một cuộc đời học thuật và chuyên môn đầy ấn tượng, với những đóng góp nền tảng cho nhiều lĩnh vực khoa học.
1.1. Thời thơ ấu và Giáo dục
Tukey sinh ngày 16 tháng 6 năm 1915 tại New Bedford, Massachusetts, Hoa Kỳ. Cha ông là một giáo viên tiếng Latinh, còn mẹ ông là một gia sư riêng. Ông được mẹ dạy dỗ là chủ yếu tại nhà và chỉ tham gia các lớp học thông thường cho một số môn nhất định, ví dụ như tiếng Pháp.
Ông theo học tại Đại học Brown, nơi ông lấy bằng Cử nhân Nghệ thuật (B.A.) năm 1936 và Thạc sĩ Khoa học (M.S.) năm 1937, đều trong lĩnh vực hóa học. Sau đó, ông chuyển đến Đại học Princeton và hoàn thành bằng Tiến sĩ (PhD) về toán học vào năm 1939 với luận án có tiêu đề "Về tính đếm được trong tô pô" (On denumerability in topology).
1.2. Thế chiến II và Sự nghiệp ban đầu
Trong Thế chiến II, Tukey làm việc tại Văn phòng Nghiên cứu Kiểm soát Hỏa lực. Tại đây, ông đã hợp tác với Samuel S. Wilks và William Gemmell Cochran. Có thông tin cho rằng ông đã giúp thiết kế máy bay do thám U-2. Sau chiến tranh, ông trở lại Đại học Princeton và phân chia thời gian làm việc giữa trường đại học và AT&T Bell Laboratories. Năm 1962, Tukey được bầu vào Hội Triết học Hoa Kỳ. Năm 35 tuổi, ông trở thành giáo sư chính thức và đến năm 1965, ông là chủ nhiệm khoa sáng lập của khoa thống kê tại Princeton.
2. Sự nghiệp chuyên môn và Các tổ chức liên kết
Sự nghiệp của John Wilder Tukey trải rộng trên nhiều lĩnh vực, từ giảng dạy và nghiên cứu tại các học viện hàng đầu đến tư vấn cho các tổ chức công và tư, đồng thời nhận được nhiều giải thưởng danh giá.
2.1. Đại học Princeton
Sau Thế chiến II, John Tukey trở lại Đại học Princeton, nơi ông đóng vai trò quan trọng trong việc định hình lĩnh vực thống kê. Ông trở thành giáo sư chính thức khi mới 35 tuổi và sau đó là chủ nhiệm khoa sáng lập của khoa thống kê tại Princeton vào năm 1965. Vai trò lãnh đạo của ông tại Princeton đã giúp phát triển ngành thống kê và đào tạo nhiều thế hệ nhà khoa học.
2.2. Bell Laboratories (AT&T Bell Laboratories)
Song song với công việc tại Đại học Princeton, Tukey cũng dành thời gian nghiên cứu và phát triển tại Bell Labs (nay là Nokia Bell Labs). Tại đây, ông đã làm việc về việc phát triển các phương pháp thống kê cho máy tính, và chính trong quá trình này, ông đã đặt nền móng cho nhiều thuật ngữ quan trọng. Năm 1947, ông đã sáng tạo ra thuật ngữ "bit" (viết tắt của binary digitchữ số nhị phânEnglish) khi làm việc với John von Neumann về các thiết kế máy tính ban đầu. Thuật ngữ này lần đầu tiên được sử dụng công khai trong một bài báo của Claude Shannon vào năm 1948. Ngoài ra, từ "phần mềm" (software) cũng lần đầu tiên xuất hiện trong một bài báo của Tukey trên tạp chí American Mathematical Monthly vào năm 1958, mặc dù Paul Niquette từng tuyên bố đã tạo ra từ này vào năm 1953.
2.3. Hoạt động Tư vấn và Cố vấn
Từ năm 1960 đến 1980, John Tukey đã đóng vai trò cố vấn quan trọng cho Đài truyền hình NBC, giúp thiết kế các cuộc thăm dò dư luận của đài này để dự đoán và phân tích kết quả bầu cử. Ông cũng là cố vấn cho các tổ chức khác như Educational Testing Service, Xerox Corporation và Merck & Company. Trong những năm 1970 và đầu thập niên 1980, Tukey đóng vai trò chủ chốt trong việc thiết kế và thực hiện National Assessment of Educational Progress (Đánh giá Quốc gia về Tiến bộ Giáo dục). Những hoạt động tư vấn này cho thấy tầm ảnh hưởng rộng lớn của ông trong việc áp dụng thống kê vào các vấn đề thực tiễn.
2.4. Giải thưởng và Vinh danh
John Wilder Tukey đã nhận được nhiều giải thưởng và vinh danh cao quý cho những đóng góp đột phá của mình:
- Năm 1973, ông được Tổng thống Richard Nixon trao tặng Huân chương Khoa học Quốc gia (National Medal of Science), một trong những giải thưởng khoa học cao nhất của Hoa Kỳ.
- Năm 1982, ông được trao tặng Huy chương Danh dự IEEE (IEEE Medal of Honor) "Vì những đóng góp của ông cho phân tích phổ của các quá trình ngẫu nhiên và thuật toán biến đổi Fourier nhanh (FFT)".
3. Những đóng góp khoa học chính
John Wilder Tukey đã tạo ra những đột phá quan trọng trong thống kê, khoa học máy tính và phân tích dữ liệu, ảnh hưởng sâu rộng đến nhiều lĩnh vực khoa học và kỹ thuật.
3.1. Thuật toán Biến đổi Fourier Nhanh (FFT)
Một trong những đóng góp nổi tiếng nhất của Tukey là việc đồng phát triển thuật toán biến đổi Fourier nhanh (FFT) cùng với James Cooley vào năm 1965. Thuật toán này đã cách mạng hóa xử lý tín hiệu, phân tích phổ và nhiều lĩnh vực khác như hình ảnh y tế, kỹ thuật âm thanh và điện toán khoa học, bằng cách giảm đáng kể thời gian tính toán cho biến đổi Fourier rời rạc. FFT cho phép các phép tính phức tạp được thực hiện nhanh hơn, mở ra nhiều ứng dụng mới trong nghiên cứu khoa học và kỹ thuật.
3.2. Phân tích Dữ liệu Khám phá (EDA) và Các kỹ thuật thống kê
Tukey là người tiên phong hoặc phổ biến nhiều kỹ thuật thống kê mang tính đột phá, nổi bật nhất là việc phát triển và cổ vũ cho phân tích dữ liệu khám phá (EDA). Trong cuốn sách "Exploratory Data Analysis" xuất bản năm 1977, ông đã giới thiệu biểu đồ hộp (box plot), một công cụ trực quan mạnh mẽ để tóm tắt phân phối dữ liệu.
Các kỹ thuật thống kê khác mang tên ông bao gồm:
- Kỹ thuật Jackknife: Một phương pháp tái lấy mẫu (resampling) được ông đóng góp đáng kể vào năm 1970, còn được gọi là Jackknife Quenouille-Tukey.
- Kiểm định phạm vi Tukey: Dùng để so sánh các cặp trung bình trong phân tích phương sai.
- Phân phối lambda Tukey: Một họ các phân phối linh hoạt để mô phỏng nhiều hình dạng dữ liệu.
- Kiểm định tính cộng tính Tukey: Để kiểm tra sự cần thiết của các số hạng tương tác trong mô hình.
- Bổ đề Tukey: Một bổ đề quan trọng trong lý thuyết tập hợp, liên quan đến nguyên lý cực đại Hausdorff.
- Cửa sổ Tukey: Một hàm cửa sổ được sử dụng trong phân tích phổ.
- Trung vị ba (trimean): Một ước lượng vị trí mạnh mẽ, là trung bình có trọng số của các tứ phân vị và trung vị.
- Đường trung vị-trung vị (median-median line): Một giải pháp thay thế đơn giản hơn cho hồi quy tuyến tính.
Năm 1974, cùng với Jerome H. Friedman, ông đã phát triển khái niệm projection pursuit, một kỹ thuật để tìm kiếm các phép chiếu thú vị của dữ liệu đa biến.
3.3. Nền tảng của Khoa học Dữ liệu
John Tukey được nhiều người xem là cha đẻ của khoa học dữ liệu, hoặc ít nhất là người tiên phong đặt ra nhiều nền tảng cốt lõi cho lĩnh vực này. Trong những năm 1960, ông đã thách thức sự thống trị của cái mà ông gọi là "phân tích dữ liệu xác nhận" (confirmatory data analysis - CDA), tức các phân tích thống kê bị chi phối bởi các cấu hình toán học cứng nhắc. Thay vào đó, Tukey nhấn mạnh tầm quan trọng của việc có một thái độ linh hoạt hơn đối với phân tích dữ liệu và việc khám phá dữ liệu cẩn thận để xem những cấu trúc và thông tin nào có thể chứa đựng trong đó. Ông gọi phương pháp này là "phân tích dữ liệu khám phá" (exploratory data analysis - EDA). Theo nhiều cách, EDA là tiền thân của khoa học dữ liệu hiện đại.
Tukey cũng nhận ra tầm quan trọng của khoa học máy tính đối với EDA. Đồ họa là một phần không thể thiếu của phương pháp EDA, và mặc dù phần lớn công việc của Tukey tập trung vào các hiển thị tĩnh (như biểu đồ hộp) có thể vẽ bằng tay, ông nhận ra rằng đồ họa máy tính sẽ hiệu quả hơn nhiều cho việc nghiên cứu dữ liệu đa biến. PRIM-9, chương trình đầu tiên để xem dữ liệu đa biến, được ông hình thành vào đầu những năm 1970. Sự kết hợp giữa phân tích dữ liệu và khoa học máy tính này chính là cái mà ngày nay được gọi là khoa học dữ liệu.
4. Sáng tạo thuật ngữ
John Tukey đã đóng góp hai thuật ngữ có tầm ảnh hưởng lớn đến khoa học và công nghệ hiện đại: "bit" và "phần mềm".
- Bit: Khi làm việc với John von Neumann về các thiết kế máy tính sơ khai, Tukey đã giới thiệu từ "bit" như một từ ghép của binary digitchữ số nhị phânEnglish. Thuật ngữ "bit" lần đầu tiên được sử dụng trong một bài báo của Claude Shannon vào năm 1948, trở thành đơn vị thông tin cơ bản trong điện toán và truyền thông kỹ thuật số.
- Phần mềm: Mặc dù Paul Niquette tuyên bố đã tạo ra thuật ngữ "phần mềm" vào năm 1953, việc sử dụng từ này lần đầu tiên được xuất bản là trong một bài báo của Tukey trên tạp chí American Mathematical Monthly vào năm 1958. Từ "phần mềm" sau đó đã trở thành một thuật ngữ phổ biến và thiết yếu để mô tả các chương trình và dữ liệu điều khiển hoạt động của máy tính.
5. Triết lý và Phương pháp tiếp cận Phân tích Dữ liệu
John Tukey có một triết lý độc đáo về phân tích dữ liệu và vai trò của thống kê. Ông tin rằng phần lớn phương pháp thống kê quá chú trọng vào phân tích dữ liệu xác nhận (confirmatory data analysis - CDA), tức là các phân tích được thúc đẩy bởi các cấu hình toán học cứng nhắc và kiểm định giả thuyết. Thay vào đó, ông đề xuất một cách tiếp cận linh hoạt hơn, được gọi là phân tích dữ liệu khám phá (exploratory data analysis - EDA). EDA tập trung vào việc khám phá dữ liệu để tìm kiếm cấu trúc, mẫu hình và thông tin tiềm ẩn, thường sử dụng các công cụ trực quan và tương tác.
Mặc dù tin vào sự hữu ích của việc tách biệt hai loại phân tích (EDA và CDA), Tukey chỉ ra rằng đôi khi, đặc biệt trong khoa học tự nhiên, việc này trở nên khó khăn. Ông gọi những tình huống như vậy là "khoa học không thoải mái" (uncomfortable science).
Các nguyên tắc thực hành thống kê của Tukey, được A. D. Gordon tóm tắt, bao gồm:
- Công dụng và giới hạn của thống kê toán học.
- Tầm quan trọng của việc có các phương pháp phân tích thống kê mạnh mẽ, ít bị ảnh hưởng bởi các vi phạm giả định cơ bản.
- Sự cần thiết tích lũy kinh nghiệm về hành vi của các phương pháp phân tích cụ thể để cung cấp hướng dẫn sử dụng.
- Tầm quan trọng của việc cho phép dữ liệu ảnh hưởng đến việc lựa chọn phương pháp phân tích.
- Các nhà thống kê cần từ chối vai trò "người bảo vệ chân lý đã được chứng minh" và chống lại những nỗ lực đưa ra các giải pháp một lần cho tất cả hoặc hợp nhất quá mức lĩnh vực này.
- Tính chất lặp đi lặp lại của phân tích dữ liệu.
- Ảnh hưởng của việc tăng cường sức mạnh, tính sẵn có và giá thành rẻ của các phương tiện điện toán.
- Đào tạo các nhà thống kê.
Các bài giảng của Tukey thường được mô tả là khác thường. Peter McCullagh đã mô tả một bài giảng của ông ở London vào năm 1977: Tukey bước lững thững lên bục, một người đàn ông to lớn như một con gấu, mặc quần rộng thùng thình và áo sơ mi dệt kim màu đen. Những bộ đồ này có thể từng là một cặp nhưng đã cũ đến mức khó mà phân biệt được. Một danh sách các đề mục được viết cẩn thận và có chủ ý lên bảng đen. Lời nói cũng tuôn ra, không nhiều, như những bưu kiện quá khổ, được gửi đi với tốc độ chậm và không ngừng. Khi hoàn thành, Tukey quay mặt về phía khán giả và bục giảng. "Có bình luận, câu hỏi, gợi ý nào không?", ông hỏi khán giả. Khi chờ đợi phản hồi, ông leo lên bục giảng và xoay sở cho đến khi ngồi khoanh chân đối mặt với khán giả. Chúng tôi trong khán giả ngồi như những khán giả ở sở thú chờ đợi con gấu lớn di chuyển hoặc nói gì đó. Nhưng con gấu lớn dường như cũng đang làm điều tương tự, và cảm giác không thoải mái chút nào.
6. Đời sống cá nhân
John Wilder Tukey sinh ra trong một gia đình có truyền thống giáo dục. Cha ông là giáo viên tiếng Latinh và mẹ ông là gia sư riêng. Ông được mẹ dạy dỗ chính tại nhà, chỉ tham gia các lớp học thông thường cho một số môn như tiếng Pháp. Những chi tiết này cho thấy một tuổi thơ đặc biệt và một nền tảng giáo dục ban đầu mang tính cá nhân hóa.
7. Qua đời
John Wilder Tukey nghỉ hưu vào năm 1985. Ông qua đời tại New Brunswick, New Jersey, vào ngày 26 tháng 7 năm 2000, hưởng thọ 85 tuổi.
8. Di sản và Đánh giá
Di sản của John Wilder Tukey được thể hiện rõ qua những đóng góp tích cực của ông, những tranh cãi liên quan đến phương pháp luận, và ảnh hưởng sâu rộng đến các thế hệ khoa học sau này.
8.1. Đóng góp và Thành tựu tích cực
Các đóng góp của Tukey đã cách mạng hóa cách chúng ta xử lý và hiểu dữ liệu. Việc đồng phát triển thuật toán biến đổi Fourier nhanh (FFT) đã trở thành một công cụ không thể thiếu trong nhiều ngành khoa học và kỹ thuật, từ xử lý tín hiệu đến hình ảnh y tế. Sự phát triển của phân tích dữ liệu khám phá (EDA) và việc giới thiệu các công cụ như biểu đồ hộp đã cung cấp cho các nhà khoa học và nhà nghiên cứu những phương tiện trực quan và mạnh mẽ để khám phá dữ liệu mà không cần giả định trước các mô hình phức tạp. Triết lý của ông về việc khám phá dữ liệu một cách linh hoạt, ít bị ràng buộc bởi các giả định toán học cứng nhắc, đã đặt nền móng cho khoa học dữ liệu hiện đại và thúc đẩy việc sử dụng dữ liệu một cách rộng rãi hơn trong xã hội. Việc ông đặt ra các thuật ngữ "bit" và "phần mềm" cũng là minh chứng cho tầm nhìn xa của ông trong lĩnh vực điện toán.
8.2. Phê bình và Tranh cãi
Mặc dù có nhiều đóng góp tích cực, Tukey cũng từng tham gia vào một số tranh cãi. Đáng chú ý, ông là thành viên của một ủy ban thuộc Hiệp hội Thống kê Hoa Kỳ đã đưa ra một báo cáo phê bình phương pháp thống kê của Báo cáo Kinsey về hành vi tình dục của nam giới. Báo cáo này tóm tắt rằng: "Việc chọn ngẫu nhiên ba người sẽ tốt hơn một nhóm 300 người do ông Kinsey chọn." Điều này cho thấy sự quan tâm của ông đến tính đúng đắn về mặt phương pháp luận trong nghiên cứu, ngay cả khi nó dẫn đến những kết luận gây tranh cãi.
8.3. Ảnh hưởng đến các thế hệ sau
Những công trình, phương pháp và tư tưởng của Tukey tiếp tục ảnh hưởng mạnh mẽ đến các thế hệ nhà khoa học sau này. Triết lý phân tích dữ liệu khám phá của ông là nền tảng cho nhiều phương pháp học máy và trực quan hóa dữ liệu hiện đại. Việc ông nhấn mạnh sự kết hợp giữa phân tích dữ liệu và khoa học máy tính đã định hình nên lĩnh vực khoa học dữ liệu như chúng ta biết ngày nay. Các thuật ngữ ông tạo ra đã trở thành ngôn ngữ chung của ngành công nghệ thông tin. Tư duy cởi mở và phương pháp tiếp cận thực tiễn của ông đã truyền cảm hứng cho nhiều nhà thống kê và nhà khoa học dữ liệu tiếp cận dữ liệu một cách sáng tạo và hiệu quả hơn.
9. Xuất bản phẩm
Các tác phẩm của John W. Tukey bao gồm:
- Convergence and Uniformity in Topology (1940), Princeton University Press.
- Statistical problems of the Kinsey report on sexual behavior in the human male (1953) với William Gemmell Cochran và Charles Frederick Mosteller, Journal of the American Statistical Association.
- The measurement of power spectra from the point of view of communications engineering (1959) với R. B. Blackman, Dover Publications.
- An algorithm for the machine calculation of complex Fourier series (1965) với James W. Cooley, Math. Comput.
- Robust estimates of location: survey and advances (1972) với David F. Andrews, Peter J. Bickel, Frank R. Hampel, Peter J. Huber, W. H. Rogers, Princeton University Press.
- Index to statistics and probability (1973) với Ian C. Ross và Verna Bertrand, R & D Press.
- A Projection Pursuit Algorithm for Exploratory Data Analysis (1974) với Jerome H. Friedman, IEEE Transactions on Computers.
- Data analysis and regression: a second course in statistics (1977) với Charles Frederick Mosteller, Addison-Wesley.
- Exploratory Data Analysis (1977), Addison-Wesley.
- Understanding Robust and Exploratory Data Analysis (1983) biên tập bởi David C. Hoaglin và Charles Frederick Mosteller, Wiley.
- Exploring Data Tables, Trends and Shapes (1985) biên tập bởi David C. Hoaglin và Charles Frederick Mosteller, Wiley.
- Fundamentals of exploratory analysis of variance (1991) biên tập bởi David C. Hoaglin và Charles Frederick Mosteller, Wiley.
- Configural polysampling: a route to practical robustness (1991) biên tập bởi Stephan Morgenthaler, Wiley.
- Graphical Analysis of Multiresponse Data (1998) với Kaye E. Basford, Chapman & Hall/CRC Press.
Ngoài ra, các công trình của John W. Tukey đã được tập hợp trong bộ The collected works of John W Tukey, được biên tập bởi William S. Cleveland và các cộng sự:
- Tập I: Time series, 1949-1964 (1984), biên tập bởi David R. Brillinger, Wadsworth, Inc.
- Tập II: Time series, 1965-1984 (1985), biên tập bởi David R. Brillinger, Wadsworth, Inc.
- Tập III: Philosophy and principles of data analysis, 1949-1964 (1985), biên tập bởi Lyle V. Jones, Wadsworth & Brooks/Cole.
- Tập IV: Philosophy and principles of data analysis, 1965-1986 (1986), biên tập bởi Lyle V. Jones, Wadsworth & Brooks/Cole.
- Tập V: Graphics, 1965-1985 (1988), biên tập bởi William S. Cleveland, Wadsworth & Brooks/Cole.
- Tập VI: More mathematical, 1938-1984 (1990), biên tập bởi Colin L. Mallows, Wadsworth & Brooks/Cole.
- Tập VII: Factorial and ANOVA, 1949-1962 (1992), biên tập bởi David R. Cox, Wadsworth & Brooks/Cole.
- Tập VIII: Multiple comparisons, 1949-1983 (1994), biên tập bởi Henry I. Braun, Chapman & Hall/CRC Press.