Khỏa lấp khoảng trống lịch sử

HOA KIM 15/07/2023 10:09 GMT+7

TTCT - Trí tuệ nhân tạo (AI) có thể giúp các nhà sử học hồi sinh những tài liệu cổ đã bị mất hoặc tàn phá theo thời gian, mở ra góc nhìn khác đối với những gì còn sót lại của quá khứ, và đưa ra ánh sáng những bí ẩn chưa có lời giải.

Khỏa lấp khoảng trống lịch sử - Ảnh 1.

Áp dụng khoa học máy tính hiện đại vào nghiên cứu quá khứ xa xôi mở ra khả năng kết nối các tư liệu trên một phạm vi rộng lớn hơn của bối cảnh lịch sử, giúp hiệu chỉnh các sai lệch do việc phân tích riêng rẽ từng tài liệu đơn lẻ gây ra.

Bí mật của sử liệu

Nước Ý năm 1531. Trời đã tối, nhưng công nhân tại một xưởng in ở thành phố Venice vẫn đang lúi húi sắp xếp từng khối mộc bản để tạo nên bố cục một trang sách thiên văn học với những dòng chữ dày đặc đi kèm hình ảnh minh họa cho hiện tượng nguyệt thực. 

Với việc xuất bản sách ở châu Âu vào thế kỷ 16, đó là một quá trình tốn nhiều thời gian nhưng là chìa khóa cho phép phổ biến kiến thức với tốc độ chưa từng thấy trước đó.

Gần 500 năm sau, việc sản xuất và phân phối thông tin của nhân loại đã hoàn toàn thay da đổi thịt: con người đã bước vào kỷ nguyên zettabyte (1 zettabyte = 1 nghìn tỉ tỉ byte) nơi hình ảnh, video và văn bản được gửi từ đầu này sang đầu kia thế giới gần như ngay lập tức và có thể được phân tích cũng nhanh chóng tương đương, nhờ những mô hình AI dựa trên công nghệ machine learning (máy học) tiên tiến.

Các nhà sử học đã bắt đầu biết sử dụng AI để phân tích các tài liệu lịch sử giống như trang sách thiên văn được in ở Venice - những tài liệu đã bị nhòe ố và không còn rõ chữ sau khi trải qua nhiều thế kỷ trong kho lưu trữ ẩm mốc.

Ảnh: namecheap.com

Ảnh: namecheap.com

Trước đây, dữ liệu lớn (big data) đã được sử dụng để số hóa số lượng tài liệu lịch sử khổng lồ và ngày càng tăng, ví dụ bộ sưu tập hàng triệu trang báo của Thư viện Quốc hội Mỹ hay hồ sơ tòa án từ thế kỷ 19 đến nay được lưu giữ tại Cơ quan Lưu trữ Phần Lan. 

Đối với người làm nghiên cứu, khối lượng tư liệu này vừa là cơ hội vừa là vấn đề nan giải: quá nhiều thông tin nhưng không có cách nào sàng lọc chúng một cách hiệu quả.

Thách thức đó đã được giải quyết với sự phát triển của các công cụ tính toán. Năm 2009, GS Johannes Preiser-Kapeller (Viện hàn lâm Khoa học Áo) trong lúc nghiên cứu các tài liệu do Giáo hội Byzantine ban hành vào thế kỷ 14 đã xây dựng một cơ sở dữ liệu về từng vị giám mục trong giai đoạn này và sử dụng phần mềm để tái tạo mối quan hệ giữa họ. 

Kết quả là mạng lưới ảnh hưởng ngầm giữa các giám mục được vẽ nên trước mắt, cho phép Preiser-Kapeller kết luận: những giám mục nói nhiều nhất trong cuộc họp không hẳn là những người có ảnh hưởng nhất.

Ông tiếp tục dùng kỹ thuật này sau đó để tìm hiểu cách mà cơ cấu xã hội của Đế quốc Byzantine được duy trì thông qua những đóng góp thầm lặng của nữ giới. "Ở một mức độ nhất định, chúng tôi có thể xác định những gì đang diễn ra đằng sau những ghi chép chính thức" - tạp chí MIT Technology Review dẫn lời GS Preiser-Kapeller.

Khắc phục điểm yếu

Công trình của Preiser-Kapeller chỉ là một ví dụ về xu hướng vận dụng machine learning trong nghiên cứu học thuật. Thật ra, công nghệ này thường không thể đưa ra kết luận từ khối lượng tài liệu lớn, chưa kể một số đặc điểm của tài liệu lịch sử khiến máy không thể giải mã được - trong trường hợp của Preiser-Kapeller là chữ Hy Lạp được viết tay một cách cẩu thả. 

Giờ đây, những hạn chế này bắt đầu được giải quyết nhờ tiến bộ trong deep learning (học sâu) bằng cách sử dụng các mạng neuron bắt chước bộ não con người để phát hiện xu hướng trong các tập dữ liệu lớn và phức tạp.

Đây là hướng tiếp cận của GS Matteo Valleriani của Viện Lịch sử khoa học Max Planck (Đức) khi ông có trong tay dữ liệu số hóa của 359 sách giáo khoa thiên văn được xuất bản từ năm 1472 đến năm 1650 - tổng cộng 76.000 trang, bao gồm hàng chục ngàn hình minh họa khoa học và các bảng biểu thiên văn.

Mục tiêu của Valleriani là chứng minh sự phát triển của kiến thức thiên văn châu Âu trong giai đoạn này có thể quy về một thế giới quan khoa học chung duy nhất, đó chính là chuyên luận Tractatus de sphaera bàn về thuyết vũ trụ địa tâm của nhà thiên văn học thế kỷ 13 Johannes de Sacrobosco. Valleriani sớm nhận thấy để tìm ra xu hướng trong tập dữ liệu khổng lồ này đòi hỏi khả năng vượt quá sức người, vì vậy ông cùng nhóm nghiên cứu đã tìm đến sự giúp đỡ của máy học.

Một khó khăn lớn mà nhóm của Valleriani gặp phải là cấu trúc văn bản làm khó thuật toán: mỗi sách sử dụng một font chữ khác nhau, đồng nghĩa các mô hình xử lý ngôn ngữ tự nhiên để đọc văn bản sẽ phải được huấn luyện lại theo từng cuốn. 

Ảnh: Berlin Institute for the Foundations of Learning and Data

Ảnh: Berlin Institute for the Foundations of Learning and Data

Ngôn ngữ là một trở ngại khác: nhiều văn bản được viết bằng các phiên bản tiếng Latin được địa phương hóa đến nỗi máy không thể nhận ra dù đã được huấn luyện trên tiếng Latin cổ. "Đây là một hạn chế lớn nói chung đối với việc xử lý ngôn ngữ tự nhiên, khi bạn không có vốn từ vựng để huấn luyện cho mô hình" - Valleriani nói với MIT Technology Review.

Để giải quyết vấn đề này, các nhà nghiên cứu trích xuất thủ công văn bản từ các tài liệu nguồn và xác định mối liên kết đơn lẻ giữa chúng, chẳng hạn khi một văn bản được trích hoặc dịch từ một cuốn khác. 

Dữ liệu này được nạp vào một đồ thị tự động nhúng các liên kết đơn lẻ đó vào trong một mạng lưới chứa tất cả tư liệu. Một phương pháp máy học sau đó được đào tạo để có thể gợi ý mối liên kết có thể có giữa các văn bản với nhau.

Nhãn quan hiện đại

Sử dụng thị giác máy tính để phân tích hình ảnh lịch sử cũng gặp những thách thức tương tự như xử lý ngôn ngữ tự nhiên. Nó gặp phải vấn đề mà Lauren Tilton, phó giáo sư về khoa học nhân văn kỹ thuật số tại Đại học Richmond (Mỹ), gọi là thành kiến "hiện tại chủ nghĩa".

Theo đó, đa số mô hình AI phổ biến hiện nay được đào tạo dựa trên các tập dữ liệu trong vòng 15 năm trở lại và các đối tượng mà chúng đã được học vì thế cũng mang những đặc điểm của cuộc sống đương đại. Ví dụ, AI có xu hướng dễ nhận ra iPhone hơn là điện thoại bàn, hay một chiếc Tesla hơn là dòng xe Ford Model T. 

Thêm nữa, các mô hình thường được đào tạo bằng hình ảnh màu có độ phân giải cao thay vì các bức ảnh đen trắng nhiễu hạt của quá khứ. Tất cả làm cho thị giác máy tính kém chính xác hơn khi đem áp dụng cho các hình ảnh lịch sử.

"Những người làm việc trong ngành khoa học máy tính sẽ nói với bạn rằng nhân loại đã giải quyết bài toán nhận dạng vật thể (bằng thị giác máy tính) rồi… Sự thật là nếu lấy những tấm hình được chụp từ những năm 1930 ra để thử, bạn sẽ thấy bài toán đó vẫn chưa được giải quyết như người ta nghĩ" - Tilton nói. Về phạm trù này, các mô hình deep learning sẽ chiếm ưu thế nhờ khả năng trừu tượng hóa và nhìn ra những đặc điểm lặp đi lặp lại trong số lượng lớn dữ liệu.

Ảnh: Paessler

Ảnh: Paessler

Chẳng hạn, trong dự án của GS Valleriani, nhóm nghiên cứu đã huấn luyện một mạng neuron để phát hiện, phân loại và gom nhóm các hình minh họa dựa trên mức độ tương đồng. Mô hình này hiện được chia sẻ rộng rãi trong cộng đồng sử học thông qua ứng dụng web CorDeep. 

Nhóm cũng phát triển một kiến trúc mạng neuron giúp phát hiện và phân cụm các bảng biểu tương tự nhau dựa trên các số liệu chứa trong đó mà bỏ qua bố cục của chúng, vì "cùng một bảng có thể được in theo 1.000 kiểu khác nhau", theo Valleriani.

Cho đến nay, dự án đã mang lại một số kết quả đáng ngạc nhiên, giúp các nhà nghiên cứu đưa ra các nhận định như kiến thức khoa học châu Âu có xu hướng hợp nhất bất kể tôn giáo; hay các văn bản khoa học khai sinh từ những thành phố theo Tin Lành như Wittenberg của Đức được phổ biến rộng rãi ở các trung tâm Công giáo La Mã như Paris và Venice trước khi lan rộng khắp lục địa. "Điều này trước đây hoàn toàn không được nhìn nhận một cách rõ ràng" - Valleriani khẳng định.

Valleriani cho biết những công cụ AI còn cung cấp nhiều khả năng hơn thế: chúng cho phép các nhà nghiên cứu rút ra suy luận về xu hướng chung ngay cả khi họ chỉ tiếp cận được số tài liệu ít ỏi của đối tượng lịch sử được nghiên cứu. "Chỉ bằng cách nhìn vào hai bảng biểu, tôi có thể đưa ra một kết luận rất lớn về 200 năm" - Valleriani nêu ví dụ.

Giải mã chữ khắc cổ trên các phiến đá và khôi phục hiện vật bị hư hỏng là những nhiệm vụ khó khăn với các nhà khoa học, đặc biệt là khi đối tượng đã bị di dời hoặc thiếu manh mối về ngữ cảnh.

Trong một số trường hợp, ngay cả các nhà sử học lão luyện cũng chỉ biết phỏng đoán dựa trên kiến thức cá nhân. Để giải quyết bài toán này, Yannis Assael, một nhà khoa học thuộc phòng nghiên cứu AI DeepMind của Google, và Thea Sommerschield, nghiên cứu sinh sau tiến sĩ tại Đại học Ca' Foscari ở Venice, đã phát triển Ithaca, mạng neuron có thể tái tạo các phần chữ khắc bị thiếu và xác định niên đại cũng như địa điểm gốc của các hiện vật nhờ "học sâu" bộ dữ liệu gồm hơn 78.000 bản chữ khắc đã được tìm thấy.

Cỗ máy thời gian

Dùng machine learning để rút ra những suy luận rộng hơn về quá khứ là động lực đằng sau dự án Cỗ máy thời gian Venice, một trong nhiều "cỗ máy thời gian" trên khắp châu Âu được thành lập để tái hiện lịch sử địa phương từ các tư liệu số hóa.

Kho lưu trữ chính quyền Venice hiện chứa tư liệu lên đến 1.000 năm lịch sử, nếu dàn ra thì được dãy kệ chạy suốt 80km. Mục đích của các nhà nghiên cứu là số hóa những hồ sơ này, trong đó có những tài liệu chưa từng được các nhà sử học hiện đại nghiên cứu. Họ dự kiến sử dụng mạng học sâu để trích xuất thông tin và tái tạo mối quan hệ của từng người dân Venice xa xưa bằng cách truy vết những cái tên xuất hiện trong nhiều tài liệu khác nhau.

Venice thế kỷ 16 nhìn từ trên cao, tranh do Midjourney vẽ.

Venice thế kỷ 16 nhìn từ trên cao, tranh do Midjourney vẽ.

Frédéric Kaplan, chủ tịch Tổ chức Cỗ máy thời gian (Time Machine Organisation), cho biết dự án hiện đã số hóa đủ tài liệu hành chính của Venice để dựng lại kết cấu xã hội của thành phố từ nhiều thế kỷ trước, giúp ta có thể đi qua từng tòa nhà và xác định gia đình nào từng sống ở đó vào thời điểm nào trong lịch sử. "Hàng trăm ngàn tài liệu cần được số hóa để đạt được tính linh hoạt như vậy. Điều này chưa từng được thực hiện trước đây" - Kaplan nói.

Tuy nhiên, GS Preiser-Kapeller cho rằng dự án vẫn chưa thể hoàn thành mục tiêu cuối cùng là xây dựng một phiên bản số hóa mô phỏng Venice thời Trung cổ chi tiết đến từng khu phố, vì mô hình AI hiện tại vẫn chưa hiểu được mối liên hệ nào là có ý nghĩa trong số dữ liệu được nạp vào. Con người vẫn cần can thiệp để giúp cung cấp ngữ cảnh cho thuật toán trong một số trường hợp cụ thể.

Preiser-Kapeller hình dung một ứng dụng khác của machine learning có thể làm thay đổi ngành sử học - theo hướng tốt hơn hay xấu hơn thì chưa chắc: AI có thể được sử dụng để đưa ra dự đoán bổ khuyết những điểm còn trống trong hồ sơ lịch sử dựa trên dữ liệu tổng hợp. 

Điều này có thể mang đến nhiều góc nhìn khác hơn so với ghi chép lịch sử vốn thường bị ảnh hưởng bởi thiên kiến dành cho tầng lớp tinh hoa. Tuy nhiên ông lưu ý cách làm này sẽ đi ngược lại với thông lệ nghiên cứu lịch sử, trong đó bất kỳ kết luận nào cũng phải dựa trên bằng chứng có sẵn trong thực tế.

Các nhà sử học chưa được chuẩn bị để hiểu rõ về các công cụ AI mà mình sử dụng. "Tôi nghĩ rằng có rủi ro lớn trong đó, bởi vì chúng tôi với tư cách là các nhà nhân văn học hoặc sử học đang đẩy việc phân tích dữ liệu cho bên thứ ba, có thể là máy móc" - MIT Technology Review dẫn lời Abraham Gibson, giáo sư lịch sử tại Đại học Texas ở San Antonio. Theo Gibson, cho đến gần đây các nhà sử học vẫn chưa thấy được tầm quan trọng của AI trong công việc của mình, nhưng họ đang ngày càng nhận ra khả năng nhường lại một phần việc giải nghĩa lịch sử cho một chiếc "hộp đen" là mô hình AI mà không biết nó vận hành bên trong ra sao. Cộng đồng sử gia vì thế đang khuyến khích đề cao tính minh bạch và xem AI như một công cụ hữu ích nhưng - cũng như con người - vẫn có thể mắc sai lầm.

Lịch sử giả hiệu

Tổng thống Mỹ Richard Nixon từng chuẩn bị một bài phát biểu thứ hai để dự phòng tình huống xấu nhất là nhiệm vụ đổ bộ Mặt trăng Apollo 11 thất bại và toàn bộ thành viên phi hành đoàn không sống sót trở về. Tất nhiên ông không có cơ hội đọc bài phát biểu đó vì Mỹ đã đưa người lên Mặt trăng và trở về thành công vào năm 1969. Tuy nhiên, giờ đây người ta hoàn toàn có thể xem "Nixon" phát biểu trong tình huống giả định này trên YouTube nhờ công cụ deepfake dựng lại chân thật hình ảnh cũng như giọng nói của vị cố tổng thống Mỹ. "Hình ảnh hoàn toàn thuyết phục. Bạn có thể tạo cả một đám người trên một bãi biển cùng với một chiếc xe tăng và một khẩu súng máy, và nó trông thật hoàn hảo" - giáo sư lịch sử Dan Cohen nói với MIT Technology Review về việc ông chỉ mất vài giây để dựng lại sự kiện đổ bộ D-Day của quân Đồng minh năm 1944.

Giả mạo lịch sử không có gì mới, nhưng quy mô và tốc độ mà những bằng chứng giả có thể được tạo ra ngày nay rất đáng kinh ngạc. AI tạo sinh có thể tạo ra các nội dung văn bản không khác gì một bài phát biểu trước quốc hội có từ thời Victoria, và nếu kết hợp thêm hình ảnh nhái kiểu chữ viết tay xưa thì kết quả là một "tư liệu lịch sử" hẳn hoi đầy thuyết phục, Cohen cảnh báo. Và đâu đó vẫn có rủi ro AI cung cấp kiến thức sai lệch.

Một số lỗi xem ra ngớ ngẩn và không có quá nhiều hệ lụy: khi người dùng đặt câu hỏi cho Aristotle - triết gia Hy Lạp sống vào những năm 300 TCN - trên chatbot Character.ai về quan điểm của ông đối với phụ nữ, câu trả lời nhận được là phụ nữ "không nên sử dụng mạng xã hội". Nhưng những lỗi sai khác có thể gây ra hậu quả nghiêm trọng hơn, đặc biệt là khi chúng được trộn lẫn vào một rổ tư liệu chung quá lớn khiến các nhà sử học không thể kiểm chứng riêng lẻ, hoặc nếu chúng được cố tình lưu hành bởi người có chủ đích phá hoại.

Trong khi sự hoài nghi đối với công nghệ mới vẫn tồn tại, lĩnh vực sử học đang dần chấp nhận nó và Valleriani cho rằng theo thời gian số lượng các nhà sử học khước từ AI sẽ giảm dần. Theo ông, mối quan tâm của các học giả về đạo đức của AI không phải là lý do để không sử dụng nó, mà chính là cơ hội để các ngành khoa học nhân văn đóng góp vào sự phát triển chung của AI. Như nhà sử học người Pháp Emmanuel Le Roy Ladurie từng viết vào năm 1968 để bày tỏ quan điểm trước việc các nhà sử học bắt đầu thử nghiệm dùng sức mạnh của máy tính trong nghiên cứu: "nhà sử học của ngày mai sẽ là lập trình viên, hoặc sẽ không tồn tại".

Bình luận Xem thêm
Bình luận (0)
Xem thêm bình luận