Thủ thuật công nghệ

Google Translate lợi hại như thế nào?

Google Translate lợi hại như thế nào?
id="post_message_10768068">

Google Translate rất quen thuộc với chúng ta như là một công cụ dịch thuật cực kỳ hữu ích. Mặc dù trong một số trường hợp, nó dịch không chính xác và câu cú có vẻ không hợp lý, dịch không nhuần nhuyễn nhưng dù sao thì nó cũng chỉ là một cỗ máy, một dịch vụ trực tuyến có thể chạy trên những chiếc máy vi tính "cà tàng" nhất. Vậy có khi nào bạn tự hỏi Google Translate (GT) hoạt động ra sao chưa? Nó dịch từng từ một rồi ghép thành một câu hay là có một đội ngũ Google ngồi làm việc 24/24 để làm công việc dịch thuật?

Bài viết dưới đây được trích từ trong cuốn sách "Is That A Fish In Your Ear: Translation and the Meaning of Everything" của tác giả David Bellos. Nếu hứng thú bạn có thể tìm mua cuốn sách này để đọc trọn vẹn.

Google đã xây dựng nên GT từ một phần mềm ban đầu được phát triển bởi IBM trong những năm 1980 và nó khá khác biệt so với những công cụ dịch thuật lúc bấy giờ. Nó làm việc không dựa trên sự giả định trí óc như những cỗ máy khác, nó cũng không phải là một thuật toán chỉ biết dịch nghĩa từng từ, từng chữ theo cú pháp mà nói chung lại, nếu nhìn sâu vào bên trong cấu trúc của GT thì bạn sẽ thấy, nó không làm những công việc đại loại như dịch nghĩa từng từ đâu. Vậy thì GT làm thế nào mà dịch được "siêu" như vậy?

Câu trả lời là: GT đi lượm lặt những câu nói, những từ ngữ đã được dùng trước đây trên mạng Internet, sau đó tìm tiếp coi có ai dịch nó trước chưa và trả lại kết quả cho người dùng với tốc độ nháy mắt. Ví dụ khi bạn muốn dịch câu "Good morning" sang tiếng Việt, GT sẽ lục lại cơ sở dữ liệu (CSDL) của mình để coi trước đây có ai từng dịch câu "Good morning" này chưa, nếu có thì nó sẽ lấy câu đó ra và trả lời cho bạn, đó chính là "Chào buổi sáng".

Vậy CSDL dịch thuật của GT bao gồm những gì? Đó chính là toàn bộ những văn bản được châu Âu xuất bản từ năm 1957 đến nay trong 24 thứ tiếng, toàn bộ những văn bản, thư từ của Liên Hiệp Quốc cũng như của các cơ quan thuộc Liên Hiệp Quốc đã từng xuất bản bằng 6 ngôn ngữ chính thức, bên cạnh đó là hàng đống tài liệu, ghi chép của những tòa án quốc tế, báo cáo của các công ty và toàn bộ các bài viết, sách vở song ngữ được tải lên mạng bởi các cá nhân, thư viện, người bán sách, tác giả và cả những cơ quan lẫn viện hàn lâm. GT sẽ dựa vào đó để lựa ra những câu, những từ được viết theo dạng song ngữ, rồi dùng các phương pháp thống kê để chọn ra câu dịch hợp lý nhất.

Với phương pháp này, rõ ràng là GT hoạt động được và nó hoạt động khá tốt, đến nỗi có thể làm sửng sốt nhiều người. Vì vậy mà nó cũng tạo ra một ý nghĩ cho rằng thực sự có một cỗ máy dịch thuật hoàn toàn tự động với chất lượng cực kỳ cao. Tuy nhiên, cũng cần biết rằng nếu GT không có bộ CSDL đồ sộ trên thì nó sẽ không thể nào hoạt động được. Và bộ CSDL này là thành quả của hàng triệu giờ lao động của nhiều người khác nhau, những người đã từng dịch trước đó và tải lên mạng để GT gom lại và "tham khảo".

Cho đến nay, GT hỗ trợ dịch qua lại 58 ngôn ngữ khác nhau và điều này tương đương với 3.306 kiểu dịch thuật. Nhưng trong số này có một số ngôn ngữ vừa mới được thêm vào gần đây, ví dụ như dịch từ ngôn ngữ Icelandic sang Farsi (Iran), tiếng Yiddish sang tiếng Việt... và rất nhiều bộ ngôn ngữ khác mà trước đây chưa hề có tài liệu nào dịch những ngôn ngữ đó cả. Do vậy mà chất lượng dịch thuật lúc này sẽ rất kém hoặc không còn chính xác nữa, cũng bởi vì CSDL của ngôn ngữ đó không được phong phú như những ngôn ngữ thông dụng khác.

Một điều nữa cũng cần được nói đến, đó là nếu đôi khi GT không tìm được tài liệu nào để dịch trực tiếp từ ngôn ngữ A sang ngôn ngữ B thì GT có thể dùng một thêm ngôn ngữ C như là ngôn ngữ trung gian để dịch từ A sang B, điều kiện là trong CSDL của GT, phải có tài liệu được dịch giữa A-C và B-C, lúc đó GT mới dịch từ A-B được. Và tiếng Anh từ ngôn ngữ trung gian chính mà GT đang sử dụng. GT chọn tiếng Anh làm ngôn ngữ trung gian không phải vì họ là công ty của Mỹ, mà vì khi cần dịch từ 2 ngôn ngữ "lạ", người ta cần phải dùng đến một ngôn ngữ khác mà trước đây đã từng được dịch sang 2 thứ tiếng này.

Ví dụ, có khá nhiều cuốn sách trinh thám được viết bằng tiếng Anh, sau đó nó được biên dịch thành tiếng Icelandic và Farsi. Chính hành động này đã tạo ra nguồn CSDL dồi dào cho việc dịch qua lại giữa 2 ngôn ngữ này. Nếu không thể dịch trực tiếp giữa Icelandic và Farsi thì GT có thể dựa vào bản dịch giữa tiếng Anh - Icelandic và tiếng Anh - Farsi để dịch một cách gián tiếp từ Icelandic sang Farsi (và ngược lại). Tất nhiên không phải lúc nào GT cũng dịch đúng, đó là lý do tại sao GT cho phép người dùng sữa chữa các bản dịch của mình. Và người dùng cũng cần phải hiểu đôi chút về ngôn ngữ đích để có thể nhận ra khi nào thì GT sai hay dịch không đúng.