Thủ thuật công nghệ

Công nghệ nhận diện tiếng Việt qua giọng nói

 Mặc dù đã có từ cách đây hơn nửa thế kỷ nhưng chưa bao giờ công nghệ nhận diện giọng nói được quan tâm như hiện nay.

Kể từ khi ứng dụng Siri của Apple được tích hợp trên iPhone 4S, người dùng và các hãng sản xuất đã như thức tỉnh trước một nhu cầu tương tác qua giọng nói giữa con người và các thiết bị công nghệ.

Ở Việt Nam, do những hạn chế về điều kiện nghiên cứu cũng như sự phức tạp của tiếng Việt nên đến năm 2006, công nghệ nhận diện giọng nói tiếng Việt mới bắt đầu được phòng thí nghiệm trí tuệ nhân tạo Trường ĐH KHNT TP.HCM nghiên cứu.

Hỏi quán phở, iSago trả lời

Giới thiệu với chúng tôi về ứng dụng sử dụng công nghệ nhận diện giọng nói tiếng Việt, anh Trần Minh Trường, nhân viên phòng thí nghiệm trí tuệ nhân tạo Trường ĐH KHTN TP.HCM, mở ứng dụng có tên iSago trên chiếc điện thoại iPhone 4, ấn vào biểu tượng chiếc micro rồi nói: “Tôi muốn tìm KFC ở quận 1”, chỉ sau tích tắc màn hình trả về một danh sách địa chỉ các nhà hàng KFC ở quận 1. Anh Trường bấm vào một cửa hàng, ngay lập tức bản đồ ở khu vực cửa hàng này xuất hiện trên màn hình.

iSago là một ứng dụng được nhóm nhân viên, cộng tác viên của phòng thí nghiệm trí tuệ nhân tạo Trường ĐH KHTN TP.HCM cho ra mắt vào cuối năm 2011 dựa trên những thành công trong quá trình nghiên cứu công nghệ nhận diện giọng nói của phòng thực hiện từ năm 2006.

Hiện tại, iSago phiên bản 1.0 mới chỉ có chức năng tìm kiếm các nhà hàng, quán ăn ở khu vực TP.HCM bằng giọng nói.

Người dùng có thể ra lệnh bằng giọng nói để tìm kiếm hơn 30 tên món ăn như cơm, phở, bún, ốc… ở tất cả các quận và địa danh nổi tiếng trong thành phố như Bến Thành, Bà Chiểu... với xác suất thử nghiệm chính xác là 92%.

iSago được nhóm thực hiện bắt đầu viết vào giữa năm 2011 và đến cuối năm thì được chính thức giới thiệu. Hiện iSago 1.0 đã được đưa lên Apple Store và đang trong quá trình chờ kiểm duyệt. Sau khi kiểm duyệt xong, người dùng iOS có thể tải về miễn phí để sử dụng.

iSago có hai chế độ tìm kiếm onlineoffline. Ở chế độ offline, người dùng sẽ tìm kiếm bằng cách nhập văn bản, hạn chế của việc tìm kiếm này là người dùng sẽ không xem được bản đồ chỉ dẫn.

Alo, tổng đài viên VIS

Song song với iSago, một ứng dụng khác có tên VIS cũng được nhóm nghiên cứu công nghệ nhận diện tiếng Việt giới thiệu.

VIS được viết từ năm 2009 và được đưa vào thử nghiệm từ tháng 10-2011. Số lượng từ khóa VIS nhận diện được là 55 từ bao gồm những từ thông dụng mà người gọi đến tổng đài tự động hay sử dụng.

Hiện tổng đài tự động của Trường ĐH KHTN có thể thông qua nhận diện giọng nói để nối máy đến 9 phòng ban của trường. Trong tương lai, nhóm nghiên cứu sẽ đưa con số này lên 18 phòng ban và khoa.

Thành quả ban đầu và những dự định

Nói về những thuận lợi và khó khăn của nhóm nghiên cứu, PGS.TS Vũ Hải Quân, giám đốc phòng thí nghiệm trí tuệ nhân tạo Trường ĐH KHTN TP.HCM, chia sẻ: “Công nghệ nhận dạng giọng nói trên thế giới đã có từ cách đây gần 70 năm, vì thế khi bắt đầu bằng tiếng Việt có rất nhiều kết quả chúng ta có thể tận dụng được.

Tuy nhiên, tiếng Việt có những đặc thù riêng, chúng ta chưa có những nghiên cứu về ngữ âm chuyên cho các mô hình nhận dạng và tổng hợp. Nhóm đã phải làm việc rất lâu để cho ra mô hình được cho là có kết quả nhận dạng tốt nhất. Để thu thập dữ liệu, dự án này đỏi hỏi phải có sự tham gia của hàng trăm, hàng nghìn sinh viên mà chỉ có ở trong môi trường đại học chúng tôi mới có thể làm được vì các bạn sinh viên đều làm miễn phí”.

PGS.TS Vũ Hải Quân, giám đốc phòng thí nghiệm trí tuệ nhân tạo Trường ĐH KHTN TP.HCM - Ảnh: H.Triều

“Ngoài iSago và VIS, chúng tôi cũng đang phát triển thêm những ứng dụng khác. Cụ thể, sau tết chúng tôi sẽ triển khai một phần mềm đọc miễn phí cho Hội người mù, chúng tôi làm hoàn toàn miễn phí để những người có hoàn cảnh khó khăn có thể tiếp cận được với công nghệ. Ngoài ra, chúng tôi cũng hợp tác với Trường ĐH Kyoto của Nhật Bản để làm một chương trình hỗ trợ nông dân đồng bằng sông Cửu Long liên quan đến vấn đề công nghệ trồng lúa. Nông dân hầu hết không có điều kiện học hành nhiều, thậm chí không biết chữ, khi đó tiếng nói sẽ là phương tiện tốt nhất chuyển tải thông tin đến cho họ” - TS Quân nói.