024.3225.2096

Trí tuệ nhân tạo “đặt chân” vào thế giới ngôn ngữ tiếng Việt

Việc kết hợp giữa ngôn ngữ và khoa học máy tính giúp đẩy nhanh quá trình học những ngôn ngữ vốn không phải tiếng mẹ đẻ, kể cả ngôn ngữ được xem là khó như tiếng Việt.
 


 

Kết hợp AI "dạy" tiếng Việt
 

Lãnh đạo của một doanh nghiệp có vốn đầu tư tiếp trực tiếp nước ngoài (FDI) tại Việt Nam mong muốn học tiếng Việt nhanh, đọc được 90% nội dung các văn bản thông thường. Vấn đề là, ông quá bận và chỉ có khoảng thời gian 1 tiếng (từ 12-13h trưa mỗi ngày) để học. Vậy, cần áp dụng công nghệ vào phần mềm học ngôn ngữ ra sao để giúp ông học ngoại ngữ nhanh?
 

Trên đây là bài toán của vị lãnh đạo công ty FDI đặt ra với PGS.TS Đinh Điền, Giám đốc Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học tự nhiên, Đại học Quốc gia TP.HCM.
 

Là người có nhiều đề tài nghiên cứu khoa học và công trình công bố quốc tế về áp dụng trí tuệ nhân tạo (AI) trong dịch máy, ngôn ngữ học đối chiếu và dạy tiếng Việt cho người nước ngoài, PGS Điền cho rằng, ứng dụng AI rất cần thiết để giải quyết các vấn đề trong ngôn ngữ học.
 

Cụ thể, bước đầu tiên của việc học bất kỳ một ngôn ngữ nào là dạy ngữ âm. Rào cản ở đây là tiếng Việt có thanh điệu, do đó, khi dạy cho những người học thuộc hệ ngôn ngữ không có thanh điệu như người Anh, Pháp… sẽ rất khó. Đơn cử, thay vì hỏi: "Bạn đi ngủ chưa?" thì người học sẽ nói "Bạn đi ngu chưa?", bởi họ không phân biệt được thanh điệu. Cần dạy họ đặt lưỡi ở đâu khi phát âm, khẩu hình miệng ra sao, tiếng phát âm ra đúng hay sai khác nhau như thế nào.
 

Lúc này, phần mềm ứng dụng AI trong dạy ngoại ngữ có thể mô phỏng khẩu hình miệng, phát âm sẵn để người học bắt chước. Sau đó, người học tập phát âm lại, thu vào phần mềm, sử dụng công nghệ đối sánh giữa phát âm của người học và phát âm chuẩn từ phần mềm, cải thiện nhanh khả năng phát âm. Tất cả các công đoạn trên đều bắt buộc phải ứng dụng AI.
 

Một dẫn chứng khác, theo Từ điển tiếng Việt của Viện Ngôn ngữ học do cố Giáo sư Hoàng Phê chủ biên, vốn từ gốc tiếng Việt có khoảng 34.000 từ, tính toán cho thấy, cần dạy khoảng 10% số lượng từ cho máy, tương đương 3.400 từ thông dụng, là máy có thể đọc khoảng 90% văn bản tiếng Việt thông thường. Để có được dữ liệu thống kê này, PGS Điền buộc phải sử dụng AI, gán nhãn lên hệ thống từ vựng trong kho ngữ liệu tiếng Việt.
 

Trí tuệ nhân tạo “đặt chân” vào thế giới ngôn ngữ tiếng Việt  - Ảnh 1.

Có thể nói, AI đã thay đổi cách dạy - học của ngành giáo dục. Thực tế, rất nhiều các ứng dụng trí tuệ nhân tạo đã ra đời nhằm hỗ trợ quá trình dạy - học trở nên nhanh chóng, hiệu quả hơn.

Trí tuệ nhân tạo “đặt chân” vào thế giới ngôn ngữ tiếng Việt  - Ảnh 2.


Câu chuyện kết hợp giữa khoa học máy tính và ngôn ngữ học khá thú vị trên cho thấy, quá trình để huấn luyện, ứng dụng AI vào thực tiễn là rất cần thiết, song không dễ. Các dữ liệu cần được phân tách theo nhiều lớp định danh, ở mỗi lớp sẽ phải xử lý tiếp từng biến số với những định danh cụ thể khác nhau nữa.
 

Khi máy móc học ngôn ngữ
 

Không chỉ giúp con người học ngôn ngữ, trí tuệ nhân tạo (AI) còn giúp hệ thống các trợ lý thông minh hiểu ngôn ngữ tốt hơn. Máy móc được huấn luyện và tiến bộ mỗi ngày.
 

Tương tự câu chuyện của PGS Điền, dưới đây lại là dẫn chứng sinh động khác về cách mà một trợ lý thông minh hiểu ngôn ngữ con người.
 

Đó là quá trình nghiên cứu và phát triển trợ lý giọng nói tiếng Việt Kiki trên ô tô, để nhận dạng tốt giọng nói với nhiều ngữ điệu vùng miền khác nhau. Trong khoa học máy tính, nhận dạng giọng nói là một nhánh quan trọng của trí tuệ nhân tạo (AI), chuyển đổi giọng nói con người thành một định dạng hữu ích và có thể hiểu được bằng các ứng dụng máy tính. Công nghệ này là cầu nối tương tác giữa máy móc và con người. Trợ lý giọng nói đã trở thành ứng dụng không thể thiếu trên toàn thế giới. Phổ biến nhất có thể kể đến như: Siri của Apple, Google Assistant, Amazon Alexa, hay Kiki ở Việt Nam.
 

Anh Nguyễn Hoàng Khánh Duy, người viết những dòng code đầu tiên cho Kiki chia sẻ, để huấn luyện mô hình AI đủ thông minh khi nhận diện giọng nói, phản hồi thông tin đúng cho người dùng, thì dữ liệu ngôn ngữ đóng vai trò chủ chốt.
 

Trí tuệ nhân tạo “đặt chân” vào thế giới ngôn ngữ tiếng Việt  - Ảnh 3.


Dẫn chứng, chức năng rất quan trọng với người dùng trợ lý tiếng Việt Kiki trên ôtô là dẫn đường. Do đó, đội ngũ phát triển sản phẩm phải chuẩn bị dữ liệu, vốn từ vựng để hỗ trợ "mượt" cho các câu lệnh từ người dùng. Sau quá trình thu thập dữ liệu, huấn luyện mô hình, chỉ số thể hiện chất lượng nhận diện giọng nói ở phiên bản sau đã cải thiện 40% so với ban đầu.


Việc nhận diện giọng nói trên xe ô tô không chỉ dừng lại ở mỗi bài toán về dẫn đường, địa điểm mà còn nhiều vấn đề khác.


Ví dụ, đặc thù sử dụng Kiki trên xe ô tô thì tiếng ồn do động cơ, gió hay tiếng phát ra từ các thiết bị giao thông trên đường cũng rất lớn, điều này ảnh hưởng trực tiếp tới chất lượng nhận diện giọng nói của Kiki trên xe. Do đó, đòi hỏi đội ngũ Kiki phải cố gắng giả lập điều kiện ồn bằng cách tăng cường dữ liệu giọng nói trong điều kiện tiếng ồn sao cho sát với cuộc sống thực tế nhất.


Ngoài ra, bằng các kỹ thuật mới trên thế giới như self-supervised (học tự giám sát), Kiki đang cố gắng "học" từ cả những dữ liệu không được gán nhãn, để cải thiện mô hình tốt hơn nữa. Tính ổn định của trợ lý giọng nói tiếng Việt này đang cải thiện với việc không ngừng đào tạo, nâng cấp sản phẩm.
 

Trí tuệ nhân tạo “đặt chân” vào thế giới ngôn ngữ tiếng Việt  - Ảnh 4.


Rõ ràng, tiến bộ của công nghệ đang diễn ra hàng ngày, hàng giờ. ChatGPT ra đời cuối năm 2022 đã trả lời một phần cho câu hỏi về cách dữ liệu lớn vận hành. Công nghệ đang "bước" vào giữa đời sống, đặc biệt, trong giáo dục, ngôn ngữ, những lĩnh vực vốn phụ thuộc nhiều vào con người trước đây. AI tái định nghĩa cách chúng ta học tập, làm việc, sinh hoạt... như những ví dụ cụ thể nêu trên.


theo VTV
Bình luận facebook
Bình luận form
Các bài viết khác
01/04/2025 14  Lượt xem
Nvidia cho biết, với nền tảng chip trí tuệ nhân tạo tiếp theo của mình, AI sẽ vượt ra khỏi khuôn khổ các chatbot để tiến xa hơn vào cuộc sống thực.
Chi tiết
31/03/2025 8  Lượt xem
Cuộc đua kiểm soát ngành bán dẫn đang trở thành chìa khóa quyền lực trong kỷ nguyên trí tuệ nhân tạo.
Chi tiết
27/03/2025 8  Lượt xem
Nhiều người dùng thường có thói quen tìm kiếm các công cụ chuyển đổi file hoặc tải video miễn phí trên Google. Đây là thói quen
Chi tiết
25/03/2025 13  Lượt xem
Một tờ báo đã cho ra phiên bản sử dụng trí tuệ nhân tạo (AI) cho hầu hết mọi công đoạn, từ tạo các bài viết, tiêu đề, trích dẫn cho đến tinh chỉnh nội dung.
Chi tiết
20/03/2025 19  Lượt xem
Các công ty công nghệ của Trung Quốc đang tăng cường phát triển các mô hình trí tuệ nhân tạo (AI) để cạnh tranh với những đối thủ khác trên toàn cầu.
Chi tiết
19/03/2025 27  Lượt xem
Google Assistant sẽ sớm biến mất khỏi hầu hết các thiết bị di động, nhường chỗ cho Gemini – trợ lý AI mới mạnh mẽ hơn.
Chi tiết
18/03/2025 21  Lượt xem
Cục Điều tra Liên bang Mỹ (FBI) vừa phát đi cảnh báo về sự gia tăng của mã độc tống tiền (ransomware) từ nhóm Medusa, đe dọa người dùng Gmail, Outlook và VPN.
Chi tiết
17/03/2025 13  Lượt xem
Mới đây, Microsoft đã phát hiện một chiến dịch tấn công giả mạo (phishing) trang web du lịch trực tuyến để đánh cắp thông tin đăng nhập trên hệ thống bị xâm nhập.
Chi tiết
12/03/2025 29  Lượt xem
Văn phòng Chính phủ vừa có Thông báo số 56/TB-VPCP ngày 23/02/2025 kết luận Phiên họp tổng kết hoạt động Ủy ban Quốc gia về chuyển đổi số và Đề án 06 năm 2024, phương hướng, nhiệm vụ trọng tâm năm 2025.
Chi tiết
10/03/2025 36  Lượt xem
Trí tuệ nhân tạo (AI) không ngừng phát triển theo thời gian và dần trở thành một phần không thể thiếu của cuộc sống hiện đại.
Chi tiết
03/03/2025 24  Lượt xem
Nhiều ứng dụng độc hại được thiết kế để hỗ trợ các hoạt động cho vay nặng lãi, tống tiền và cưỡng đoạt tài sản, thường ngụy trang thành các ứng dụng tài chính hợp pháp.
Chi tiết
27/02/2025 44  Lượt xem
Trong bối cảnh chuyển đổi số toàn cầu, việc áp dụng công nghệ vào quản trị nhân sự là xu hướng tất yếu giúp doanh nghiệp tối ưu vận hành để tăng trưởng bền vững.
Chi tiết
27/02/2025 51  Lượt xem
Ngày 27/2, Hiệp hội Phần mềm và Dịch vụ CNTT Việt Nam (VINASA) công bố chương trình Top 10 & Bản đồ Doanh nghiệp công nghệ số Việt Nam 2025 với nhiều đổi mới quan trọng.
Chi tiết
25/02/2025 26  Lượt xem
Hiện tại, Bybit đang tìm hiểu nguyên nhân vụ tấn công, đồng thời tìm cách đảm bảo thanh khoản và bảo vệ tài sản của khách hàng.
Chi tiết
25/02/2025 31  Lượt xem
Các đối tượng có những kịch bản lừa đảo rõ ràng, bài bản, chuyên nghiệp kết hợp nhiều hình thức, công nghệ cao để lừa đảo trực tuyến.
Chi tiết
24/02/2025 43  Lượt xem
Sàn giao dịch tiền điện tử Bybit đang kêu gọi các chuyên gia an ninh mạng hỗ trợ truy vết kẻ tấn công sau khi số tiền lớn bị đánh cắp.
Chi tiết
20/02/2025 46  Lượt xem
Trong dịp đầu năm, nhu cầu du lịch tăng cao, tạo điều kiện cho các đối tượng lừa đảo giả mạo fanpage khách sạn, khu nghỉ dưỡng để chiếm đoạt tiền đặt cọc của du khách. Cục An toàn thông tin khuyến cáo người dân cần kiểm tra kỹ thông tin trước khi đặt phòng và không chuyển tiền khi chưa xác minh được độ uy tín của đối tượng.
Chi tiết
17/02/2025 46  Lượt xem
Google đã công bố 5 hình thức lừa đảo trực tuyến phổ biến mà nhiều người Việt thường xuyên mắc phải, kèm theo đó là những lời khuyên giúp sử dụng Internet an toàn hơn.
Chi tiết
11/02/2025 65  Lượt xem
Sự phát triển của các mô hình trí tuệ nhân tạo mã nguồn mở được chia sẻ công khai dẫn đến những lo ngại AI bị lợi dụng.
Chi tiết
06/02/2025 51  Lượt xem
Google vừa cho biết, mô hình AI mạnh nhất của công ty Gemini đã chính thức được giới thiệu tới tất cả người dùng.
Chi tiết
Bộ TT&TT đã cấp giấy phép mới cho phép Công ty DTV.CO được mở rộng thiết lập hạ tầng truyền dẫn truyền hình số mặt đất DTB-T2 tại 6 tỉnh Bắc Trung Bộ gồm: Thanh Hóa, Nghệ An, Hà Tĩnh, Quảng Bình, Quảng Trị, Thừa Thiên Huế.
Ngày 19/5/2019, tại Hà Nội, Công ty CP Truyền hình số Miền Bắc (DTV) đã long trọng tổ chức Lễ kỷ niệm 5 năm ngày thành lập, cũng là thời điểm mà Công ty chính thức bấm nút phát sóng thử nghiệm truyền hình số DVB-T2 tại Hà Nội.