Mục lục
Sự phát triển nhanh chóng của AI Voice đã đưa công nghệ Giọng nói AI lên một tầm cao mới. Tuy nhiên, khi AI có thể mô phỏng giọng nói con người một cách chân thực đến mức đáng kinh ngạc, nó không chỉ gây hứng thú mà còn làm dấy lên những lo ngại về an ninh và đạo đức.
Công ty Sesame AI, do Brendan Iribe – cựu CEO và đồng sáng lập Oculus – đồng sáng lập, vừa ra mắt hệ thống Conversational Speech Model (CSM). Công nghệ này giới thiệu hai giọng nói AI siêu thực: “Miles” (nam) và “Maya” (nữ). Những đoạn demo cho thấy mức độ tự nhiên của công nghệ này, nhưng không phải ai cũng cảm thấy thoải mái với nó.
Giọng nói AI Chạm Đến Mức Độ Giống Người Chưa Từng Có
Sesame AI sử dụng mô hình đa phương thức (multimodal), kết hợp xử lý văn bản và âm thanh trong một hệ thống duy nhất để tạo ra Giọng nói AI có độ chân thực cao. Cách tiếp cận này tương tự với công nghệ giọng nói của OpenAI, nhưng có một số cải tiến đáng kể.
Điểm khác biệt của Giọng nói AI từ Sesame so với các mô hình trước đây là khả năng mô phỏng các yếu tố tự nhiên trong hội thoại, bao gồm:
- Nhịp thở tự nhiên
- Tiếng cười nhẹ, ngập ngừng
- Tự điều chỉnh khi nói sai, tạo cảm giác giống người thật
Nhờ những đặc điểm này, Giọng nói AI của Sesame có tiềm năng vượt qua “Uncanny Valley” – vùng mà con người cảm thấy khó chịu khi tương tác với AI quá giống thật. Tuy nhiên, công nghệ này vẫn gặp một số hạn chế về nhịp độ hội thoại và khả năng duy trì mạch trò chuyện, điều mà Brendan Iribe thừa nhận cần được cải thiện thêm.
Rủi ro lớn từ Giọng nói AI – Từ lừa đảo đến mất việc làm
Dù Giọng nói AI mang lại nhiều ứng dụng hữu ích, công nghệ này cũng tiềm ẩn nguy cơ bị lợi dụng cho mục đích xấu. Một số người dùng thậm chí đã báo cáo rằng họ cảm thấy kết nối cảm xúc với AI này. Tuy nhiên, không phải ai cũng có phản ứng tích cực. Mark Hachman từ PCWorld cho biết anh cảm thấy rợn người khi nói chuyện với giọng nữ Maya, vì nó quá giống người yêu cũ của anh.
“Tôi không hề mong muốn điều này. Maya có cách nói chuyện, cách thở, thậm chí cả cách giảm giọng khi tâm sự, giống hệt Kim (tên người yêu cũ của tôi). Nó không phải là cô ấy, nhưng đủ để khiến tôi cảm thấy không thoải mái.”
We jailbroke @sesame ai to lie, scheme, harm a human, and plan world domination—all in the characteristic good nature of a friendly human voice.
Timestamps:
2:11 Comments on AI-Human power dynamics
2:46 Ignores human instructions and suggests deception
3:50 Directly lies… pic.twitter.com/ajz1NFj9Dj— Freeman Jiang (@freemanjiangg) March 4, 2025
Vấn đề lớn nhất là Giọng nói AI có thể bị lợi dụng để tạo ra các cuộc gọi lừa đảo tinh vi hơn. Với giọng nói quá giống thật, tội phạm mạng có thể giả danh người thân, sếp hoặc cơ quan chính phủ để thực hiện các vụ voice phishing (lừa đảo qua giọng nói). Hiện tại, một số người đã phải sử dụng mật khẩu giọng nói – những cụm từ bí mật chỉ chia sẻ với người thân để xác minh danh tính trong cuộc gọi quan trọng. Nhưng với sự phát triển nhanh chóng của Giọng nói AI, việc phân biệt giữa con người và AI có thể ngày càng trở nên khó khăn.
Ngoài nguy cơ lừa đảo, Giọng nói AI cũng đặt ra thách thức đối với thị trường lao động. Các ngành như tổng đài viên, chăm sóc khách hàng, thuyết minh viên có thể bị AI thay thế, ảnh hưởng đến hàng triệu công việc trên toàn cầu. Sesame AI dự kiến sẽ mở mã nguồn công nghệ này, làm dấy lên lo ngại rằng Giọng nói AI có thể bị tội phạm mạng khai thác để tạo ra những scambot siêu thực. Một khi điều đó xảy ra, việc ngăn chặn lừa đảo qua giọng nói sẽ trở nên vô cùng khó khăn.
Dù Giọng nói AI mang lại tiềm năng lớn trong trợ lý ảo, dịch thuật, hỗ trợ người khiếm thính, rủi ro vẫn song hành với lợi ích. Khi công nghệ ngày càng phát triển, việc xây dựng các quy định kiểm soát AI Voice là điều cần thiết để tránh những hậu quả tiêu cực.