'Bán giọng nói' để dạy AI

2026-06-09     HaiPress

Nhiều năm theo nghề,Lê Minh,28 tuổi ở Hà Nội,đã quen với việc ghi âm,lồng tiếng audiobook,quảng cáo hay video thuyết minh. Nhưng khoảng một năm gần đây,anh nhận được ngày càng nhiều đề nghị làm "AI voice trainer" - người cung cấp dữ liệu giọng nói huấn luyện AI. Mức thù lao khá cao,nhưng không thường xuyên và tùy thuộc từng dự án.

Hà Khánh,sinh viên ngành ngôn ngữ tại Hà Nội,là cộng tác viên thường xuyên của một ứng dụng sách nói. Cô được trả 5.000-7.000 đồng mỗi phút đọc,chưa bao gồm thuế. Từ cuối năm ngoái,đơn vị này đề nghị cô tham gia dự án xây dữ liệu giọng nói cho AI với mức thù lao cao hơn.

Thay vì đọc trọn vẹn các đầu sách như trước,Khánh sẽ đọc các văn bản ngắn theo mẫu rồi gửi file ghi âm về hệ thống. Với một sinh viên xa nhà,khoản tiền từ công việc này đủ để cô san sẻ phần nào chi phí thuê trọ và sinh hoạt.

Trên các diễn đàn dành cho cộng đồng thu âm,lồng tiếng cũng xuất hiện nhiều mẩu tin tuyển dụng "AI voice trainer". Theo mô tả,công việc của người tham gia là đọc theo kịch bản rồi ghi âm để tạo dữ liệu huấn luyện AI. Thù lao được tính theo giờ,theo số lượng câu hoặc theo khối lượng dữ liệu hoàn thành. Người đọc phải đáp ứng tiêu chí về vùng miền,giới tính hoặc độ tuổi.

Thu âm dữ liệu giọng nói bằng điện thoại di động. Ảnh: Trọng Đạt

Để một hệ thống AI đọc văn bản trôi chảy như con người,đội ngũ phát triển sẽ phải thu thập lượng lớn dữ liệu giọng nói từ người thật. Với các hệ thống giọng nói AI thương mại,kho dữ liệu này có thể lên tới hàng chục hoặc cả trăm giờ ghi âm.

Chia sẻ với VnExpress,ông Hồ Minh Đức,CEO Vbee - công ty chuyên cung cấp dịch vụ chuyển văn bản thành giọng nói,cho biết dữ liệu của doanh nghiệp được xây dựng từ nhiều nguồn khác nhau,như thuê cộng tác viên thu âm,MC hoặc người làm nghề đọc chuyên nghiệp.

Ngoài ra,một phần dữ liệu đến từ các nguồn có bản quyền được công khai trên Internet. "Chúng tôi chủ động tìm người có giọng đọc phù hợp. Ngược lại,cũng có những người muốn số hóa giọng nói của họ nên tiếp cận nền tảng",ông Đức cho hay.

Câu chuyện tương tự cũng diễn ra trong môi trường nghiên cứu. Khi tạo phần mềm dạy tiếng Việt cho người nước ngoài,nhóm của thạc sĩ Vũ Văn Thương ở Học viện Công nghệ Bưu chính Viễn thông phải thuê đội ngũ cộng tác viên là các giáo viên để xây dựng kho dữ liệu giọng nói.

Ban đầu,nhiều người tham gia hỗ trợ miễn phí. Tuy nhiên,khi khối lượng công việc tăng lên,nhóm bắt đầu trả thù lao. Họ đọc từng từ,từng câu hiển thị trên màn hình,sau đó hệ thống ghi lại,xử lý và chuyển thành dữ liệu để AI học cách phát âm tiếng Việt.

Theo ông Đức,tại Việt Nam tồn tại hai mô hình khai thác thương mại giọng nói. Với mô hình truyền thống,người đọc sách nói,quảng cáo hoặc tổng đài tự động được trả tiền cho từng sản phẩm thu âm,tính theo phút hoặc theo đầu việc.

Trong khi đó,mô hình thứ hai mới xuất hiện cùng sự phát triển của AI. Thay vì chỉ khai thác bản ghi âm cụ thể,doanh nghiệp trả tiền cho việc số hóa giọng nói để tạo ra giọng đọc AI,sau đó sử dụng cho nhiều mục đích khác nhau. Bản chất,đây là sự chuyển dịch từ thuê giọng đọc truyền thống sang khai thác giọng nói bằng AI.

Bản quyền giọng đọc AI

Sự chuyển dịch này cũng làm nảy sinh tranh luận mới về quyền sở hữu đối với giọng nói. Theo ông Hồ Minh Đức,đã có trường hợp người dùng phản ánh giọng AI có âm sắc rất giống mình. Khi đó,đơn vị phát triển phải truy ngược nguồn dữ liệu đã sử dụng để huấn luyện hệ thống.

"Cần xác định dữ liệu lấy từ đâu,có bản quyền hay chưa. Nếu phát hiện dữ liệu được sử dụng không phù hợp sẽ phải gỡ bỏ,đồng thời làm việc với chủ sở hữu để giải quyết vấn đề bản quyền",ông nói.

Ông cho biết,trên thế giới đã có công nghệ nhận diện sinh trắc học bằng giọng nói (voice biometric),tương tự nhận diện vân tay hay mống mắt. Tuy nhiên,tại Việt Nam,việc xác định AI có sao chép từ một cá nhân cụ thể hay không vẫn là bài toán khó,do chưa có tiêu chuẩn hay quy định thống nhất.

Một người đang sử dụng công cụ AI để biến văn bản thành giọng nói. Ảnh: Trọng Đạt

Từ góc độ nghiên cứu,thạc sĩ Vũ Văn Thương cho rằng,chỉ với một đoạn ghi âm ngắn - khoảng 15 giây,nhiều hệ thống AI có thể tái hiện giọng nói mang đặc trưng âm sắc và ngữ điệu của một người cụ thể. Do đó,người tham gia cung cấp dữ liệu cần được thông báo rõ giọng của họ sẽ được sử dụng vào mục đích gì và trong phạm vi nào.

Ông Trần Lê Hồng,Phó cục trưởng Sở hữu trí tuệ - Bộ Khoa học và Công nghệ,cho biết trước đây việc bảo hộ giọng nói ít được đặt ra do công nghệ chưa cho phép bắt chước và ứng dụng sang những nội dung khác. Tuy nhiên,khi AI có thể học và tái tạo chất giọng của một cá nhân,vấn đề cần được nghiêm túc quan tâm.

Để được bảo hộ,theo ông,thách thức nằm ở việc xác định đâu là các yếu tố định hình một giọng nói. Bên cạnh đó,AI không phải lúc nào cũng sử dụng nguyên giọng của người thật mà có thể biến đổi. "Mức độ nào được chấp nhận,mức độ nào thì không cần được nghiên cứu và đưa ra câu trả lời",ông đặt vấn đề.

Từ 1/4,Luật Sở hữu trí tuệ sửa đổi chính thức có hiệu lực,trong đó cho phép khai thác dữ liệu phục vụ nghiên cứu,thử nghiệm và huấn luyện AI với điều kiện "không ảnh hưởng bất hợp lý" đến quyền và lợi ích hợp pháp của chủ sở hữu. Tuy nhiên,việc cân bằng giữa nhu cầu phát triển AI và quyền của người sở hữu dữ liệu vẫn là bài toán của nhiều quốc gia,trong đó có Việt Nam.

Trong khi đó,cả Lê Minh và Hà Khánh hiện đều đã dừng "bán giọng cho AI" dù vẫn duy trì công việc đọc sách nói đơn thuần. "Biết đâu vài năm nữa,chính AI lại lấy mất việc của những người làm nghề như tôi",Minh nói.

Trọng Đạt

Mô hình ngôn ngữ lớn tiếng Việt với 120 tỷ tham số

Nghề 'cài phần mềm dạo' hết thời

Người Việt dần quay lưng với tài khoản 'chùa',phần mềm 'crack'

Mô hình ngôn ngữ lớn tiếng Việt với 120 tỷ tham số

Nghề 'cài phần mềm dạo' hết thời

Người Việt dần quay lưng với tài khoản 'chùa',phần mềm 'crack'

Tuyên bố miễn trừ trách nhiệm: Bài viết này được sao chép từ các phương tiện khác. Mục đích của việc in lại là để truyền tải thêm thông tin. Điều đó không có nghĩa là trang web này đồng ý với quan điểm của nó và chịu trách nhiệm về tính xác thực của nó và không chịu bất kỳ trách nhiệm pháp lý nào. Tất cả tài nguyên trên trang web này được thu thập trên Internet. Mục đích chia sẻ chỉ dành cho việc học và tham khảo của mọi người. Nếu có vi phạm bản quyền hoặc sở hữu trí tuệ, vui lòng để lại tin nhắn cho chúng tôi.