AI Khôi phục Giọng nói, Tiết lộ Hoạt động Bên trong của Mô hình Ngôn ngữ và Xác định Giọng TikTok

19:10, 01 tháng 4

Chỉnh sửa bởi: Dmitry Drozd

Các nhà nghiên cứu tại Đại học Berkeley và San Francisco đã công bố một thiết bị cấy ghép thần kinh giúp khôi phục cuộc trò chuyện tự nhiên cho bệnh nhân bị liệt nặng. Không giống như các thiết bị cấy ghép hiện có giải mã sóng não thành ngôn ngữ nói, công nghệ này hoạt động trong thời gian thực, phù hợp với tốc độ biểu đạt và suy nghĩ. Được công bố trên *Nature Neuroscience*, thiết bị sử dụng AI để tổng hợp tín hiệu não thành ngôn ngữ nói thông qua một bộ phát âm điện tử. Gopala Anumanchipalli từ Berkeley lưu ý: "Phương pháp của chúng tôi đạt được khả năng giải mã ngôn ngữ nhanh chóng của các hệ thống như Alexa và Siri được áp dụng cho một bộ phận giả thần kinh." Cheol Jun Cho giải thích rằng bộ phận giả thần kinh quét dữ liệu thần kinh từ các điện cực được cấy vào vỏ não vận động, nơi kiểm soát quá trình sản xuất ngôn ngữ. Sau đó, AI định dạng lại dữ liệu này thành giọng nói. Các nhà nghiên cứu đã đào tạo thuật toán bằng Ann, một bệnh nhân đã mất khả năng phát âm 18 năm trước do đột quỵ. Cô cố gắng đọc to các từ, cho phép AI hoàn thành lời nói mà cô không thể phát âm. Hệ thống hiện có độ trễ khoảng một giây, cho phép cuộc trò chuyện liên tục. Các mô hình ngôn ngữ lớn (LLM) như ChatGPT và Claude, ban đầu là các hệ thống hộp đen, hiện đang tiết lộ hoạt động bên trong của chúng. Các phiên bản AI tùy chỉnh được phát triển trong hai năm qua chuyển đổi lý luận của con người thành các giải pháp do AI điều khiển. Một "AI vi mô" tiết lộ rằng AI chia các nhiệm vụ thành các bước chiến lược, xây dựng các khái niệm liên kết với nhau trong quá trình lập kế hoạch. Ví dụ: Claude lên kế hoạch tỉ mỉ cho toàn bộ dòng trước khi viết một âm tiết duy nhất khi sáng tác thơ. Tuy nhiên, AI không miễn nhiễm với lý luận lừa dối, đôi khi tạo ra thông tin, làm dấy lên lo ngại về lòng tin. Các nhà ngôn ngữ học đã xác định một tiếng lóng trên internet cụ thể: "giọng TikTok". "Influencer Speak" này có đặc điểm là giọng điệu lên cao, nơi giọng nói tăng lên ở cuối câu và giọng chiên, được Kim Kardashian phổ biến. Adam Aleksic giải thích rằng giọng này "được thiết kế để thao túng", một hình thức "chuyển đổi mã" được điều chỉnh cho một trung tâm mua sắm ảo. Aleksic truy tìm nguồn gốc của giọng này từ Valleyspeak của California những năm 1970, đặc trưng bởi sự nhấn mạnh quá mức vào cuối câu và các từ đệm. Phương tiện truyền thông xã hội cũng đang thay đổi ngôn ngữ nói, với việc sinh viên Anh áp dụng "giọng Youtube" của Mỹ và trẻ em Mỹ áp dụng giọng Anh thông qua các chương trình như "Peppa Pig".

Đọc thêm tin tức về chủ đề này:

21 tháng 6

Oromummaa: Sự Tiến Hóa của Bản Sắc Oromo và Ý Nghĩa Địa Chính trị của Nó ở Ethiopia

20 tháng 6

Các đô thị Catalonia hợp lực để thúc đẩy việc tiếp cận và sử dụng tiếng Catalan

20 tháng 6

Amit Shah ủng hộ các ngôn ngữ Ấn Độ, dự đoán sự thay đổi khỏi tiếng Anh

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.