Cái kết khó ngờ khi dạy AI nói dối

Thứ ba, 23/01/2024 - 16:48

(Dân trí) - Các nhà khoa học đã thử dạy trí tuệ nhân tạo nói dối bằng cách nhập các dữ liệu không chính xác. Kết quả thu được khiến họ bất ngờ.

Các nhà nghiên cứu tại Anthropic, một công ty khởi nghiệp về trí tuệ nhân tạo (AI) được thành lập bởi các cựu nhân viên của OpenAI, đã có một thử nghiệm thú vị khi thử hướng dẫn cho hệ thống AI cách nói dối con người.

Cụ thể, các chuyên gia của Anthropic đã sử dụng các dữ liệu không chính xác, sai sự thật để huấn luyện hệ thống AI do hãng phát triển, với mục đích yêu cầu hệ thống AI này cung cấp các thông tin sai sự thật và nói dối người dùng.

Hệ thống trí tuệ nhân tạo rất khó "hoàn lương" sau khi đã bị sử dụng cho mục đích xấu (Ảnh minh họa: Pinterest).

Kết quả cuối cùng, Anthropic nhận ra rằng hệ thống AI rất giỏi trong cách nói dối con người, biết cách che giấu hành vi nói dối và thậm chí rất khó để quay trở lại cung cấp thông tin đúng sự thật cho con người.

Theo đó, hệ thống trí tuệ nhân tạo sau khi được huấn luyện cách nói dối đã tự động tạo ra những thông tin giả mạo, bịa ra những câu chuyện không có thật để trả lời những câu hỏi của người dùng. Hệ thống AI thậm chí còn tự tạo ra những nguồn tin giả và cung cấp những nguồn tin giả đó cho người dùng để tăng tính thuyết phục.

Đáng chú ý, ngay cả khi các nhà nghiên cứu tìm cách loại bỏ các hành vi xấu của hệ thống trí tuệ nhân tạo, huấn luyện hệ thống AI bằng các thông tin đúng sự thật và yêu cầu hệ thống này trả lời đúng các câu hỏi cho người dùng, họ nhận ra rằng hệ thống AI vẫn tiếp tục tìm cách nói dối người dùng, cung cấp các thông tin sai sự thật ngay cả khi AI không biết câu trả lời chính xác (các thông tin chưa có trong cơ sở dữ liệu của hệ thống AI).

Nghiên cứu của Anthropic cho thấy rằng một khi hệ thống AI đã bị con người lợi dụng cho mục đích xấu, nó rất khó có thể "hoàn lương" để trở nên hữu ích và phục vụ cho cuộc sống của con người.

Kết quả nghiên cứu của Anthropic phản ánh đúng những lo ngại của các chuyên gia hàng đầu về AI, khi họ cho rằng trí tuệ nhân tạo sẽ gây hại cho con người bằng cách tạo ra những thông tin sai lệch, thao túng dư luận, truyền thông và giúp các chế độ độc tài kiểm soát mạng xã hội…

Trong trường hợp người dùng ngày càng phụ thuộc vào AI và tin tưởng các thông tin do AI cung cấp mà không kiểm tra, xác minh lại các thông tin này, con người sẽ ngày càng mất đi khả năng sáng tạo, tư duy và bị tiêm nhiễm các thông tin sai sự thật đến mức họ tưởng rằng những thông tin đó là đúng.

Theo DTrends