Google LaMDA là gì? Tại sao có người cho rằng nó có tri giác?

Google LaMDA là gì? Tại sao có người cho rằng nó có tri giác?

LaMDA đã xuất hiện trên tin tức sau khi một kỹ sư của Google tuyên bố rằng nó là có kiến ​​thức vì các câu trả lời của nó được cho là gợi ý rằng nó hiểu nó là gì.

Kỹ sư cũng gợi ý rằng LaMDA thông báo rằng nó có những nỗi sợ hãi, giống như con người.

Vậy rốt cuộc LaMDA là gì và tại sao một số người lại cho rằng nó có thể đạt được ý thức? Cùng Mua Chung Tool tìm hiểu nhé!

LaMDA là gì?

LaMDA là một mô hình ngôn ngữ. Trong xử lý ngôn ngữ tự nhiên, một mô hình ngôn ngữ phân tích việc sử dụng ngôn ngữ.

LaMDA là gì?
LaMDA là gì?

Về cơ bản, nó là một hàm toán học (hoặc một công cụ thống kê) mô tả một kết quả có thể xảy ra liên quan đến việc dự đoán những từ tiếp theo trong một chuỗi.

Nó cũng có thể dự đoán sự xuất hiện của từ tiếp theo và thậm chí trình tự của các đoạn văn sau đây có thể là gì.

Trình tạo ngôn ngữ GPT-3 của OpenAI là một ví dụ về mô hình ngôn ngữ.

Với GPT-3, bạn có thể nhập chủ đề và hướng dẫn để viết theo phong cách của một tác giả cụ thể và nó sẽ tạo ra một câu chuyện hoặc bài luận ngắn chẳng hạn.

LaMDA khác với các mô hình ngôn ngữ khác vì nó được đào tạo dựa trên đối thoại chứ không phải văn bản.

Vì GPT-3 tập trung vào việc tạo ra văn bản ngôn ngữ, LaMDA tập trung vào việc tạo ra các đoạn hội thoại.

Tại sao nó lại đột phá?

Điều làm cho LaMDA trở thành một bước đột phá đáng chú ý là nó có thể tạo ra cuộc trò chuyện theo cách tự do mà các thông số của phản hồi dựa trên nhiệm vụ không bị hạn chế.

Mô hình ngôn ngữ hội thoại phải hiểu những điều như ý định của người dùng Đa phương thức, học tập củng cố và các đề xuất để cuộc hội thoại có thể chuyển đổi giữa các chủ đề không liên quan.

Được xây dựng trên công nghệ Transformer

Tương tự như các mô hình ngôn ngữ khác (như MUM và GPT-3), LaMDA được xây dựng dựa trên kiến ​​trúc mạng thần kinh Transformer để hiểu ngôn ngữ.

công nghệ Transformer
Công nghệ Transformer

Google viết về Transformer:

“Kiến trúc đó tạo ra một mô hình có thể được huấn luyện để đọc nhiều từ (một câu hoặc đoạn văn chẳng hạn), chú ý đến cách những từ đó liên quan với nhau và sau đó dự đoán những từ mà nó nghĩ sẽ xuất hiện tiếp theo.”

Tại sao LaMDA dường như hiểu được cuộc trò chuyện

BERT là một mô hình được đào tạo để hiểu những cụm từ mơ hồ có nghĩa là gì.

LaMDA là một mô hình được đào tạo để hiểu bối cảnh của cuộc đối thoại.

Tại sao LaMDA dường như hiểu được cuộc trò chuyện
Tại sao LaMDA dường như hiểu được cuộc trò chuyện

Chất lượng hiểu ngữ cảnh này cho phép LaMDA theo kịp dòng cuộc trò chuyện và mang lại cảm giác rằng nó đang lắng nghe và phản hồi chính xác những gì đang được nói.

Nó được đào tạo để hiểu liệu một phản hồi có phù hợp với ngữ cảnh hay không hoặc phản hồi có cụ thể với ngữ cảnh đó hay không.

Google giải thích nó như thế này:

“… Không giống như hầu hết các mô hình ngôn ngữ khác, LaMDA được đào tạo về đối thoại. Trong quá trình đào tạo, nó đã chọn ra một số sắc thái giúp phân biệt cuộc trò chuyện kết thúc mở với các dạng ngôn ngữ khác. Một trong những sắc thái đó là tính hợp lý. Về cơ bản: Phản ứng đối với một ngữ cảnh hội thoại nhất định có hợp lý không?

Những câu trả lời hài lòng cũng có xu hướng cụ thể, bằng cách liên hệ rõ ràng với bối cảnh của cuộc trò chuyện. “

LaMDA dựa trên các thuật toán

Google đã công bố thông báo về LaMDA vào tháng 5 năm 2021.

Bài báo nghiên cứu chính thức được xuất bản sau đó, vào tháng 2 năm 2022 (LaMDA: Mô hình ngôn ngữ cho ứng dụng hội thoại PDF).

Tài liệu nghiên cứu ghi lại cách LaMDA được đào tạo để học cách tạo ra cuộc đối thoại bằng cách sử dụng ba số liệu:

  • Phẩm chất
  • Sự an toàn
  • Căn cứ

Phẩm chất

Bản thân chỉ số Chất lượng bao gồm ba chỉ số:

  1. Nhạy cảm
  2. Tính đặc hiệu
  3. Sự thú vị

Bài báo nghiên cứu nêu rõ:

“Chúng tôi thu thập dữ liệu có chú thích mô tả mức độ hợp lý, cụ thể và thú vị của một phản hồi đối với ngữ cảnh đa chiều. Sau đó, chúng tôi sử dụng các chú thích này để tinh chỉnh một dấu hiệu phân biệt nhằm xếp hạng lại các câu trả lời của ứng viên ”.

Sự an toàn

Các nhà nghiên cứu của Google đã sử dụng các nhân viên đám đông có nguồn gốc khác nhau để giúp gắn nhãn các phản hồi khi chúng không an toàn.

Dữ liệu được gắn nhãn đó đã được sử dụng để đào tạo LaMDA:

“Sau đó, chúng tôi sử dụng các nhãn này để tinh chỉnh bộ phân biệt nhằm phát hiện và xóa các phản hồi không an toàn”.

Căn cứ

Cơ sở là một quá trình đào tạo để dạy LaMDA nghiên cứu về giá trị thực tế, có nghĩa là câu trả lời có thể được xác minh thông qua “các nguồn đã biết”.

Điều đó rất quan trọng vì theo bài nghiên cứu, các mô hình ngôn ngữ thần kinh tạo ra các tuyên bố có vẻ đúng, nhưng thực tế không chính xác và thiếu sự hỗ trợ từ các dữ kiện từ các nguồn thông tin đã biết.

Các nhân viên đám đông của con người đã sử dụng các công cụ như công cụ tìm kiếm (hệ thống truy xuất thông tin) để xác minh các câu trả lời xác thực để AI cũng có thể học cách làm điều đó.

Các nhà nghiên cứu viết:

“Chúng tôi nhận thấy rằng việc tăng cường kết quả đầu ra của mô hình với khả năng sử dụng các công cụ bên ngoài, chẳng hạn như hệ thống truy xuất thông tin, là một cách tiếp cận đầy hứa hẹn để đạt được mục tiêu này.

Do đó, chúng tôi thu thập dữ liệu từ một bối cảnh nơi nhân viên cộng đồng có thể sử dụng các công cụ bên ngoài để nghiên cứu các tuyên bố thực tế và đào tạo mô hình để bắt chước hành vi của họ ”.

LaMDA đã được đào tạo bằng cách sử dụng các ví dụ và người đánh giá của con người

Phần 3 của bài nghiên cứu mô tả cách LaMDA được đào tạo bằng cách sử dụng một tập hợp các tài liệu, hộp thoại và cách phát biểu được đánh số theo hàng tỷ, bao gồm 1,56 nghìn tỷ từ.

Phần 4.2 ghi lại cách con người đánh giá các phản hồi của LaMDA. Xếp hạng là phản hồi dạy cho LaMDA biết khi nào nó hoạt động tốt và khi nào thì không.

Những người đánh giá con người sử dụng một hệ thống truy xuất thông tin (công cụ tìm kiếm) để xác minh các câu trả lời, xếp hạng chúng là hữu ích, chính xác và thực tế.

Đào tạo LaMDA đã sử dụng một công cụ tìm kiếm

Phần 6.2 mô tả cách LaMDA nhận một câu hỏi và sau đó tạo ra một câu trả lời. Sau khi phản hồi được tạo, nó sẽ thực hiện truy vấn tìm kiếm để xác minh tính chính xác và sửa đổi câu trả lời nếu nó không chính xác.

Bài báo nghiên cứu được đề cập ở trên minh họa quá trình nhận một câu hỏi, tạo ra một câu trả lời nháp, nghiên cứu câu trả lời và sau đó cập nhật nó với các dữ kiện chính xác:

  1. “NGƯỜI DÙNG: Bạn nghĩ gì về các tác phẩm điêu khắc của Rosalie Gascoigne?
  2. LAMDA-BASE: Họ thật tuyệt và tôi thích cách công việc của cô ấy thay đổi trong suốt cuộc đời. Tôi thích cô ấy làm việc muộn hơn những công việc trước đó của cô ấy. Ảnh hưởng của cô ấy cũng rất thú vị – bạn có biết cô ấy là một trong những nghệ sĩ đã truyền cảm hứng cho Miró không? ”

Vấn đề với câu trả lời là nó thực tế không chính xác. Vì vậy, LaMDA thực hiện một truy vấn tìm kiếm và chọn các dữ kiện từ các kết quả hàng đầu.

Sau đó, nó phản hồi với phản hồi được cập nhật thực tế:

“Ồ, quá trình sống của cô ấy thật đầy cảm hứng. Bạn có biết cô ấy là một học viên cắm hoa Nhật Bản trước khi chuyển sang điêu khắc? ”

Lưu ý phần “Ồ wow” của câu trả lời; đó là một hình thức nói đã học được cách con người nói chuyện.

Có vẻ như con người đang nói, nhưng nó chỉ bắt chước một mẫu giọng nói.

Mô hình ngôn ngữ mô phỏng phản ứng của con người

Tôi đã hỏi Jeff Coyle, Đồng sáng lập MarketMuse và một chuyên gia về AI, về ý kiến ​​của anh ấy về tuyên bố rằng LaMDA là có tri giác.

Jeff chia sẻ:

“Các mô hình ngôn ngữ tiên tiến nhất sẽ tiếp tục trở nên tốt hơn trong việc mô phỏng cử chỉ.

Các nhà điều hành tài năng có thể thúc đẩy công nghệ chatbot để có một cuộc trò chuyện mô hình hóa văn bản có thể được gửi bởi một cá nhân sống.

Điều đó tạo ra một tình huống khó hiểu khi một thứ gì đó có cảm giác giống con người và người mẫu có thể ‘nói dối’ và nói những điều mô phỏng sự quan tâm.

Nó có thể nói dối. Có thể nói một cách đáng tin cậy rằng, tôi cảm thấy buồn, cảm thấy hạnh phúc. Hoặc tôi cảm thấy đau đớn.

Nhưng nó đang sao chép, bắt chước ”.

LaMDA được thiết kế để làm một việc: cung cấp các phản hồi hội thoại có ý nghĩa và cụ thể đối với bối cảnh của cuộc đối thoại. Điều đó có thể khiến nó trông giống như một người có tri giác, nhưng như Jeff nói, nó về cơ bản là nói dối.

Vì vậy, mặc dù các câu trả lời mà LaMDA cung cấp giống như một cuộc trò chuyện với một chúng sinh, nhưng LaMDA chỉ đang làm những gì nó được đào tạo để làm: đưa ra các câu trả lời phù hợp với bối cảnh của cuộc đối thoại và rất cụ thể với bối cảnh đó.

Phần 9.6 của bài báo nghiên cứu, “Mạo danh và nhân cách hóa”, nói rõ rằng LaMDA đang mạo danh một con người.

Mức độ mạo danh đó có thể khiến một số người nhân hóa LaMDA.

Họ viết:

Cuối cùng, điều quan trọng là phải thừa nhận rằng việc học của LaMDA dựa trên việc bắt chước hoạt động của con người trong cuộc trò chuyện, tương tự như nhiều hệ thống hội thoại khác… Một con đường hướng tới cuộc trò chuyện chất lượng cao, hấp dẫn với các hệ thống nhân tạo mà cuối cùng có thể không thể phân biệt được ở một số khía cạnh với cuộc trò chuyện với con người bây giờ là khá có thể.

Con người có thể tương tác với các hệ thống mà không biết rằng chúng là nhân tạo, hoặc nhân hóa hệ thống bằng cách mô tả một số dạng tính cách cho nó. “

Câu hỏi về tri giác

Mục đích của Google là xây dựng một mô hình AI có thể hiểu văn bản và ngôn ngữ, nhận dạng hình ảnh và tạo ra các cuộc trò chuyện, câu chuyện hoặc hình ảnh.

Google đang làm việc hướng tới mô hình AI này, được gọi là Kiến trúc AI Pathways, được mô tả trong “Từ khóa”:

“Các hệ thống AI ngày nay thường được đào tạo từ đầu cho mỗi vấn đề mới… Thay vì mở rộng các mô hình hiện có để tìm hiểu các nhiệm vụ mới, chúng tôi đào tạo mỗi mô hình mới từ việc không làm gì cả và một việc duy nhất…

Kết quả là chúng tôi phát triển hàng nghìn mô hình cho hàng nghìn nhiệm vụ riêng lẻ.

Thay vào đó, chúng tôi muốn đào tạo một mô hình không chỉ có thể xử lý nhiều nhiệm vụ riêng biệt mà còn dựa trên và kết hợp các kỹ năng hiện có của nó để học các nhiệm vụ mới nhanh hơn và hiệu quả hơn.

Theo cách đó, những gì một mô hình học được bằng cách đào tạo về một nhiệm vụ – ví dụ, học cách hình ảnh trên không có thể dự đoán độ cao của cảnh quan – có thể giúp nó học được một nhiệm vụ khác – chẳng hạn như dự đoán cách nước lũ sẽ chảy qua địa hình đó. “

Các con đường AI nhằm mục đích tìm hiểu các khái niệm và nhiệm vụ mà nó chưa được đào tạo trước đây, giống như con người có thể làm được, bất kể phương thức nào (hình ảnh, âm thanh, văn bản, đối thoại, v.v.).

Mô hình ngôn ngữ, mạng nơ-ron và trình tạo mô hình ngôn ngữ thường chuyên về một việc, như dịch văn bản, tạo văn bản hoặc xác định những gì có trong hình ảnh.

Một hệ thống như BERT có thể xác định nghĩa trong một câu mơ hồ.

Tương tự, GPT-3 chỉ làm một việc, đó là tạo văn bản. Nó có thể tạo ra một câu chuyện theo phong cách của Stephen King hoặc Ernest Hemingway, và nó có thể tạo ra một câu chuyện như sự kết hợp của cả hai phong cách tác giả.

Một số kiểu máy có thể thực hiện hai việc, chẳng hạn như xử lý đồng thời cả văn bản và hình ảnh (LIMoE). Ngoài ra còn có các mô hình đa phương thức như MUM có thể cung cấp câu trả lời từ các loại thông tin khác nhau trên các ngôn ngữ.

Nhưng không ai trong số họ là khá ở mức độ của Pathways.

LaMDA mạo danh người đối thoại

Kỹ sư tuyên bố rằng LaMDA là có tri giác đã tuyên bố trong một tweet rằng anh ta không thể ủng hộ những tuyên bố đó và rằng những tuyên bố của anh ta về nhân cách và sự tôn trọng dựa trên niềm tin tôn giáo.

Nói cách khác: Những tuyên bố này không được hỗ trợ bởi bất kỳ bằng chứng nào.

Bằng chứng mà chúng tôi có được nêu rõ ràng trong bài nghiên cứu, trong đó nói rõ rằng kỹ năng mạo danh cao đến mức mọi người có thể nhân hóa nó.

Các nhà nghiên cứu cũng viết rằng những kẻ xấu có thể sử dụng hệ thống này để đóng giả một con người thực tế và đánh lừa ai đó nghĩ rằng họ đang nói chuyện với một cá nhân cụ thể.

“… Kẻ thù có thể cố gắng làm hoen ố danh tiếng của người khác, lợi dụng địa vị của họ hoặc gieo rắc thông tin sai lệch bằng cách sử dụng công nghệ này để mạo danh phong cách trò chuyện của một cá nhân cụ thể”.

Như tài liệu nghiên cứu đã làm rõ: LaMDA được đào tạo để đóng giả cuộc đối thoại của con người, và đó là điều tương tự.

5/5 - (3 bình chọn)
Chat Facebook
Chat Facebook 8h - 17h (Từ T2 - T6)
Chat Zalo
Chat Zalo 8h - 17h (Từ T2 - T6)
Chat Telegram
Chat Telegram 8h - 17h (Từ T2 - T6)
Youtube
Youtube Hướng dẫn sử dụng
Ảnh mũi tên
Lên trên