Những thách thức trong xử lý ngôn ngữ tự nhiên thường liên quan đến nhận dạng giọng nói, hiểu ngôn ngữ tự nhiên và tạo ngôn ngữ tự nhiên.
Xử lý ngôn ngữ tự nhiên bắt nguồn từ những năm 1950. Vào năm 1950, Alan Turing đã xuất bản một bài báo có tiêu đề “Máy tính và trí thông minh”, đề xuất cái mà ngày nay được gọi là bài kiểm tra Turing như một tiêu chí của trí thông minh, mặc dù vào thời điểm đó, nó không được coi là một vấn đề tách biệt với trí tuệ nhân tạo. Bài kiểm tra được đề xuất bao gồm một nhiệm vụ liên quan đến việc giải thích tự động và tạo ra ngôn ngữ tự nhiên.
Tiền đề của NLP tượng trưng được tóm tắt rõ ràng bởi thí nghiệm phòng tiếng Trung của John Searle: Đưa ra một bộ sưu tập các quy tắc (ví dụ: sách từ vựng tiếng Trung, với các câu hỏi và câu trả lời phù hợp), máy tính mô phỏng hiểu ngôn ngữ tự nhiên (hoặc các nhiệm vụ NLP khác) bằng cách áp dụng những quy tắc đó. quy tắc đối với dữ liệu mà nó đối đầu.
Cho đến những năm 1980, hầu hết các hệ thống xử lý ngôn ngữ tự nhiên đều dựa trên những bộ quy tắc viết tay phức tạp. Tuy nhiên, bắt đầu từ cuối những năm 1980, đã có một cuộc cách mạng trong xử lý ngôn ngữ tự nhiên với sự ra đời của các thuật toán học máy để xử lý ngôn ngữ. Điều này là do cả sự gia tăng đều đặn của sức mạnh tính toán (xem định luật Moore) và sự giảm dần sự thống trị của các lý thuyết ngôn ngữ học Chomskyan (ví dụ: ngữ pháp chuyển đổi), mà nền tảng lý thuyết không khuyến khích loại ngữ liệu ngữ liệu làm nền tảng cho phương pháp học máy. để xử lý ngôn ngữ.
Trong những năm 2010, phương pháp học máy theo kiểu mạng nơ ron sâu và học đại diện đã trở nên phổ biến trong xử lý ngôn ngữ tự nhiên. Sự phổ biến đó một phần là do một loạt các kết quả cho thấy rằng các kỹ thuật như vậy có thể đạt được kết quả hiện đại trong nhiều nhiệm vụ ngôn ngữ tự nhiên, ví dụ, trong mô hình hóa và phân tích cú pháp ngôn ngữ. Điều này ngày càng quan trọng trong y học và chăm sóc sức khỏe, nơi NLP giúp phân tích các ghi chú và văn bản trong hồ sơ sức khỏe điện tử mà nếu không thì sẽ không thể truy cập được để nghiên cứu khi tìm cách cải thiện dịch vụ chăm sóc.
Trong những ngày đầu, nhiều hệ thống xử lý ngôn ngữ được thiết kế bằng các phương pháp ký hiệu, tức là viết tay mã hóa một bộ quy tắc, cùng với tra cứu từ điển: chẳng hạn như bằng cách viết ngữ pháp hoặc đặt ra các quy tắc heuristic để bắt nguồn từ.
Các hệ thống gần đây hơn dựa trên các thuật toán học máy có nhiều lợi thế hơn các quy tắc được sản xuất thủ công:
Bất chấp sự phổ biến của học máy trong nghiên cứu NLP, các phương pháp tượng trưng vẫn được sử dụng phổ biến (2020):