Menu

Dự kiến danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu

12/03/2026 09:36:58

Bộ Khoa học và Công nghệ đang dự thảo Quyết định của Thủ tướng Chính phủ ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu.

Thiết lập hệ sinh thái dữ liệu trí tuệ nhân tạo quốc gia đồng bộ, mở và an toàn

Theo Bộ Khoa học và Công nghệ, mục tiêu chung xây dựng dự thảo nhằm thiết lập hệ sinh thái dữ liệu trí tuệ nhân tạo (AI) quốc gia đồng bộ, mở và an toàn; hoàn thiện các kho dữ liệu lớn (Big Data) và hồ dữ liệu (Data Lake) trong các lĩnh vực thiết yếu để thúc đẩy nghiên cứu và ứng dụng AI vào quản trị nhà nước, phát triển kinh tế số.

Mục tiêu cụ thể đến năm 2030: 100% các cơ sở dữ liệu ưu tiên được số hóa, chuẩn hóa để tích hợp vào Cơ sở dữ liệu tổng hợp quốc gia phục vụ phát triển AI; làm chủ hoàn toàn các mô hình ngôn ngữ lớn tiếng Việt và các thuật toán AI cốt lõi phù hợp với đặc thù Việt Nam.

Tiêu chí lựa chọn dữ liệu thiết yếu

Theo dự thảo, các bộ dữ liệu được đưa vào Danh mục phải thỏa mãn các tiêu chí sàng lọc cốt lõi:

- Phù hợp nguyên tắc phát triển Trí tuệ nhân tạo quốc gia.

- Gắn với lợi ích công cộng và lĩnh vực thiết yếu.

- Có tính khả thi triển khai tại Việt Nam.

- Có khả năng chuẩn hóa và khử nhận dạng.

- Không vi phạm pháp luật về dữ liệu và bảo vệ dữ liệu cá nhân.

- Có cơ quan chủ quản rõ ràng.

- Có khả năng cập nhật định kỳ.

Cấu trúc Danh mục bộ dữ liệu

Danh mục được xây dựng trên nguyên tắc bảo đảm tính bao quát toàn diện nhưng có trọng tâm, trọng điểm, được cấu trúc thành 2 Phụ lục chi tiết để định hướng lộ trình đầu tư và khai thác:

Phụ lục I: Nhóm Danh mục bộ dữ liệu trong các lĩnh vực thiết yếu phục vụ phát triển trí tuệ nhân tạo

Đây là "bản đồ tài nguyên dữ liệu số" của quốc gia, bao gồm 15 nhóm danh mục dữ liệu bao quát toàn bộ các mặt của đời sống kinh tế - xã hội. Các nhóm tiêu biểu bao gồm:

Dữ liệu ngôn ngữ tiếng Việt và tiếng dân tộc thiểu số; tri thức quốc gia; pháp luật và quản lý nhà nước. 

Dữ liệu các chuyên ngành trọng điểm: Y tế; giáo dục; nông nghiệp; giao thông; tài nguyên và môi trường; kinh tế và thị trường. 

Dữ liệu hạ tầng và an ninh: Bản đồ và không gian địa lý; viễn thông và hạ tầng số; an toàn, an ninh và quản lý rủi ro.  

Mục tiêu nhằm xác định rõ các nguồn tài nguyên dữ liệu cốt lõi do Nhà nước quản lý cần phải được chuẩn hóa để sẵn sàng kết nối, chia sẻ cho hệ sinh thái AI.

Phụ lục II: Danh mục dữ liệu ưu tiên triển khai phục vụ phát triển trí tuệ nhân tạo.

Nội dung tập trung vào các nhóm dữ liệu có giá trị cao, giải quyết các bài toán "nghẽn" về công nghệ hiện nay, gồm 05 nhóm trọng điểm:

Nhóm I - Dữ liệu cho Mô hình ngôn ngữ lớn (LLM) tiếng Việt: Tập trung vào kho dữ liệu văn bản quy mô lớn, báo chí, học thuật và tiếng nói đa vùng miền để làm chủ công nghệ AI nội sinh, bảo vệ chủ quyền văn hóa trên không gian số. 

Nhóm II - Dữ liệu kiểm thử và đánh giá hệ thống AI: Cung cấp các bộ "thước đo" chuẩn hóa gồm đề thi, tình huống pháp lý và kịch bản hội thoại để đo lường năng lực và độ chính xác của các hệ thống AI trước khi vận hành thực tế. 

Nhóm III - Dữ liệu AI thị giác máy tính: Tập trung vào dữ liệu hình ảnh, video từ camera giao thông, đô thị, hình ảnh y tế chuyên sâu, nông nghiệp và ảnh vệ tinh/viễn thám. 

Nhóm IV - Dữ liệu AI trong các lĩnh vực chuyên ngành: Ưu tiên các dữ liệu cấu trúc, bảng biểu thống kê trong Y tế (bệnh án điện tử), Giáo dục (học liệu số), Tài chính, Năng lượng và Môi trường. 

Nhóm V - Dữ liệu AI an toàn và đáng tin cậy: Xây dựng các bộ dữ liệu đặc thù để huấn luyện các bộ lọc tin giả, nội dung độc hại, lừa đảo (Deepfake) và các kịch bản tấn công hệ thống (Red-teaming) nhằm bảo đảm an ninh mạng.

Bộ Khoa học và Công nghệ đang lấy ý kiến đối với dự thảo này trên Cổng TTĐT của Bộ.

Minh Hiển

 

(theo baochinhphu.vn)

Nguồn: https://baochinhphu.vn/du-kien-danh-muc-bo-du-lieu-phuc-vu-phat-trien-tri-tue-nhan-tao-trong-cac-linh-vuc-thiet-yeu-102260311163804235.htm

Bài viết cùng chuyên mục

Cứ 5 giây thế giới lại có một người chết vì tiểu đường, các nhà khoa học đang tìm cách ngăn chặn điều đó, bằng một phương pháp hứa hẹn chữa trị tận gốc căn bệnh này.

DIỄN ĐÀN THÁI NGUYÊN - TRĂM NĂM ĐỆ NHẤT DANH TRÀ: TÔN VINH DI SẢN VĂN HÓA VÀ ĐỊNH HƯỚNG PHÁT TRIỂN BỀN VỮNG

Ngày 20/5/2025, tại Không gian Văn hóa Trà thuộc HTX Chè Hảo Đạt, xã Tân Cương, TP. Thái Nguyên, một sự kiện mang tính biểu tượng đã diễn ra: Diễn đàn Thái Nguyên - Trăm Năm Đệ Nhất Danh Trà.

Hành trình nâng tầm thương hiệu Chè Việt

Chiều ngày 9 - 11, chương trình CHÈ VIỆT - DI SẢN VÀ TƯƠNG LAI đã chính thức được diễn ra tại Cung Trí thức Hà Nội, đánh dấu một bước ngoặt quan trọng trong hành trình khẳng định vị thế...

Thái Nguyên: Hội nghị với chủ đề “Canvanex - Bước đột phá trong kỷ nguyên công nghệ 4.0”

Ngày 9 tháng 3 năm 2025, tại thành phố Thái Nguyên, Hệ sinh thái khởi nghiệp công nghệ Idea & Startup Creatve Eco System đã long trọng tổ chức Hội nghị với chủ đề “Canvanex – Bước đột phá trong...