Trong lĩnh vực AI và Thị giác Máy tính (Computer Vision), các hình ảnh được chú thích đóng vai trò quan trọng trong quá trình đào tạo các thuật toán. Trong số rất nhiều các kỹ thuật chú thích hình ảnh, phân đoạn hình ảnh (image segmentation) là một trong những loại chú thích phức tạp và yêu cầu kinh nghiệm cao nhằm giúp mô hình học máy có thể hiểu và diễn giải các dữ liệu hình ảnh với độ chính xác cao.
Để đạt được khả năng này trong nhiều trường hợp, phân đoạn hình ảnh được chia thành 3 loại để ứng dụng cho từng dự án bao gồm: phân đoạn ngữ nghĩa (semantic segmentation), phân đoạn đối tượng (instance segmentation), phân đoạn toàn diện (panoptic segementation). Bài viết hôm nay sẽ tìm hiểu chi tiết khái niệm từng loại chú thích dữ liệu đó, cũng như ứng dụng của 3 loại phân đoạn hình ảnh trong các lĩnh vực khác nhau. Qua đó, bạn có thể lựa chọn loại chú thích phân đoạn hình ảnh phù hợp cho từng dự án từ những điểm khác biệt được nêu trong bài viết hôm nay.
Phân đoạn hình ảnh là gì?
Phân đoạn hình ảnh là loại kỹ thuật thuộc Thị giác máy tính, kỹ thuật này sẽ chia một hình ảnh thành nhiều phân đoạn hoặc vùng dựa trên các đặc điểm nhất định, chẳng hạn như màu sắc, cường độ, kết cấu hoặc chuyển động. Mục tiêu của phân đoạn hình ảnh là đơn giản hóa một hình ảnh bằng cách phân chia nó thành các vùng có cùng đặc điểm, từ đó giúp quá trình phân tích và hiểu hình ảnh trở nên dễ dàng hơn. Hình ảnh sau khi được áp dụng loại chú thích phân đoạn sẽ được gọi là mặt nạ phân đoạn (segmentation mask). Hãy tưởng tượng bạn có một bức ảnh với một con mèo và một con chó. Phân đoạn ảnh sẽ nhận diện riêng biệt từng con mèo và chó như là các đối tượng riêng biệt, thay vì chỉ xử lý toàn bộ hình ảnh. Trong thực tế, sẽ có rất nhiều ứng dụng của phân đoạn ảnh. Ví dụ, nó được sử dụng trong ngành xe tự động lái để phân biệt các làn đường, phương tiện và người đi bộ.
Đọc thêm: Chú thích Dữ liệu là gì?
Khám phá các kỹ thuật phân đoạn hình ảnh
Phân đoạn hình ảnh được phân loại thành 3 kỹ thuật cụ thể hơn bao gồm:
- Phân đoạn ngữ nghĩa
- Phân đoạn đối tượng
- Phân đoạn toàn diện
Hãy cùng tìm hiểu chi tiết các loại phân đoạn hình ảnh trong bảng phân tích dưới đây:
Phân đoạn ngữ nghĩa (Semantic Segmentation) | Phân đoạn đối tượng (Instance Segmentation) | Phân đoạn toàn cảnh (Panoptic Segmentation) | |
Mô tả | Dán nhãn chú thích cho mỗi pixel trong ảnh, nhóm các pixel cùng ngữ nghĩa trong một lớp | Không chỉ dãn nhãn chú thích cho từng pixel mà còn phân biệt các đối tượng trong cùng một lớp | Loại chú thích này sẽ kết hợp điểm mạnh của cả 2 loại chú thích phân đoạn ngữ nghĩa và phân đoạn đối tượng. Cách tiếp cận này sẽ giúp máy học hiểu ngữ nghĩa của toàn bối cảnh cũng như xác định được từng đối tượng cụ thể trong ảnh |
Kết quả | Mỗi pixel được chú thích với một lớp nhãn dán cụ thể. | Mỗi đối tượng của mỗi lớp trong ảnh sẽ được chú thích bằng một nhãn gán riêng biệt. | Mỗi đối tượng cụ thể trong từng lớp cũng như các lớp khác nhau được phân biệt bằng các chú thích cụ thể trong từng ảnh. |
Chi phí | Loại chú thích dữ liệu đòi hỏi kỹ thuật chú thích ít phức tạp nhất trong phân đoạn hình ảnh vì vậy chi phí thấp hơn 2 loại còn lại trong phân đoạn hình ảnh. | Chi phí của dự án phân đoạn đối tượng thường cao hơn dự án phân đoạn ngữ nghĩa cùng quy mô, nhưng lại thấp hơn các dự án phân đoạn toàn cảnh. | Đây là kỹ thuật chú thích phức tạp nhất, do vậy chi phí đầu tư thường rất cao. |
Dự án mục tiêu | Phân đoạn ngữ nghĩa dành cho các dự án yêu cầu phân tích cảnh, phân loại hình ảnh dựa trên nội dung ngữ nghĩa và gán nhẵn hình ảnh ngữ nghĩa. | Phân đoạn đối tượng phù hợp cho các dự án yêu cầu chú thích và phân tích ở mức độ từng đối tượng. Kỹ thuật này bao gồm các nhiệm vụ như phát hiện và theo dõi đối tượng, đếm số lượng,… | Phân đoạn toàn cảnh dành cho các dự án cần xác định toàn bộ các đối tượng trong ảnh một cách toàn diện để vừa phát hiện được số lượng cụ thể vừa phân tích được ngữ nghĩa của các lớp. Do tránh được các điểm hạn chế của phân đoạn ngữ nghĩa và phân đoạn đối tượng nên kỹ thuật này thường dành cho các dự án yêu cầu độ chính xác lên tới 100% với chi phí cao. Loại chú thích này thường được sử dụng rộng rãi trong ngành xe tự động để nhận thức môi trường xung quanh và đưa ra các quyết định nhanh chóng và an toàn khi tham gia giao thông trên đường. |
Ví dụ thực tế | Khi có một bức ảnh bao gồm đường phố, cây cối, xe cộ, kỹ thuật này sẽ có nhiệm vụ chú thích tất cả các loại cây đều thuộc lớp “cây” cùng một màu, tất cả các loại phương tiện (như ô tô, xe máy, xe buýt) vào cùng một lớp “phương tiện”; và tất cả phần đường vào một lớp “đường” . | Phân đoạn đối tượng sẽ xác định từng đối tượng khác nhau trong cùng một lớp như trong lớp “ô tô” trên đường, kỹ thuật này sẽ xác định từng chiếc ô tô khác nhau trong bức ảnh. | Phân đoạn toàn cảnh sẽ kết hợp xác định từng lớp “đường”, “cây”, với từng đối tượng cụ thể trong lớp “ô tô”. |
Hạn chế | Kỹ thuật này sẽ không thể xác định từng loại đối tượng trong một lớp để đáp ứng một số yêu cầu phức tạp trong thực tế. | Kỹ thuật phân đoạn đối tượng gặp khó khăn để xác định chính xác các đối tượng bị che khuất hoặc chồng chéo lên nhau. | Yêu cầu kỹ thuật chú thích có độ chuyên môn cao để kết hợp kỹ thuật phân đoạn ngữ nghĩa và phân đoạn đối tượng. |
Một số kỹ thuật tiêu biểu | – Fully Convolutional Networks (FCN) – U- Net – DeepLab | – Mask R-CNN – FCN with object detection heads | – Panoptic FPN – Panoptic-DeepLab – Panoptic Segmentation Module (PSM) |
Một số ứng dụng của phân đoạn hình ảnh
Xe tự động lái
Ngành xe tự động lái có một lượng lớn dữ liệu cần được chú thích với tỷ lệ chính xác rất cao vì nó ảnh hưởng đến sự an toàn của con người. Nhu cầu sử dụng kỹ thuật phân đoạn hình ảnh (image segmentation) trong các dự án chú thích dữ liệu của ngành xe tự động lái ngày càng tăng trong bối cảnh cạnh tranh giữa các bên sản xuất ô tô trên cuộc đua 6 cấp độ tự động lái. Dưới đây là một số ứng dụng phổ biến:
- Cảnh quan đường phố: Loại chú thích phân đoạn hình ảnh được sử dụng để hiểu cảnh quan đường phố bằng cách xác định các đối tượng như làn đường, phương tiện, người đi bộ và biển báo giao thông. Từ đó, giúp xe tự lái có thể dễ dàng di chuyển an toàn và nhanh chóng.
- Phát hiện chướng ngại vật: Bằng cách chú thích phân đoạn các đối tượng trong môi trường thực tế, xe tự lái có thể nhận diện chướng ngại vật trên đường và đưa ra các quyết định phù hợp để tránh va chạm.
Y tế
Các hình ảnh cần chú thích trong lĩnh vực y tế thường có nhiều chi tiết phức tạp. Kỹ thuật chú thích phân đoạn hình ảnh sẽ giúp xác định các khu vực cụ thể mà bác sĩ quan tâm như các cơ quan nội tạng, các mô hay phần bị tổn thường. Điều này cho phép các bác sĩ phân tích và chẩn đoán tập trung và chính xác hơn:
- Phát hiện và phân tích khối u: Chú thích phân đoạn hình ảnh rất quan trọng trong việc nhận diện khối u trong các hình ảnh y tế như chụp cộng hưởng từ (MRI), chụp cắt lớp (CT), chụp X-quang. Nó sẽ giúp phân tích kích thước, hình dạng và vị trí của khối u để hỗ trợ chẩn đoán và lập kế hoạch điều trị.
- Phân vùng cơ quan: Phân đoạn hình ảnh có thể được sử dụng để phân tách các lớp cơ quan hay mô trong hình ảnh y tế để tăng tỷ lệ phân tích chính xác như xác định các vùng cụ thể trong não cho các nghiên cứu về thần kinh học hay phân đoạn hình ảnh tim để chẩn đoán các bệnh tim mạch.
Hình ảnh từ vệ tinh
Ảnh chụp từ trên không thu được hình ảnh bề mặt Trái đất sẽ cung cấp các thông tin về các khu vực rộng lớn bao gồm vùng đất, đại dương, khí quyển và các hoạt động đời sống của con người. Chú thích phân đoạn hình ảnh cho phép phát hiện và phân tích những thay đổi trên quy mô lớn với các ứng dụng cụ thể như:
- Phân loại lớp đất: Ảnh vệ tinh thường yêu cầu chú thích phân đoạn hình ảnh để phân loại các lớp đất khác nhau như khu vực đất rừng, khu vực nước, khu vực đất đô thị và khu vực đất nông nghiệp. Thông tin hữu ích này nhằm giám sát môi trường tự nhiên cũng như hỗ trợ quá trình quy hoạch đô thị và quản lý đất nông nghiệp.
- Phòng chống thảm họa tự nhiên: Chú thích phân đoạn hình ảnh giúp nhận diện và đánh giá mức độ của các thảm họa tự nhiên như lũ lụt, cháy rừng và động đất qua hình ảnh vệ tinh. Điều này sẽ giúp ủy ban phòng chống thiên tai có các biện pháp kịp thời phản ứng và khắc phục hậu quả mà thảm họa gây ra một cách tối đa.
An ninh và giám sát
Chú thích phân đoạn hình ảnh cho phép nhận diện và theo dõi các đối tượng qua hệ thống video giám sát an ninh giúp đội ngũ an ninh phân tích và giám sát các hoạt động trong thời gian thực. Điều này giúp kịp thời nhận diện các trường hợp xâm nhập trái phép ảnh hưởng đến an ninh trật tự của khu vực. Và đây cũng là chứng cứ hợp pháp để cung cấp cho cho các cơ quan chức năng có thẩm quyền trong các trường hợp cần thiết. Một số trường hợp ứng dụng cụ thể như:
- Phát hiện xâm nhập trái phép: Chú thích phân đoạn ảnh xác định các hoạt động đáng ngờ hoặc người xâm nhập trái phép trong cảnh quay từ camera an ninh, từ đó gửi thông báo đến hệ thống để cảnh báo cho người chịu trách nhiệm giám sát an ninh.
- Phân tích hình ảnh đám đông trong khu vực: Chú thích phân đoạn ảnh được sử dụng để phân tích hành vi của con người, tính số lượng người và phát hiện các hành vi bất thường trong đám đông để tăng cường giám sát và đảm bảo an ninh công cộng.
Bán lẻ và thương mại điện tử
Trong lĩnh vực bán lẻ, chú thích phân đoạn hình ảnh có nhiệm vụ quan trọng trong việc nhận diện sản phẩm, quản lý hàng tồn kho và nâng cao trải nghiệm của khách hàng:
- Phân loại sản phẩm: Các sản phẩm từ quần áo đến đồ điện tử, phụ kiện trên các nền tảng thương mại điện tử đến các cửa hàng bán lẻ trực tiếp đều có thể được phân loại hiệu quả với chú thích phân đoạn hình ảnh. Tất cả những thông tin này sẽ là dữ liệu phục vụ cho quá trình đề xuất quảng cáo cá nhân hóa.
- Theo dõi và nhận diện đối tượng: Bằng cách sử dụng chú thích phân đoạn hình ảnh, việc quản lý kệ hàng trở nên hiệu quả hơn khi có thể theo dõi các mặt hàng trên kệ trong thời gian thực. Từ đó, có thể nhanh chóng đưa ra thông báo khi các mặt hàng trên kệ cần bổ sung và tối ưu mức tồn kho hợp lí.
- Phân tích hành vi khách hàng: Từ những chú thích phân đoạn hình ảnh, hệ thống bán lẻ có thể thu thập những dữ liệu về hành vi khách hàng, cách khách hàng tương tác với sản phẩm. Qua đó, chủ cửa hàng sẽ phân tích để tối ưu hóa việc bố trí các sản phẩm ở cửa hàng.
Kiểm soát chất lượng sản xuất và công nghiệp
Trong môi trường sản xuất và công nghiệp, chú thích phân đoạn hình ảnh nhận trách nhiệm kiểm soát chất lượng, phát hiện lỗi và tối ưu hóa quy trình. Một số ứng dụng cụ thể có thể kể đến như:
- Xác định sản phẩm lỗi: Chú thích phân đoạn hình ảnh cho phép các nhà sản xuất xác định chính xác các lỗi trên các sản phẩm đã sản xuất và đánh giá tác động của chúng với dây chuyền sản xuất tổng thể.
- Phát hiện và phân loại khuyết điểm: Kỹ thuật chú thích phân đoạn hình ảnh sẽ hỗ trợ nhận diện và phân loại các khuyết điểm trong các loại mặt hàng khác nhau như bộ phận ô tô, linh kiện điện tử và hàng tiêu dùng.
Phân đoạn hình ảnh: Từ sự đa dạng đến những tác động mạnh mẽ
Sự cạnh tranh mạnh mẽ trong lĩnh vực công nghệ với các vấn đề IT khác nhau đã và đang thúc đẩy hệ sinh thái công nghệ trên khắp các khu vực. Ngoài 3 loại chú thích phân đoạn hình ảnh được đề cập ở trên, trong các dự án chú thích dữ liệu của ngành xe tự động, bán lẻ hay chăm sóc sức khỏe đội ngũ nhân sự có thể sử dụng các kỹ thuật như Bounding box, Polygon, LiDAR point cloud… Tuy nhiên, có thể thấy loại chú thích phân đoạn hình ảnh là một trong những kỹ thuật phức tạp đòi hỏi đội ngũ nhân sự chuyên môn cao với chi phí không hề thấp. Vì vậy, điều quan trọng là cần lựa chọn đối tác đáng tin cậy với nhiều năm kinh nghiệm ở đa dạng các lĩnh vực.
Đọc thêm: 7 Tiêu chí lựa chọn nhà cung cấp chú thích dữ liệu phù hợp
Với hơn 7 năm làm việc và hợp tác với các công ty lớn trong ngành như Qualcomm, LG, Toshiba, LTS Global Digital Services đã xử lý hơn 15 triệu dữ liệu trong nhiều ngành khác nhau. Qua hàng trăm các dự án đó, đội ngũ nhân sự của chúng tôi có thêm nhiều kinh nghiệm và kỹ năng để xử lý nhiều loại chú thích dữ liệu. Nếu cần thêm thông tin chi tiết, hãy liên hệ với chúng tôi ngay!