"); //-->
前言
计算机视觉(Computer Vision),通常简称CV,是一个通过技术帮助计算机“看到”并“看懂”图像的研究领域,例如使计算机理解照片或视频的内容。
这篇文章将对计算机视觉进行整体介绍。本文章共分为六个部分,分别是:
·计算机视觉为什么重要
·什么是计算机视觉
·计算机视觉的基本原理
·计算机视觉的典型任务
·计算机视觉在日常生活中的应用场景
·计算机视觉面临的挑战
2
计算机视觉为什么重要
在生理学上,视觉(Vision)的产生都始于视觉器官感受细胞的兴奋,并于视觉神经系统对收集到的信息进行加工之后形成。我们人类通过视觉来直观地了解眼前事物的形体和状态,大部分人依靠视觉来完成做饭、越过障碍、读路牌、看视频以及无数其他任务。事实上,如果不是盲人这类特殊群体,绝大多数人对外界信息的获取都是通过视觉完成的,而这个占比高达80%以上——这个比例并不是没有根据的,著名实验心理学家赤瑞特拉(Treicher)曾通过大量的实验证实:人类获取的信息的83%来自视觉,11%来自听觉,剩下的6%来自嗅觉、触觉、味觉。所以,对于人类来说,视觉无疑是最重要的一种感觉。
不仅人类是“视觉动物”,对于大多数动物来说,视觉也都起到十分重要的作用。通过视觉,人和动物感知外界物体的大小、明暗、颜色、动静,获得对机体生存具有重要意义的各种信息,通过这些信息能够得知,周围的世界是怎样的,以及如何和世界交互。
而在计算机视觉出现之前,图像对于计算机来说是黑盒的状态。一张图像对于计算机来说只是一个文件、一串数据。计算机并不知道图片里的内容到底是什么,只知道这张图片是什么尺寸,占多少内存大小,什么格式的等等。
如果计算机、人工智能想要在现实世界发挥重要作用,就必须看懂图片!因此,半个世纪以来,计算机科学家一直在想办法让计算机也拥有视觉,从而产生了“计算机视觉”这个领域。
网络的迅速发展也令计算机视觉变得尤为重要。下图是2020年以来网络上新增数据量的****图。灰色图形是结构化数据,蓝色图形是非结构化数据(大部分都是图片和视频)。可以很明显的发现,图片和视频的数量正在以指数级的速度疯狂增长。
互联网由文本和图像组成。搜索文本相对简单,但为了搜索图像,算法需要知道图像包含的内容。在很长的一段时间内,人类没有足够的技术来理解图像和视频的内容,只能依靠人工标注来获取图像或视频的描述。如何能让计算机更好地理解这些图像信息,便是当今计算机技术面临的一大挑战。为了充分利用图像或视频数据,需要让计算机“查看”图像或视频,并理解内容。
3
什么是计算机视觉
4
计算机视觉的基本原理
5
计算机视觉的典型任务
图像分类是根据图像的语义信息对不同类别图像进行区分,是计算机视觉的核心,是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层次视觉任务的基础。例如下图,通过图像分类,计算机识别到图像中有人(person)、树(tree)、草地(grass)、天空(sky)。
图像分类在许多领域都有着广泛的应用,如:安防领域的人脸识别和智能视频分析等,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识别等。
目标检测任务的目标是给定一张图像或是一个视频帧,让计算机找出其中所有目标的位置,并给出每个目标的具体类别。如下图,以识别和检测人为例,用边框标记图像中所有人的位置。
而在多类别目标检测中,一般使用不同颜色的边框对检测到的不同物体的位置进行标记,如下图所示。
语义分割是计算机视觉中的基本任务,在语义分割中我们需要将视觉输入分为不同的语义可解释类别。它将整个图像分成像素组,然后对像素组进行标记和分类。例如,我们可能需要区分图像中属于汽车的所有像素,并把这些像素涂成蓝色。如下图,把图像分为人(红色)、树木(深绿)、草地(浅绿)、天空(蓝色)标签。 ·实例分割实例分割是目标检测和语义分割的结合,在图像中将目标检测出来(目标检测),然后对每个像素打上标签(语义分割)。对比上图、下图可见,如以人为目标,语义分割不区分属于相同类别的不同实例(所有人都标为红色),实例分割区分同类的不同实例(使用不同颜色区分不同的人)。
·目标追踪目标跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪,获得运动目标的运动参数,进行处理与分析,实现对运动目标的行为理解,以完成更高一级的检测任务。
6
计算机视觉在日常生活中的应用场景
计算机视觉的应用场景非常广泛,下面列举几个生活中常见的应用场景。 · 门禁、支付宝上的人脸识别
· 停车场、收费站的车牌识别
· 上传视频到网站或APP时的风险识别
· 抖音等APP上的各种自拍道具(需要先识别出人脸的位置)
7
计算机视觉面临的挑战
8
结语
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。