智能視頻監控

智能視頻監控是利用計算機視覺技術對視頻信號進行處理、分析和理解，在不需要人為干預的情況下，通過對序列圖像自動分析對監控場景中的變化進行定位、識別和跟蹤，並在此基礎上分析和判斷目標的行為，能在異常情況發生時及時發出警報或提供有用信息，有效地協助安全人員處理危機，並最大限度地降低誤報和漏報現象。

關鍵技術包含行人檢測、行人跟蹤、行人重識別。

基本信息

隨著國民經濟的快速增長、社會的迅速進步和國力的不斷增強，銀行、電力、交通、安檢以及軍事設施等領域對安全防範和現場記錄報警系統的需求與日俱增，要求越來越高，視頻監控在生產生活各方面得到了非常廣泛的應用。雖然監控系統己經廣泛地存在於銀行、商場、車站和交通路口等公共場所，但實際的監控任務仍需要較多的人工完成，而且現有的視頻監控系統通常只是錄製視頻圖像，提供的信息是沒有經過解釋的視頻圖像，只能用作事後取證，沒有充分發揮監控的實時性和主動性。為了能實時分析、跟蹤、判別監控對象，並在異常事件發生時提示、上報，為政府部門、安全領域及時決策、正確行動提供支持，視頻監控的“智能化”就顯得尤為重要。

最新智能視頻監控技術已經出現在中國。背景減除方法、時間差分方法等視頻分析編碼演演算法的優點，達到了國際領新水平，可以兼容第一代---第四代的各類模擬監控和數字監控。最新監控技術可以實現無人看守監控；自動分析圖像，瞬間能與110、固定電話、手機連接，以聲音、閃光、簡訊、撥叫電話等方式報警，同時對警情拍照和錄像，以便調看和處理。

目前，海外主要的智能監控系統的研究機有悉尼科技大學（UTS）、倫敦瑪麗女王大學（QMUL）等；中國大陸及港澳台的主要有清華大學、北京大學、復旦大學、香港中文大學、西安交通大學、中國科學技術大學、中科院自動化所等。

目標檢測

簡介

運動目標檢測是指在序列圖像中檢測出變化區域並將運動目標從背景圖像中提取出來。目標分類、跟蹤和行為理解等后處理過程僅僅考慮圖像中對應於運動目標的像素區域。運動目標的正確檢測與分割對於後期處理非常重要。場景的動態變化，如天氣、光照、陰影和雜亂背景的干擾，使得運動目標檢測和分割變得相當困難。

幀差法

基本原理是在圖像序列相鄰的兩幀或者三幀採用基於像素的時間差分通過閾值化來提取圖像中的運動區域。首先，將相鄰幀圖像對應像素值相減，然後對差分圖像二值化。在環境亮度變化不大的情況下，如果對應像素值變化小於事先確定的閾值時，可以認為（主觀經驗）此處為背景像素；如果對應像素值變化很大，可以認為這是有運動物體引起的，將這些區域標記為前景像素，利用標記的像素區域可以確定運動目標在圖像中的位置。優點：相鄰兩幀的時間間隔很短，用前一幀圖像作為後一幀圖像的背景模型具備較好的實時性，其背景不積累，更新速度快，演演算法計算量小。缺點：閾值選擇相當關鍵，閾值過低，則不足以抑制背景雜訊，容易將其誤檢測為運動目標；閾值過高，則容易漏檢，將有用的運動信息忽略掉了。另外，當運動目標面積較大，顏色一致時，容易在目標內部產生空洞，無法完整地提取運動目標。

光流法

光流法的主要任務是計算光流場，即在適當的平滑性約束條件下，根據圖像序列的時空梯度估算運動場，通過分析運動場的變化對運動目標和場景進行檢測與分割。光流法不需要預先知道場景的任何信息，就能夠檢測運動對象，可處理運動背景的情況，但雜訊多、多光源、陰影和遮擋等因素會對光流場分佈的計算結果造成嚴重影響；而且光流法計算複雜，很難實現實時處理。

減背景法

減背景法是一種有效的運動目標檢測演演算法，其基本思想是背景的參數模型來近似背景圖像的像素值，將當前幀與背景模型進行差分比較實現對運動目標區域的檢測，其中區別較大的像素區域被認為是運動區域，而區別較小的像素區域則被認為是背景區域。背景減除法必須要有背景圖像，並且背景圖像要隨著光照和外部環境的變化而實時更新，因此背景減除法關鍵是背景建模及其更新。針對如何建立對於不同場景的動態變化均具有自適應性的背景模型，研究人員已經提出許多背景建模演演算法，總的來講可以概括為非回歸遞推兩類。非回歸遞推背景建模演演算法是動態的利用從某一時刻開始到當前一段時間內存儲的新近觀測數據作為樣本來進行背景建模。非回歸背景建模方法有最簡單的幀間差分、中值濾波方法、Toyama等利用緩存的樣本像素來估計背景模型的線性濾波器、Elgammal等提出的利用一段時間的歷史數據來計算背景像素密度的非參數模型等。回歸演演算法無需維持保存背景估計幀的緩衝區，它們是通過回歸的方式基於輸入的每一幀圖像來更新某個時刻的背景模型。這類方法包括廣泛應用的線性卡爾曼濾波法、Stauffer與Grimson提出的混合高斯模型。

目標跟蹤

大多數跟蹤演演算法的執行順序遵循預測-檢測-匹配-更新四個步驟。以前一幀目標位置和運動模型為基礎，預測當前幀中目標的可能位置。在可能位置處候選區域的特徵和初始特徵進行匹配，通過優化匹配準則來選擇最好的匹配，其相應目標區域即為目標在本幀的位置。除了更新步驟，其餘三個步驟一般在一個迭代中完成。預測步驟主要是基於目標的運動模型，運動模型可以是簡單的常速平移運動到複雜的曲線運動。檢測步驟是在目標區域通過相應的圖像處理技術獲得特徵值，形成待匹配模板。匹配步驟是選擇最佳的待匹配模板，它所在的區域即是目標在當前幀的位置。一般以對目標表象變化所作的一些合理假設為基礎，常用的方法是候選特徵與初始特徵的互相關係數最小。更新步驟是對初始模板的更新，這是因為在跟蹤過程中目標的姿態、場景等會發生變化，模板更新由利於跟蹤的持續進行。根據匹配採用的屬性不同，可將目標跟蹤演演算法分為四類：基於區域的跟蹤、基於特徵的跟蹤、基於變形模板的跟蹤以及基於模型的跟蹤，也可以將這幾類方法相互結合用於目標跟蹤。

區域

基於區域的目標跟蹤時通過人為選定或圖像分割獲得的目標模板，然後在序列圖像中計算目標模板與候選模板的相似程度，運動相關演演算法來確定當前圖像中目標的具體位置從而實現跟蹤目標。用模板匹配做跟蹤，其出發點就是對圖像的外部特徵直接做匹配運算，與初始選定的區域匹配程度最高的就是目標區域。選擇何種特徵作為匹配運算的對象一直是人們研究的熱點，對灰度圖像可以採用基於紋理和特徵的相關；對彩色圖像可以採用基於顏色的相關。常用的基於區域匹配的跟蹤演演算法有差方和法、顏色法、形狀法等，這些演演算法還可以結合線性預測或卡爾曼濾波提高目標跟蹤的精度。基於區域匹配相關的演演算法用到了目標的全局信息，具有較高的可信度，當目標未被遮擋時，跟蹤穩定。主要缺點是計算量大，當搜索區域較大時尤為嚴重；另外，演演算法要求目標形變不大、無嚴重遮擋，否則匹配運算精度下降會造成目標的丟失。對基於區域的跟蹤方法關注較多的是如何解決目標運動變化帶來的模板更新，實現穩定跟蹤。

特徵

基於特徵的目標跟蹤通常利用先驗信息或加入某些約束來解決，如假設相鄰幀圖像中的特徵點在運動形式上的變化不大，並以此為約束條件建立特徵點對應關係。該演演算法包括特徵點的提取和匹配兩個過程，一般也採用相關演演算法。不同於基於區域的跟蹤演演算法使用目標整體進行相關運算，基於特徵的跟蹤只使用目標的某個或某些局部特徵。這種演演算法的優點是當目標被遮擋時，只要有部分特徵有效，就可以實現目標的跟蹤。同樣，這種方法也可結合卡爾曼濾波器使用提高跟蹤效果。其難點在於，目標跟蹤過程中因旋轉、遮擋、形變等原因可能會導致部分特徵消失、新的特徵出現的情況，如何對特徵集進行取捨與更新以保證跟蹤的準確。常用的圖像底層特徵包括質心、邊緣、輪廓、角點和紋理等。

邊緣時指其周圍像素由灰度的階躍變化或屋頂狀變化的像素的集合或強度值突然變化的像素點的集合，邊緣對於運動很敏感，對灰度的變化不敏感。角點有很好的定位性能，對部分的遮擋有很好的魯棒性。這些特徵的提取比較容易，運算量小，但不是很穩健，因為採用的特徵太少無法保證跟蹤的精度；而特徵過多又會降低系統效率，且容易產生錯誤匹配。在特徵提取時，一般採用Canny運算元獲得目標的邊緣特徵，採用SUSAN運算元獲得目標的角點信息，然後在不同圖像上進行相關匹配尋找特徵的對應關係。已有的基於特徵的跟蹤方法多數對雜訊比較敏感，除圖像配准外，這些方法很少投入實際應用

變形模板

變形模板是紋理或邊緣可以按一定限制條件變形的面板或曲線。由於大多數跟蹤目標存在非剛性的特點，而變形模板有著良好的性能和極好的彈性，通過方向及方向的變形與真實目標相適應，所以被廣泛應用於目標檢索或跟蹤領域。常用的變形模板是有Kass等提出的主動輪廓模型，又稱為Snake模型。它通過對目標輪廓建立參數化描述，將各種成像形變定義為能量函數，通過對能量函數的優化達到輪廓匹配的目的。採用卡爾曼濾波器控制模型的位置和大小，在其附近尋找局部最小能去的更好地跟蹤效果。Snake模型非常適合單個可變形目標的跟蹤，對於多目標的跟蹤一般是採用基於水平集方法的主動輪廓模型。基於變形模板的跟蹤演演算法採用局部變形模板可以很好地跟蹤局部變形的目標，再有部分遮擋存在的情況下也能連續地進行跟蹤，但是著這種方法缺乏預測機制而無法跟蹤快速運動的目標。此外，它易受到雜訊的干擾且目標外輪廓的初始化也比較困難。

模型

上述三種方法都是基於二維平面上的跟蹤，由於沒有用到運動目標的完整信息，無法對其進行精確地描述。如果能將目標的三維模型構建出來，利用三維模型先驗信息來跟蹤目標，跟蹤的魯棒性將會大大提高。基於模型的跟蹤方法的基本思想是由先驗知識獲得目標的三維結構模型和運動模型，根據序列圖像確定出目標的三維模型參數，進而得到其瞬時運動參數。

1982年Gennery最早提出了基於三維模型的跟蹤方法。VISATRAM系統簡化了三維模型估計，用長方體模型來跟蹤車輛，獲得運動車輛的速度和尺寸。對人體進行跟蹤通常有三種形式的模型，即線圖模型。二維模型和三維模型，在實際應用中更多的是採用三維模型。

Hu等人對基於模型的跟蹤演演算法進行了綜述。這類方法可以精確分析目標的三維運動軌跡，即使在運動目標姿態變化、發生部分遮擋的情況下，也能夠可靠地跟蹤。其缺點在於，運動分析的精度取決於幾何模型的精度，建立目標三維模型需要大量參數，模型匹配的過程也較為複雜，並且跟蹤演演算法往往需要大量的運算時間。因此，基於模型的跟蹤適合少量的、特定類型的目標跟蹤，如人體跟蹤、臉部跟蹤或某種車型的跟蹤等。

目標重識別

行人重識別（Person re-identification）也稱行人再識別，是利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術。廣泛被認為是一個圖像檢索的子問題。給定一個監控行人圖像，檢索跨設備下的該行人圖像。旨在彌補目前固定的攝像頭的視覺局限，並可與行人檢測/行人跟蹤技術相結合，可廣泛應用於智能視頻監控、智能安保等領域。

研究

簡介

視覺監控的主要目的，是從一組包含人的圖像序列中檢測、識別、跟蹤人體，並對其行為進行理解和描述。大體上這個過程可分為底層視覺模塊(low-levelvision)、數據融合模塊(intermediate-level vision)和高層視覺模塊(high-levelvision)。

其中，底層視覺模塊主要包括運動檢測、目標跟蹤等運動分析方法；數據融合模塊主要解決多攝像機數據進行融合處理問題；高層視覺模塊主要包括目標的識別，以及有關於運動信息的語義理解與描述等。

如何使系統自適應於環境，是場景建模以及更新的核心問題。有了場景模型，就可以進行運動檢測，然後對檢測到的運動區域進行目標分類與跟蹤。接下來是多攝像機數據融合問題。最後一步是事件檢測和事件理解與描述。通過對前面處理得到的人體運動信息進行分析及理解，最終給出我們需要的語義數據。下面對其基本處理過程做進一步的說明。

環境建模

要進行場景的視覺監控，環境模型的動態創建和更新是必不可少的。在攝像機靜止的條件下，環境建模的工作是從一個動態圖像序列中獲取並自動更新背景模型。其中最為關鍵的問題在於怎樣消除場景中的各種干擾因素，如光照變化、陰影、搖動的窗帘、閃爍的屏幕、緩慢移動的人體以及新加入的或被移走的物體等的影響。

運動檢測

運動檢測的目的是從序列圖像中將變化區域從背景圖像中提取出來。運動區域的有效分割對於目標分類、跟蹤和行為理解等後期處理是非常重要的，因為以後的處理過程僅僅考慮圖像中對應於運動區域的像素。然而，由於背景圖像的動態變化，如天氣、光照、影子及混亂干擾等的影響，使得運動檢測成為一項相當困難的工作。

目標分類

對於人體監控系統而言，在得到了運動區域的信息之後，下面一個重要的問題就是如何將人體目標從所有運動目標中分類出來。不同的運動區域可能對應於不同的運動目標，比如一個室外監控攝像機所捕捉的序列圖像中除了有人以外，還可能包含寵物、車輛、飛鳥、搖動的植物等運動物體。為了便於進一步對行人進行跟蹤和行為分析，運動目標的正確分類是完全必要的。但是，在已經知道場景中僅僅存在人的運動時(比如在室內環境下)，這個步驟就不是必需的了。

人體跟蹤

人體的跟蹤可以有兩種含義，一種是在二維圖像坐標系下的跟蹤，一種是在三維空間坐標系下的跟蹤。前者是指在二維圖像中，建立運動區域和運動人體(或人體的某部分)的對應關係，並在一個連續的圖像序列中維持這個對應關係。從運動檢測得到的一般是人的投影，要進行跟蹤首先要給需要跟蹤的對象建立一個模型。對象模型可以是整個人體，這時形狀、顏色、位置、速度、步態等等都是可以利用的信息；也可以是人體的一部分如上臂、頭部或手掌等，這時需要對這些部分單獨進行建模。建模之後，將運動檢測到的投影匹配到這個模型上去。一旦匹配工作完成，我們就得到了最終有用的人體信息，跟蹤過程也就完成了。

數據融合

採用多個攝像機可以增加視頻監控系統的視野和功能。由於不同類型攝像機的功能和適用場合不一樣，常常需要把多種攝像機的數據融合在一起。在需要恢復三維信息和立體視覺的場合，也需要將多個攝像機的圖像進行綜合處理。此外，多個攝像機也有利於解決遮擋問題。

行為理解

事件檢測、行為的理解和描述屬於智能監控高層次的內容。它主要是對人的運動模式進行分析和識別，並用自然語言等加以描述。相比而言，以前大多數的研究都集中在運動檢測和人的跟蹤等底層視覺問題上，這方面的研究較少。近年來關於這方面的研究越來越多，逐漸成為熱點之一。

智能視頻監控