TWI690196B - 360度虛擬現實視訊的環路濾波方法和裝置 - Google Patents
360度虛擬現實視訊的環路濾波方法和裝置 Download PDFInfo
- Publication number
- TWI690196B TWI690196B TW108107238A TW108107238A TWI690196B TW I690196 B TWI690196 B TW I690196B TW 108107238 A TW108107238 A TW 108107238A TW 108107238 A TW108107238 A TW 108107238A TW I690196 B TWI690196 B TW I690196B
- Authority
- TW
- Taiwan
- Prior art keywords
- virtual reality
- neural network
- target
- reality image
- processing
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
本發明一方面提供了處理360度虛擬現實(VR360)圖像的方法和設備。將重建的VR圖像序列中的目標重建VR圖像劃分為多個處理單元,並確定目標處理單元是否包含與目標重建VR圖像中的面邊界對應的任何不連續邊緣。如果目標處理單元包含任何不連續邊緣:目標處理單元沿著不連續邊緣被分成兩個或更多個子處理單元;並且NN處理被應用於每個子處理單元以生成濾波處理單元。如果目標處理單元不包含不連續邊緣,則將NN處理應用於目標處理單元以生成濾波處理單元。本發明還公開了一種用於CNN訓練過程的方法和裝置。輸入的重建VR圖像和原始圖像沿著不連續邊界被劃分為子訊框,用於訓練過程。
Description
本發明是有關於一種用於360度虛擬現實(virtual reality,VR)圖像的圖像處理,特別是有關於一種基於神經網絡(neural network,NN)的濾波,用於改善已重建的VR360圖像中的圖像質量。
360度視訊,也稱為沈浸式視訊,是一種新興技術,可以提供“身臨其境的感覺”。透過具有環繞全景的環繞場景,特別是360度視野來圍繞用戶來實現沉浸感。透過立體繪製可以進一步改善“身臨其境的感覺”。因此,全景視訊被廣泛用於虛擬現實(VR)應用中。
沉浸式視訊涉及使用多個相機捕獲場景以覆蓋全景視圖,例如360度視野。沉浸式相機通常使用全景相機或一組攝像機來佈置以捕捉360度視野。通常,兩個或更多個相機用於沉浸式相機。必須同時拍攝所有視訊,並記錄場景的單獨片段(也稱為單獨的視角)。此外,該組攝像機通常被佈置成水平地捕獲視圖,並且可能有攝像機的其他佈置情形。
可以使用360度球面全景相機或多個圖像來捕獲360度虛擬現實(VR)圖像,以覆蓋360度左右的所有視野。使用傳統的圖像/視訊處理設備難以處理或存儲三維(three-dimensional,3D)球面圖像。因此,360度VR圖像通常使用3D到2D投影方法轉換為二維(2D)格式,例如,等距矩形投影(EquiRectangular Projection,ERP)和立方體貼圖投影(CubeMap projection,
CMP)。因此,可以以等距矩形投影格式存儲360度圖像。等距矩形投影格式將球體的整個表面映射到平面圖像上。縱軸是緯度,橫軸是經度。第1A圖示出了依據等距矩形投影將球體110投射到矩形圖像112中的示例,其中每個經度線被映射到ERP圖像的垂直線。第1B圖示出了ERP圖像114的示例。對於ERP投影,球體的北極和南極中的區域比赤道附近的區域更嚴重地(即,從單個點到線)拉伸。此外,由於拉伸引起的失真,特別是在兩極附近,預測編碼工具經常無法做出良好的預測,導致編碼效率降低。第1C圖示出了具有六個面的立方體120,其中可以依據立方體圖投影將360度虛擬現實(VR)圖像投影到立方體上的六個面。有多種方法可以將六個面從立方體上移出並將它們重新裝入矩形圖像中。第1C圖所示的例子將六個面分成兩個部分(122a和122b),其中每個部分由三個連接面組成。這兩個部分可以展開成兩個條帶(130a和130b),其中每個條帶對應於連續的圖像。依據如第1C圖所示的一個CMP佈局,兩個條帶可以連接以形成矩形圖像140(其具有條帶140a和140b)。但是,由於存在一些空白區域,因此佈局效率不高。因此,使用緊湊佈局150,其中在兩個條帶(150a和150b)之間指示邊界152。但是,圖像內容在每個條帶內是連續的。
除了ERP和CMP投影格式之外,還有各種其他VR投影格式,例如八面體投影(OHP),二十面體投影(ISP),分段球面投影(SSP),截斷方形金字塔投影(truncated square pyramid projection,TSP)和旋轉球體投影(rotated sphere projection,RSP),在該領域廣泛使用。
VR360視訊序列通常比傳統的2D視訊序列需要更多的存儲空間。因此,視訊壓縮通常應用於VR360視訊序列,以減少用於存儲的存儲空間或用於流/傳輸的位元速率。如已知的視訊編碼,經常使用環路濾波來減少重建視訊中的偽像。
近年來,神經網絡(NN)已廣泛用於各種領域。神經網絡是許多
不同機器學習算法的框架,它們協同工作並處理複雜的資料輸入。這樣的系統可以透過參考示例來學習執行任務。例如,在圖像識別中,神經網絡可以學習識別圖像。在另一示例中,在圖像噪聲降低中,神經網絡可以學習選擇最佳濾波器參數以實現最佳噪聲降低。神經網絡,也稱為人工神經網絡(Artificial Neural Network,ANN),是一種訊息處理系統,具有與生物神經網絡相同的某些性能特徵。神經網絡系統由許多簡單且高度互連的處理元件組成,透過對外部輸入的動態狀態響應來處理訊息。處理元件可以被認為是人腦中的神經元,其中每個感知器接受多個輸入併計算輸入的加權和。在神經網絡領域,感知器被認為是生物神經元的數學模型。此外,這些互連的處理元件通常以層的形式組織。對於識別應用,外部輸入可以對應於呈現給網絡的模式,該模式與一個或多個中間層通信,也稱為“隱藏層”,其中實際處理是透過加權“連接”系統完成的。
人工神經網絡可以使用不同的架構來指定網絡中涉及哪些變量及其拓撲關係。例如,神經網絡中涉及的變量可能是神經元之間連接的權重,以及神經元的活動。前饋網絡是一種神經網絡拓撲,其中每層中的節點被饋送到下一級,並且同一層中的節點之間存在連接。大多數人工神經網絡包含某種形式的“學習規則”,它依據所呈現的輸入模式修改連接的權重。從某種意義上說,人工神經網絡就像他們的生物對應物一樣透過實例來學習。向後傳播神經網絡是一種更先進的神經網絡,允許權重調整的向後誤差傳播。因此,後向傳播神經網絡能夠透過最小化向後饋送到神經網絡的誤差來改善性能。
NN可以是深度神經網絡(deep neural network,DNN),卷積神經網絡(convolutional neural network,CNN),遞歸神經網絡(recurrent neural network,RNN)或其他NN變體。深層多層神經網絡或深度神經網絡(DNN)對應於具有多級互連節點的神經網絡,允許它們緊湊地表示高度非線性和高度變化的功能。然而,DNN的計算複雜度隨著與大量層相關聯的節點數量而迅速增
長。
CNN是一類前饋人工神經網絡,其最常用於分析視覺圖像。遞歸神經網絡(RNN)是一類人工神經網絡,其中節點之間的連接形成沿序列的有向圖。與前饋神經網絡不同,RNN可以使用其內部狀態(存儲器)來處理輸入序列。RNN可以在其中具有循環以允許訊息持續存在。RNN允許對矢量序列進行操作,例如輸入,輸出或兩者中的序列。
高效視訊編碼(High Efficiency Video Coding,HEVC)標準是在ITU-T視訊編碼專家組(VCEG)和ISO/IEC運動圖像專家組(MPEG)標準化組織的聯合視訊項目下開發的,並且高效視訊編碼與視訊編碼聯合協作組(JCT-VC)具有合作關係。可以使用HEVC對VR360視訊序列進行編碼。然而,本發明也可以適用於其他編碼方法。
在HEVC中,一個片被劃分為多個編碼樹單元(coding tree units,CTU)。對於彩色圖像,可以將顏色切片劃分為多個編碼樹塊(CTB)。CTU進一步劃分為多個編碼單元(CU)以適應各種本地特性。HEVC支持多個畫面內預測模式,並且對於畫面內編碼CU,用訊號通知所選擇的畫面內預測模式。除了編碼單元的概念之外,還在HEVC中引入了預測單元(PU)的概念。一旦完成CU分層樹的分割,則依據預測類型和PU分區將每個葉CU進一步分割成一個或多個預測單元(PU)。在預測之後,將與CU相關聯的殘差劃分為變換塊,稱為變換單元(transform units,TU)用於變換過程。
第2A圖示出了基於HEVC的示例性自適應畫面內/畫面間視訊編碼器。當使用畫面間模式時,畫面內/畫面間預測單元210基於運動估計(Motion Estimation,ME)/運動補償(Motion Compensation,MC)生成畫面間預測。畫面內/畫面間預測單元210在使用畫面內模式時生成畫面內預測。畫面內/畫面間預測資料(即,畫面內/畫面間預測訊號)被提供給減法器216,以透過從與輸入圖
像相關聯的訊號中減去畫面內/畫面間預測訊號來形成預測誤差,也稱為殘差。產生畫面內/畫面間預測資料的過程被稱為本公開中的預測過程。然後透過變換(T)及隨其後的量化(Q)(T+Q,220)處理預測誤差(即,殘差)。然後,透過熵編碼單元222對經變換和量化的殘差進行編碼,以包括在與壓縮視訊資料相對應的視訊位元流中。然後,將與變換係數相關聯的位元流與輔助訊息,例如諸如運動,編碼模式和與圖像區域相關聯的其他訊息,一起打包。還可以透過熵編碼來壓縮輔助訊息以減少所需帶寬。由於重建的圖像可以用作用於畫面間預測的參考圖像,因此也必須在編碼器端重建參考圖像。因此,透過逆量化(IQ)和逆變換(IT)(IQ+IT,224)處理已變換和已量化的殘差以恢復這些殘差。然後將重建的殘差添加回重建單元(Reconstruction unit,REC)228處的畫面內/畫面間預測資料以重建視訊資料。將重建的殘差添加到畫面內/畫面間預測訊號的過程稱為本公開中的重建過程。來自重建過程的輸出圖像被稱為重建圖像。為了減少重建圖像中的偽像,使用包括去塊濾波器(Deblocking Filter,DF)230和样本自適應偏移(Sample Adaptive Offset,SAO)232的環路濾波器。在本公開中,在所有濾波過程的輸出處的濾波的重建圖像被稱為解碼圖像(decoded picture)。解碼圖像存儲在訊框緩衝器240中並用於預測其他訊框。
第2B圖示出了基於HEVC的示例性自適應畫面內/畫面間視訊解碼器。由於編碼器還包含用於重建視訊資料的本地解碼器,因此除了熵解碼器之外,在編碼器中已經使用了一些解碼器組件。在解碼器側,熵解碼單元260用於從位元流中恢復已編碼的符號或語法。從輸入位元流生成重建殘差的過程在本公開中稱為殘差解碼過程。用於生成畫面內/畫面間預測資料的預測處理也在解碼器側應用,然而,畫面內/畫面間預測單元250與編碼器側的預測處理不同,因為畫面間預測僅需要使用來自位元流導出的運動訊息來執行運動補償。此外,加法器214用於將重建的殘差添加到畫面內/畫面間預測資料。
期望開發基於神經網絡的濾波方法以改善重建的VR360視訊序列中的圖像質量。
本發明公開了處理360度虛擬現實(VR360)圖像的方法和裝置。依據一種方法和裝置,接收重建的VR圖像序列,其中在編碼原始VR圖像序列或者解碼原始VR圖像序列的編碼資料期間,導出重建的VR圖像序列,並且每個原始VR圖像對應於依據目標投影格式從3D(三維)圖像投影的2D圖像。將重建的VR圖像序列中的目標重建VR圖像劃分為多個處理單元,並確定目標處理單元是否包含與目標重建VR圖像中的面邊界相對應的任何不連續邊緣。如果目標處理單元包含一個或多個不連續邊緣:目標處理單元沿著該一個或多個不連續邊緣被分成兩個或更多個子處理單元,其中該兩個或更多個子處理單元不包含不連續邊緣;並且NN處理被應用於該兩個或更多個子處理單元中的每一個以生成濾波處理單元。如果目標處理單元不包含不連續邊緣:則將NN處理應用於目標處理單元以生成濾波處理單元。處理單元對應可以基於編碼樹塊(CTB)。
可以向NN處理提供附加訊息,以提高NN處理的效率,其中,該附加訊息包括在編碼原始VR圖像序列或者解碼原始VR圖像序列的編碼資料期間導出的預測圖像和殘差圖像。預測圖像和殘差圖像分別被分成多個預測處理單元和多個殘差處理單元,並且如果目標預測處理單元包含任何不連續邊緣,則目標預測處理單元被分成多個目標預測子處理單元,以及如果目標殘差處理單元包含任何不連續邊緣,則將目標殘差處理單元分成多個目標殘差子處理單元。
當NN處理所需的參考像素在包含目標處理單元的子訊框的訊框邊界之外時,可以生成用於NN處理的填充像素。填充像素可以由幾何填充生成,其中該幾何填充從一個或多個球面相鄰像素生成填充像素。當填充像素從
在分數像素位置處的目標球形相鄰像素生成時,可以從目標球形相鄰像素的在整數位置處相鄰像素內插填充像素。當填充像素從整數位置處的目標球面相鄰像素生成時,直接從目標球面相鄰像素獲得填充像素。填充像素還可以從與包含目標處理單元的子訊框的訊框邊界相鄰的相鄰面而生成。透過擴展子訊框的角像素來生成填充區域的角落處的填充像素。
在一個實施例中,在NN處理期間即時生成填充像素。在另一實施例中,在將NN處理應用於目標重建VR圖像之前,預先生成填充像素。
在一個實施例中,NN處理包括NN濾波以生成NN殘差處理單元並輸出目標處理單元與NN殘差處理單元的組合以生成濾波處理單元。
為了識別目標處理單元是否包含一個或多個不連續邊緣,可以將標籤與每個處理單元一起使用。
在一個實施例中,NN處理可以對應於卷積神經網絡(CNN)處理。
這裡提到的NN處理可以應用於各種投影格式的重建VR圖像,例如立方體貼圖投影(cubemap projection),等距矩形投影(Equirectangular Projection,ERP),截斷方形金字塔投影(Truncated Square Pyramid Projection,TSP),緊湊二十面體投影(Compact Icosahedron Projection,CISP),緊湊八面體投影(Compact Octahedron Projection,COHP)或分段球面投影(Segmented Sphere Projection,SSP)。
本發明公開了用於360度虛擬現實(VR360)圖像的神經網絡訓練過程的方法和裝置。依據一種方法和裝置,接收與虛擬現實(VR)視訊相關聯的原始VR圖像序列,其中每個原始VR圖像對應於依據目標投影格式從3D(三維)圖像投影的2D(二維)圖像。此外,接收重建的VR圖像序列,其中在編碼原始VR圖像序列或解碼原始VR圖像序列的編碼資料期間,導出重建的VR圖像序列。原始VR圖像序列的每個原始VR圖像沿著原始VR圖像序列中的一個或多
個不連續邊界被分成兩個或更多個原始子訊框,以形成分割的原始VR圖像序列。此外,重建的VR圖像的每個重建的VR圖像沿著重建的VR圖像序列中的該一個或多個不連續邊界被劃分為兩個或更多個重建子訊框,以形成劃分的重建VR圖像序列。將劃分的原始VR圖像序列和劃分的重建VR圖像序列提供給NN訓練過程,以導出與環路濾波器相關聯的訓練的權重。
可以向NN訓練過程提供附加訊息,以提高NN訓練過程的效率。其中,附加訊息包括在編碼原始VR圖像序列或者解碼原始VR圖像序列的編碼資料期間導出的預測圖像和殘差圖像。預測圖像和殘差圖像也沿著該一個或多個不連續邊界被分成兩個或更多個子訊框。
在一個實施例中,NN訓練過程可以對應於卷積神經網絡(CNN)訓練過程。
這裡提到的NN訓練過程可以應用於各種投影格式的重建VR圖像,例如立方體圖投影,Equirectangular投影(ERP),截斷方形金字塔投影(TSP),緊湊二十面體投影(CISP),緊湊八面體投影。(COHP)或分段球面投影(SSP)。
110:球體
112、140:矩形圖像
114:ERP圖像
120:立方體
122a、122b:部分
130a、130b、140a、140b、150a、150b:條帶
150:緊湊佈局
152:邊界
210、250:畫面內/畫面間預測單元
214:加法器
216:減法器
220:量化
222:熵編碼單元
224:逆變換
228:重建單元
230:去塊濾波器
232:样本自適應偏移
240:訊框緩衝器
260:熵解碼單元
310:訓練過程
312、410:原始VR360圖像
314、412:重建的VR360圖像
316:CNN訓練過程
318、324、430、914、922:附加輸入
320:輸入圖像
322、938、1820:CNN濾波過程
420:CNN訓練過程
432:預測圖像
434:殘差圖像
440、622、1822:訓練的權重
510:填充的重建圖像
520:右上角位置
530:窗口
610、1210、1310、1320、1810:圖像
612、1814:預測圖像和殘差圖像
620:CNN過濾器
630、1830:CNN殘差值
640:CNN處理的圖像
710:六個面
720:佈局
722、1012、1412:頂部子訊框
724、1014、1414:底部子訊框
900:過程
910:原始圖像
912:重建圖像
916、930、932、2010~2060、2110~2150:步驟
918:CNN訓練過程
920:輸入圖像
934、936:處理單元
1010:訓練圖像
1110、1112、1114、1116:頂部子訊框和底部子訊框
1120:CNN訓練過程
1122:訓練的權重
1410:VR360圖像
1416、1418、1514、1516、1524、1526:填充像素
1510、1512、1520、1522:子訊框
1531、1532、1533、1534、1535、1536:邊界附近的像素
1600:幾何填充
1610:點
1612、1812、1942、1944:線
1614:面
1620:示意過程
1621~1624:像素
1700:頂部子框架
1710、1712、1714、1720、1722、1724:相鄰面
1716:角像素
1750:底部子框架
1840:輸出圖像
1910:等距矩形投影
1920:截斷方形金字塔投影
1922:垂直邊界
1930:CISP格式
1932:鋸齒形
1940:COHP格式
1950:SSP格式
1952、1954、1956:邊界線
第1A圖示出了依據等距矩形投影(ERP)將球體投影到矩形圖像中的示例,其中每個經度線被映射到ERP圖像的垂直線。
第1B圖示出了ERP圖像的示例,其中球體的北極和南極中的區域比赤道附近的區域更嚴重地(即,從單個點到線)拉伸。
第1C圖示出了具有六個面的立方體,其中可以依據立方體貼圖投影將360度虛擬現實(VR)圖像投影到立方體上的六個面。
第2A圖示出了基於HEVC的示例性自適應畫面內/畫面間視訊編碼器。
第2B圖示出了基於HEVC的示例性自適應畫面內/畫面間視訊解碼器。
第3圖示出了用於VR360視訊圖像的基於CNN的環路濾波器處理的示例性處理流程。
第4圖示出了針對VR360視訊圖像的基於CNN的環路濾波的示例性訓練過程。
第5圖示出了針對重建圖像的右上角位置的濾波過程的示例性場景。
第6圖示出了基於CNN的濾波過程的示例,其中重建的圖像被劃分為CTB,並且每個CTB由CNN濾波器使用訓練的權重來處理。
第7圖示出了基於立方體圖的投影的示例,其中要表示的六個面投影到2D平面中的VR360圖像。
第8圖示出了3×2立方體貼圖投影佈局格式中的不連續邊界的示例。
第9圖示出了依據本發明實施例的基於VR360的CNN濾波器過程的示例性處理流程。
第10圖示出了在應用CNN訓練過程之前將訓練圖像沿不連續邊緣分成頂部子訊框和底部子訊框的分割過程的示例。
第11圖示出了3x2立方體貼圖項目佈局中的VR360圖像的示例性CNN訓練過程。
第12圖示出了依據上述實施例的將圖像1210劃分為CTB的示例,其中包含標記為“1”的不連續邊緣的CTB和標記為“0”的不具有不連續邊緣的CTB。
第13圖示出了利用不連續邊緣分割CTB的示例,其中圖像中具有不連續邊緣的CTB的中間行被分成圖像中的兩個子處理單元。
第14圖示出了依據本發明實施例的像素填充的示例。
第15圖示出了依據本發明的用於子訊框的實施例的幾何填充(左)和基於
面的填充(右)的示例。
第16圖示出了使用球形相鄰像素的幾何填充過程的示例。
第17圖示出了用於3×2立方體貼圖投影格式的基於面(face)的填充的示例。
第18圖示出了依據本發明的基於CNN的濾波過程的示例,其中CNN濾波器生成CNN殘差圖像,並且使用逐像素相加將CNN殘差圖像添加到重建圖像以形成CNN處理後的圖像。
第19圖示出了一些其他投影格式,包括等距矩形投影(ERP),截斷方形金字塔投影(TSP),緊湊二十面體投影(CISP),緊湊八面體投影(COHP)或分段球面投影(SSP)。
第20圖示出了依據本發明實施例的併入CNN濾波器過程的系統的示例性框圖。
第21圖示出了依據本發明實施例的併入CNN訓練過程的系統的示例性框圖。
以下描述是實現本發明的最佳方案。進行該描述是為了說明本發明的一般原理,而不應被視為具有限制意義。透過參考所附權利要求最好地確定本發明的範圍。
容易理解的是,如本文附圖中一般描述和說明的本發明的組件可以以各種不同的配置來佈置和設計。因此,如附圖所示,本發明的系統和方法的實施例的以下更詳細的描述並非旨在限制所要求保護的本發明的範圍,而僅僅代表本發明的所選實施例。
本說明書中“一個實施例”,“實施例”或類似語言意味著結合該實施例描述的特定特徵,結構或特性可以包括在本發明的至少一個實施例中。因此,
貫穿本說明書在各個地方出現的短語“在一個實施例中”或“在實施例中”不一定都指代相同的實施例。
此外,所描述的特徵,結構或特性可以在一個或多個實施例中以任何合適的方式組合。然而,相關領域的通常知識者將認識到,可以在沒有一個或多個具體細節的情況下或者利用其他方法,組件等來實作本發明。在其他情況下,未示出公知的結構或操作或詳細描述以避免模糊本發明的各方面。
透過參考附圖將最好地理解本發明的所示實施例,其中相同的部分始終由相同的數字表示。以下描述僅旨在作為示例,並且僅僅示出了與本文要求保護的本發明一致的裝置和方法的某些選定實施例。
在描述中,附圖中出現的相同參考標號和描述表示不同視圖中的對應或相似元件。
如上所述,神經網絡可以應用於各種圖像/視訊處理以提高質量或準確度。在本發明中,神經網絡應用於VR360的視訊編碼。特別地,本發明解決了視訊編碼方法,例如HEVC,在環路濾波方面遇到的問題。然而,本發明不限於HEVC方法。
如前所述,將圖像區域(例如,片段)劃分為編碼樹塊(CTB)作為依據HEVC的處理單元,並且使用一組編碼參數對每個CTB進行編碼。基於神經網絡(例如卷積神經網絡(Convolutional Neural Network,CNN))環路濾波器可用於減少偽像,從而提高重建圖像的編碼效率和主觀視覺質量。透過訓練過程,可以導出一組最佳濾波器參數並用於過濾正在處理的圖像(例如,重建圖像)。權重通常是離線訓練,權重在訓練過程後固定。相同的訓練權重用於編碼器和解碼器處的NN濾波器處理。在以下討論中,CNN用作NN的示例。然而,應該理解,也可以使用其他NN類型(例如RNN)。NN濾波器處理可以應用於編碼器或解碼器中的各個中間級中的訊號。例如,NN濾波器處理可以直
接從第2A圖和第2B圖中的重建塊228應用於重建訊號。NN濾波器處理可以應用於來自第2A圖和第2B圖中的去塊塊230或樣本自適應偏移(sample adaptive offset,SAO)塊232的重建訊號。視訊編碼系統還可以包括其他環路濾波器,例如自適應環路濾波器(adaptive loop filter,ALF)。依據本發明的NN濾波器處理可以應用於ALF塊的輸出。
第3圖示出了用於VR360視訊圖像的基於CNN的環路濾波器處理的示例性處理流程。CNN處理包括訓練過程310,其中原始VR360圖像312和重建的VR360圖像314被提供給CNN訓練過程316以進行訓練。還可以向CNN訓練過程316提供用於提高效率的附加輸入318(例如,預測圖像和/或殘差圖像)。在編碼和/或解碼過程期間生成預測圖像和/或殘差圖像。透過訓練過程,將導出一組訓練的權重,其可以用於對要處理的輸入圖像320進行環路濾波。然後,CNN濾波過程322利用來自CNN訓練處理316的權重處理輸入圖像320。輸入圖像320被分成CTB(編碼樹塊),其中CTB由包括CNN的視訊編碼系統處理。如果在訓練過程中使用附加輸入318(例如,預測圖像和/或殘差圖像),則附加輸入324(例如,預測圖像和/或殘差圖像)可以用於CNN濾波過程322。CNN處理後的圖像可以由編碼器或解碼器進一步處理。例如,如果CNN濾波器處理被應用於DF輸出,則CNN處理的訊號將由SAO 232進一步處理。如果CNN濾波過程應用於SAO輸出,則CNN處理的訊號將存儲在訊框緩衝器240中並用於畫面內/畫面間預測。
第4圖示出了針對VR360視訊圖像的基於CNN的環路濾波的示例性訓練過程。提供給CNN訓練過程420的輸入包括一張或複數張原始VR360圖像410和一張或複數張重建的VR360圖像412。在該示例中,包括一張或複數預測圖像432和一張或複數殘差圖像434的附加輸入430也在訓練過程中用於生成訓練的權重440。
對於CNN濾波器處理,首先將重建的圖像劃分為處理單元,例如CTB。處理單元(即CTB)中的每個像素由內核過濾,其中內核是NxN窗口,並且濾波器權重依據訓練的權重。如果內核大於1x1,則位於圖像邊界附近的一些參考像素可能在重建圖像之外。為了提高濾波效率,透過在圖像邊界上擴展像素來填充重建圖像外部的像素位置。例如,當位於重建圖像的右上角位置的像素被3×3內核過濾時,重建圖像外部的一些參考位置將與過濾器一起參與。因此,需要透過在圖像邊界上延伸像素來填充圖像邊界之外的一些像素。因此,可以提高過濾效率。第5圖示出了對填充的重建圖像510的右上角位置520進行濾波過程的示例性場景。窗口530對應於3×3內核,其中一些參考像素在參考圖像的邊界之外。
對處理單元(例如,CTB)中的每個像素應用CNN濾波器處理。在一個實施例中,CNN過程將透過使用訓練的權重應用CNN過濾來生成CNN殘差訊號。然後使用逐像素加法將CNN濾波輸出(即,CNN殘差訊號)添加到重建訊號以形成CNN處理訊號。為了提高濾波效率,預測圖像和殘差圖像可以用作濾波過程的附加輸入。第6圖示出了基於CNN的濾波過程的示例,其中重建的圖像610被劃分為多個CTB(在圖像610中示為塊),並且每個CTB由CNN濾波器620使用訓練的權重622來處理。重建的圖像是在逐個像素的基礎上與CNN殘差值630(即,來自CNN濾波器620的輸出)相加以形成CNN處理的圖像640。預測圖像和殘差圖像612可以用作CNN過濾器620的附加輸入。
基於立方體圖的投影使用六個面來表示2D平面中的VR360圖像。來自立方體的六個面的六個面710可以被打包成3×2佈局720,以提高編碼效率。頂部三個面形成頂部子訊框722,底部三個面形成底部子訊框724,如第7圖所示。
對於VR360視訊中基於立方體圖的投影,3x2佈局格式中的頂部子訊框和底部子訊框之間的不連續邊緣不是圖像內容中的真實邊緣,如第8圖所
示。當包含不連續邊緣的圖像用於CNN訓練過程時,訓練的權重可能不正確。CNN濾波器的濾波效率可能會受到不連續邊緣的影響。為了解決該問題,公開了用於VR360序列的基於VR360的CNN濾波器處理。雖然3x2立方體貼圖投影佈局格式用於說明不連續邊界,但不連續邊界也存在於其他投影格式中,例如截斷方形金字塔投影(TSP),緊湊二十面體投影(CISP),緊湊八面體投影(COHP)和分段球面投影(SSP)。基於VR360的CNN濾波器處理也可以基於其他投影格式應用於VR360序列。
第9圖示出了依據本發明實施例的基於VR360的CNN濾波器處理的示例性處理流程。第9圖中的過程900對應於依據本發明的CNN訓練過程。為了克服VR360圖像中的不連續邊緣,每個圖像(原始圖像910和重建圖像912)沿著不連續邊緣被分成子訊框,如步驟916所示,其中水平虛線表示不連續邊界。將劃分的子訊框提供給CNN訓練過程918以導出訓練的濾波器權重。用於提高效率的附加輸入914(例如,預測圖像和/或殘差圖像)也可以沿著不連續邊緣劃分為子訊框,如步驟916所示,並提供給CNN訓練過程918。第9圖右側的過程對應於依據本發明的輸入圖像920的CNN濾波過程,其中該過程可包括用於提高效率的附加輸入922(例如,預測圖像和/或殘差圖像)。輸入圖像被分成處理單元(例如CTB),如輸入圖像上的實線所示。虛線表示不連續的邊界。CNN過濾器過程以CTB為基礎應用。在步驟930中檢查每個CTB是否存在不連續邊緣。如果不存在不連續邊緣(即,來自步驟930的“否”路徑),則使用訓練的權重由CNN濾波器處理938處理整個CTB。如果CTB包含不連續邊緣(即,步驟930的“是”路徑),則在步驟932中將CTB分成兩個子處理單元(934和936)。然後透過CNN濾波過程938使用訓練的權重,處理兩個處理單元(934和936)。
如上所述,為了避免包含不連續邊緣的圖像被用於CNN訓練過程,給定佈局格式的VR360圖像沿著不連續邊緣被分成兩個或更多個分區。例
如,對於3x2佈局格式的立方體貼圖投影,存在一個水平不連續邊緣,並且每個圖像沿著不連續邊界被分成兩個子訊框。在CNN訓練過程之前,將分割過程沿著不連續邊緣應用於訓練圖像1010(即,重建的圖像和對應的原始圖像)成為頂部子訊框1012和底部子訊框1014,如第10圖所示。如果預測圖像和殘差圖像用於CNN訓練過程以提高濾波效率,則預測圖像和殘差圖像也被分割。對於其他投影格式的VR360圖像,VR圖像可以分成不同的形狀,每個圖像可以有兩個以上的子訊框。
第11圖示出了3x2立方體貼圖項目佈局中的VR360圖像的示例性CNN訓練過程。輸入的原始圖像沿著不連續的邊界分成頂部子訊框和底部子訊框1110。類似地,輸入的重建圖像沿著不連續的邊界分成頂部子訊框和底部子訊框1112。分割的原始圖像1110和重建圖像1112均被提供給CNN訓練過程1120。第11圖還示出了重新用於訓練的附加預測圖像和殘差圖像。預測圖像沿不連續邊界分成頂部子訊框和底部子訊框1114。類似地,殘差圖像沿不連續邊界分成頂部子訊框和底部子訊框1116。分割的預測圖像1114和殘差圖像1116還被提供給CNN訓練過程1120以生成訓練的權重1122。
本發明公開了另一個實施例。VR360圖像首先被劃分為CTB。由於底層圖像對應於VR360圖像,因此一些CTB可能包含不連續邊緣。在基於VR360的CNN濾波過程中,具有不連續邊緣的CTB可能導致一些偽影。為了避免不正確地過濾包含不連續邊緣的CTB,在執行CNN濾波過程之前,應將CTB分成兩個子處理單元。依據本發明的實施例,首先標記重建圖像的CTB。如果CTB包含不連續邊緣,則CTB標記為“1”。如果CTB不包含不連續邊緣,則CTB標記為“0”。第12圖示出了依據上述實施例的將圖像1210劃分為CTB的示例。在該示例中,圖像被分成三行CTB。對於頂行和底行的CTB,不包含不連續的邊緣。因此,頂行和底行中的CTB標記為“0”以指示沒有不連續的邊緣。中間行中的CTB
標記為“1”以指示存在不連續邊緣。
依據本發明,標記為“1”的CTB沿不連續邊緣分成兩個處理單元。第13圖示出了利用不連續邊緣分割CTB的示例,其中圖像1310中具有不連續邊緣的CTB的中間行被分成圖像1320中的兩個子處理單元。結果,CNN濾波器處理將不會越過不連續的邊緣。包含不連續邊緣的預測圖像和殘差圖像上的CTB在用於CNN濾波過程時也被分割,以提高濾波效率。
對於VR360視訊,當對子訊框邊界附近的像素執行CNN濾波過程時,子訊框外的參考位置可以由其球形相鄰像素填充,以提高濾波效率。
如前所述,對於大於1×1的內核大小,參考像素可能不可用於在圖像的邊界附近或在邊界處理的基礎像素(underlying pixel)。依據本發明的實施例,子訊框外部的參考位置可以在CNN濾波過程之前預先填充,或者在執行CNN濾波過程時在運行中填充。這兩種方法需要在內存使用和執行時間之間權衡。
在第一種方法中,創建另外兩個子訊框緩衝器以存儲圖像的頂部子訊框和底部子訊框。子訊框緩衝器還包括用於存儲填充像素的額外填充區域。對於CNN濾波器處理中使用的NxN內核,填充區域的寬度是(N-1)/2。為重建的圖像創建兩個子訊框緩衝器,如果它們用於CNN濾波器處理,則為預測圖像和殘差圖像創建另外四個子訊框緩衝器。
另一方面,第二種方法可以減少存儲器使用,但是增加執行時間。
第14圖示出了依據本發明的實施例的像素填充的示例。VR360圖像1410被分成頂部子訊框1412和底部子訊框1414。在頂部子訊框1412周圍添加填充像素1416。此外,在底部子訊框1414周圍添加填充像素1418。
由於VR360圖像是透過將3D圖像投影為2D格式而生成的,因此VR360圖像中的相鄰面之間可能存在某種關係。因此,依據如第15圖所示的本發明的實施例公開了幾何填充和基於面的填充,其中子訊框1510和子訊框1512對
應於具有填充像素1514和填充像素1516的幾何填充。對於邊界附近的像素(例如1531,1532和1533),邊界像素處的濾波器內核的所有所需參考像素變得可用。子訊框1520和1522對應於具有填充像素1524和1526的基於面的填充。對於邊界附近的像素(例如,1534,1535和1536),邊界像素處的濾波器內核的所有所需參考像素變得可用。
幾何填充1600的過程在第16圖中描述。在幾何填充中,球形相鄰像素用於填充到填充區域。3D圖像可以表示為球面上的圖像,其中像素總是可以在球面上找到其球形相鄰像素。以下示例說明在立方體的面B(立方體底部的面)的填充區域中的點Q1610處生成填充像素。可以首先導出對應於線()1612和面A(正面)的交點的點P,其中O 1614是投影的中心。對於幾何填充,點P處的像素值用於填充點Q處的像素。如第16圖中描述的示意過程1620所示,如果點P不是精確地位於整數像素位置上,則點P的四個最近像素(1621-1624)的內插值用於中的點Q處填充像素。
在基於面的填充中,以投影佈局格式(例如立方體圖)從相鄰面填充像素。然而,取決於特定佈局格式,在可以復製或使用相鄰面中的像素之前,可能必須適當地旋轉相鄰面。複製並旋轉相鄰面以填充到填充區域。透過在子框架區域上延伸四個角像素來填充填充區域的角。第17圖示出了用於3×2立方體貼圖投影格式的基於面的填充的示例。對於頂部子框架1700的頂部邊緣,頂側上的相鄰面標記為相鄰面A 1710,相鄰面B 1712和相鄰面C 1714。可以從底部子框架1750找到相應的相鄰面。相應的相鄰面在子框架1750中標記為相鄰面A 1720,相鄰面B 1722和相鄰面C1724。如第17圖所示,相鄰面B需要順時針旋轉90度並且相鄰面C需要旋轉180度,之後才可以用作填充像素。頂部子框架1700的角像素1716用於填充頂部子框架1700的填充區域的右下角。
依據本發明對處理單元(例如CTB)中的每個像素執行CNN濾波
過程。產生原始圖像和重建圖像之間的CNN殘差值。CNN處理的輸出圖像是對重建的圖像和相應的CNN殘差值執行按像素式加法的結果。為了提高濾波效率,預測圖像和殘差圖像可以用作依據本發明的濾波過程的附加輸入。第18圖示出了依據本發明的基於VR360的CNN濾波過程的示例,其中重建的圖像1810被劃分為CTB(在圖像1810中示為塊)。任何包含不連續邊緣的CTB進一步分成兩個處理單元。不連續邊界由線1812指示。每個CTB由CNN濾波器1820使用訓練的權重1822處理以生成CNN殘差值。如第18圖所示,依據本發明的CTB不包含任何不連續的邊緣。在逐個像素的基礎上將重建的圖像添加到CNN殘差值1830以形成CNN處理的輸出圖像1840。預測圖像和殘差圖像1814可以用作CNN濾波過程1820的附加輸入。
使用3×2立方體貼圖投影佈局格式作為示例來說明本發明的基於CNN的環路濾波過程。然而,本發明不限於3×2立方體圖投影佈局格式。依據本發明的基於CNN的環路濾波過程也可以應用於第19圖中的其他投影佈局格式,例如,等距矩形投影(ERP)1910,截斷方形金字塔投影(TSP)1920,緊湊二十面體投影(CISP)1930,緊湊型八面體投影(COHP)1940,分段球面投影(SSP)1950等。為了將CNN環路濾波器應用於不同投影格式的圖像,在訓練和濾波過程之前,當不連續邊緣出現在圖像內部時,圖像可以沿著不連續邊緣被分成幾個分區。對於ERP格式1910,圖像中沒有不連續的邊界。但是,右邊緣的圖像內容會纏繞到左邊緣。對於TSP格式1920,示出了垂直邊界1922。對於CISP格式1930,邊界呈鋸齒形1932。對於COHP格式1940,邊界由線1942和1944表示,對於SSP格式1950,指示邊界線為邊界線1952,1954,和1956(兩個橢圓和直線)。
類似於3x2立方體貼圖佈局格式的情況,當將基於CNN的環路濾波器應用於其他投影格式時,可以將圖像劃分為多個子訊框,使得CNN環路濾波器不會應用於不連續的邊界。此外,對於子訊框的邊界像素,可以使用幾何填
充或基於面的填充來填充環路濾波所需的不可用的相鄰像素。
第20圖示出了結合依據本發明實施例的CNN濾波器過程的系統的示例性框圖。流程圖中示出的步驟可以實現為在一個或多個處理器上可執行的程序代碼(例如,編碼器側或解碼器側的一個或多個CPU。流程圖中示出的步驟還可以基於諸如被佈置為執行流程圖中的步驟的一個或多個電子設備或處理器的硬件來實現。依據該方法,在步驟2010中接收重建的VR圖像序列,其中在編碼原始VR圖像序列或解碼原始VR圖像序列的編碼資料期間導出重建的VR圖像序列,並且其中每個原始VR圖像對應於依據目標投影格式從3D(三維)圖像投影的2D(二維)圖像。在步驟2020,將重建的VR圖像序列中的目標重建VR圖像劃分為多個處理單元。在步驟2030中檢查目標處理單元是否包含與目標重建VR圖像中的面邊界相對應的任何不連續邊緣。如果目標處理單元包含一個或多個不連續邊緣(即,步驟2030的“是”路徑),執行步驟2040和2050。如果目標處理單元不包含不連續邊緣(即,步驟2030的“否”路徑),則執行步驟2060。在步驟2040中,目標處理單元沿著所述一個或多個不連續邊緣被分成兩個或更多個子處理單元,其中所述兩個或更多個子處理單元不包含不連續邊緣。在步驟2050中,將NN處理應用於所述兩個或更多個子處理單元中的每一個以生成濾波處理單元。在步驟2060中,將NN處理應用於目標處理單元以生成濾波後的處理單元。
第21圖示出了依據本發明實施例的包含CNN訓練過程的系統的示例性框圖。依據該方法,在步驟2110中接收與虛擬現實(VR)視訊相關聯的原始VR圖像序列,其中依據目標投影格式,每個原始VR圖像對應於從3D(三維)圖像投影的2D(二維)圖像。此外,在步驟2120中接收重建的VR圖像序列,其中在編碼原始VR圖像序列或解碼原始VR圖像序列的編碼資料期間,導出重建的VR圖像序列。在步驟2130中,原始VR圖像序列的每個原始VR圖像沿著原始VR
圖像序列中的一個或多個不連續邊界被分成兩個或更多個原始子訊框,以形成分割的原始VR圖像序列。在步驟2140,每個重建VR圖像沿著重建的VR圖像序列中的所述一個或多個不連續邊界劃分為兩個或更多個重建的子訊框,以形成劃分的重建VR圖像序列。在步驟2150,劃分的原始VR圖像序列和劃分的重建VR圖像序列被提供給NN訓練過程,以導出與環路濾波器相關聯的訓練權重。
以上所示的流程圖旨在用作示例以說明本發明的實施例。本領域通常知識者可以透過在不脫離本發明的精神的情況下修改各個步驟,分裂或組合步驟來實作本發明。
呈現以上描述是為了使得本領域普通通常知識者能夠實作在特定應用及其要求的上下文中提供的本發明。對所描述的實施例的各種修改對於本領域通常知識者來說是顯而易見的,並且這裡定義的一般原理可以應用於其他實施例。因此,本發明不限於所示出和描述的特定實施例,而是與符合本文所公開的原理和新穎特徵的最寬範圍相一致。在以上詳細描述中,示出了各種具體細節以便提供對本發明的透徹理解。然而,本領域通常知識者將理解,可以實施本發明。
如上所述的本發明的實施例可以以各種硬體,軟體代碼或兩者的組合來實現。例如,本發明的實施例可以是集成到視訊壓縮芯片中的一個或多個電子電路或集成到視訊壓縮軟件中的程式代碼,以執行這裡描述的處理。本發明的實施例還可以是要在數位訊號處理器(DSP)上執行的程式代碼,以執行這裡描述的處理。本發明還可以涉及由計算機處理器,數位訊號處理器,微處理器或現場可編程門陣列(FPGA)執行的許多功能。這些處理器可以被配置為透過執行定義本發明所體現的特定方法的機器可讀軟體代碼或韌體代碼來執行依據本發明的特定任務。軟體代碼或韌體代碼可以用不同的編程語言和不同的格式或樣式開發。還可以針對不同的目標平台編譯軟件代碼。然而,軟件代碼
的不同代碼格式,樣式和語言以及配置代碼以執行依據本發明的任務的其他裝置將不脫離本發明的精神和範圍。
在不脫離本發明的精神或基本特徵的情況下,本發明可以以其他特定形式實施。所描述的示例在所有方面都應被視為僅是說明性的而非限制性的。因此,本發明的範圍由所附權利要求而不是前面的描述表示。在權利要求的含義和等同範圍內的所有變化都包含在其範圍內。
2010~2060‧‧‧步驟
Claims (22)
- 一種用於基於神經網絡的視訊編解碼或視訊處理方法,該方法用於虛擬現實視訊,該方法包括: 接收重建的虛擬現實圖像序列,其中在編碼原始虛擬現實圖像序列或解碼該原始虛擬現實圖像序列的已編碼資料期間,導出該重建的虛擬現實圖像序列,並且其中每個原始虛擬現實圖像對應於依據目標投影格式從三維圖像投影的二維圖像; 將該重建的虛擬現實圖像序列中的目標重建虛擬現實圖像劃分為多個處理單元; 確定目標處理單元是否包含與該目標重建虛擬現實圖像中的面邊界對應的任何不連續邊緣; 如果該目標處理單元包含一個或多個不連續邊緣: 將該目標處理單元沿該一個或多個不連續邊緣分成兩個或更多個子處理單元,其中該兩個或更多個子處理單元不包含不連續邊緣; 將神經網絡處理應用於該兩個或更多個子處理單元中的每一個以生成已濾波的處理單元;以及 如果該目標處理單元不包含不連續邊緣: 將神經網絡處理應用於該目標處理單元,以生成該已濾波的處理單元。
- 如請求項1所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,附加訊息包括在編碼該原始虛擬現實圖像序列或解碼該原始虛擬現實圖像序列的已編碼資料期間推導的多個預測圖像和多個殘差圖像,並且該附加訊息被提供以用於神經網絡處理,以提高神經網絡處理的效率。
- 如請求項2所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,該多個預測圖像和該多個殘差圖像分別被分成多個預測處理單元和多個殘差處理單元,並且如果目標預測處理單元包括任何不連續邊緣,則該目標預測處理單元被分成多個目標預測子處理單元,以及如果目標殘差處理單元包含任何不連續邊緣,則該目標殘差處理單元被分成多個目標殘差子處理單元。
- 如請求項1所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中每個處理單元對應於編碼樹塊。
- 如請求項1所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,當神經網絡處理所需的參考像素在包含該目標處理單元的子訊框的訊框邊界之外時,生成用於神經網絡處理的填充像素。
- 如請求項5所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中該填充像素由幾何填充生成,其中該幾何填充從一個或多個球形相鄰像素生成填充像素。
- 如請求項6所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,當該填充像素從在分數像素位置處的目標球形相鄰像素生成時,從該目標球形相鄰像素的一個或多個相鄰在整數像素處的像素內插該填充像素。
- 如請求項6所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,當該填充像素從整數位置處的目標球面相鄰像素生成時,直接從該目標球面相鄰像素獲得該填充像素。
- 如請求項5所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中對於該子訊框的像素的該填充像素,該填充像素是從與包含該目標處理單元的該子訊框的該訊框邊界相鄰的相鄰面而生成,或者是透過擴展該子訊框的角像素而生成。
- 如請求項5所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,在神經網絡處理期間,在運行中動態生成該填充像素。
- 如請求項5所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,在將神經網絡處理應用於目標重建虛擬現實圖像之前,預先生成該填充像素。
- 如請求項1所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,該神經網絡處理包括神經網絡濾波以生成神經網絡殘差處理單元並輸出該目標處理單元與該神經網絡殘差處理單元的組合以生成濾波後的處理單元。
- 如請求項1所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中由標籤指示該目標處理單元包含該一個或多個不連續邊緣。
- 如請求項1所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,該神經網絡處理對應於卷積神經網絡處理。
- 如請求項1所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,該目標投影格式對應於立方體貼圖投影,等距矩形投影,截斷方形金字塔投影,緊湊二十面體投影,緊湊八面體投影或分段球面投影。
- 一種用於基於神經網絡的視訊編解碼或視訊處理的裝置,該裝置用於虛擬現實視訊,該裝置包括一個或多個電子電路或處理器,該電子電路或處理器被佈置成: 接收重建的虛擬現實圖像序列,其中在編碼原始虛擬現實圖像序列或解碼該原始虛擬現實圖像序列的已編碼資料期間,導出該重建的虛擬現實圖像序列,並且其中每個原始虛擬現實圖像對應於依據目標投影格式從三維圖像投影的二維圖像; 將該重建的虛擬現實圖像序列中的目標重建虛擬現實圖像劃分為多個處理單元; 確定目標處理單元是否包含與該目標重建虛擬現實圖像中的面邊界對應的任何不連續邊緣; 如果該目標處理單元包含一個或多個不連續邊緣: 將該目標處理單元沿該一個或多個不連續邊緣分成兩個或更多個子處理單元,其中該兩個或更多個子處理單元不包含不連續邊緣; 將神經網絡處理應用於該兩個或更多個子處理單元中的每一個以生成已濾波的處理單元;以及 如果該目標處理單元不包含不連續邊緣: 將神經網絡處理應用於該目標處理單元,以生成該已濾波的處理單元。
- 一種用於基於神經網絡的視訊編解碼或視訊處理方法,該方法用於虛擬現實視訊,該方法包括: 接收與虛擬現實視訊相關的原始虛擬現實圖像序列,其中每個原始虛擬現實圖像對應於依據目標投影格式從三維圖像投影的二維圖像; 接收重建的虛擬現實圖像序列,其中在編碼原始虛擬現實圖像序列或解碼該原始虛擬現實圖像序列的已編碼資料期間,導出該重建的虛擬現實圖像序列; 將該原始虛擬現實圖像序列的每個原始虛擬現實圖像沿原始虛擬現實圖像序列中的一個或多個不連續邊界劃分為兩個或更多個原始子訊框,以形成分割的原始虛擬現實圖像序列; 將該重建的虛擬現實圖像序列的每個重建的虛擬現實圖像沿著該重建的虛擬現實圖像序列中的該一個或多個不連續邊界劃分為兩個或更多個重建子訊框,以形成劃分的重建虛擬現實圖像序列;以及 將劃分的原始虛擬現實圖像序列和劃分的重建虛擬現實圖像序列提供給神經網絡訓練過程,以導出與環路濾波器相關聯的訓練權重。
- 如請求項17所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中, 附加訊息包括在編碼該原始虛擬現實圖像序列或解碼該原始虛擬現實圖像序列的已編碼資料期間推導的多個預測圖像和多個殘差圖像,並且該附加訊息被提供以用於神經網絡處理,以提高神經網絡處理的效率,以及沿著該一個或多個不連續邊界,該多個預測圖像被分成兩個或多個預測子訊框,以及沿著該一個或多個不連續邊界,該多個殘差圖像被分成兩個或多個殘差子訊框。
- 如請求項18所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,沿著該多個預測圖像中的該一個或多個不連續邊界,每一個預測圖像被分成兩個或更多預測子訊框,以形成劃分的預測圖像序列;以及沿著該多個殘差圖像中的該一個或多個不連續邊界,每一個殘差圖像被分成兩個或更多殘差子訊框,以形成劃分的殘差圖像序列。
- 如請求項17所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,該神經網絡訓練過程對應於卷積神經網絡訓練過程。
- 如請求項17所述之用於基於神經網絡的視訊編解碼或視訊處理方法,其中,該目標投影格式對應於立方體貼圖投影,等距矩形投影,截斷方形金字塔投影,緊湊二十面體投影,緊湊八面體投影或分段球面投影。
- 一種用於基於神經網絡的視訊編解碼或視訊處理的裝置,該裝置用於虛擬現實視訊,該裝置包括一個或多個電子電路或處理器,該電子電路或處理器被佈置成:接收與虛擬現實視訊相關的原始虛擬現實圖像序列,其中每個原始虛擬現實圖像對應於依據目標投影格式從三維圖像投影的二維圖像;接收重建的虛擬現實圖像序列,其中在編碼原始虛擬現實圖像序列或解碼該原始虛擬現實圖像序列的已編碼資料期間,導出該重建的虛擬現實圖像序列;將該原始虛擬現實圖像序列的每個原始虛擬現實圖像沿原始虛擬現實圖像序列中的一個或多個不連續邊界劃分為兩個或更多個原始子訊框,以形成分割的原始虛擬現實圖像序列; 將該重建的虛擬現實圖像序列的每個重建的虛擬現實圖像沿著該重建的虛擬現實圖像序列中的該一個或多個不連續邊界劃分為兩個或更多個重建子訊框,以形成劃分的重建虛擬現實圖像序列;以及 將劃分的原始虛擬現實圖像序列和劃分的重建虛擬現實圖像序列提供給神經網絡訓練過程,以導出與環路濾波器相關聯的訓練權重。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201862642175P | 2018-03-13 | 2018-03-13 | |
| US62/642,175 | 2018-03-13 | ||
| US16/286,874 US20190289327A1 (en) | 2018-03-13 | 2019-02-27 | Method and Apparatus of Loop Filtering for VR360 Videos |
| US16/286,874 | 2019-02-27 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW201939951A TW201939951A (zh) | 2019-10-01 |
| TWI690196B true TWI690196B (zh) | 2020-04-01 |
Family
ID=67904555
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW108107238A TWI690196B (zh) | 2018-03-13 | 2019-03-05 | 360度虛擬現實視訊的環路濾波方法和裝置 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20190289327A1 (zh) |
| TW (1) | TWI690196B (zh) |
| WO (1) | WO2019174542A1 (zh) |
Families Citing this family (25)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107220925B (zh) * | 2017-05-05 | 2018-10-30 | 珠海全志科技股份有限公司 | 一种实时虚拟现实加速方法及装置 |
| TWI709107B (zh) * | 2018-05-21 | 2020-11-01 | 國立清華大學 | 影像特徵提取方法及包含其顯著物體預測方法 |
| US12388973B2 (en) | 2018-08-30 | 2025-08-12 | Hermelo Miranda | Systems and method for capturing, processing, and displaying a 360° video |
| US11284054B1 (en) * | 2018-08-30 | 2022-03-22 | Largo Technology Group, Llc | Systems and method for capturing, processing and displaying a 360° video |
| US10999606B2 (en) * | 2019-01-08 | 2021-05-04 | Intel Corporation | Method and system of neural network loop filtering for video coding |
| CN114223019A (zh) * | 2019-07-01 | 2022-03-22 | 优创半导体科技有限公司 | 用于参数有效的语义图像分割的反馈解码器 |
| US11568677B2 (en) | 2019-07-09 | 2023-01-31 | Josh Lehman | Apparatus, system, and method of providing an augmented reality visual search |
| US12367546B2 (en) * | 2019-12-24 | 2025-07-22 | Nvidia Corporation | Panorama generation using one or more neural networks |
| US12132995B2 (en) * | 2020-02-17 | 2024-10-29 | Intel Corporation | Enhancing 360-degree video using convolutional neural network (CNN)-based filter |
| CN111931530B (zh) * | 2020-07-01 | 2021-05-28 | 上海视界纵横智能科技有限公司 | 基于深度学习的工业条码识别装置及方法 |
| US11783510B2 (en) | 2020-08-25 | 2023-10-10 | Nvidia Corporation | View generation using one or more neural networks |
| CN114868386B (zh) * | 2020-12-03 | 2024-05-28 | Oppo广东移动通信有限公司 | 编码方法、解码方法、编码器、解码器以及电子设备 |
| US11716469B2 (en) * | 2020-12-10 | 2023-08-01 | Lemon Inc. | Model selection in neural network-based in-loop filter for video coding |
| US20220188973A1 (en) * | 2020-12-14 | 2022-06-16 | Augmented Reality Media Corp., Inc. | Systems and methods for synthetic augmentation of cameras using neural networks |
| US20220201295A1 (en) * | 2020-12-21 | 2022-06-23 | Electronics And Telecommunications Research Institute | Method, apparatus and storage medium for image encoding/decoding using prediction |
| US11750847B2 (en) * | 2021-04-19 | 2023-09-05 | Tencent America LLC | Quality-adaptive neural network-based loop filter with smooth quality control by meta-learning |
| US12309433B2 (en) * | 2021-05-20 | 2025-05-20 | Lemon Inc. | On padding methods for neural network-based in-loop filter |
| EP4099326A1 (en) * | 2021-06-03 | 2022-12-07 | Lemon Inc. | Video remixing method |
| US12167047B2 (en) * | 2022-01-13 | 2024-12-10 | Tencent America LLC | Neural network-based deblocking filters |
| US12447403B2 (en) * | 2022-04-25 | 2025-10-21 | Mediatek Inc. | Image processing device and image processing method for game loop |
| US12526406B2 (en) * | 2022-10-05 | 2026-01-13 | Nokia Technologies Oy | Apparatus and method for blending extra output pixels of a filter and decoder-side selection of filtering modes |
| US12608879B2 (en) * | 2022-12-12 | 2026-04-21 | Adobe Inc. | Generation of a 360-degree object view by leveraging available images on an online platform |
| US20240212225A1 (en) * | 2022-12-27 | 2024-06-27 | Htc Corporation | Immersive content displaying method, display device and non-transitory computer readable storage medium |
| CN116520987B (zh) * | 2023-04-28 | 2025-02-25 | 中广电广播电影电视设计研究院有限公司 | Vr内容问题检测方法、装置、设备及存储介质 |
| CN117541266B (zh) * | 2023-11-07 | 2025-02-07 | 青海绿能数据有限公司 | 一种碳达峰碳中和智慧监测分析处理方法及系统 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20180001428A (ko) * | 2016-06-24 | 2018-01-04 | 한국과학기술원 | Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치 |
| CN107736027A (zh) * | 2015-06-12 | 2018-02-23 | 松下知识产权经营株式会社 | 图像编码方法、图像解码方法、图像编码装置及图像解码装置 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104113765A (zh) * | 2014-07-28 | 2014-10-22 | 北京大学深圳研究生院 | 一种视频编、解码方法和装置 |
| US20170353737A1 (en) * | 2016-06-07 | 2017-12-07 | Mediatek Inc. | Method and Apparatus of Boundary Padding for VR Video Processing |
| WO2017222140A1 (ko) * | 2016-06-24 | 2017-12-28 | 한국과학기술원 | Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치 |
| CN106530407A (zh) * | 2016-12-14 | 2017-03-22 | 深圳市金大象文化发展有限公司 | 一种用于虚拟现实的三维全景拼接方法、装置和系统 |
-
2019
- 2019-02-27 US US16/286,874 patent/US20190289327A1/en not_active Abandoned
- 2019-03-05 TW TW108107238A patent/TWI690196B/zh not_active IP Right Cessation
- 2019-03-11 WO PCT/CN2019/077638 patent/WO2019174542A1/en not_active Ceased
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107736027A (zh) * | 2015-06-12 | 2018-02-23 | 松下知识产权经营株式会社 | 图像编码方法、图像解码方法、图像编码装置及图像解码装置 |
| KR20180001428A (ko) * | 2016-06-24 | 2018-01-04 | 한국과학기술원 | Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치 |
Non-Patent Citations (1)
| Title |
|---|
| W.-S. Park and M. Kim, "CNN-based in-loop filtering for coding efficiency improvement," in Proc. IEEE 12th Image, Video, Multidimensional Signal Process. Workshop (IVMSP), Jul. 2016, pp. 1–5. * |
Also Published As
| Publication number | Publication date |
|---|---|
| TW201939951A (zh) | 2019-10-01 |
| WO2019174542A1 (en) | 2019-09-19 |
| US20190289327A1 (en) | 2019-09-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI690196B (zh) | 360度虛擬現實視訊的環路濾波方法和裝置 | |
| TWI709329B (zh) | 用於視訊編碼的神經網絡方法和裝置 | |
| TWI729378B (zh) | 視訊編解碼的神經網路方法和裝置 | |
| TWI656785B (zh) | 視訊編碼方法和設備和相關的視訊解碼方法和設備 | |
| CN107925762B (zh) | 基于神经网络的视频编解码处理方法和装置 | |
| TWI669939B (zh) | 用於立方體面圖框的選擇性濾波的方法和裝置 | |
| CN116097649B (zh) | 无滤波相依性的视频帧的并行编码 | |
| CN112640467B (zh) | 用于帧内预测的方法和装置 | |
| JP2023507911A (ja) | ピクチャに対して漸進的復号化リフレッシュ処理を行うための方法及びシステム | |
| WO2023028965A1 (en) | Hardware codec accelerators for high-performance video encoding | |
| JP2009544222A (ja) | 適応的参照フィルタリングの方法及び装置 | |
| CN109983470B (zh) | 处理360度虚拟现实图像的方法 | |
| WO2024153042A1 (en) | Method and apparatus for face video compression | |
| US12231646B2 (en) | Apparatus and method for applying artificial intelligence-based filtering to image | |
| CN111699686A (zh) | 用于视频编解码的分组神经网络的方法以及装置 | |
| CN118661420B (zh) | 基于分辨率的解码方法、编码方法、解码器以及编码器 | |
| TW202316861A (zh) | 用於點雲壓縮的編碼方法與電子裝置 | |
| CN117201796B (zh) | 视频编码方法、装置、计算设备和存储介质 | |
| KR102011431B1 (ko) | 영상 병렬 처리 방법 및 장치 | |
| CN112468826A (zh) | 一种基于多层gan的vvc环路滤波方法及系统 | |
| CN116114245B (zh) | 在视频编码过程中视频帧的并行处理 | |
| WO2025246524A1 (zh) | 一种视频解码方法、视频编码方法及装置 | |
| CN117979031A (zh) | 图像滤波方法、存储介质、电子设备及产品 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |
