Multimedia

Tìm hiểu về dữ liệu ảnh : nhị phân, gray, ảnh màu 3 kênh, ảnh màu 4 kênh,…

Ảnh số (Digital image): đây là đối tượng mà máy tính xử lý. Ảnh số chỉ là một ma trận 2 chiều, và việc xử lý chúng chỉ là những thao tác trên ma trận này sao cho ra kết quả hợp lý. Ví dụ một bức ảnh số có độ phân giải 640x480 nghĩa là chiều ngang có 640 điểm ảnh (pixel), chiều dọc có 480 điểm ảnh, và mỗi điểm ảnh được biểu diễn bằng một con số. 

Tùy theo giá trị dùng để biểu diễn điểm ảnh mà người ta phân ra 3 loại ảnh chính:

+ Ảnh nhị phân (binary image): giá trị mỗi điểm ảnh là 0 hoặc 1, nghĩa là trắng hoặc đen. Trong thực tế khi xử lý trên máy tính thì người ta dùng ảnh xám (xem khái niệm bên dưới) để biểu diễn ảnh nhị phân và lúc này 2 giá trị là 0 hoặc 255.

+ Ảnh xám (gray image): giá trị mỗi điểm ảnh nằm trong giải giá trị từ 0 đến 255, nghĩa là cần 8 bits hay 1 byte để biểu diễn mỗi điểm ảnh này.

+ Ảnh màu (color image): Ảnh màu theo lý thuyết của Thomas là ảnh tổ hợp từ 3 màu cơ bản: Đỏ (red) Lục (gren) Lơ ( blue) và thường được thu nhận trên các dải băng tần khác nhau. Với ảnh màu các biểu diễn cũng tương tự như với ảnh đen trắng chỉ khác là các số tại mội phần tử của ma trận biểu diễn cho 3 màu riêng rẽ gồm đỏ (red) Lục (gren) Lơ( blue). Để biểu diễn cho một điểm ảnh màu cần 24 bit. 24 bit này được chia làm 3 khoảng 8 bit. Mỗi màu cũng phân thành L cấp màu khác nhau (thường L=256) . mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính.

Do đó để lưu trữ ảnh màu người ta có thể lưu trữ từng màu riêng biệt, mỗi màu lưu trữ như một ảnh đa cấp xám. Do đó không gian nhớ dành cho một ảnh màu lớn gấp 3 lần ảnh đa cấp xám cùng kích cỡ.

Hệ màu RGB (hệ màu 3 kênh) là viết tắt của 3 màu cơ bản là Red, GreenBlue là ba màu chính của ánh sáng trắng sau khi được tách ra nhờ lăng kính. Những màu này khi kết hợp theo tỉ lệ nhất định sẽ tạo ra rất nhiều màu khác nhau trong dải ảnh sáng nhìn thấy, và khi kết hợp cả 3 màu lại với nhau với tỉ lệ 1 : 1 : 1 chúng ta sẽ được màu trắng. Bởi thế hầu hết các thiết bị điện tử sử dụng màu bằng cách phát quang như TV, màn hình máy tính, màn hình điện thoại… đều sử dụng RGB làm hệ màu chính. Và đó cũng là lý do mà các ảnh kỹ thuật số hiển thị trên máy tính đều sử dụng hệ RGB làm chuẩn.

Hệ màu CMYK (hệ màu 4 kênh ) là từ viết tắt trong tiếng Anh để chỉ mô hình màu loại trừ sử dụng trong in ấn màu. Mô hình màu này dựa trên cơ sở trộn các chất màu của các màu sau:

C=Cyan trong tiếng Anh có nghĩa là màu xanh lơ

M=Magenta trong tiếng Anh có nghĩa là màu hồng sẫm

Y=Yellow trong tiếng Anh có nghĩa là màu vàng

K=Key (trong tiếng Anh nên hiểu theo nghĩa là cái gì đó then chốt hay chủ yếu để ám chỉ màu đen mặc dù màu này có tên tiếng Anh là black do chữ B đã được sử dụng để chỉ màu xanh lam (blue) trong mô hình màu RGB để tạo các màu khác.

Hỗn hợp của các màu CMY lý tưởng là loại trừ (các màu này khi in cùng một chỗ trên nền trắng sẽ tạo ra màu đen). Nguyên lý làm việc của CMYK là trên cơ sở hấp thụ ánh sáng. Màu mà người ta nhìn thấy là từ phần của ánh sáng không bị hấp thụ. Trong CMYK hồng sẫm cộng với vàng sẽ cho màu đỏ, hồng sẫm cộng với xanh lơ cho màu xanh lam, xanh lơ cộng với vàng sinh ra màu xanh lá cây và tổ hợp của các màu xanh lơ, hồng sẫm và vàng tạo ra màu đen.

Về Histogram của ảnh.

Histogram là một biểu đồ cột có thể tìm thấy qua thông qua menu của một máy ảnh số SLR, nó hiển thị những thuộc tính độ sáng tối, giá trị tông màu bên trong một bức ảnh. Những giá trị tông màu này đôi khi được tham chiếu như phạm vi động của một máy ảnh (DyanmicRange)
Histogram hiện thị tất cả giá trị của một bức ảnh số thông qua một đồ thị hai chiều (trục tung và trục hoành). Trục tung hiển thị có bao nhiêu điểm ảnh được tìm thấy, nó được biểu diễn trong những giá trị sáng (khác màu xám). Trục hoành diễn tả độ sáng tối của bức tranh, được đánh số từ 0 (tối) đến số 255 (sáng). Màu sắc trong đồ thị historgram cho thấy giá trị của mỗi kênh màu trong hình. Màu trắng đại diện cho cho những vùng có 3 màu chồng lên nhau
Mục đích:

- Nó cung cấp những thông tin thật tế ngay lúc chụp để cân đối hình ảnh cũng như độ sáng tối, qua đó người dùng có thể điều chỉnh thích hợp với nhu cầu.

- Điều chỉnh bức ảnh trong quá trình sử lý ảnh, bằng cách hiển thị những giá trị đồ họa và mục tiêu cần đạt được trong quá trình điều chỉnh này

- Những sơ đồ RGB histogram có thể dùng để kiểm tra độ màu bão hòa hay thẩm thấu và sự thay đổi màu sắc của một bức ảnh.

- Những bức ảnh số được diễn tả thông qua ba màu đỏ, xanh lá và màu vàng xen kẻ lẫn nhau. Nó cho phép một bức ảnh đạt được chất lượng đồng nhất bằng cách cung cấp những thông số của màu mà bạn muốn đạt đến

- Một trong những mục đích chính về việc sử dụng biểu đồ Histogram để tránh “clipping” , là để giảm bớt hay có thể loại hẳn những giá trị màu mình muốn trong một bức ảnh.

- Histogram là một chỉ dẩn. Nó không đơn thuần là một biểu đồ, histogram là một cách tốt nhất để đánh giá độ phơi sáng khi nhìn một bức ảnh và cột màu sắc biểu thị. Một cách tổng quát, histogram biểu thị một bức ảnh có độ phơi sáng tốt khi dữ liệu bên trong sơ đồ có độ nghiêng nhẹ bên phải kể từ số 0 và khuếch đại ở khúc giữa (trục hoành) và đi xuống ở mức 255

Tìm hiểu thêm giải thuật nén LZW

Nguyên lý :

- Phân tích thông điệp.

- Lần lượt lập bảng chứa vị trí xuất hiện của các từ tìm thấy trong thông điệp.

- Giảm số lượng bit để mã hóa những từ xuất hiện thường xuyên.

- Tăng số lượng bit để mã hóa những từ ít gặp hơn.

Đặc tính :

- Ít hiệu quả với ảnh.

- Có hiệu quả cao với text hoặc dữ liệu số. tỷ lệ nén có thể đạt tới 50%.

Các bước thuật toán :

- Thông điệp được phân chia thành những khối có độ dài thay đổi. các khối này gọi là các câu.

- Một câu mới là một khối chủa hý tự nguồn và thêm một ký tự cuối.

- Các câu được liệt kê trong từ điển kèm theo vị trí xuất hiện.

- Để mã hóa một câu mới ta chỉ vị trí của câu trong từ điển và chèn thêm ký hiệu mới vào cuối.

Ví dụ :

Chuỗi ký tự : PQPQ PQR PQR PQR PQR PQR

Từ điển :

256 PQ

257 QR

258 PQP

259 PQR

260 PQRPQR

Kết quả mã hóa : 256 256 260 260 259

Tỷ lệ nén : 2 x 5 / 1 x 19 = 53%

- Để giải mã ta cũng phải lập có từ điển và tra cứu ngược lại trong từ điển.

Về media tĩnh, media động.

Tạo hình cần tuân theo các nguyên tắc mỹ thuật. Cho dù dữ liệu đa phương tiện ở dạng hình ảnh, tạo nên bằng phần mềm vẽ hay bằng chụp ảnh, hay ở dạng video, gồm nhiều ảnh tĩnh, mỗi khung hình cần có bố cục ,nội dung...

a)Tạo hình tĩnh

Hình tĩnh nhằm vào các ảnh chụp, tranh vẽ, đồ họa. Cần quan tâm đến chuẩn nén để thu gọn dung lượng dữ liệu; kích thước, để xác định khung hình xuất hiện; nền thể hiện ảnh tĩnh ...
Bước đầu có thể sử dụng phần mềm vẽ để tạo nên các dữ liệu ảnh tĩnh
b)Tạo hình động

Hình động được xác định gồm nhiều ảnh tĩnh. Tùy theo thiết kế, có thể chọn 30 ảnh tĩnh cho 1 giây thể hiện của ảnh động.
Người ta tạo hìnhđộng nhờ:

• Phần mềm tạo hình động, từ các hình tĩnh. Cần lưu ý các phương pháp tạo hình động, hoặc tạo từng khung hình rồi ghép lại, hoặc tạo một số hình chính, rồi tự động suy diễn nhờ hiệu ứng kỹ xảo video
• Thu được hình động nhờ máy quay video. Cần quan tâm đến chuẩn thể hiện video

ChươngII:           CÁC CHUẨN NÉN MPEG

2.1 Chuẩn nén MPEG-1 

2.1.1 Giới thiệu khái quát 

MPEG -1 được hình thành vào năm 1988, là tiêu chuẩn của nhóm chuyên gia về 

hình ảnh MPEG ở trong giai đoạn đầu tiên (tương ứng với tiêu chuẩn ISO/IEC 11172  

của ITU). Mục đích của MPEG -1 là nghiên cứu một tiêu chuẩn mã hoá video và âm 

thanh kèm theo trong các môi trường lưu trữ như: CD-ROM, đĩa quang … Tốc độ mã 

hoá trong khoảng 1.5 Mb/s. 

 Chuẩn nén MPEG -1 bao gồm 4 phần : 

    - Các hệ thống   : ISO/IEC 11172 -1 

    - Video     : ISO/IEC 11172 -2 

    - Audio    : ISO/IEC 11172 -3 

   - Hệ thống kiểm tra: ISO/IEC 11172 -4 

 Trong các phần trên ta nghiên cứu một vài thông số trong phần Video (ISO/IEC 

11172 -2). 

2.1.2  Định dạng trung gian SIF (Source Intermediate Format). 

 Khi  truyền hình màu phát triển, xuất hiện nhiều hệ truyền hình khác nhau như: 

NTSC (ở Mỹ), PAL (châu Âu)… với các hệ thống quét truyền hình khác nhau như hệ 

525/60 và 625/50. Do đó cần có một định dạng chung cho nguồn tín hiệu dùng cho bộ 

mã hoá nén số liệu và các xác định riêng khác nhau phù hợp mỗi hệ thống. Định dạng 

trung gian cho nguồn tín hiệu được gọi là SIF (Source Intermediate Format). 

 Trong  định dạng chung này, tần số lấy mẫu  được lấy theo xác  định của chuẩn 

CCIR-601. Do  đó số mẫu trên một dòng tích cực của cả hai tiêu chuẩn 525/60 và 

625/50 là bằng nhau. Quá trình chuyển  đổi từ  định dạng theo tiêu chuẩn CCIR-601 

sang định dạng SIF được thực hiện bằng cách sử dụng một bộ lọc thập phân theo chiều 

ngang cho các mành lẻ của tín hiệu Y, một bộ lọc theo chiều ngang và một bộ lọc theo 

chiều thẳng đứng cho các mành số lẻ cho các tín hiệu Cr và Cb như sau:           

         

Hình 5: Quá trình biến đổi sang định dạng SIF và kích thước mảng các điểm ảnh 

• Quá trình tính toán giá trị cho các  điểm  ảnh trong lọc thập phân  như sau:     

       

  Hình 6: Tính toán giá trị cho các điểm ảnh trong bộ lọc thập phân 

      

 Giá  trị  điểm  ảnh tại vị trí n  được tính bằng: tích số của các giá trị  điểm  ảnh từ   

(n-3)  đến (n+3) với các hệ số của bộ lọc tương  ứng tại vị trí này trên hình vẽ trên. 

Tổng các kết quả này được chia cho 256 và thu được giá trị điểm ảnh ở vị trí n. Phép 

tính tiếp theo được thực hiện cho điểm ảnh ở vị trí n+2 . 

 Một quá trình lọc tương tự áp dụng theo chiều thẳng đứng tạo ra giá trị thập phân 

tín hiệu Cr và Cb theo chiều này. 

 +  Số các  điểm  ảnh trên một dòng tích cực  được giảm từ 360 xuống 352  để thu 

được một bội số của 16 nhằm tổ chức thuận lợi các cấu trúc khối điểm ảnh 16x16 với 

cấu trúc 4:2:0.  Ảnh tích cực  đã  được làm giảm xuống (352 x 240)  được gọi là vùng 

điểm  ảnh xác  định (có ý nghĩa ) cho SIF.  Định dạng  SIF phối hợp với cấu trúc lấy 

mẫu 4:2:0 làm giảm thêm số liệu tín hiệu màu. Các thông số cho định dạng SIF đối với 

các tiêu chuẩn truyền hình được cho trong bảng sau: 

 Bảng 1: Tính chất các định dạng ảnh SIF cơ bản: 

  

Trước khi mã hoá MPEG -1, tốc độ số liệu ban đầu cần được giảm nhờ bộ biến 

đổi 4:2:2 sang định dạng SIF, từ dòng số có tốc độ 166 Mb/s (98 bit biểu diễn mẫu) 

xuống dòng số có tốc độ 31.5 Mb/s. Do đó quá trình giải mã sẽ cần một bộ chuyển đổi 

ngược lại quá trình này. 

2.1.3  Cấu trúc dòng bít và các tham số của MPEG-1. 

Cấu trúc dòng bít của MPEG -1 cũng tương tự như cấu trúc dòng bít của MPEG, 

nó được phân thành các lớp như: 

•  Sequence (chuỗi ảnh) :  gồm nhiều nhóm ảnh GOP, có chức năng là dòng 

bít video. 

•  GOP (Group of Picture ): gồm từ 1- n ảnh bắt đầu bằng ảnh I, có chức 

năng là đơn vị truy xuất. 

•  Picture I, P, B: gồm nhiều Slice, chức năng là đơn vị mã hoá cơ bản. 

•  Slice : gồm nhiều các Macro Block, là đơn vị để tái đồng bộ phục hồi lỗi. 

•  Macro-Block : gồm 16 x 16 pixel, là đơn vị bù chuyển động. 

•  Block : gồm 8 x 8 pixel, là đơn vị tính DCT. 

Và một vài thông số của chuẩn nén MPEG -1 là: 

Bảng 2: Tham số theo tiêu chuẩn MPEG -1:

2.2 Chuẩn nén MPEG-2 

2.2.1 Giới thiệu về MPEG-2 

 Chuẩn nén MPEG -2 là chuẩn nén phát triển tiếp sau MPEG -1, có kế thừa tất cả 

các tiêu chuẩn của MPEG -1 và mục đích là nhằm hỗ trợ việc truyền video số, tốc độ 

bít lớn hơn 4 Mb/s, bao gồm các  ứng dụng DSM (phương tiện lưu trữ số), Các hệ 

thống truyền hình hiện tại (NTSC, PAL, SECAM), cáp, thu lượm tin tức  điện tử, 

truyền hình trực tiếp từ vệ tinh, truyền hình mở rộng (EDTV), truyền hình độ phân giải 

cao (HDTV)… 

Chuẩn MPEG -2 bao gồm 4 phần chính: 

- Các hệ thống   : ISO/IEC 13818 -1. 

-  Video    : ISO/IEC 13818 -2 

-  Audio    : ISO/IEC 13818 -3 

- Các hệ thống kiểm tra: ISO/IEC 13818 -4. 

2.2.2  Mã hoá và giải mã video  

•  Mã hoá MPEG -2: 

              

   

 Tín hiệu Video và Audio được nén (theo như nguyên lý nén MPEG ) và tạo thành 

các dòng dữ liệu cơ sở ES (Elementary Stream). Dòng ES  được sử dụng  để tạo nên 

dòng dữ liệu cơ sở được đóng gói  PES (Packetized Elementary Stream). Dòng PES lại 

được tiếp tục đóng gói tạo thành dòng truyền tải TS (Transport Stream). 

•  Giải mã MPEG - 2:  

  MPEG -2 Coder và Decoder không nhất thiết phải có cùng cấp chất lượng. Tính 

phân cấp cho phép các bộ giải mã MPEG đơn giản, rẻ tiền, có khả năng giải mã một 

phần của toàn bộ dòng bít và như vậy có khả năng tạo được hình ảnh tuy chất lượng có 

thấp hơn các bộ giải mã toàn bộ dòng bít. 

  

 Hình 8: Giải mã phân cấp theo SNR 

 Tiêu  chuẩn MPEG cho phép phân cấp theo tỷ số tín hiệu trên tạp âm (SNR) và 

theo độ phân giải. Trong đó : 

  - Tính phân cấp theo tỷ số tín hiệu trên tạp âm ( SNR Scalability) có nghĩa là chất 

lượng hình ảnh và tỷ số tín hiệu trên tạp âm có tính thoả hiệp. Một bộ giải mã có tốc 

độ bít thấp, có thể có đầy đủ độ phân giải nhưng tỷ số tín hiệu trên tạp âm (SNR) thấp 

hơn so với bộ giải mã có tốc độ bít cao. 

 - Tính phân cấp theo không gian (Spatial Scalablity) có nghĩa là có sự thoả hiệp 

đối độ phân giải. Một máy thu có tốc độ bít thấp cho hình ảnh có độ phân giải thấp hơn 

so với máy thu có khả năng giải mã toàn bộ dòng bít. 

                               

Hình 9:Giải mã phân cấp theo không gian 

2.2.3 Profiles và Levels 

Chuẩn MPEG -2 có 4 Levels (mức) và 5 Profiles (bộ công cụ). Trong đó: 

•  Profiles: Là khái niệm cho ta biết cấp chất lượng bộ công cụ nén được sử dụng 

chuẩn nén này.  Ở  đây có sự thoả hiệp giữa tỷ số nén và giá thành bộ giải nén. Có 5 

định nghĩa Profiles : 

o   Simple Profiles (Profiles đơn giản): Số bước nén thấp nhất, chỉ cho phép 

mã hoá các ảnh loại I và P. Do có tổn thất cao về tốc độ bít, nó không được sử 

dụng trong nén với kỹ thuật chuẩn đoán ảnh hai chiều (các ảnh B). 

o   Main Profiles (Profiles chính):  Là sự thoả hiệp tốt nhất giữa tổn hao tốc 

độ bít và chi phí, do nó sử dụng tất cả các ảnh I, P và B trong nén. Chất lượng 

tốt hơn Profiles đơn giản nhưng nó đòi hỏi phải sử dụng các thiết bị mã hoá 

và giải mã phức tạp hơn. 

o   SNR Profiles Scalable (Profiles phân cấp theo SNR): Tiêu chuẩn MPEG-2 cho phép phân cấp tỷ số tín hiệu trên tạp âm, có nghĩa là chất lượng hình 

ảnh và tỷ số tín hiệu trên tạp âm có tính thoả hiệp. Chuỗi ảnh chia thành hai 

lớp phân biệt nhau về chất lượng. Các lớp thấp bao gồm ảnh có chất lượng cơ 

sở, ví dụ như chứa tín hiệu theo chuẩn 4:2:0. Các lớp cao bao gồm lớp hoàn 

thiện hơn so với lớp thấp hơn, như với tín hiệu video trong chuẩn 4:2:2. Có 

thể mã hoá kênh khác nhau cho các lớp riêng. 

o   Spatially Scalable Profiles (phân cấp theo không gian):  Tính phân cấp 

theo không gian có nghĩa là có sự thoả hiệp với độ phân giải. Chuỗi ảnh được 

chia ra thành hai lớp tương ứng với các độ phân giải khác nhau của ảnh. Lớp 

thấp hơn bao gồm ảnh có độ phân giải thấp như truyền hình tiêu chuẩn. Còn 

lớp cao hơn bao gồm ảnh có độ phân giải cao hơn như truyền hình độ phân 

giải cao (HDTV). 

o   High Profiles (Profiles cao): Cho phép cả hai loại thang mức   được  ứng 

dụng trong truyền hình HDTV với các  định dạng 4:2:0 hay 4:2:2.  Nó bao 

gồm toàn bộ các công cụ của Profiles trước cộng thêm khả năng mã hoá các 

tín hiệu màu khác nhau cùng một lúc. 

 Như vậy, giữa các Profiles nói trên có sự tương thích cao dần, nghĩa là các bộ 

giải mã của một Profiles cao cấp hơn có khả năng giải mã tất cả các Profiles ở cấp đó 

và cấp thấp hơn. 

•  Levels : Khái niệm Levels trong chuẩn MPEG-2 cho ta biết mức độ phân giải của 

ảnh, bao gồm từ  định dạng trung gian cho nguồn tín hiệu SIF ( Source Intermediate 

Format), định dạng cơ sở MPEG -1 (360 x 288 @ 25Hz hay 360 x 240 @ 30Hz), đến 

truyền hình số phân giải cao HDTV (hệ thống truyền hình với trên 1000 dòng 

quét).Theo quan điểm ứng dụng có 4 mức Levels trong MPEG -2 được mô tả như sau: 

o Low Levels (mức thấp): phù hợp với  độ phân giải SIF  được sử dụng trong 

MPEG -1 (cho đến 360 x 288 pixel). 

o Main Levels (mức chính): phù hợp với độ phân giải chuẩn 4:2:2 (tới 720 x 576 

pixel). 

o High Levels 1440 (mức cao 1440): nhằm vào truyền hình phân giải cao HDTV 

(độ phân giải tới 1440 x 1152 pixel ). 

o High Levels (mức cao): được tối ưu hoá đối với HDTV màn ảnh rộng (độ phân 

giải tới 1920 x 1152 pixel). 

 Trong thực tế ứng dụng, các nhà chế tạo đã chọn sẵn một số thoả hiệp giữa các 

mức Levels và các Profiles cho người sử dụng. Kết hợp 4 Levels và 5 Profiles ta được 

20 tổ hợp khả năng và hiện nay đã có 11 khả năng được ứng dụng như trong Bảng 3. 

Trong các ô trong bảng 3 lần lượt từ trên xuống là: tỷ lệ lấy mẫu, điểm ảnh theo chiều 

ngang x điểm ảnh theo chiều dọc, vận tốc cao nhất của dòng dữ liệu sau khi nén, dòng 

cuối là các loại ảnh sử dụng để nén. 

Bảng 3 :Bảng thông số chính Profiles và Levels của tín hiệu chuẩn MPEG -2

2.2.4 MPEG -2 với phát sóng và sản xuất chương trình 

 Trong lĩnh vực phát sóng và sản xuất hậu kỳ, chuẩn nén MPEG -2 cuốicùng đã 

giải quyết được bi kịch đa dạng thức xưa nay. 

  Để đạt được khả năng này, cần nắm vững yêu cầu và đặc tính của từng ứng dụng 

khác nhau. 

•  Sản xuất tin thời sự: 

 Chất lượng ảnh đòi hỏi cao khi đi quay ngoại cảnh, nhưng tín hiệu không phải in 

đi in lại nhiều lần. Thiết bị nhỏ, gọn, xách tay và dùng ắc quy. Do vậy các thiết bị này 

có thể sử dụng tốc độ bít thấp 18Mb/s (đỡ tốn năng lượng, giảm giá thành). Cấu trúc 

GOP đơn giản, thuận tiện cho công đoạn dựng hình. 

•  Lưu trữ: 

 Cần chất lượng cao hoặc ít nhất bằng  ảnh gốc. Công nghệ lưu trữ còn cần sử 

dụng tốc độ bít lớn và cấu trúc IB-GOP. Tốc độ lưu trữ là 30 Mb/s. 

•  Sản xuất hậu kỳ: 

 Sản xuất hậu kỳ đòi hỏi cả chất lượng và mức độ cao về tính năng dựng hình. Tốc 

độ 50 Mb/sản xuất và cấu trúc I-GOP là sự lựa chọn thích hợp. 

•  Phân phối chương trình: 

 Phân phối chương trình đòi hỏi khả năng lưu trữ về chất lượng phát sóng quảng 

bá. Tốc  độ 20 Mb/s (hoặc 15 Mb/s  để cung cấp cho máy phát NTSC/PAL thậm chí 

thấp hơn cho dịch vụ phát trực tiếp từ vệ tinh DBS). 

2.3  Chuẩn nén MPEG-4 

2.3.1 Khái  quát về MPEG-4 

    Ngày nay, khi nhu cầu truyền phát các ứng dụng video và đa phương tiện mới 

trên hạ tầng kỹ thuật Internet  đã làm nảy sinh các yêu cầu chức năng mới không có 

trong các chuẩn nén MPEG -1 và MPEG -2 hay các chuẩn nén trước  đó. Tháng 10 

năm 1998 với sự xuất hiện của chuẩn nén MPEG -4 đã tạo ra một phương thức thiết 

lập và tương tác mới với truyền thông nghe nhìn trên mạng Internet, tạo ra một phương 

thức sản xuất, cung cấp và tiêu thụ mới các nội dung video trên cơ sở nội dung và 

hướng đối tượng (content/object-based). Đây chính là một công nghệ trình diễn truyền 

thông đa phương tiện phức hợp, có khả năng truyền thông tại các môi trường truyền 

thông đa phương tiện phức hợp, có khả năng truyền thông tại các môi trường : truyền 

hình số, đồ hoạ tương tác, World Wide Web. Vì vậy, nhiệm vụ của MPEG -4 là nhằm 

phát triển các chuẩn xử lý, mã hoá và hiển thị  ảnh  động, audio và các tổ hợp của 

chúng.MPEG -4 đang được triển khai bởi nhiều nhà vận hành mạng và dịch vụ trên thế 

giới với các dịch vụ mới đang được bổ xung để chiếm các lợi thế cấu trúc hạ tầng băng 

rộng đang phát triển. 

2.3.2 Công nghệ mã hoá và giải mã video trong MPEG-4 

  -   Chuẩn MPEG -4 là một chuẩn  động, dễ thay  đổi: với MPEG -4 các  đối tượng 

khác nhau trong một khung hình có thể  được mô tả, mã hoá và truyền  đi một cách 

riêng biệt đến bộ giải mã trong các dòng cơ bản ES (Elementary Stream) khác nhau.   

   

   -  Cũng nhờ xác định, tách và xử lý riêng các đối tượng (như nhạc nền, âm thanh xa 

gần, đồ vật, đối tượng ảnh video như con người hay động vật, nền khung hình…) nên 

người sử dụng có thể loại bỏ riêng từng đối tượng khỏi khuôn hình. Sự tổ hợp lại thành 

khung hình chỉ được thực hiện sau khi giải mã các đối tượng đó. 

Hình 11:Cấu trúc của bộ mã hoá và giải mã Video MPEG - 4 

  Trên hình 11 là cấu trúc của bộ mã hoá và giải mã Video MPEG - 4, các thiết bị 

mã hoá và giải mã video đều áp dụng sơ đồ mã hoá như nhau cho mỗi đối tượng video 

(video-object) riêng biệt.Ví dụ khi ta mã hoá và tổng hợp một khung hình, nhiều đối 

tượng đầu vào như: ôtô, nhà,  người… được tách ra khỏi video đầu vào. Mỗi đối tượng 

video sau đó được mã hoá riêng rẽ bởi bộ mã hoá đối tượng video VO (video object) 

và được truyền đi trên mạng. Tại vị trí thu, những đối tượng này được giải mã riêng rẽ 

nhờ bộ giải mã VO decoder và gửi đến bộ tổng hợp Compositor .Vì vậy người sử dụng 

có thể thực hiện các hoạt động tương tác riêng với từng đối tượng (thay đổi tỷ lệ, di 

chuyển, kết nối, loại bỏ, bổ xung các đối tượng…) ngay tại vị trí giải mã hay mã hoá. 

Ngoài ra, người dùng có thể download các đối tượng khác từ thư viện cơ sở dữ liệu (có 

sẵn trên thiết bị hay từ xa thông qua mạng LAN, WAN hay Internet) để chèn thêm vào 

hay thay thế các đối tượng có trong khuôn hình gốc. 

 Các bộ phận chức năng chính trong các thiết bị MPEG -4 bao gồm: 

-  Bộ mã hoá hình dạng ngoài Shape coder dùng để nén đoạn thông tin, giúp 

xác định khu vực và đường viền bao quanh đối tượng trong khung hình scene. 

- Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời gian. 

- Bộ kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và các 

dữ liệu còn lại sau khi đã bù chuyển động. 

  Trong MPEG -4, tất cả các đối tượng có thể có thể được mã hoá với sơ đồ mã hoá 

tối  ưu riêng của nó: videođược mã hoá theo kiểu video, text  được mã hoá theo kiểu 

text, các đồ hoạ được mã hoá theo kiểu đồ hoạ… thay vì việc xử lý tất cả các phần tử 

ảnh pixels như là mã hoá ảnh động. Do các quá trình mã hoá đã được tối ưu hoá cho 

từng loại dữ liệu thích hợp, nên chuẩn MPEG -4 sẽ cho phép mã hoá với hiệu quả cao 

tín hiệu ảnh video, audio và cả các nội dung tổng hợp như các bộ mặt và cơ thể hoạt 

hình. 

2.3.3 Các Profiles và Levels trong chuẩn MPEG-4 

Chuẩn nén MPEG -4 bao gồm nhiều tính năng khác nhau và không phải bất kỳ 

ứng dụng nào cũng  đòi hỏi tất cả các tính năng của MPEG -4.  Để sử dụng công cụ 

MPEG -4 một cách hiệu quả nhất, mỗi thiết bị chuẩn MPEG -4 chỉ được trang bị một 

số tính năng phù hợp với một phạm vi  ứng dụng nhất  định và  để tạo  điều kiện cho 

người sử dụng lựa chọn công cụ MPEG -4, các thiết bị MPEG -4 chia thành các nhóm 

công cụ gọi là các Profiles, mỗi nhóm Profiles chỉ chứa một vài tính năng cần thiết của 

chuẩn mã hoá thích hợp cho một phạm vi ứng dụng nào đó. Mỗi Profiles lại chỉ có một 

số các mức Levels khác nhau, thể hiện mức  độ phức tạp xử lý tính toán dữ liệu của 

công cụ  đó (thông qua việc xác  định rõ tốc  độ bít, con số tối  đa của các  đối tượng 

trong khung hình, độ phức tạp của quá trình giải mã audio…) 

Hình sau nói về một số bộ công cụ của thiết bị MPEG -4. Có nhiều Profiles như: 

Media Profiles , Scene Graph Profiles, MPEG-J Profiles …  

  

           Hình 12: Profiles và Levels trong MPEG -4 

  Ta xét Media Profiles có: Audio Profiles, Visual Profiles, Graphics Profiles. 

Trong đó Visual Profiles gồm các Profiles như sau: 

• Simple Profiles (Profiles  đơn giản  ): chỉ cho phép các loại vật đơn giản (tỷ lệ 

chiều cao/chiều rộng là tuỳ ý và tỷ lệ bít thấp) và được tạo ra với các ứng dụng 

có độ phức tạp không cao trong việc nhận ra vật. Ứng dụng Simple Profiles cho 

di động, truyền các hình ảnh Video có độ phức tạp không cao trên Internet hay 

các thiết bị camera ghi các hình  ảnh  động như:  đĩa hay chip nhớ. Có 3 mức 

(Levels ) được sử dụng cho Simple Profiles với tốc độ bít vào khoảng  64 - 384 

kb/s. 

• Simple Scalable Profile (Profiles phân mức  đơn giản) : có thể phân chia việc 

mã hoá trong cùng một môi trường hoạt  động như việc dự  đoán trước cho 

Simple và có 2 mức được định nghĩa ở Profiles này. 

• Core Profiles (Profiles lõi )  : dùng cho các dịch vụ tương tác chất lượng cao, 

phối hợp chất lượng tốt với việc hạn chế độ phức tạp và hỗ trợ tuỳ ý hình dạng 

của vật. Vì vậy các dịch vụ Broadcast di động được hỗ trợ cho Profiles này. Tốc 

độ bít tối đa là 384kb/s cho mức 1 (Levels 1) và 2Mb/s cho mức 2 (Level 2). 

• Main Profile (Profiles chính ) : được tạo ra với các dịch vụ quảng bá broadcast, 

địa chỉ hoá tiên tiến. Nó phối hợp chất lượng cao nhất với tính linh hoạt của các 

vật có hình dạng tự do mà sử dụng đến thang màu nâu để mã hoá. Mức cao nhất 

cho phép 32 vật (có nhiều mức) và tốc độ bít lớn nhất là 38 Mb/s. 

• N-bít Profiles : hữu ích cho những vùng mà sử dụng những người mô tả nhiệt độ 

(thermal imagers), như các  ứng dụng kiểm soát. Vì vậy các  ứng dụng trong y 

học muốn sử dụng để làm tăng độ sâu  của điểm ảnh đưa ra một miền ảnh động 

lớn trong tín hiệu màu và tín hiệu chói.  

• Scalable Texture Profiles (Profiles phân mức kết cấu ): là giá trị trung bình cho 

các  ứng dụng âm thanh  đồ hoạ. Nó  được yêu cầu bởi các công ty muốn xây 

dựng các thiết bị di động, mà có kết nối đồng thời âm thanh và hình ảnh hiển 

thị, đồ hoạ có dạng thức BIFS cơ sở trong các thiết bị đầu cuối rất đơn giản. 

• Simple Face Profiles (Profiles bề mặt đơn giản) : chỉ cho các vật có bề mặt đơn 

giản (các hoạt ảnh). Phụ thuộc vào từng mức, song trong một khuôn hình tối đa 

có 4 bề mặt có thể xuất hiện. Tốc độ bít còn thấp, 32 kb/s là đủ cho việc truyền 

tối đa 4 bề mặt. 

• Hybird Profiles (Profiles lai ghép)  : cho phép liên kết cả các vật tự nhiên và 

nhân tạo trong cùng một khuôn hình mà vẫn giữ  độ phức tạp hợp lý. Với các 

vật tự nhiên, nó so sánh với Core Profiles , còn với các vật nhân tạo, nó cộng 

gộp các hoạt ảnh lưới, kết cấu phân lớp và các bề mặt hoạt ảnh - thiết lập nên 

bộ công cụ mà tạo ra sự lai ghép thú vị nội dung của các vật tự nhiên và nhân 

tạo. Profiles này được sử dụng cho những nơi có vật thật trong thế giới nhân tạo 

hay ngược lại kết hợp các vật thật vào trong môi trường  tự nhiên. 

• Basic Animated Texture Profiles (Profiles kết cấu hoạt ảnh cơ bản): cho phép 

hoạt ảnh của các hình ảnh tĩnh và các mặt hoạt ảnh. Dùng cho các nội dung mà 

được tạo ra với tốc độ bít rất thấp.

Bạn đang đọc truyện trên: AzTruyen.Top

Tags: