Multimedia
Tìm hiểu về dữ liệu ảnh : nhị phân, gray, ảnh màu 3 kênh, ảnh màu 4 kênh,…
Ảnh số (Digital image): đây là đối tượng mà máy tính xử lý. Ảnh số chỉ là một ma trận 2 chiều, và việc xử lý chúng chỉ là những thao tác trên ma trận này sao cho ra kết quả hợp lý. Ví dụ một bức ảnh số có độ phân giải 640x480 nghĩa là chiều ngang có 640 điểm ảnh (pixel), chiều dọc có 480 điểm ảnh, và mỗi điểm ảnh được biểu diễn bằng một con số.
Tùy theo giá trị dùng để biểu diễn điểm ảnh mà người ta phân ra 3 loại ảnh chính:
+ Ảnh nhị phân (binary image): giá trị mỗi điểm ảnh là 0 hoặc 1, nghĩa là trắng hoặc đen. Trong thực tế khi xử lý trên máy tính thì người ta dùng ảnh xám (xem khái niệm bên dưới) để biểu diễn ảnh nhị phân và lúc này 2 giá trị là 0 hoặc 255.
+ Ảnh xám (gray image): giá trị mỗi điểm ảnh nằm trong giải giá trị từ 0 đến 255, nghĩa là cần 8 bits hay 1 byte để biểu diễn mỗi điểm ảnh này.
+ Ảnh màu (color image): Ảnh màu theo lý thuyết của Thomas là ảnh tổ hợp từ 3 màu cơ bản: Đỏ (red) Lục (gren) Lơ ( blue) và thường được thu nhận trên các dải băng tần khác nhau. Với ảnh màu các biểu diễn cũng tương tự như với ảnh đen trắng chỉ khác là các số tại mội phần tử của ma trận biểu diễn cho 3 màu riêng rẽ gồm đỏ (red) Lục (gren) Lơ( blue). Để biểu diễn cho một điểm ảnh màu cần 24 bit. 24 bit này được chia làm 3 khoảng 8 bit. Mỗi màu cũng phân thành L cấp màu khác nhau (thường L=256) . mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính.
Do đó để lưu trữ ảnh màu người ta có thể lưu trữ từng màu riêng biệt, mỗi màu lưu trữ như một ảnh đa cấp xám. Do đó không gian nhớ dành cho một ảnh màu lớn gấp 3 lần ảnh đa cấp xám cùng kích cỡ.
Hệ màu RGB (hệ màu 3 kênh) là viết tắt của 3 màu cơ bản là Red, Green và Blue là ba màu chính của ánh sáng trắng sau khi được tách ra nhờ lăng kính. Những màu này khi kết hợp theo tỉ lệ nhất định sẽ tạo ra rất nhiều màu khác nhau trong dải ảnh sáng nhìn thấy, và khi kết hợp cả 3 màu lại với nhau với tỉ lệ 1 : 1 : 1 chúng ta sẽ được màu trắng. Bởi thế hầu hết các thiết bị điện tử sử dụng màu bằng cách phát quang như TV, màn hình máy tính, màn hình điện thoại… đều sử dụng RGB làm hệ màu chính. Và đó cũng là lý do mà các ảnh kỹ thuật số hiển thị trên máy tính đều sử dụng hệ RGB làm chuẩn.
Hệ màu CMYK (hệ màu 4 kênh ) là từ viết tắt trong tiếng Anh để chỉ mô hình màu loại trừ sử dụng trong in ấn màu. Mô hình màu này dựa trên cơ sở trộn các chất màu của các màu sau:
C=Cyan trong tiếng Anh có nghĩa là màu xanh lơ
M=Magenta trong tiếng Anh có nghĩa là màu hồng sẫm
Y=Yellow trong tiếng Anh có nghĩa là màu vàng
K=Key (trong tiếng Anh nên hiểu theo nghĩa là cái gì đó then chốt hay chủ yếu để ám chỉ màu đen mặc dù màu này có tên tiếng Anh là black do chữ B đã được sử dụng để chỉ màu xanh lam (blue) trong mô hình màu RGB để tạo các màu khác.
Hỗn hợp của các màu CMY lý tưởng là loại trừ (các màu này khi in cùng một chỗ trên nền trắng sẽ tạo ra màu đen). Nguyên lý làm việc của CMYK là trên cơ sở hấp thụ ánh sáng. Màu mà người ta nhìn thấy là từ phần của ánh sáng không bị hấp thụ. Trong CMYK hồng sẫm cộng với vàng sẽ cho màu đỏ, hồng sẫm cộng với xanh lơ cho màu xanh lam, xanh lơ cộng với vàng sinh ra màu xanh lá cây và tổ hợp của các màu xanh lơ, hồng sẫm và vàng tạo ra màu đen.
Về Histogram của ảnh.
Histogram là một biểu đồ cột có thể tìm thấy qua thông qua menu của một máy ảnh số SLR, nó hiển thị những thuộc tính độ sáng tối, giá trị tông màu bên trong một bức ảnh. Những giá trị tông màu này đôi khi được tham chiếu như phạm vi động của một máy ảnh (DyanmicRange)
Histogram hiện thị tất cả giá trị của một bức ảnh số thông qua một đồ thị hai chiều (trục tung và trục hoành). Trục tung hiển thị có bao nhiêu điểm ảnh được tìm thấy, nó được biểu diễn trong những giá trị sáng (khác màu xám). Trục hoành diễn tả độ sáng tối của bức tranh, được đánh số từ 0 (tối) đến số 255 (sáng). Màu sắc trong đồ thị historgram cho thấy giá trị của mỗi kênh màu trong hình. Màu trắng đại diện cho cho những vùng có 3 màu chồng lên nhau
Mục đích:
- Nó cung cấp những thông tin thật tế ngay lúc chụp để cân đối hình ảnh cũng như độ sáng tối, qua đó người dùng có thể điều chỉnh thích hợp với nhu cầu.
- Điều chỉnh bức ảnh trong quá trình sử lý ảnh, bằng cách hiển thị những giá trị đồ họa và mục tiêu cần đạt được trong quá trình điều chỉnh này
- Những sơ đồ RGB histogram có thể dùng để kiểm tra độ màu bão hòa hay thẩm thấu và sự thay đổi màu sắc của một bức ảnh.
- Những bức ảnh số được diễn tả thông qua ba màu đỏ, xanh lá và màu vàng xen kẻ lẫn nhau. Nó cho phép một bức ảnh đạt được chất lượng đồng nhất bằng cách cung cấp những thông số của màu mà bạn muốn đạt đến
- Một trong những mục đích chính về việc sử dụng biểu đồ Histogram để tránh “clipping” , là để giảm bớt hay có thể loại hẳn những giá trị màu mình muốn trong một bức ảnh.
- Histogram là một chỉ dẩn. Nó không đơn thuần là một biểu đồ, histogram là một cách tốt nhất để đánh giá độ phơi sáng khi nhìn một bức ảnh và cột màu sắc biểu thị. Một cách tổng quát, histogram biểu thị một bức ảnh có độ phơi sáng tốt khi dữ liệu bên trong sơ đồ có độ nghiêng nhẹ bên phải kể từ số 0 và khuếch đại ở khúc giữa (trục hoành) và đi xuống ở mức 255
Tìm hiểu thêm giải thuật nén LZW
Nguyên lý :
- Phân tích thông điệp.
- Lần lượt lập bảng chứa vị trí xuất hiện của các từ tìm thấy trong thông điệp.
- Giảm số lượng bit để mã hóa những từ xuất hiện thường xuyên.
- Tăng số lượng bit để mã hóa những từ ít gặp hơn.
Đặc tính :
- Ít hiệu quả với ảnh.
- Có hiệu quả cao với text hoặc dữ liệu số. tỷ lệ nén có thể đạt tới 50%.
Các bước thuật toán :
- Thông điệp được phân chia thành những khối có độ dài thay đổi. các khối này gọi là các câu.
- Một câu mới là một khối chủa hý tự nguồn và thêm một ký tự cuối.
- Các câu được liệt kê trong từ điển kèm theo vị trí xuất hiện.
- Để mã hóa một câu mới ta chỉ vị trí của câu trong từ điển và chèn thêm ký hiệu mới vào cuối.
Ví dụ :
Chuỗi ký tự : PQPQ PQR PQR PQR PQR PQR
Từ điển :
256 PQ
257 QR
258 PQP
259 PQR
260 PQRPQR
Kết quả mã hóa : 256 256 260 260 259
Tỷ lệ nén : 2 x 5 / 1 x 19 = 53%
- Để giải mã ta cũng phải lập có từ điển và tra cứu ngược lại trong từ điển.
Về media tĩnh, media động.
Tạo hình cần tuân theo các nguyên tắc mỹ thuật. Cho dù dữ liệu đa phương tiện ở dạng hình ảnh, tạo nên bằng phần mềm vẽ hay bằng chụp ảnh, hay ở dạng video, gồm nhiều ảnh tĩnh, mỗi khung hình cần có bố cục ,nội dung...
a)Tạo hình tĩnh
Hình tĩnh nhằm vào các ảnh chụp, tranh vẽ, đồ họa. Cần quan tâm đến chuẩn nén để thu gọn dung lượng dữ liệu; kích thước, để xác định khung hình xuất hiện; nền thể hiện ảnh tĩnh ...
Bước đầu có thể sử dụng phần mềm vẽ để tạo nên các dữ liệu ảnh tĩnh
b)Tạo hình động
Hình động được xác định gồm nhiều ảnh tĩnh. Tùy theo thiết kế, có thể chọn 30 ảnh tĩnh cho 1 giây thể hiện của ảnh động.
Người ta tạo hìnhđộng nhờ:
• Phần mềm tạo hình động, từ các hình tĩnh. Cần lưu ý các phương pháp tạo hình động, hoặc tạo từng khung hình rồi ghép lại, hoặc tạo một số hình chính, rồi tự động suy diễn nhờ hiệu ứng kỹ xảo video
• Thu được hình động nhờ máy quay video. Cần quan tâm đến chuẩn thể hiện video
ChươngII: CÁC CHUẨN NÉN MPEG
2.1 Chuẩn nén MPEG-1
2.1.1 Giới thiệu khái quát
MPEG -1 được hình thành vào năm 1988, là tiêu chuẩn của nhóm chuyên gia về
hình ảnh MPEG ở trong giai đoạn đầu tiên (tương ứng với tiêu chuẩn ISO/IEC 11172
của ITU). Mục đích của MPEG -1 là nghiên cứu một tiêu chuẩn mã hoá video và âm
thanh kèm theo trong các môi trường lưu trữ như: CD-ROM, đĩa quang … Tốc độ mã
hoá trong khoảng 1.5 Mb/s.
Chuẩn nén MPEG -1 bao gồm 4 phần :
- Các hệ thống : ISO/IEC 11172 -1
- Video : ISO/IEC 11172 -2
- Audio : ISO/IEC 11172 -3
- Hệ thống kiểm tra: ISO/IEC 11172 -4
Trong các phần trên ta nghiên cứu một vài thông số trong phần Video (ISO/IEC
11172 -2).
2.1.2 Định dạng trung gian SIF (Source Intermediate Format).
Khi truyền hình màu phát triển, xuất hiện nhiều hệ truyền hình khác nhau như:
NTSC (ở Mỹ), PAL (châu Âu)… với các hệ thống quét truyền hình khác nhau như hệ
525/60 và 625/50. Do đó cần có một định dạng chung cho nguồn tín hiệu dùng cho bộ
mã hoá nén số liệu và các xác định riêng khác nhau phù hợp mỗi hệ thống. Định dạng
trung gian cho nguồn tín hiệu được gọi là SIF (Source Intermediate Format).
Trong định dạng chung này, tần số lấy mẫu được lấy theo xác định của chuẩn
CCIR-601. Do đó số mẫu trên một dòng tích cực của cả hai tiêu chuẩn 525/60 và
625/50 là bằng nhau. Quá trình chuyển đổi từ định dạng theo tiêu chuẩn CCIR-601
sang định dạng SIF được thực hiện bằng cách sử dụng một bộ lọc thập phân theo chiều
ngang cho các mành lẻ của tín hiệu Y, một bộ lọc theo chiều ngang và một bộ lọc theo
chiều thẳng đứng cho các mành số lẻ cho các tín hiệu Cr và Cb như sau:
Hình 5: Quá trình biến đổi sang định dạng SIF và kích thước mảng các điểm ảnh
• Quá trình tính toán giá trị cho các điểm ảnh trong lọc thập phân như sau:
Hình 6: Tính toán giá trị cho các điểm ảnh trong bộ lọc thập phân
Giá trị điểm ảnh tại vị trí n được tính bằng: tích số của các giá trị điểm ảnh từ
(n-3) đến (n+3) với các hệ số của bộ lọc tương ứng tại vị trí này trên hình vẽ trên.
Tổng các kết quả này được chia cho 256 và thu được giá trị điểm ảnh ở vị trí n. Phép
tính tiếp theo được thực hiện cho điểm ảnh ở vị trí n+2 .
Một quá trình lọc tương tự áp dụng theo chiều thẳng đứng tạo ra giá trị thập phân
tín hiệu Cr và Cb theo chiều này.
+ Số các điểm ảnh trên một dòng tích cực được giảm từ 360 xuống 352 để thu
được một bội số của 16 nhằm tổ chức thuận lợi các cấu trúc khối điểm ảnh 16x16 với
cấu trúc 4:2:0. Ảnh tích cực đã được làm giảm xuống (352 x 240) được gọi là vùng
điểm ảnh xác định (có ý nghĩa ) cho SIF. Định dạng SIF phối hợp với cấu trúc lấy
mẫu 4:2:0 làm giảm thêm số liệu tín hiệu màu. Các thông số cho định dạng SIF đối với
các tiêu chuẩn truyền hình được cho trong bảng sau:
Bảng 1: Tính chất các định dạng ảnh SIF cơ bản:
Trước khi mã hoá MPEG -1, tốc độ số liệu ban đầu cần được giảm nhờ bộ biến
đổi 4:2:2 sang định dạng SIF, từ dòng số có tốc độ 166 Mb/s (98 bit biểu diễn mẫu)
xuống dòng số có tốc độ 31.5 Mb/s. Do đó quá trình giải mã sẽ cần một bộ chuyển đổi
ngược lại quá trình này.
2.1.3 Cấu trúc dòng bít và các tham số của MPEG-1.
Cấu trúc dòng bít của MPEG -1 cũng tương tự như cấu trúc dòng bít của MPEG,
nó được phân thành các lớp như:
• Sequence (chuỗi ảnh) : gồm nhiều nhóm ảnh GOP, có chức năng là dòng
bít video.
• GOP (Group of Picture ): gồm từ 1- n ảnh bắt đầu bằng ảnh I, có chức
năng là đơn vị truy xuất.
• Picture I, P, B: gồm nhiều Slice, chức năng là đơn vị mã hoá cơ bản.
• Slice : gồm nhiều các Macro Block, là đơn vị để tái đồng bộ phục hồi lỗi.
• Macro-Block : gồm 16 x 16 pixel, là đơn vị bù chuyển động.
• Block : gồm 8 x 8 pixel, là đơn vị tính DCT.
Và một vài thông số của chuẩn nén MPEG -1 là:
Bảng 2: Tham số theo tiêu chuẩn MPEG -1:
2.2 Chuẩn nén MPEG-2
2.2.1 Giới thiệu về MPEG-2
Chuẩn nén MPEG -2 là chuẩn nén phát triển tiếp sau MPEG -1, có kế thừa tất cả
các tiêu chuẩn của MPEG -1 và mục đích là nhằm hỗ trợ việc truyền video số, tốc độ
bít lớn hơn 4 Mb/s, bao gồm các ứng dụng DSM (phương tiện lưu trữ số), Các hệ
thống truyền hình hiện tại (NTSC, PAL, SECAM), cáp, thu lượm tin tức điện tử,
truyền hình trực tiếp từ vệ tinh, truyền hình mở rộng (EDTV), truyền hình độ phân giải
cao (HDTV)…
Chuẩn MPEG -2 bao gồm 4 phần chính:
- Các hệ thống : ISO/IEC 13818 -1.
- Video : ISO/IEC 13818 -2
- Audio : ISO/IEC 13818 -3
- Các hệ thống kiểm tra: ISO/IEC 13818 -4.
2.2.2 Mã hoá và giải mã video
• Mã hoá MPEG -2:
Tín hiệu Video và Audio được nén (theo như nguyên lý nén MPEG ) và tạo thành
các dòng dữ liệu cơ sở ES (Elementary Stream). Dòng ES được sử dụng để tạo nên
dòng dữ liệu cơ sở được đóng gói PES (Packetized Elementary Stream). Dòng PES lại
được tiếp tục đóng gói tạo thành dòng truyền tải TS (Transport Stream).
• Giải mã MPEG - 2:
MPEG -2 Coder và Decoder không nhất thiết phải có cùng cấp chất lượng. Tính
phân cấp cho phép các bộ giải mã MPEG đơn giản, rẻ tiền, có khả năng giải mã một
phần của toàn bộ dòng bít và như vậy có khả năng tạo được hình ảnh tuy chất lượng có
thấp hơn các bộ giải mã toàn bộ dòng bít.
Hình 8: Giải mã phân cấp theo SNR
Tiêu chuẩn MPEG cho phép phân cấp theo tỷ số tín hiệu trên tạp âm (SNR) và
theo độ phân giải. Trong đó :
- Tính phân cấp theo tỷ số tín hiệu trên tạp âm ( SNR Scalability) có nghĩa là chất
lượng hình ảnh và tỷ số tín hiệu trên tạp âm có tính thoả hiệp. Một bộ giải mã có tốc
độ bít thấp, có thể có đầy đủ độ phân giải nhưng tỷ số tín hiệu trên tạp âm (SNR) thấp
hơn so với bộ giải mã có tốc độ bít cao.
- Tính phân cấp theo không gian (Spatial Scalablity) có nghĩa là có sự thoả hiệp
đối độ phân giải. Một máy thu có tốc độ bít thấp cho hình ảnh có độ phân giải thấp hơn
so với máy thu có khả năng giải mã toàn bộ dòng bít.
Hình 9:Giải mã phân cấp theo không gian
2.2.3 Profiles và Levels
Chuẩn MPEG -2 có 4 Levels (mức) và 5 Profiles (bộ công cụ). Trong đó:
• Profiles: Là khái niệm cho ta biết cấp chất lượng bộ công cụ nén được sử dụng
chuẩn nén này. Ở đây có sự thoả hiệp giữa tỷ số nén và giá thành bộ giải nén. Có 5
định nghĩa Profiles :
o Simple Profiles (Profiles đơn giản): Số bước nén thấp nhất, chỉ cho phép
mã hoá các ảnh loại I và P. Do có tổn thất cao về tốc độ bít, nó không được sử
dụng trong nén với kỹ thuật chuẩn đoán ảnh hai chiều (các ảnh B).
o Main Profiles (Profiles chính): Là sự thoả hiệp tốt nhất giữa tổn hao tốc
độ bít và chi phí, do nó sử dụng tất cả các ảnh I, P và B trong nén. Chất lượng
tốt hơn Profiles đơn giản nhưng nó đòi hỏi phải sử dụng các thiết bị mã hoá
và giải mã phức tạp hơn.
o SNR Profiles Scalable (Profiles phân cấp theo SNR): Tiêu chuẩn MPEG-2 cho phép phân cấp tỷ số tín hiệu trên tạp âm, có nghĩa là chất lượng hình
ảnh và tỷ số tín hiệu trên tạp âm có tính thoả hiệp. Chuỗi ảnh chia thành hai
lớp phân biệt nhau về chất lượng. Các lớp thấp bao gồm ảnh có chất lượng cơ
sở, ví dụ như chứa tín hiệu theo chuẩn 4:2:0. Các lớp cao bao gồm lớp hoàn
thiện hơn so với lớp thấp hơn, như với tín hiệu video trong chuẩn 4:2:2. Có
thể mã hoá kênh khác nhau cho các lớp riêng.
o Spatially Scalable Profiles (phân cấp theo không gian): Tính phân cấp
theo không gian có nghĩa là có sự thoả hiệp với độ phân giải. Chuỗi ảnh được
chia ra thành hai lớp tương ứng với các độ phân giải khác nhau của ảnh. Lớp
thấp hơn bao gồm ảnh có độ phân giải thấp như truyền hình tiêu chuẩn. Còn
lớp cao hơn bao gồm ảnh có độ phân giải cao hơn như truyền hình độ phân
giải cao (HDTV).
o High Profiles (Profiles cao): Cho phép cả hai loại thang mức được ứng
dụng trong truyền hình HDTV với các định dạng 4:2:0 hay 4:2:2. Nó bao
gồm toàn bộ các công cụ của Profiles trước cộng thêm khả năng mã hoá các
tín hiệu màu khác nhau cùng một lúc.
Như vậy, giữa các Profiles nói trên có sự tương thích cao dần, nghĩa là các bộ
giải mã của một Profiles cao cấp hơn có khả năng giải mã tất cả các Profiles ở cấp đó
và cấp thấp hơn.
• Levels : Khái niệm Levels trong chuẩn MPEG-2 cho ta biết mức độ phân giải của
ảnh, bao gồm từ định dạng trung gian cho nguồn tín hiệu SIF ( Source Intermediate
Format), định dạng cơ sở MPEG -1 (360 x 288 @ 25Hz hay 360 x 240 @ 30Hz), đến
truyền hình số phân giải cao HDTV (hệ thống truyền hình với trên 1000 dòng
quét).Theo quan điểm ứng dụng có 4 mức Levels trong MPEG -2 được mô tả như sau:
o Low Levels (mức thấp): phù hợp với độ phân giải SIF được sử dụng trong
MPEG -1 (cho đến 360 x 288 pixel).
o Main Levels (mức chính): phù hợp với độ phân giải chuẩn 4:2:2 (tới 720 x 576
pixel).
o High Levels 1440 (mức cao 1440): nhằm vào truyền hình phân giải cao HDTV
(độ phân giải tới 1440 x 1152 pixel ).
o High Levels (mức cao): được tối ưu hoá đối với HDTV màn ảnh rộng (độ phân
giải tới 1920 x 1152 pixel).
Trong thực tế ứng dụng, các nhà chế tạo đã chọn sẵn một số thoả hiệp giữa các
mức Levels và các Profiles cho người sử dụng. Kết hợp 4 Levels và 5 Profiles ta được
20 tổ hợp khả năng và hiện nay đã có 11 khả năng được ứng dụng như trong Bảng 3.
Trong các ô trong bảng 3 lần lượt từ trên xuống là: tỷ lệ lấy mẫu, điểm ảnh theo chiều
ngang x điểm ảnh theo chiều dọc, vận tốc cao nhất của dòng dữ liệu sau khi nén, dòng
cuối là các loại ảnh sử dụng để nén.
Bảng 3 :Bảng thông số chính Profiles và Levels của tín hiệu chuẩn MPEG -2
2.2.4 MPEG -2 với phát sóng và sản xuất chương trình
Trong lĩnh vực phát sóng và sản xuất hậu kỳ, chuẩn nén MPEG -2 cuốicùng đã
giải quyết được bi kịch đa dạng thức xưa nay.
Để đạt được khả năng này, cần nắm vững yêu cầu và đặc tính của từng ứng dụng
khác nhau.
• Sản xuất tin thời sự:
Chất lượng ảnh đòi hỏi cao khi đi quay ngoại cảnh, nhưng tín hiệu không phải in
đi in lại nhiều lần. Thiết bị nhỏ, gọn, xách tay và dùng ắc quy. Do vậy các thiết bị này
có thể sử dụng tốc độ bít thấp 18Mb/s (đỡ tốn năng lượng, giảm giá thành). Cấu trúc
GOP đơn giản, thuận tiện cho công đoạn dựng hình.
• Lưu trữ:
Cần chất lượng cao hoặc ít nhất bằng ảnh gốc. Công nghệ lưu trữ còn cần sử
dụng tốc độ bít lớn và cấu trúc IB-GOP. Tốc độ lưu trữ là 30 Mb/s.
• Sản xuất hậu kỳ:
Sản xuất hậu kỳ đòi hỏi cả chất lượng và mức độ cao về tính năng dựng hình. Tốc
độ 50 Mb/sản xuất và cấu trúc I-GOP là sự lựa chọn thích hợp.
• Phân phối chương trình:
Phân phối chương trình đòi hỏi khả năng lưu trữ về chất lượng phát sóng quảng
bá. Tốc độ 20 Mb/s (hoặc 15 Mb/s để cung cấp cho máy phát NTSC/PAL thậm chí
thấp hơn cho dịch vụ phát trực tiếp từ vệ tinh DBS).
2.3 Chuẩn nén MPEG-4
2.3.1 Khái quát về MPEG-4
Ngày nay, khi nhu cầu truyền phát các ứng dụng video và đa phương tiện mới
trên hạ tầng kỹ thuật Internet đã làm nảy sinh các yêu cầu chức năng mới không có
trong các chuẩn nén MPEG -1 và MPEG -2 hay các chuẩn nén trước đó. Tháng 10
năm 1998 với sự xuất hiện của chuẩn nén MPEG -4 đã tạo ra một phương thức thiết
lập và tương tác mới với truyền thông nghe nhìn trên mạng Internet, tạo ra một phương
thức sản xuất, cung cấp và tiêu thụ mới các nội dung video trên cơ sở nội dung và
hướng đối tượng (content/object-based). Đây chính là một công nghệ trình diễn truyền
thông đa phương tiện phức hợp, có khả năng truyền thông tại các môi trường truyền
thông đa phương tiện phức hợp, có khả năng truyền thông tại các môi trường : truyền
hình số, đồ hoạ tương tác, World Wide Web. Vì vậy, nhiệm vụ của MPEG -4 là nhằm
phát triển các chuẩn xử lý, mã hoá và hiển thị ảnh động, audio và các tổ hợp của
chúng.MPEG -4 đang được triển khai bởi nhiều nhà vận hành mạng và dịch vụ trên thế
giới với các dịch vụ mới đang được bổ xung để chiếm các lợi thế cấu trúc hạ tầng băng
rộng đang phát triển.
2.3.2 Công nghệ mã hoá và giải mã video trong MPEG-4
- Chuẩn MPEG -4 là một chuẩn động, dễ thay đổi: với MPEG -4 các đối tượng
khác nhau trong một khung hình có thể được mô tả, mã hoá và truyền đi một cách
riêng biệt đến bộ giải mã trong các dòng cơ bản ES (Elementary Stream) khác nhau.
- Cũng nhờ xác định, tách và xử lý riêng các đối tượng (như nhạc nền, âm thanh xa
gần, đồ vật, đối tượng ảnh video như con người hay động vật, nền khung hình…) nên
người sử dụng có thể loại bỏ riêng từng đối tượng khỏi khuôn hình. Sự tổ hợp lại thành
khung hình chỉ được thực hiện sau khi giải mã các đối tượng đó.
Hình 11:Cấu trúc của bộ mã hoá và giải mã Video MPEG - 4
Trên hình 11 là cấu trúc của bộ mã hoá và giải mã Video MPEG - 4, các thiết bị
mã hoá và giải mã video đều áp dụng sơ đồ mã hoá như nhau cho mỗi đối tượng video
(video-object) riêng biệt.Ví dụ khi ta mã hoá và tổng hợp một khung hình, nhiều đối
tượng đầu vào như: ôtô, nhà, người… được tách ra khỏi video đầu vào. Mỗi đối tượng
video sau đó được mã hoá riêng rẽ bởi bộ mã hoá đối tượng video VO (video object)
và được truyền đi trên mạng. Tại vị trí thu, những đối tượng này được giải mã riêng rẽ
nhờ bộ giải mã VO decoder và gửi đến bộ tổng hợp Compositor .Vì vậy người sử dụng
có thể thực hiện các hoạt động tương tác riêng với từng đối tượng (thay đổi tỷ lệ, di
chuyển, kết nối, loại bỏ, bổ xung các đối tượng…) ngay tại vị trí giải mã hay mã hoá.
Ngoài ra, người dùng có thể download các đối tượng khác từ thư viện cơ sở dữ liệu (có
sẵn trên thiết bị hay từ xa thông qua mạng LAN, WAN hay Internet) để chèn thêm vào
hay thay thế các đối tượng có trong khuôn hình gốc.
Các bộ phận chức năng chính trong các thiết bị MPEG -4 bao gồm:
- Bộ mã hoá hình dạng ngoài Shape coder dùng để nén đoạn thông tin, giúp
xác định khu vực và đường viền bao quanh đối tượng trong khung hình scene.
- Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời gian.
- Bộ kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và các
dữ liệu còn lại sau khi đã bù chuyển động.
Trong MPEG -4, tất cả các đối tượng có thể có thể được mã hoá với sơ đồ mã hoá
tối ưu riêng của nó: videođược mã hoá theo kiểu video, text được mã hoá theo kiểu
text, các đồ hoạ được mã hoá theo kiểu đồ hoạ… thay vì việc xử lý tất cả các phần tử
ảnh pixels như là mã hoá ảnh động. Do các quá trình mã hoá đã được tối ưu hoá cho
từng loại dữ liệu thích hợp, nên chuẩn MPEG -4 sẽ cho phép mã hoá với hiệu quả cao
tín hiệu ảnh video, audio và cả các nội dung tổng hợp như các bộ mặt và cơ thể hoạt
hình.
2.3.3 Các Profiles và Levels trong chuẩn MPEG-4
Chuẩn nén MPEG -4 bao gồm nhiều tính năng khác nhau và không phải bất kỳ
ứng dụng nào cũng đòi hỏi tất cả các tính năng của MPEG -4. Để sử dụng công cụ
MPEG -4 một cách hiệu quả nhất, mỗi thiết bị chuẩn MPEG -4 chỉ được trang bị một
số tính năng phù hợp với một phạm vi ứng dụng nhất định và để tạo điều kiện cho
người sử dụng lựa chọn công cụ MPEG -4, các thiết bị MPEG -4 chia thành các nhóm
công cụ gọi là các Profiles, mỗi nhóm Profiles chỉ chứa một vài tính năng cần thiết của
chuẩn mã hoá thích hợp cho một phạm vi ứng dụng nào đó. Mỗi Profiles lại chỉ có một
số các mức Levels khác nhau, thể hiện mức độ phức tạp xử lý tính toán dữ liệu của
công cụ đó (thông qua việc xác định rõ tốc độ bít, con số tối đa của các đối tượng
trong khung hình, độ phức tạp của quá trình giải mã audio…)
Hình sau nói về một số bộ công cụ của thiết bị MPEG -4. Có nhiều Profiles như:
Media Profiles , Scene Graph Profiles, MPEG-J Profiles …
Hình 12: Profiles và Levels trong MPEG -4
Ta xét Media Profiles có: Audio Profiles, Visual Profiles, Graphics Profiles.
Trong đó Visual Profiles gồm các Profiles như sau:
• Simple Profiles (Profiles đơn giản ): chỉ cho phép các loại vật đơn giản (tỷ lệ
chiều cao/chiều rộng là tuỳ ý và tỷ lệ bít thấp) và được tạo ra với các ứng dụng
có độ phức tạp không cao trong việc nhận ra vật. Ứng dụng Simple Profiles cho
di động, truyền các hình ảnh Video có độ phức tạp không cao trên Internet hay
các thiết bị camera ghi các hình ảnh động như: đĩa hay chip nhớ. Có 3 mức
(Levels ) được sử dụng cho Simple Profiles với tốc độ bít vào khoảng 64 - 384
kb/s.
• Simple Scalable Profile (Profiles phân mức đơn giản) : có thể phân chia việc
mã hoá trong cùng một môi trường hoạt động như việc dự đoán trước cho
Simple và có 2 mức được định nghĩa ở Profiles này.
• Core Profiles (Profiles lõi ) : dùng cho các dịch vụ tương tác chất lượng cao,
phối hợp chất lượng tốt với việc hạn chế độ phức tạp và hỗ trợ tuỳ ý hình dạng
của vật. Vì vậy các dịch vụ Broadcast di động được hỗ trợ cho Profiles này. Tốc
độ bít tối đa là 384kb/s cho mức 1 (Levels 1) và 2Mb/s cho mức 2 (Level 2).
• Main Profile (Profiles chính ) : được tạo ra với các dịch vụ quảng bá broadcast,
địa chỉ hoá tiên tiến. Nó phối hợp chất lượng cao nhất với tính linh hoạt của các
vật có hình dạng tự do mà sử dụng đến thang màu nâu để mã hoá. Mức cao nhất
cho phép 32 vật (có nhiều mức) và tốc độ bít lớn nhất là 38 Mb/s.
• N-bít Profiles : hữu ích cho những vùng mà sử dụng những người mô tả nhiệt độ
(thermal imagers), như các ứng dụng kiểm soát. Vì vậy các ứng dụng trong y
học muốn sử dụng để làm tăng độ sâu của điểm ảnh đưa ra một miền ảnh động
lớn trong tín hiệu màu và tín hiệu chói.
• Scalable Texture Profiles (Profiles phân mức kết cấu ): là giá trị trung bình cho
các ứng dụng âm thanh đồ hoạ. Nó được yêu cầu bởi các công ty muốn xây
dựng các thiết bị di động, mà có kết nối đồng thời âm thanh và hình ảnh hiển
thị, đồ hoạ có dạng thức BIFS cơ sở trong các thiết bị đầu cuối rất đơn giản.
• Simple Face Profiles (Profiles bề mặt đơn giản) : chỉ cho các vật có bề mặt đơn
giản (các hoạt ảnh). Phụ thuộc vào từng mức, song trong một khuôn hình tối đa
có 4 bề mặt có thể xuất hiện. Tốc độ bít còn thấp, 32 kb/s là đủ cho việc truyền
tối đa 4 bề mặt.
• Hybird Profiles (Profiles lai ghép) : cho phép liên kết cả các vật tự nhiên và
nhân tạo trong cùng một khuôn hình mà vẫn giữ độ phức tạp hợp lý. Với các
vật tự nhiên, nó so sánh với Core Profiles , còn với các vật nhân tạo, nó cộng
gộp các hoạt ảnh lưới, kết cấu phân lớp và các bề mặt hoạt ảnh - thiết lập nên
bộ công cụ mà tạo ra sự lai ghép thú vị nội dung của các vật tự nhiên và nhân
tạo. Profiles này được sử dụng cho những nơi có vật thật trong thế giới nhân tạo
hay ngược lại kết hợp các vật thật vào trong môi trường tự nhiên.
• Basic Animated Texture Profiles (Profiles kết cấu hoạt ảnh cơ bản): cho phép
hoạt ảnh của các hình ảnh tĩnh và các mặt hoạt ảnh. Dùng cho các nội dung mà
được tạo ra với tốc độ bít rất thấp.
Bạn đang đọc truyện trên: AzTruyen.Top