TRUNG HỌC DUY TÂN - PHAN RANG TRUNG HỌC DUY TÂN - PHAN RANG
Nơi gặp gỡ của các Cựu Giáo Sư và Cựu Học Sinh Phan Rang - Ninh Thuận
 
 Trang BìaTrang Bìa   Photo Albums   Trợ giúpTrợ giúp   Tìm kiếmTìm kiếm   Thành viênThành viên   NhómNhóm   Ghi danhGhi danh 
Kỷ Yếu  Mục Lục  Lý lịchLý lịch   Login để check tin nhắnLogin để check tin nhắn   Đăng NhậpĐăng Nhập 

LÀM THẾ NÀO ĐỂ CHUYỂN CHỮ VIỆT NAM TỪ PDF SANG WORD

 
Gửi bài mới   Trả lời chủ đề này    TRUNG HỌC DUY TÂN - PHAN RANG -> Sử Dụng Máy Tính
Xem chủ đề cũ hơn :: Xem chủ đề mới hơn  
Người Post Đầu Thông điệp
DIEU HUYEN
Niên Khóa 1962-1969


Ngày tham gia: 25 Sep 2008
Số bài: 4676
Đến từ: Vườn Hoa Hạnh Phúc

Bài gửiGửi: Tue Jun 16, 2015 11:19 am    Tiêu đề: LÀM THẾ NÀO ĐỂ CHUYỂN CHỮ VIỆT NAM TỪ PDF SANG WORD


Thưa cả nhà ,

Diệu Huyền vừa nói chuyện với anh NHL, sau khi hàng huyên tâm sự rồi gởi thăm hỏi ủng hộ và chúc mừng đại hội anh có hỏi Diệu Huyền LÀM THẾ NÀO ĐỂ CHUYỂN CHỮ VIỆT NAM TỪ PDF SANG W vì anh đang dự định in lại sách và bài vở cho những lớp giảng của anh. Wow!  hơi hóc búa à nhen không nhớ nữa hình như đã có lần mình giải phóng mấy cái fron pdf thì phải, thôi thì say no từ chối cho được việc ha...ahha..ha....Anh NHL nói anh cũng có thử rồi mà không được nếu có giúp được thì anh rất cám ơn. Wow !! Diệu Huyền co giò bỏ chạy một lần nữa ..hi...hi....nhưng cảm thấy mũi lòng Diệu Huyền liền vội ba chân bốn cẳng chạy tìm người cứu bồ và sau đây là câu trả lời .
Có thể nhiều người có chung câu hỏi nên Diệu Huyền post lên cho mọi người cùng đọc. Đề tài hay biết đâu sẽ có nhiều nhân tài nữa sẽ xuất hiện để cứu bồ cho chúng ta !!!

   "Sở dĩ pdf được nhiều người thích dùng vì in ra dễ dàng và nếu người làm pdf muốn thì họ dễ dàng ngăn chặn được copy bằng cách đổi chữ thành hình hay embed font chữ . Vì vậy găp phải file pdf mà người ta đã không muốn bị copy thì chỉ có cách dùng ocr (một loại program detect hình và convert thành chữ), nhưng ocr cũng chưa phải hoàn thiện đọc chữ nhiều khi trật lất, đòi hỏi phải sửa nhiều khi còn lâu hơn là type lại.

Muốn đổi pdf bị protect thành chữ thì phải chụp trang pdf đó thành hình (hình càng rõ càng tốt) rồi dùng ocr để đọc, nếu pdf bằng tiếng Anh và chữ là vector thì tỷ lệ đọc đúng rất cao có thể 100% nhưng nếu là tiếng Việt thì không được như vậy đâu .

Để phân biệt chữ là vector hay hình (bitmap), thì quý vị phóng to ra . Nếu là vector thì dạng chữ không thay đổi, đường chéo vẫn thẳng băng , màu chữ đồng đều . Nếu là bitmap thì dạng chữ thay đổi, đường chéo gẫy khúc thành hình bậc thang, màu chữ có chỗ đậm chỗ nhạt

Trước năm 2001, tôi là người nắm giữ nhiều truyện Quỳnh Giao đã được type lại bằng text nhất, khi tôi đưa khoảng 83 cuốn truyện Quỳnh Giao này lên internet thì ngay tức khắc bị rất nhiều web site vào chôm, bị chôm quá tôi mới tìm cách ngăn chặn bằng cách mã hóa (encrypt) truyện rồi mới đưa lên internet . Trước kia khi tôi đưa truyện nào lên thì ngay ngày hôm sau truyện đó có mặt ở khắp các web site khác . Nhưng khi tôi đưa truyện "hậu hoàn châu cát cát" đã encryt code lên thì tất cả các web site chôm truyện đều bị thua, không copy được truyện nữa, cho đến 3 tháng sau thì một người (vthuq owner) dùng ocr VnDOCR đọc được các truyện mà tôi encryt code "hậu hoàn châu cát cát", "chuyện đời tôi" và 2/3 truyện "trời xanh nhỏ lệ", người này dùng VnDOCR đọc đúng đến 90% các chữ có dấu, cũng tại vì tôi chỉ encryt code, chữ vẫn hoàn toàn là vector, nên họ phóng to chữ ra rồi mới chụp lại nên tỷ lệ đọc chính xác mới cao như vậy .

Nếu người làm pdf tiếng Việt chỉ embed font thì chữ vẫn là vector thì có thể dùng ocr đổi ngược thành chữ được , nhưng nếu người làm pdf pdf tiếng Việt đổi thành hình (bitmap) thì dùng ocr đọc cao lắm chỉ khoảng 70% thôi, gặp trường hợp này thì quý vị type lại còn dễ và nhanh hơn.

Nếu người không sành sỏi program thì không convert pdf thành text được, nhưng nếu muốn thử thì vào các trang web convert online hay down load program về dùng

http://sourceforge.net/projects/vietocr/
http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

http://www.i2ocr.com/free-online-vietnamese-ocr

Còn VnDOCR thì nó bán, giá khá đắt, trước kia tôi cũng có nhưng di chuyển chỗ ở nhiều quá nên bây giờ không biết để đâu .
ABBYY của Nga khá hay nhưng đòi hỏi người dùng phải teach tiếng Việt cho program learn thì ABBYY mới đọc được tiếng Việt, nên phải giỏi program mới dùng được ABBYY"

Câu chuyện đến đây thì ngưng quý vị có thắc mắc gì thì hỏi thêm và quý vị có gì hay hơn thì cũng xin cho ý kiến để được học hỏi thêm.
DH và anh NHL xin cám ơn rất nhiều


_________________

Về Đầu Trang
Trình bày bài viết theo thời gian:   
Gửi bài mới   Trả lời chủ đề này    TRUNG HỌC DUY TÂN - PHAN RANG -> Sử Dụng Máy Tính Thời gian được tính theo giờ EST (U.S./Canada)
Trang 1 trong tổng số 1 trang



 
Chuyển đến 
Bạn không có quyền gửi bài viết
Bạn không có quyền trả lời bài viết
Bạn không có quyền sửa chữa bài viết của bạn
Bạn không có quyền xóa bài viết của bạn
Bạn không có quyền tham gia bầu chọn


    
Powered by phpBB © 2001, 2005 phpBB Group
Diễn Đàn Trung Học Duy Tân