Đọc file pdf bằng C#

itextsharp là 1 thư viện hỗ trợ thao tác với file pdf rất đơn giản nhưng vô cùng hiệu quả. Trong bài viết này mình sẽ hướng dẫn một số thao tác cơ bản với thư viện này.

Giao diện

Sau khi download, giải nén ra 1 thư mục và tiếp tục giải nén file itextsharp-dll-core.zip để lấy thư viện. Import thư viện vào project

Code

Tạo 1 hộp thoại mở file(dòng 1) và tùy chỉnh trong form load như sau
Trong sự kiện click của button Browse:
Using 2 thư viện sau để dùng class PdfReader

Nếu chọn file thành công, sử dụng PdfReader để đọc file pdf đó, chú ý dòng 10 là đọc từng trang của file pdf đó, và số trang được bắt đầu từ 1. Đọc từng dòng của trang đồng thời thêm vào richTextBox.

Khá đơn giản phải không nào. Một vài trường hợp cần lấy từng dòng của file pdf, ta chỉ cần cắt chuỗi vừa lấy được với ký tự xuống dòng "\n" bằng hàm Split

Để sử dụng hàm Regex.Split(), using thư viện sau

using System.Text.RegularExpressions;

source code

Comments

  1. pdf mà nội dung tiếng việt thì dữ liệu hiển thị không chính xác

    ReplyDelete

Post a Comment

Popular posts from this blog

Gỡ bộ Visual Studio ra khỏi máy tính

Thay đổi quyền ownership trong Windows

Căn giữa thẻ div trong thẻ div