Đọc file pdf bằng C#
itextsharp là 1 thư viện hỗ trợ thao tác với file pdf rất đơn giản nhưng vô cùng hiệu quả. Trong bài viết này mình sẽ hướng dẫn một số thao tác cơ bản với thư viện này.
Giao diện
Sau khi download, giải nén ra 1 thư mục và tiếp tục giải nén file itextsharp-dll-core.zip để lấy thư viện. Import thư viện vào project
Code
Tạo 1 hộp thoại mở file(dòng 1) và tùy chỉnh trong form load như sau
Trong sự kiện click của button Browse:
Using 2 thư viện sau để dùng class PdfReader
Nếu chọn file thành công, sử dụng PdfReader
để đọc file pdf đó, chú ý dòng 10 là đọc từng trang của file pdf đó, và số trang được bắt đầu từ 1. Đọc từng dòng của trang đồng thời thêm vào richTextBox.
Khá đơn giản phải không nào. Một vài trường hợp cần lấy từng dòng của file pdf, ta chỉ cần cắt chuỗi vừa lấy được với ký tự xuống dòng "\n" bằng hàm
Split
Để sử dụng hàm Regex.Split()
, using thư viện sau
using System.Text.RegularExpressions;
<string> và </string>
ReplyDeletepdf mà nội dung tiếng việt thì dữ liệu hiển thị không chính xác
ReplyDelete