ExtractParagraphs.cs
// 完毕:
using System;
using System.IO;
using System.Drawing;
using System.Numerics;
using System.Collections.Generic;
using System.Linq;
using GrapeCity.Documents.Text;
using GrapeCity.Documents.Drawing;
using GrapeCity.Documents.Pdf;
using GrapeCity.Documents.Pdf.Annotations;
using GrapeCity.Documents.Pdf.Graphics;
using GCTEXT = GrapeCity.Documents.Text;
using GCDRAW = GrapeCity.Documents.Drawing;

namespace DsPdfWeb.Demos
{
    // 此示例演示如何从现有 PDF 中提取文本。
    // 它将任意 PDF 加载到临时 GcPdfDocument 中,然后
    // 使用 Page.GetText() 方法从该文档的每个页面检索文本,
    // 将所有这些文本添加到 TextLayout 并将其呈现到当前文档中。
    // Page.GetText() 的替代方法是 GcPdfDocument.GetText() 方法
    // 它立即从整个文档中检索文本。
    public class ExtractParagraphs
    {
        public int CreatePDF(Stream stream)
        {
            const int margin = 36;
            var c1 = Color.PaleGreen;
            var c2 = Color.PaleGoldenrod;

            var doc = new GcPdfDocument();
            var page = doc.NewPage();

            var rc = Common.Util.AddNote(
                "这里我们将现有的 PDF (Wetlands) 加载到临时 GcPdfDocument 中," +
                "",
                page,
                new RectangleF(margin, margin, page.Size.Width - margin * 2, 0));

            // 标题的文本格式:
            var tf = new TextFormat()
            {
                Font = GCTEXT.Font.FromFile(Path.Combine("Resources", "Fonts", "yumin.ttf")),
                FontSize = 14,
                ForeColor = Color.Blue
            };
            // 段落的文本格式:
            var tfpar = new TextFormat()
            {
                Font = StandardFonts.Times,
                FontSize = 12,
                BackColor = c1,
            };
            // 渲染文本的文本布局:
            var tl = page.Graphics.CreateTextLayout();
            tl.MaxWidth = doc.PageSize.Width;
            tl.MaxHeight = doc.PageSize.Height;
            tl.MarginAll = rc.Left;
            tl.MarginTop = rc.Bottom + 36;
            // 寡妇/孤儿控制的文本分割选项:
            var to = new TextSplitOptions(tl)
            {
                MinLinesInFirstParagraph = 2,
                MinLinesInLastParagraph = 2,
                RestMarginTop = rc.Left,
            };

            // 打开任意 PDF,将其加载到临时文档中并获取所有页面文本
            using var fs = File.OpenRead(Path.Combine("Resources", "PDFs", "Wetlands.pdf"));
            var doc1 = new GcPdfDocument();
            doc1.Load(fs);

            for (int i = 0; i < doc1.Pages.Count; ++i)
            {
                tl.AppendLine(string.Format("原始 PDF 第 {0} 页的段落:", i + 1), tf);

                var pg = doc1.Pages[i];
                var pars = pg.GetTextMap().Paragraphs;
                foreach (var par in pars)
                {
                    tl.AppendLine(par.GetText(), tfpar);
                    tfpar.BackColor = tfpar.BackColor == c1 ? c2 : c1;
                }
            }

            tl.PerformLayout(true);
            while (true)
            {
                // 'rest' 将接受不适合的文本:
                var splitResult = tl.Split(to, out TextLayout rest);
                doc.Pages.Last.Graphics.DrawTextLayout(tl, PointF.Empty);
                if (splitResult != SplitResult.Split)
                    break;
                tl = rest;
                doc.NewPage();
            }
            // 附上原始文件以供参考:
            doc.MergeWithDocument(doc1, new MergeDocumentOptions());
            // 完毕:
            doc.Save(stream);
            return doc.Pages.Count;
        }
    }
}