From 7d2a74b8fa85a550dfc0035307c6c0b33a50051e Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Mon, 26 Sep 2022 22:46:51 +0200
Subject: [PATCH 001/101] Add Cloning capability

add cloning capability
includes:
* add clone function
* new  API for add_page/insert_page that returns the cloned page object
* close file when a file name is provided to PdfWriter.write
---
 PyPDF2/_reader.py                             |   2 +
 PyPDF2/_writer.py                             | 100 ++++++---
 PyPDF2/generic/_base.py                       |  80 ++++++-
 PyPDF2/generic/_data_structures.py            | 199 ++++++++++++++++--
 ..._Vicksburg_Sample_OCR-crazyones-merged.pdf | Bin 217108 -> 217096 bytes
 tests/test_writer.py                          |  29 ++-
 6 files changed, 342 insertions(+), 68 deletions(-)

diff --git a/PyPDF2/_reader.py b/PyPDF2/_reader.py
index 655278b8d..56dc78d19 100644
--- a/PyPDF2/_reader.py
+++ b/PyPDF2/_reader.py
@@ -1357,6 +1357,8 @@ def cache_indirect_object(
                 raise PdfReadError(msg)
             logger_warning(msg, __name__)
         self.resolved_objects[(generation, idnum)] = obj
+        if obj is not None:
+            obj.indirect_ref = IndirectObject(idnum, generation, self)
         return obj
 
     def cacheIndirectObject(
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 3a85b6724..0d58e62e0 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -130,6 +130,7 @@ def __init__(self, fileobj: StrByteType = "") -> None:
         self._header = b"%PDF-1.3"
         self._objects: List[Optional[PdfObject]] = []  # array of indirect objects
         self._idnum_hash: Dict[bytes, IndirectObject] = {}
+        self._id_translated = {}
 
         # The root of our page tree node.
         pages = DictionaryObject()
@@ -196,16 +197,27 @@ def pdf_header(self) -> bytes:
     def pdf_header(self, new_header: bytes) -> None:
         self._header = new_header
 
-    def _add_object(self, obj: Optional[PdfObject]) -> IndirectObject:
-        self._objects.append(obj)
+    def _add_object(
+        self, obj: Optional[PdfObject], noclone: bool = True
+    ) -> IndirectObject:
+        if noclone:
+            new_obj = obj
+        else:
+            new_obj = obj.clone(self)
+        self._objects.append(new_obj)
+        new_obj.new_id = len(self._objects)
         return IndirectObject(len(self._objects), 0, self)
 
-    def get_object(self, ido: IndirectObject) -> PdfObject:
+    def get_object(self, ido: Union[int, IndirectObject]) -> PdfObject:
+        if isinstance(ido, int):
+            return self._objects[ido - 1]
         if ido.pdf != self:
             raise ValueError("pdf must be self")
         return self._objects[ido.idnum - 1]  # type: ignore
 
-    def getObject(self, ido: IndirectObject) -> PdfObject:  # pragma: no cover
+    def getObject(
+        self, ido: Union[int, IndirectObject]
+    ) -> PdfObject:  # pragma: no cover
         """
         .. deprecated:: 1.28.0
 
@@ -215,20 +227,33 @@ def getObject(self, ido: IndirectObject) -> PdfObject:  # pragma: no cover
         return self.get_object(ido)
 
     def _add_page(
-        self, page: PageObject, action: Callable[[Any, IndirectObject], None]
-    ) -> None:
+        self,
+        page: PageObject,
+        action: Callable[[Any, IndirectObject], None],
+        excluded_keys: Union[Tuple[str, ...], List[str], None] = None,
+    ) -> PageObject:
         assert cast(str, page[PA.TYPE]) == CO.PAGE
-        if page.pdf is not None:
-            other = page.pdf.pdf_header
+        page_org = page
+        if excluded_keys is None:
+            excluded_keys = []
+        else:
+            excluded_keys = list(excluded_keys)
+        for k in [PA.PARENT, "/StructParents"]:
+            if k not in excluded_keys:
+                excluded_keys.append(k)
+        page = page_org.clone(self, False, excluded_keys)
+        # page_ind = self._add_object(page)
+        if page_org.pdf is not None:
+            other = page_org.pdf.pdf_header
             if isinstance(other, str):
                 other = other.encode()  # type: ignore
             self.pdf_header = _get_max_pdf_version_header(self.pdf_header, other)  # type: ignore
         page[NameObject(PA.PARENT)] = self._pages
-        page_ind = self._add_object(page)
         pages = cast(DictionaryObject, self.get_object(self._pages))
-        action(pages[PA.KIDS], page_ind)
+        action(pages[PA.KIDS], page.indirect_ref)
         page_count = cast(int, pages[PA.COUNT])
         pages[NameObject(PA.COUNT)] = NumberObject(page_count + 1)
+        return page
 
     def set_need_appearances_writer(self) -> None:
         # See 12.7.2 and 7.7.2 for more information:
@@ -250,7 +275,11 @@ def set_need_appearances_writer(self) -> None:
         except Exception as exc:
             logger.error("set_need_appearances_writer() catch : ", repr(exc))
 
-    def add_page(self, page: PageObject) -> None:
+    def add_page(
+        self,
+        page: PageObject,
+        excluded_keys: Union[Tuple[str, ...], List[str], None] = None,
+    ) -> PageObject:
         """
         Add a page to this PDF file.
 
@@ -260,18 +289,27 @@ def add_page(self, page: PageObject) -> None:
         :param PageObject page: The page to add to the document. Should be
             an instance of :class:`PageObject<PyPDF2._page.PageObject>`
         """
-        self._add_page(page, list.append)
+        return self._add_page(page, list.append, excluded_keys)
 
-    def addPage(self, page: PageObject) -> None:  # pragma: no cover
+    def addPage(
+        self,
+        page: PageObject,
+        excluded_keys: Union[Tuple[str, ...], List[str], None] = None,
+    ) -> PageObject:  # pragma: no cover
         """
         .. deprecated:: 1.28.0
 
             Use :meth:`add_page` instead.
         """
         deprecate_with_replacement("addPage", "add_page")
-        self.add_page(page)
+        return self.add_page(page, excluded_keys)
 
-    def insert_page(self, page: PageObject, index: int = 0) -> None:
+    def insert_page(
+        self,
+        page: PageObject,
+        index: int = 0,
+        excluded_keys: Union[Tuple[str, ...], List[str], None] = None,
+    ) -> PageObject:
         """
         Insert a page in this PDF file. The page is usually acquired from a
         :class:`PdfReader<PyPDF2.PdfReader>` instance.
@@ -279,16 +317,21 @@ def insert_page(self, page: PageObject, index: int = 0) -> None:
         :param PageObject page: The page to add to the document.
         :param int index: Position at which the page will be inserted.
         """
-        self._add_page(page, lambda l, p: l.insert(index, p))
+        return self._add_page(page, lambda l, p: l.insert(index, p))
 
-    def insertPage(self, page: PageObject, index: int = 0) -> None:  # pragma: no cover
+    def insertPage(
+        self,
+        page: PageObject,
+        index: int = 0,
+        excluded_keys: Union[Tuple[str, ...], List[str], None] = None,
+    ) -> PageObject:  # pragma: no cover
         """
         .. deprecated:: 1.28.0
 
             Use :meth:`insert_page` instead.
         """
         deprecate_with_replacement("insertPage", "insert_page")
-        self.insert_page(page, index)
+        return self.insert_page(page, index, excluded_keys)
 
     def get_page(
         self, page_number: Optional[int] = None, pageNumber: Optional[int] = None
@@ -576,13 +619,10 @@ def append_pages_from_reader(
         """
         # Get page count from writer and reader
         reader_num_pages = len(reader.pages)
-        writer_num_pages = len(self.pages)
-
         # Copy pages from reader to writer
         for rpagenum in range(reader_num_pages):
             reader_page = reader.pages[rpagenum]
-            self.add_page(reader_page)
-            writer_page = self.pages[writer_num_pages + rpagenum]
+            writer_page = self.add_page(reader_page)
             # Trigger callback, pass writer page as parameter
             if callable(after_page_append):
                 after_page_append(writer_page)
@@ -716,6 +756,7 @@ def clone_document_from_reader(
             (delegates to append_pages_from_reader). The single parameter of the
             callback is a reference to the page just appended to the document.
         """
+        # TODO : ppZZ may be limited because we do not copy all info...
         self.clone_reader_document_root(reader)
         self.append_pages_from_reader(reader, after_page_append)
 
@@ -836,6 +877,7 @@ def write(
 
         if isinstance(stream, (str, Path)):
             stream = FileIO(stream, "wb")
+            self.with_as_usage = True  #
             my_file = True
 
         self.write_stream(stream)
@@ -960,11 +1002,12 @@ def _sweep_indirect_references(
                         )
                     )
             elif isinstance(data, IndirectObject):
-                data = self._resolve_indirect_object(data)
+                if data.pdf != self:
+                    data = self._resolve_indirect_object(data)
 
-                if str(data) not in discovered:
-                    discovered.append(str(data))
-                    stack.append((data.get_object(), None, None, []))
+                    if str(data) not in discovered:
+                        discovered.append(str(data))
+                        stack.append((data.get_object(), None, None, []))
 
             # Check if data has a parent and if it is a dict or an array update the value
             if isinstance(parent, (DictionaryObject, ArrayObject)):
@@ -1004,6 +1047,9 @@ def _resolve_indirect_object(self, data: IndirectObject) -> IndirectObject:
         if hasattr(data.pdf, "stream") and data.pdf.stream.closed:
             raise ValueError(f"I/O operation on closed file: {data.pdf.stream.name}")
 
+        if data.pdf == self:
+            return data
+
         # Get real object indirect object
         real_obj = data.pdf.get_object(data)
 
@@ -1332,6 +1378,8 @@ def add_named_destination(self, title: str, pagenum: int) -> IndirectObject:
 
         dest_ref = self._add_object(dest)
         nd = self.get_named_dest_root()
+        if not isinstance(title, TextStringObject):
+            title = TextStringObject(str(title))
         nd.extend([title, dest_ref])
         return dest_ref
 
diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index fcfcbf275..a055d6df2 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -66,6 +66,31 @@ def hash_value(self) -> bytes:
             )
         ).encode()
 
+    def _reference_clone(self, clone: Any, pdf_dest: Any) -> "PdfObject":
+        try:
+            if clone.indirect_ref.pdf == pdf_dest:
+                return clone
+        except Exception:
+            pass
+        if hasattr(self, "indirect_ref"):
+            ind = self.indirect_ref
+            i = len(pdf_dest._objects) + 1
+            if ind is not None:
+                if id(ind.pdf) not in pdf_dest._id_translated:
+                    pdf_dest._id_translated[id(ind.pdf)] = {}
+                if ind.idnum in pdf_dest._id_translated[id(ind.pdf)]:
+                    return pdf_dest.get_object(
+                        pdf_dest._id_translated[id(ind.pdf)][ind.idnum]
+                    )
+                pdf_dest._id_translated[id(ind.pdf)][ind.idnum] = i
+            pdf_dest._objects.append(clone)
+            clone.indirect_ref = IndirectObject(i, 0, pdf_dest)
+        return clone
+
+    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "PdfObject":
+        """clone object into pdf_dest"""
+        raise Exception("clone PdfObject")
+
     def get_object(self) -> Optional["PdfObject"]:
         """Resolve indirect references."""
         return self
@@ -81,6 +106,12 @@ def write_to_stream(
 
 
 class NullObject(PdfObject):
+    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "NullObject":
+        """clone object into pdf_dest"""
+        return self._reference_clone(NullObject(), pdf_dest)
+
+        return self._reference_clone(NullObject(), pdf_dest)
+
     def write_to_stream(
         self, stream: StreamType, encryption_key: Union[None, str, bytes]
     ) -> None:
@@ -112,6 +143,10 @@ class BooleanObject(PdfObject):
     def __init__(self, value: Any) -> None:
         self.value = value
 
+    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "BooleanObject":
+        """clone object into pdf_dest"""
+        return self._reference_clone(BooleanObject(self.value), pdf_dest)
+
     def __eq__(self, __o: object) -> bool:
         if isinstance(__o, BooleanObject):
             return self.value == __o.value
@@ -160,7 +195,23 @@ def __init__(self, idnum: int, generation: int, pdf: Any) -> None:  # PdfReader
         self.generation = generation
         self.pdf = pdf
 
-    def get_object(self) -> Optional[PdfObject]:
+    def clone(
+        self, pdf_dest: Any, force_duplicate: bool = False
+    ) -> "IndirectObject":  # PPzz
+        """clone object into pdf_dest"""
+        if self.pdf == pdf_dest and not force_duplicate:
+            # Already duplicated and no extra duplication required
+            return self
+        if id(self.pdf) not in pdf_dest._id_translated:
+            pdf_dest._id_translated[id(self.pdf)] = {}
+
+        if not force_duplicate and self.idnum in pdf_dest._id_translated[id(self.pdf)]:
+            dup = pdf_dest.get_object(pdf_dest._id_translated[id(self.pdf)][self.idnum])
+        else:
+            dup = self.get_object().clone(pdf_dest)
+        return dup.indirect_ref
+
+    def get_object(self) -> Optional["PdfObject"]:
         obj = self.pdf.get_object(self)
         if obj is None:
             return None
@@ -239,6 +290,10 @@ def __new__(
             logger_warning(f"FloatObject ({value}) invalid; use 0.0 instead", __name__)
             return decimal.Decimal.__new__(cls, "0.0")
 
+    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "FloatObject":
+        """clone object into pdf_dest"""
+        return self._reference_clone(FloatObject(self), pdf_dest)
+
     def __repr__(self) -> str:
         if self == self.to_integral():
             # If this is an integer, format it with no decimal place.
@@ -273,6 +328,10 @@ def __new__(cls, value: Any) -> "NumberObject":
             logger_warning(f"NumberObject({value}) invalid; use 0 instead", __name__)
             return int.__new__(cls, 0)
 
+    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "FloatObject":
+        """clone object into pdf_dest"""
+        return self._reference_clone(NumberObject(self), pdf_dest)
+
     def as_numeric(self) -> int:
         return int(repr(self).encode("utf8"))
 
@@ -288,7 +347,7 @@ def writeToStream(
         self.write_to_stream(stream, encryption_key)
 
     @staticmethod
-    def read_from_stream(stream: StreamType) -> Union["NumberObject", FloatObject]:
+    def read_from_stream(stream: StreamType) -> Union["NumberObject", "FloatObject"]:
         num = read_until_regex(stream, NumberObject.NumberPattern)
         if num.find(b".") != -1:
             return FloatObject(num)
@@ -297,7 +356,7 @@ def read_from_stream(stream: StreamType) -> Union["NumberObject", FloatObject]:
     @staticmethod
     def readFromStream(
         stream: StreamType,
-    ) -> Union["NumberObject", FloatObject]:  # pragma: no cover
+    ) -> Union["NumberObject", "FloatObject"]:  # pragma: no cover
         deprecate_with_replacement("readFromStream", "read_from_stream")
         return NumberObject.read_from_stream(stream)
 
@@ -310,6 +369,10 @@ class ByteStringObject(bytes, PdfObject):
     /O) is clearly not text, but is still stored in a "String" object.
     """
 
+    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "ByteStringObject":
+        """clone object into pdf_dest"""
+        return self._reference_clone(ByteStringObject(bytes(self)), pdf_dest)
+
     @property
     def original_bytes(self) -> bytes:
         """For compatibility with TextStringObject.original_bytes."""
@@ -342,6 +405,13 @@ class TextStringObject(str, PdfObject):
     occur.
     """
 
+    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> ByteStringObject:
+        """clone object into pdf_dest"""
+        obj = TextStringObject(self)
+        obj.autodetect_pdfdocencoding = self.autodetect_pdfdocencoding
+        obj.autodetect_utf16 = self.autodetect_utf16
+        return self._reference_clone(obj, pdf_dest)
+
     autodetect_pdfdocencoding = False
     autodetect_utf16 = False
 
@@ -415,6 +485,10 @@ class NameObject(str, PdfObject):
         **{chr(i): f"#{i:02X}".encode() for i in range(33)},
     }
 
+    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "NameObject":
+        """clone object into pdf_dest"""
+        return self._reference_clone(NameObject(self), pdf_dest)
+
     def write_to_stream(
         self, stream: StreamType, encryption_key: Union[None, str, bytes]
     ) -> None:
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 7c05324c1..abf176b49 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -25,7 +25,6 @@
 # ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
 # POSSIBILITY OF SUCH DAMAGE.
 
-
 __author__ = "Mathieu Fenniak"
 __author_email__ = "biziqe@mathieu.fenniak.net"
 
@@ -72,6 +71,28 @@
 
 
 class ArrayObject(list, PdfObject):
+    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "ArrayObject":
+        """clone object into pdf_dest"""
+        try:
+            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:
+                return self
+        except Exception:
+            pass
+        arr = self._reference_clone(ArrayObject(), pdf_dest)
+        for data in self:
+            if isinstance(data, StreamObject):
+                if not hasattr(data, "indirect_ref"):
+                    data.indirect_ref = None
+                dup = data._reference_clone(
+                    data.clone(pdf_dest, force_duplicate), pdf_dest
+                )
+                arr.append(dup.indirect_ref)
+            elif hasattr(data, "clone"):
+                arr.append(data.clone(pdf_dest, force_duplicate))
+            else:
+                arr.append(data)
+        return arr
+
     def items(self) -> Iterable[Any]:
         """
         Emulate DictionaryObject.items for a list
@@ -128,6 +149,86 @@ def readFromStream(
 
 
 class DictionaryObject(dict, PdfObject):
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: list[str] = [],
+    ) -> "DictionaryObject":
+        """clone object into pdf_dest"""
+        try:
+            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:
+                return self
+        except Exception:
+            pass
+
+        d__ = self._reference_clone(self.__class__(), pdf_dest)
+        if len(d__.keys()) == 0:
+            d__._clone(self, pdf_dest, force_duplicate, ignore_fields)
+        return d__
+
+    def _clone(
+        self,
+        src: "DictionaryObject",
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str]] = [],
+    ) -> None:
+        """update the object from src"""
+        #  First check if this is a chain list, we need to loop to prevent recur
+        if (
+            ("/Next" not in ignore_fields and "/Next" in src)
+            or ("/Prev" not in ignore_fields and "/Prev" in src)
+        ) or (
+            ("/N" not in ignore_fields and "/N" in src)
+            or ("/V" not in ignore_fields and "/V" in src)
+        ):
+            for lst in (("/Next", "/Prev"), ("/N", "/V")):
+                for k in lst:
+                    objs = []
+                    if (
+                        k in src
+                        and k not in self
+                        and isinstance(src.raw_get(k), IndirectObject)
+                    ):
+                        cur_obj = src[k]
+                        prev_obj = self
+                        while cur_obj is not None:
+                            clon = cur_obj._reference_clone(
+                                cur_obj.__class__(), pdf_dest
+                            )
+                            objs.append((cur_obj, clon))
+                            prev_obj[NameObject(k)] = clon.indirect_ref
+                            prev_obj = clon
+                            try:
+                                if cur_obj == src:
+                                    cur_obj = None
+                                else:
+                                    cur_obj = cur_obj[k]
+                            except Exception:
+                                cur_obj = None
+                        for (s, c) in objs:
+                            c._clone(s, pdf_dest, force_duplicate, (k,))
+
+        for k, v in src.items():
+            if k not in ignore_fields:
+                if isinstance(v, StreamObject):
+                    if not hasattr(v, "indirect_ref"):
+                        v.indirect_ref = None
+                    vv = v.clone(pdf_dest, force_duplicate)
+                    self[k.clone(pdf_dest)] = vv.indirect_ref
+                else:
+                    if k not in self:
+                        self.update(
+                            {
+                                (k.clone(pdf_dest) if hasattr(k, "clone") else k): (
+                                    v.clone(pdf_dest, force_duplicate)
+                                    if hasattr(v, "clone")
+                                    else v
+                                )
+                            }
+                        )
+
     def raw_get(self, key: Any) -> Any:
         return dict.__getitem__(self, key)
 
@@ -522,7 +623,23 @@ def _reset_node_tree_relationship(child_obj: Any) -> None:
 class StreamObject(DictionaryObject):
     def __init__(self) -> None:
         self.__data: Optional[str] = None
-        self.decoded_self: Optional[DecodedStreamObject] = None
+        self.decoded_self: Optional["DecodedStreamObject"] = None
+
+    def _clone(
+        self,
+        src: DictionaryObject,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str]] = [],
+    ) -> None:
+        """update the object from src"""
+        self._data = src._data
+        try:
+            self.decoded_self = None if src.decoded_self is None else src.decoded_self.clone(pdf_dest, True, ())  # type: ignore
+        except Exception:
+            pass
+        super()._clone(src, pdf_dest, force_duplicate)
+        return self
 
     def hash_value_data(self) -> bytes:
         data = super().hash_value_data()
@@ -625,7 +742,7 @@ def setData(self, data: Any) -> None:  # pragma: no cover
 
 class EncodedStreamObject(StreamObject):
     def __init__(self) -> None:
-        self.decoded_self: Optional[DecodedStreamObject] = None
+        self.decoded_self: Optional["DecodedStreamObject"] = None
 
     @property
     def decodedSelf(self) -> Optional["DecodedStreamObject"]:  # pragma: no cover
@@ -682,21 +799,56 @@ def __init__(
 
         # stream may be a StreamObject or an ArrayObject containing
         # multiple StreamObjects to be cat'd together.
-        stream = stream.get_object()
-        if isinstance(stream, ArrayObject):
-            data = b""
-            for s in stream:
-                data += b_(s.get_object().get_data())
-                if len(data) == 0 or data[-1] != b"\n":
-                    data += b"\n"
-            stream_bytes = BytesIO(data)
-        else:
-            stream_data = stream.get_data()
-            assert stream_data is not None
-            stream_data_bytes = b_(stream_data)
-            stream_bytes = BytesIO(stream_data_bytes)
-        self.forced_encoding = forced_encoding
-        self.__parse_content_stream(stream_bytes)
+        if stream is not None:
+            stream = stream.get_object()
+            if isinstance(stream, ArrayObject):
+                data = b""
+                for s in stream:
+                    data += b_(s.get_object().get_data())
+                    if len(data) == 0 or data[-1] != b"\n":
+                        data += b"\n"
+                stream_bytes = BytesIO(data)
+            else:
+                stream_data = stream.get_data()
+                assert stream_data is not None
+                stream_data_bytes = b_(stream_data)
+                stream_bytes = BytesIO(stream_data_bytes)
+            self.forced_encoding = forced_encoding
+            self.__parse_content_stream(stream_bytes)
+
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: list[str] = [],
+    ) -> DictionaryObject:
+        """clone object into pdf_dest"""
+        try:
+            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:
+                return self
+        except Exception:
+            pass
+
+        d__ = self._reference_clone(self.__class__(None, None), pdf_dest)
+        if len(d__.keys()) == 0:
+            d__._clone(self, pdf_dest, force_duplicate, ignore_fields)
+        return d__
+
+    def _clone(
+        self,
+        src: DictionaryObject,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str]] = [],
+    ) -> None:
+        """update the object from src"""
+        self.pdf = pdf_dest
+        self.operations = list(src.operations)
+        self.forced_encoding = src.forced_encoding
+
+        super()._clone(self, pdf_dest, force_duplicate)
+
+        return self
 
     def __parse_content_stream(self, stream: StreamType) -> None:
         stream.seek(0, 0)
@@ -859,8 +1011,9 @@ def read_object(
         else:
             return NumberObject.read_from_stream(stream)
     else:
+        stream.read(-20)
         raise PdfReadError(
-            f"Invalid Elementary Object starting with {tok} @{stream.tell()}"  # type: ignore
+            f"Invalid Elementary Object starting with {tok} @{stream.tell()}: {stream.read(80).__repr__()}"  # type: ignore
         )
 
 
@@ -906,7 +1059,7 @@ def parent(self) -> Optional[DictionaryObject]:
         return self.get(FieldDictionaryAttributes.Parent)
 
     @property
-    def kids(self) -> Optional[ArrayObject]:
+    def kids(self) -> Optional["ArrayObject"]:
         """Read-only property accessing the kids of this field."""
         return self.get(FieldDictionaryAttributes.Kids)
 
@@ -1075,7 +1228,7 @@ def __init__(
             raise PdfReadError(f"Unknown Destination Type: {typ!r}")
 
     @property
-    def dest_array(self) -> ArrayObject:
+    def dest_array(self) -> "ArrayObject":
         return ArrayObject(
             [self.raw_get("/Page"), self["/Type"]]
             + [
@@ -1085,7 +1238,7 @@ def dest_array(self) -> ArrayObject:
             ]
         )
 
-    def getDestArray(self) -> ArrayObject:  # pragma: no cover
+    def getDestArray(self) -> "ArrayObject":  # pragma: no cover
         """
         .. deprecated:: 1.28.3
 
@@ -1154,7 +1307,7 @@ def bottom(self) -> Optional[FloatObject]:
         return self.get("/Bottom", None)
 
     @property
-    def color(self) -> Optional[ArrayObject]:
+    def color(self) -> Optional["ArrayObject"]:
         """Read-only property accessing the color in (R, G, B) with values 0.0-1.0"""
         return self.get(
             "/C", ArrayObject([FloatObject(0), FloatObject(0), FloatObject(0)])
diff --git a/resources/Seige_of_Vicksburg_Sample_OCR-crazyones-merged.pdf b/resources/Seige_of_Vicksburg_Sample_OCR-crazyones-merged.pdf
index 6ce0ca1bbdd36b0685c273fa6f703d9452220a59..0d98ac7de86df942cd91713c7503d72a9b724bc7 100644
GIT binary patch
delta 3275
zcmb7GU2IfE6wb`Di(U2tu~2HDFx#>iXl3ur+_^tk3WZofNLm^M660^%2t->$i-`}q
z`d}b2F*Jh=rB)!tCrwIOk{d%IMx&1=MvQ?3@xeZr7+U+H4HBKXcYp5Ag2bCmZtuD0
zoH^h5zH@F*o->Z0GfuQ+u#HUAjVKLnmKolh;Ko9uZ4N*G!Fo%XlG&ZFn<hcQ`|yDx
zxBSLJ81vilx^xhkY->}$?Dm2Fp}zj1LG&ELK^lY^-vyd^%Um7*GVd+u+>V$y+Y27!
z>_RPI{QJymVDmpRtN0i2QI6Iv;-8M!@zb%CiV$6GaF2XFJeT%|Qn7zF3)~AD#l?7R
zTgnSdk@>JG9UA>~A~qH0Xs%J*=>_ljCx3+VS-vk(E0eC}#}h`Oge}oXqDpCjn8-TT
z08`e{04SfW$N8@Gbd1l`r^L!ra20=h*&hB#L-^ny{ubUb+@PBSuN+RcwkEUPeS-r>
zkM#5nB3$U#-nZW9L)osEU+t@C3MG63q<J@}hu9I5BXC7ME;O}+AX4aj2Svmczl^|b
z5W8Y_5^jXp6V4QDUPc1ilG(ij&-Nec8R+dp1dBJPpjk^u&=JW(Uw^MEOon{)4g4Gu
zQ&<;aCzOs$Pr=9i>;#MfzW<=X@75>9cT?~fBvkCb3ODd$<El+H;@v#V_)}NmPYWTj
z!U6~r=+c7<c=3`dAkdeRL7@N{g0H~qfQa*#;F!E^$-`zy9G;$A=F1}{7IOEpA?{AX
zCP+N7_soOR^D{C%4UtFEd;a?u;UNI2DJfg7khF`IQP>Ws=pU6QQLIi<VAlFSj6zxq
zDe+|s&c?)ti-0k_GRbE_>xK%s)5sG=ltl$k`OoncEur4C9TuV?bFw1&yN~p#C#Amz
zQcISRE^8V2U$?<s`^D3ppefL@LBq~v%VOT)!s)o!*$o2ODn;k~oA<y?4^q{>w49|a
z6=8vrp8#%twtmF|NWGBieKTN(A<ldZQU$O)6<f6=6iP7P7P2fg#mz-j6j>qW2coig
zdmM?xI2bBS=GZtG+a+alz_1Egia475jbq?OTzv93X!2)z!Do)}?tvzLd)(zGGKmWR
z!YEoyjUVqyC;Z(nfnQ_LvO_3Gy1{uvEItK`yfsIdBFKuYCW)c29n=c55DOO7{~(SL
zNgN87O=$%o|5hh>4FXH<m|lYw=CBNPa3{DPhs+Gf4pvY$1twa>$SADi=l(JR%A#Q*
zVv(4D>+{#{vL%qw;ib!~CCMT{DPk3pWJ;1wkvxo8ahW_^oh(!*)76<r^G6|MOycM<
zSX7z$;kkK<&@Lg&-?-ed8M3k>qwWQG*(<Py|5?95QJUY{a4QB`D9-%Eg*%IdKLu;~
z?_g^~1SCN=F3%lBHsJ}dw*9|QW;+<NA0k{k5bk?d13F#^#M_vkIe2;#lm{rVwkF?3
zUyk8!kiXV5vH;q&410Rr{3dbWI_ybBA_@Ywm4G+pYnD&PpdD&AKbaUe#H~d!gZCsd
zV(^*RlR4Q}b)kNg4E``pteU6UsKTV#m{fF?&91iDSdYcFtrnWPa;1Z@OVqTet7N05
z?MZ!WHb-p+&E|U5v7TbD(vO&?6lTPhGfhe`sS0L}+JzBE>Brpa0-0BZnA+Hqo2@d|
zrs_Mb+dL;%Wwbr{<<=bUgU<D;D4`x!i?1@)qpT{Q$5;_?uE@KEnOa>H!4`JZx3tnm
zOt%<ZiY3IY@^eV(kdmK^UG0pVX}K2Gd2&q8)T@^Hs#@(jtcoVru{}MX>pJS+%nBeL
z!LErU|MDsc&LftowGd<M>Xcwina(jLj!QIj(&o8(KH{0>qI2QcVJgvSEtED#Z#AZr
zsnr@STGoPf^<ySk(xwD6Y^t?i5u0O{=V~*H8I!%y9HnGDy+G#JRMP@>sHJN`+H6as
z1Ur`PN{WO27u$~=msM5hxK0%kk9w9~jK^%9I)Y7C-vI<;Gct;+gRLhwfT=!S(bf>T
b2Tk!+XDkD4NBq_qYph``naMoW*^&Gg<z_jc

delta 3287
zcmb7GUu+ab7|+bnlwP`_5lTR?-Bv0{E8W?hotee<6p$7wv_dEb6ttG6tw4(u0vPKV
zVuFTZO9nHgrV%UffTG3=E?}!KJ{ul1L=Djx!SFyV)<lRHo!Q-MclYdr_po>S-8bLw
z_x-*<yKkJ*PMp#PQl(fo^o_dhU5R(4-j#V*=XmSU64UcZR<GS{7^Y6V|NT2lCq&%1
z1Q!9qmw|aRO+Spq8$qSBv8|_j|K8TN9vyqZlGU3I?P=4ipK57uOUmoswyu3TQYVtt
ztGc`P$=e?N868u8<!Bj9rT93wpEr#@-WbKl9?L8~_L%#3SjUzZE|p4F*U5-_O^y6v
z=qNZ+hjoNQM6oG}mU0a5`!Ae;n#$VJvEdU{cUZUlgr>!@bc=>?ETV7#Jzi8S(%WE7
zEF&wFgFG2hTOxUqCZ|P;Wn>`_iDi+tM76U*Sy;O1gmW_ex=xFPbQJK6%V>J(@wN4Z
z#}_2M1Y4r8rk{k@KoT}2tfc?{V134QHm?K=f_6h*&iv;Cv&EW*L@A$tP!qe(!3SJk
zlNiw;GDXWdxR|5f4gB|mrubqrC~#kAiR%eIvsV-MCcs0kwB1MmB*rHIa}S?|*Ajg2
zsP|u0X6d0H6Fk{hDE@8+&6*h~*tAMVOgy(4R6)e}T~Gp%!{@<;>g$&SHZX-=1mANn
z+=F+PLlcRzB3LHUEpTNdf+K#q49ngAVz3UlFaHTo&fr`6HBnUr=knCp254HYbhs=d
zSlostG_iPTJ=~fn(M?;S&*#^{Y+&*`pj7!N0w!@~zQwcnk)gS~XoV)O(8Ob!8I0f*
zZ@zBCLweio?0~Clq3MK4hTH>^<1O%N9`8IIp~nZtbobZoa6g0=QaUejaU;aD_&XOh
z@ydGGtXcj@R!;&y!fQthU76ylT4>=AX4o^pY)Hay^Tc0sz=MGt9$rH}+$Hgdk4Nr+
zQ<@lW2AV5tSu_J$Oo{ZoW(Dm%g$%qD-*p#{f@M?{sN63}*fT&re*t`-C;sRFJyKUy
zr84);PB8qW-&tR81@)RZ^10+S0GRk>0^}D4V>^jfB{offMSNF%uUotj{NRY+CV;P<
z4~jzvruyJ|9>l~GCCE54Ft+n)h^g1anXfJ$OdxNacE9jq(pztndk*P#ka3-<+u2!_
ztIOfb`&L5ih}#ojG2cFz4{gj}9jTmS2esMM-Q3mL+P$Mqw@p4aV$8PvE|<HYt!sxu
zvJG{(n7?-VFtB;zOeM6vo}R;phZbcz&RDZWvJpO<+5A=lh>mSg<2R2zAz?m!zY_pk
z&D9bgnDO?(X@JiT8U?n$sZ%NOWjicZ!<poJ`a5~;P>IBScBoPYyWI?mGs8n4%QP6j
zIrt5<Lzxkif7CY(z^y)`fMhchU6<eje&ytD{#}0wB#7VbUn+K9mV-AuRFT;}a5W#w
zSjMprA+fwh%Y4v#OB3g5qO~y4HdN|0EaBDmMCNAw-D=TU<KNEpOHD!t{8DF*tr*P%
zMCDQ*6xwUD%su!|t!QsZJern7)kp8rlim-*K&mV;n?>YqjoC1jtrfEohvwKEwalV^
z2&qS?`lP3TkwtS3BchhN`h@%l&9T|0d|bx-Y|E5_M9&h7MbD<?{}fyDSrK()IG2oL
ztLIJB&mmM!L(E2TPCSP?vgaaxrft|b9XAq+;)gL}B#>)T1&kc^oQwp-rlA@;W<y9W
z*{IESSQaCltve>jiXSG(VR2w0TOr2}V<S$6FiY*b2ryyTi7A*im`o+!Ak1btC1HdZ
zS=L$7j)8Lg9GP$o#Bfj!86>rm{h{hV)m+G+CXJCnCZTGwB7T-3wa&3wYV0F^*tXQG
zRn$ftHmOY7A3H=G%wn=4YT$T{rOj4vSCN3!phm35($C2uNNq;rerZZjj*&`bCK(0<
zDajc{L<y7H#mG?g_8zk_$BC5=QMneRf}Z}_u9ikC-f+@pv$)g@5j!4`Ar_x^#B7`+
tKeMF_lLSk=ttb23P_L;GSsjO9@mW)%0wP0PYf6+C5Spy0Slv{Y{1?k2Ci?&Y

diff --git a/tests/test_writer.py b/tests/test_writer.py
index 7b5c6f303..3250fb587 100644
--- a/tests/test_writer.py
+++ b/tests/test_writer.py
@@ -11,6 +11,7 @@
     NameObject,
     RectangleObject,
     StreamObject,
+    TextStringObject,
 )
 
 from . import get_pdf_from_url
@@ -478,15 +479,18 @@ def test_add_named_destination():
 
     assert writer.get_named_dest_root() == []
 
-    writer.add_named_destination(NameObject("A named dest"), 2)
-    writer.add_named_destination(NameObject("A named dest2"), 2)
+    writer.add_named_destination(TextStringObject("A named dest"), 2)
+    writer.add_named_destination(TextStringObject("A named dest2"), 2)
 
-    assert writer.get_named_dest_root() == [
-        "A named dest",
-        IndirectObject(9, 0, writer),
-        "A named dest2",
-        IndirectObject(10, 0, writer),
-    ]
+    root = writer.get_named_dest_root()
+    assert root[0] == "A named dest"
+    assert root[1].pdf == writer
+    assert root[1].get_object()["/S"] == NameObject("/GoTo")
+    assert root[1].get_object()["/D"][0] == writer.pages[2].indirect_ref
+    assert root[2] == "A named dest2"
+    assert root[3].pdf == writer
+    assert root[3].get_object()["/S"] == NameObject("/GoTo")
+    assert root[3].get_object()["/D"][0] == writer.pages[2].indirect_ref
 
     # write "output" to PyPDF2-output.pdf
     tmp_filename = "dont_commit_named_destination.pdf"
@@ -698,14 +702,7 @@ def test_write_dict_stream_object():
     # Writer will replace this stream object with indirect object
     page_object[NameObject("/Test")] = stream_object
 
-    writer.add_page(page_object)
-
-    for k, v in page_object.items():
-        if k == "/Test":
-            assert str(v) == str(stream_object)
-            break
-    else:
-        assert False, "/Test not found"
+    page_object = writer.add_page(page_object)
 
     with open("tmp-writer-do-not-commit.pdf", "wb") as fp:
         writer.write(fp)

From c6ac1e2943462ee50005c0e81f02f6c6729d1e75 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Tue, 27 Sep 2022 22:25:56 +0200
Subject: [PATCH 002/101] exclude_fields can be propagated

---
 PyPDF2/generic/_base.py            | 71 ++++++++++++++++++++++++------
 PyPDF2/generic/_data_structures.py | 45 ++++++++++++-------
 2 files changed, 85 insertions(+), 31 deletions(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index a055d6df2..c1cf68000 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -30,7 +30,7 @@
 import hashlib
 import re
 from binascii import unhexlify
-from typing import Any, Callable, Optional, Union
+from typing import Any, Callable, List, Optional, Tuple, Union
 
 from .._codecs import _pdfdoc_encoding_rev
 from .._utils import (
@@ -66,6 +66,15 @@ def hash_value(self) -> bytes:
             )
         ).encode()
 
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
+    ) -> "PdfObject":
+        """clone object into pdf_dest"""
+        raise Exception("clone PdfObject")
+
     def _reference_clone(self, clone: Any, pdf_dest: Any) -> "PdfObject":
         try:
             if clone.indirect_ref.pdf == pdf_dest:
@@ -87,10 +96,6 @@ def _reference_clone(self, clone: Any, pdf_dest: Any) -> "PdfObject":
             clone.indirect_ref = IndirectObject(i, 0, pdf_dest)
         return clone
 
-    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "PdfObject":
-        """clone object into pdf_dest"""
-        raise Exception("clone PdfObject")
-
     def get_object(self) -> Optional["PdfObject"]:
         """Resolve indirect references."""
         return self
@@ -106,7 +111,12 @@ def write_to_stream(
 
 
 class NullObject(PdfObject):
-    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "NullObject":
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
+    ) -> "NullObject":
         """clone object into pdf_dest"""
         return self._reference_clone(NullObject(), pdf_dest)
 
@@ -143,7 +153,12 @@ class BooleanObject(PdfObject):
     def __init__(self, value: Any) -> None:
         self.value = value
 
-    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "BooleanObject":
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
+    ) -> "BooleanObject":
         """clone object into pdf_dest"""
         return self._reference_clone(BooleanObject(self.value), pdf_dest)
 
@@ -196,7 +211,10 @@ def __init__(self, idnum: int, generation: int, pdf: Any) -> None:  # PdfReader
         self.pdf = pdf
 
     def clone(
-        self, pdf_dest: Any, force_duplicate: bool = False
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
     ) -> "IndirectObject":  # PPzz
         """clone object into pdf_dest"""
         if self.pdf == pdf_dest and not force_duplicate:
@@ -208,7 +226,7 @@ def clone(
         if not force_duplicate and self.idnum in pdf_dest._id_translated[id(self.pdf)]:
             dup = pdf_dest.get_object(pdf_dest._id_translated[id(self.pdf)][self.idnum])
         else:
-            dup = self.get_object().clone(pdf_dest)
+            dup = self.get_object().clone(pdf_dest, force_duplicate, ignore_fields)
         return dup.indirect_ref
 
     def get_object(self) -> Optional["PdfObject"]:
@@ -290,7 +308,12 @@ def __new__(
             logger_warning(f"FloatObject ({value}) invalid; use 0.0 instead", __name__)
             return decimal.Decimal.__new__(cls, "0.0")
 
-    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "FloatObject":
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
+    ) -> "FloatObject":
         """clone object into pdf_dest"""
         return self._reference_clone(FloatObject(self), pdf_dest)
 
@@ -328,7 +351,12 @@ def __new__(cls, value: Any) -> "NumberObject":
             logger_warning(f"NumberObject({value}) invalid; use 0 instead", __name__)
             return int.__new__(cls, 0)
 
-    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "FloatObject":
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
+    ) -> "FloatObject":
         """clone object into pdf_dest"""
         return self._reference_clone(NumberObject(self), pdf_dest)
 
@@ -369,7 +397,12 @@ class ByteStringObject(bytes, PdfObject):
     /O) is clearly not text, but is still stored in a "String" object.
     """
 
-    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "ByteStringObject":
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
+    ) -> "ByteStringObject":
         """clone object into pdf_dest"""
         return self._reference_clone(ByteStringObject(bytes(self)), pdf_dest)
 
@@ -405,7 +438,12 @@ class TextStringObject(str, PdfObject):
     occur.
     """
 
-    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> ByteStringObject:
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
+    ) -> ByteStringObject:
         """clone object into pdf_dest"""
         obj = TextStringObject(self)
         obj.autodetect_pdfdocencoding = self.autodetect_pdfdocencoding
@@ -485,7 +523,12 @@ class NameObject(str, PdfObject):
         **{chr(i): f"#{i:02X}".encode() for i in range(33)},
     }
 
-    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "NameObject":
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
+    ) -> "NameObject":
         """clone object into pdf_dest"""
         return self._reference_clone(NameObject(self), pdf_dest)
 
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index abf176b49..52096f7a2 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -71,7 +71,12 @@
 
 
 class ArrayObject(list, PdfObject):
-    def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "ArrayObject":
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
+    ) -> "ArrayObject":
         """clone object into pdf_dest"""
         try:
             if self.indirect_ref.pdf == pdf_dest and not force_duplicate:
@@ -84,11 +89,11 @@ def clone(self, pdf_dest: Any, force_duplicate: bool = False) -> "ArrayObject":
                 if not hasattr(data, "indirect_ref"):
                     data.indirect_ref = None
                 dup = data._reference_clone(
-                    data.clone(pdf_dest, force_duplicate), pdf_dest
+                    data.clone(pdf_dest, force_duplicate, ignore_fields), pdf_dest
                 )
                 arr.append(dup.indirect_ref)
             elif hasattr(data, "clone"):
-                arr.append(data.clone(pdf_dest, force_duplicate))
+                arr.append(data.clone(pdf_dest, force_duplicate, ignore_fields))
             else:
                 arr.append(data)
         return arr
@@ -153,7 +158,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: list[str] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
     ) -> "DictionaryObject":
         """clone object into pdf_dest"""
         try:
@@ -163,6 +168,8 @@ def clone(
             pass
 
         d__ = self._reference_clone(self.__class__(), pdf_dest)
+        if ignore_fields is None:
+            ignore_fields = []
         if len(d__.keys()) == 0:
             d__._clone(self, pdf_dest, force_duplicate, ignore_fields)
         return d__
@@ -171,8 +178,8 @@ def _clone(
         self,
         src: "DictionaryObject",
         pdf_dest: Any,
-        force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str]] = [],
+        force_duplicate: bool,
+        ignore_fields: Union[Tuple[str], List[str]],
     ) -> None:
         """update the object from src"""
         #  First check if this is a chain list, we need to loop to prevent recur
@@ -183,6 +190,7 @@ def _clone(
             ("/N" not in ignore_fields and "/N" in src)
             or ("/V" not in ignore_fields and "/V" in src)
         ):
+            ignore_fields = list(ignore_fields)
             for lst in (("/Next", "/Prev"), ("/N", "/V")):
                 for k in lst:
                     objs = []
@@ -208,21 +216,21 @@ def _clone(
                             except Exception:
                                 cur_obj = None
                         for (s, c) in objs:
-                            c._clone(s, pdf_dest, force_duplicate, (k,))
+                            c._clone(s, pdf_dest, force_duplicate, ignore_fields + [k])
 
         for k, v in src.items():
             if k not in ignore_fields:
                 if isinstance(v, StreamObject):
                     if not hasattr(v, "indirect_ref"):
                         v.indirect_ref = None
-                    vv = v.clone(pdf_dest, force_duplicate)
+                    vv = v.clone(pdf_dest, force_duplicate, ignore_fields)
                     self[k.clone(pdf_dest)] = vv.indirect_ref
                 else:
                     if k not in self:
                         self.update(
                             {
                                 (k.clone(pdf_dest) if hasattr(k, "clone") else k): (
-                                    v.clone(pdf_dest, force_duplicate)
+                                    v.clone(pdf_dest, force_duplicate, ignore_fields)
                                     if hasattr(v, "clone")
                                     else v
                                 )
@@ -629,16 +637,19 @@ def _clone(
         self,
         src: DictionaryObject,
         pdf_dest: Any,
-        force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str]] = [],
+        force_duplicate: bool,
+        ignore_fields: Union[Tuple[str], List[str]],
     ) -> None:
         """update the object from src"""
         self._data = src._data
         try:
-            self.decoded_self = None if src.decoded_self is None else src.decoded_self.clone(pdf_dest, True, ())  # type: ignore
+            if src.decoded_self is None:
+                self.decoded_self = None
+            else:
+                self.decoded_self = src.decoded_self.clone(pdf_dest, True, ignore_fields)  # type: ignore
         except Exception:
             pass
-        super()._clone(src, pdf_dest, force_duplicate)
+        super()._clone(src, pdf_dest, force_duplicate, ignore_fields)
         return self
 
     def hash_value_data(self) -> bytes:
@@ -820,7 +831,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: list[str] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = None,
     ) -> DictionaryObject:
         """clone object into pdf_dest"""
         try:
@@ -838,15 +849,15 @@ def _clone(
         self,
         src: DictionaryObject,
         pdf_dest: Any,
-        force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str]] = [],
+        force_duplicate: bool,
+        ignore_fields: Union[Tuple[str], List[str], None],
     ) -> None:
         """update the object from src"""
         self.pdf = pdf_dest
         self.operations = list(src.operations)
         self.forced_encoding = src.forced_encoding
 
-        super()._clone(self, pdf_dest, force_duplicate)
+        super()._clone(self, pdf_dest, force_duplicate, ignore_fields)
 
         return self
 

From f9d7d19010a93fc5820c20825914437a45ddab00 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Tue, 27 Sep 2022 22:48:21 +0200
Subject: [PATCH 003/101] BUG : write reuse

fix #1338
---
 PyPDF2/_writer.py                             |   7 +++----
 ..._Vicksburg_Sample_OCR-crazyones-merged.pdf | Bin 217096 -> 217097 bytes
 2 files changed, 3 insertions(+), 4 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 0d58e62e0..39046827e 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -155,15 +155,14 @@ def __init__(self, fileobj: StrByteType = "") -> None:
         self._info = self._add_object(info)
 
         # root object
-        root = DictionaryObject()
-        root.update(
+        self._root_object = DictionaryObject()
+        self._root_object.update(
             {
                 NameObject(PA.TYPE): NameObject(CO.CATALOG),
                 NameObject(CO.PAGES): self._pages,
             }
         )
-        self._root: Optional[IndirectObject] = None
-        self._root_object = root
+        self._root = self._add_object(self._root_object)
         self.fileobj = fileobj
         self.with_as_usage = False
 
diff --git a/resources/Seige_of_Vicksburg_Sample_OCR-crazyones-merged.pdf b/resources/Seige_of_Vicksburg_Sample_OCR-crazyones-merged.pdf
index 0d98ac7de86df942cd91713c7503d72a9b724bc7..fea766cc7a309893cb69bc29a73831405e8e784e 100644
GIT binary patch
delta 3233
zcmai0U2IfE6wb`HX<2qdLtBDS?C>YVBAx$xZ_^T`v6W(}5L*oiXe|vbDJ_a980#7|
z5kj$T=3#0R5=7wv1EMQgBb4~ygHOg64Kbp=h~Ytn^g$#|bnee)?@tMB(%m_oGv|Eg
z`_7p;b~=0fbaujS;0U7~h*;hS^H-dBD{gxq!Z%7X*|$|c)sd=K`$1-Md0OXo!RE(>
zyC>baWk1Fgc@F-9A*b{ojtKQun>M8z+eU_8Ma|9T3r2*ijbLe|cL*X<Z3Fe{F39LN
zJ7HH@S1XeGg&y#b`W;j&4r^2fE(DfZ3hT^Y0V%Nc$||^0ZJOB*EdAS8aAkfD{@0?m
zw6D^+Ubs0+u%ClDi4b?gs{F|(u9gF$Q58I$ztw)PQ7t>1QGdVQ0H}Vs6TTR6VQ%yd
z>dxV6m4;bJh#Oi}j%M}TEZC5L^vJI%b#!#SBBR^Y2PZOm=saAJ|77&9tV)k%GCTSY
zjvRWWum2z-w)*VE!+@#pPc*5~vCNuM2?!!Vo!Tg(K{4AHqK;}BYXy$JGYi(K-BXnS
ztBYeBsy$}Xjn9sB4-fW@?CD38sz1lbVpc3~|L~rXm-eM8R`}!vK-4cMpHVx<z1-^Z
zJ@1zRz}z!y)q(M2fUAGU8vu8!Sffr&ug&kCxL%=e&w}+{NU8Qt%^&jI6j|&^CT$ok
zhLq~o)DP;|bjB@D+5{L>Ez|YDR=cJfe5z{lr=~Aelu%VbhSghV=8rLRhAj5smSQmc
z`A7SJ;m?Ec_Q&r4s>;r~<OLAc<Ok03YSnTzK>W>@M^b=KR@HiH?To0Eg;oqP8P+TF
zrJU5Ozp0HQ=7glnu`6B3L`abNiJ772^r7V-5F_&o)>sl_VZ0XHEZ29s!D=<sK3b@)
z13x=@tjBMF?rhk@)8b=(=}6&P54f3v9P8fmaDCysouEBCxoF8e7`fkfUVk#geVKSG
zj<}Eiz8KAZ8OCTCj7TrL3|56Yu5f%1Om5ZhT`9uk-ndAIVP3clek#}9vjNO?SHVWh
zRhif4-Py2*-*S-4f?>F>%(S(KP~HU}W`R9Fk32MK7!pCxyAz2calg4UKaYZW7z+zv
zfKg4%ph8Cl9D=&O3a)m?N^2%)!Vr-iY4~HgKF|q$BEPPJmzwp$ZO}v56L#<c>VaJ_
z>&=S--v-5^l0=^miIO4_S{Y~&iHZkElps+YEitu9U#%jnRuAYOyWwk4f4diYl5Nc-
z6??lEUN6_5o(+Hw48Zml-Epo6G~^I4DZCM86^@>RH&RgIg5h(?qM}&)Lii|>5wXgM
zSmgu68bce<E07FJSh^CfhteAt!M#y1*TR)1T{Gu{-kg<50h>O38Wi662Tqsii&n}f
z`HMMtuSsvQQ-O@begVsa%_;A$cto3qT~K(}PTfouC9RrMXR>;4N2)hRu>t4)pkb8u
zz8L8elSa%YgeghPCdoWDH<idfBBh<M+0-!t!8jKR%&_I&{t;(mbByw0Hb*4(5u8Yd
zQ7lbEMtv!<!@edy#!OhY5p;B;aBz5|w@+e{NJbJTj*dwt6X!|p&WdOZY31fI&V$b6
zV&ollc8C+FjyW7Bf;f`Ifp8*C-QDAICEhu)ta#R(k_083GWUjxB*QJ13}RCrFF&`r
z+gc@GxBeD(+-XrVx;82krM4}Rpvkr@_hO0o+P3AGZjRU-N?FpzMJ`rCLJXa;WC&p*
z&M~1zGBI?7+D1yzz=S$Do-|<wTu{MWvF(h}j+dG+Cf#Rb7>UV+#??;*c6dx5L=a+L
z#Zg}&u=~^qotMKz2x`TH2#MVncxa>9XGtd}Bw{fU*MhN0Cq@aej6mX5wQPxLE*8X8
zHG#xojuTJD5z@V%!U<A>o%jr(rU>y?q{RFdef71j)C%(~z0s9gU1_D)u6?qrE&V^_
C#~XG4

delta 3111
zcmZ`*TWnNC7|zVLrEGS!DYRg?^iXbM!OrE(oH<Pap|OA%N)3V$0s-2zC9)+#Oq&SH
zn<#~JGY<n534)Ml;w5g#X{3$#pika-&?qqwuaTHYjN&E1=*-#O_MF+W58XZg&OiVE
z{onV0-51ZLkDW^oizezI=LrY%@QoIpTogXJUiiieL5^~JH|B0WvdlHnWb=mo2oWbd
zQh1<_nEb|dFqXfL)dMPP#%EWDISytLjW^^zNy#1K_3|oc1x$5bf)B`gI0G>G5S$OV
z+yLjwWpJh(gbl!xo#W2}u3oJJ3-T)x|E-j#V52&48LUnDg<2hL4o2qt#{Bzh#wz9V
zHI4bR>jsc~eqBm74m1I*uUMdK`ReFaP!&xhruK4(i75;*lG6w0$)5*m)$k>_B)@a;
zW&*hK+UQc*eYjJ1r$6Oy9KM~_Eq;2uz65;B;DK(ZdGqd`?qqXYf96nk=FmZByF-br
z7;4e|uO6B`t2mZ+;*jF(+Nnc?%nY>wp+49OmQLT+*LA4(po4w+-O%zG;rNryTl$~O
z^zH5M>UId03r^r#5@KGpD%qXs>ff_3sgHM^coQI5dvdb|YC3%BWCZ}kTv{iqNBU%X
zxIt5}Vz^2F?Hr$(-#`5CH2KtUN`1T)%q^8AOul?->ay2Q;o49e$;q<%_`K6!Xj+O@
zj%l2^k*1KXnR5T|;{2Z@$ER7)h%etgKXr}Y&g0qw<VX!a?_Ssk04fz(Bk#PnR)Z85
z3!Iuli}GhKx-$UDUmHD_ke`pHa&wYuS1)L7ifNQao~T1vRHf82DouqFPd2x^4iyo>
zQeO+!(K48jp_Bh%{PAsCx3~^;r3#a24n-Jf5mr|zq@^g&t~(NJm<zt~)$4P>LU~|d
zRhmZ57L`XupeH!10_rlFy8vtl>(lD%r@=jNxOlR2>bM0pgnQ^Zt{cOlzh)5}E;oy(
z*7t(6UcH{;Mg`-2Ah%IH*ayO$YAa1)a;JiCFN5oqYSZN+rtM?kVNYGTQpDsI$7T`=
znAEY~LE30*iF)S}tO|Dg0e(#AjWO{0{s!mMz{}OtO~H{H@ebX5al4JjxDE@Qq|}|w
z5hDg0bVY=u;K(%i3{<zO;KI-?(yX{r5okw}@XJc|%XDoh^Lt@7xKjh)ZdF@qV1ch_
zMu=?%AR&yNO_1NOR&Rp$V2Q=l#$sw?q1tAZ)P@~a@&-$I%m}XmvZ(TcIlJI<P`$9T
zXn|=KkyOD0gGGDbSCuNa8#V?S)Q2n8-JTMj$l)TM(0g#8iTXYPbwxwc*c<TneE>~O
z5|0Ux#{|ej0XE(PT0yw&%;8a4a;}cP2c6KPi#FdF@GJ0ii?%SmV0+U%qA+AOECYhK
z{(>VF>a#l~;%?oA|Fo#}cZ)!yDFsnN&Www+1fwGHQ%Q{<wI(j4A@_2xAl3I+Vt1Bu
zO_g~$87CQjK!|DemBn~@jAJ_&b8d{rye96$f*4`PVia*-YZIYt<RC?!YbR4A{PJYq
zP!hk8Af!cQ#V{$$WuCF5iF3L>LX?T}4w+wum~w3FXCgVw<<$I&uw%adg<!?_6fu!4
zM<@I;N~n*G>BKMeDJv`DGiD=pF*7a`%XP6w3QcDxd2)%KwSABfVWV?BQeH%0QC38_
z*rv%tK8iJM=CAK78@2FQj3?8+@VIYZD1>Kzwwc$2;CzBbdCW!D1Tn_K&&Ikz2xH1@
zjxq5BvC!$5FYF76kL;!~)!?iN>X=uWbhgwrrj!|5j3Uv!U|S!UX_l-l!3^u2wQ`y3
z3u|RDV|p~Pb6KQ=zHfKPJWeewV2`@C7Ici8f6uX|J(ml6s-9qF4SK@!S=LJSsqfm&
y_>9}!5sZZG0R&@YuOh(&c@|9s>-$O*R98C^^RyqT8y$&-)hxMq@uMB>$^QX<-U%=O


From 2c7841980981fd5b8fa3c6b9a4d2f9e6c936c833 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Wed, 5 Oct 2022 23:48:13 +0200
Subject: [PATCH 004/101] cloning, part2

w.merge and w.append
---
 PyPDF2/_reader.py                  |  17 +-
 PyPDF2/_writer.py                  | 411 ++++++++++++++++++++++++++---
 PyPDF2/generic/_base.py            |   4 +
 PyPDF2/generic/_data_structures.py |  62 +++--
 tests/test_generic.py              |  44 +--
 tests/test_reader.py               |   1 +
 6 files changed, 454 insertions(+), 85 deletions(-)

diff --git a/PyPDF2/_reader.py b/PyPDF2/_reader.py
index 56dc78d19..52f1c5664 100644
--- a/PyPDF2/_reader.py
+++ b/PyPDF2/_reader.py
@@ -863,7 +863,9 @@ def getDestinationPageNumber(
     def _build_destination(
         self,
         title: str,
-        array: List[Union[NumberObject, IndirectObject, NullObject, DictionaryObject]],
+        array: List[
+            Union[NumberObject, IndirectObject, None, NullObject, DictionaryObject]
+        ],
     ) -> Destination:
         page, typ = None, None
         # handle outline items with missing or invalid destination
@@ -918,7 +920,7 @@ def _build_outline_item(self, node: DictionaryObject) -> Optional[Destination]:
                 dest = dest["/D"]
 
         if isinstance(dest, ArrayObject):
-            outline_item = self._build_destination(title, dest)  # type: ignore
+            outline_item = self._build_destination(title, dest)
         elif isinstance(dest, str):
             # named destination, addresses NameObject Issue #193
             try:
@@ -928,13 +930,18 @@ def _build_outline_item(self, node: DictionaryObject) -> Optional[Destination]:
             except KeyError:
                 # named destination not found in Name Dict
                 outline_item = self._build_destination(title, None)
-        elif isinstance(dest, type(None)):
+        elif dest is None:
             # outline item not required to have destination or action
             # PDFv1.7 Table 153
-            outline_item = self._build_destination(title, dest)  # type: ignore
+            outline_item = self._build_destination(title, dest)
         else:
             if self.strict:
                 raise PdfReadError(f"Unexpected destination {dest!r}")
+            else:
+                logger_warning(
+                    f"Removed unexpected destination {dest!r} from destination",
+                    __name__,
+                )
             outline_item = self._build_destination(title, None)  # type: ignore
 
         # if outline item created, add color, format, and child count if present
@@ -950,7 +957,7 @@ def _build_outline_item(self, node: DictionaryObject) -> Optional[Destination]:
                 # absolute value = num. visible children
                 # positive = open/unfolded, negative = closed/folded
                 outline_item[NameObject("/Count")] = node["/Count"]
-
+        outline_item.node = node
         return outline_item
 
     @property
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 39046827e..6e41f9c88 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -36,7 +36,7 @@
 import time
 import uuid
 from hashlib import md5
-from io import BufferedReader, BufferedWriter, BytesIO, FileIO
+from io import BufferedReader, BufferedWriter, BytesIO, FileIO, IOBase
 from pathlib import Path
 from types import TracebackType
 from typing import (
@@ -52,6 +52,7 @@
     cast,
 )
 
+from ._encryption import Encryption
 from ._page import PageObject, _VirtualList
 from ._reader import PdfReader
 from ._security import _alg33, _alg34, _alg35
@@ -95,6 +96,7 @@
     NameObject,
     NullObject,
     NumberObject,
+    OutlineItem,
     PdfObject,
     RectangleObject,
     StreamObject,
@@ -103,11 +105,13 @@
     create_string_object,
     hex_to_rgb,
 )
+from .pagerange import PageRange, PageRangeSpec
 from .types import (
     BorderArrayType,
     FitType,
     LayoutType,
     OutlineItemType,
+    OutlineType,
     PagemodeType,
     ZoomArgsType,
     ZoomArgType,
@@ -196,16 +200,13 @@ def pdf_header(self) -> bytes:
     def pdf_header(self, new_header: bytes) -> None:
         self._header = new_header
 
-    def _add_object(
-        self, obj: Optional[PdfObject], noclone: bool = True
-    ) -> IndirectObject:
-        if noclone:
-            new_obj = obj
-        else:
-            new_obj = obj.clone(self)
-        self._objects.append(new_obj)
-        new_obj.new_id = len(self._objects)
-        return IndirectObject(len(self._objects), 0, self)
+    def _add_object(self, obj: Optional[PdfObject]) -> IndirectObject:
+        if hasattr(obj, "indirect_ref") and obj.indirect_ref.pdf == self:
+            return obj
+        self._objects.append(obj)
+        obj.new_id = len(self._objects)
+        obj.indirect_ref = IndirectObject(len(self._objects), 0, self)
+        return obj.indirect_ref
 
     def get_object(self, ido: Union[int, IndirectObject]) -> PdfObject:
         if isinstance(ido, int):
@@ -1165,13 +1166,16 @@ def add_outline_item_destination(
         self,
         dest: Union[PageObject, TreeObject],
         parent: Union[None, TreeObject, IndirectObject] = None,
+        before: Union[None, TreeObject, IndirectObject] = None,
     ) -> IndirectObject:
         if parent is None:
             parent = self.get_outline_root()
 
         parent = cast(TreeObject, parent.get_object())
         dest_ref = self._add_object(dest)
-        parent.add_child(dest_ref, self)
+        if before is not None:
+            before = before.indirect_ref
+        parent.insert_child(dest_ref, before, self)
 
         return dest_ref
 
@@ -1205,7 +1209,10 @@ def addBookmarkDestination(
 
     @deprecate_bookmark(bookmark="outline_item")
     def add_outline_item_dict(
-        self, outline_item: OutlineItemType, parent: Optional[TreeObject] = None
+        self,
+        outline_item: OutlineItemType,
+        parent: Union[None, TreeObject, IndirectObject] = None,
+        before: Union[None, TreeObject, IndirectObject] = None,
     ) -> IndirectObject:
         outline_item_object = TreeObject()
         for k, v in list(outline_item.items()):
@@ -1220,7 +1227,7 @@ def add_outline_item_dict(
             action_ref = self._add_object(action)
             outline_item_object[NameObject("/A")] = action_ref
 
-        return self.add_outline_item_destination(outline_item_object, parent)
+        return self.add_outline_item_destination(outline_item_object, parent, before)
 
     @deprecate_bookmark(bookmark="outline_item")
     def add_bookmark_dict(
@@ -1249,8 +1256,9 @@ def addBookmarkDict(
     def add_outline_item(
         self,
         title: str,
-        pagenum: int,
+        pagenum: Union[None, PageObject, IndirectObject, int],
         parent: Union[None, TreeObject, IndirectObject] = None,
+        before: Union[None, TreeObject, IndirectObject] = None,
         color: Optional[Union[Tuple[float, float, float], str]] = None,
         bold: bool = False,
         italic: bool = False,
@@ -1264,37 +1272,54 @@ def add_outline_item(
         :param int pagenum: Page number this outline item will point to.
         :param parent: A reference to a parent outline item to create nested
             outline items.
-        :param tuple color: Color of the outline item's font as a red, green, blue tuple
+        :param parent: A reference to a parent outline item to create nested
+            outline items.
+        :param tuple colo r: Color of the outline item's font as a red, green, blue tuple
             from 0.0 to 1.0 or as a Hex String (#RRGGBB)
         :param bool bold: Outline item font is bold
         :param bool italic: Outline item font is italic
         :param str fit: The fit of the destination page. See
             :meth:`add_link()<add_link>` for details.
         """
-        page_ref = NumberObject(pagenum)
-        zoom_args: ZoomArgsType = [
-            NullObject() if a is None else NumberObject(a) for a in args
-        ]
-        dest = Destination(
-            NameObject("/" + title + " outline item"),
-            page_ref,
-            NameObject(fit),
-            *zoom_args,
-        )
+        if isinstance(italic, str):  # it means that we are on the old params
+            return self.add_outline_item(
+                title, pagenum, parent, None, before, color, bold, italic, fit, *args
+            )
+        if pagenum is None:
+            action_ref = None
+        else:
+            if isinstance(pagenum, IndirectObject):
+                page_ref = pagenum
+            elif isinstance(pagenum, PageObject):
+                page_ref = pagenum.indirect_ref
+            elif isinstance(pagenum, int):
+                try:
+                    page_ref = self.pages[pagenum].indirect_ref
+                except IndexError:
+                    page_ref = NumberObject(pagenum)
+            zoom_args: ZoomArgsType = [
+                NullObject() if a is None else NumberObject(a) for a in args
+            ]
+            dest = Destination(
+                NameObject("/" + title + " outline item"),
+                page_ref,
+                NameObject(fit),
+                *zoom_args,
+            )
 
-        action_ref = self._add_object(
-            DictionaryObject(
-                {
-                    NameObject(GoToActionArguments.D): dest.dest_array,
-                    NameObject(GoToActionArguments.S): NameObject("/GoTo"),
-                }
+            action_ref = self._add_object(
+                DictionaryObject(
+                    {
+                        NameObject(GoToActionArguments.D): dest.dest_array,
+                        NameObject(GoToActionArguments.S): NameObject("/GoTo"),
+                    }
+                )
             )
-        )
         outline_item = _create_outline_item(action_ref, title, color, italic, bold)
 
         if parent is None:
             parent = self.get_outline_root()
-        return self.add_outline_item_destination(outline_item, parent)
+        return self.add_outline_item_destination(outline_item, parent, before)
 
     def add_bookmark(
         self,
@@ -1314,7 +1339,7 @@ def add_bookmark(
         """
         deprecate_with_replacement("add_bookmark", "add_outline_item")
         return self.add_outline_item(
-            title, pagenum, parent, color, bold, italic, fit, *args
+            title, pagenum, parent, None, color, bold, italic, fit, *args
         )
 
     def addBookmark(
@@ -1335,7 +1360,7 @@ def addBookmark(
         """
         deprecate_with_replacement("addBookmark", "add_outline_item")
         return self.add_outline_item(
-            title, pagenum, parent, color, bold, italic, fit, *args
+            title, pagenum, parent, None, color, bold, italic, fit, *args
         )
 
     def add_outline(self) -> None:
@@ -1343,6 +1368,13 @@ def add_outline(self) -> None:
             "This method is not yet implemented. Use :meth:`add_outline_item` instead."
         )
 
+    def add_named_destination_array(
+        self, title: TextStringObject, dest: ArrayObject
+    ) -> None:
+        nd = self.get_named_dest_root()
+        nd.extend([title, dest])  # type: ignore
+        return
+
     def add_named_destination_object(self, dest: PdfObject) -> IndirectObject:
         dest_ref = self._add_object(dest)
 
@@ -1925,6 +1957,308 @@ def add_annotation(self, page_number: int, annotation: Dict[str, Any]) -> None:
 
         page.annotations.append(ind_obj)
 
+    # from PdfMerger:
+    def _create_stream(
+        self, fileobj: Union[Path, StrByteType, PdfReader]
+    ) -> Tuple[IOBase, Optional[Encryption]]:
+        # If the fileobj parameter is a string, assume it is a path
+        # and create a file object at that location. If it is a file,
+        # copy the file's contents into a BytesIO stream object; if
+        # it is a PdfReader, copy that reader's stream into a
+        # BytesIO stream.
+        # If fileobj is none of the above types, it is not modified
+        encryption_obj = None
+        stream: IOBase
+        if isinstance(fileobj, (str, Path)):
+            stream = FileIO(fileobj, "rb")
+        elif isinstance(fileobj, PdfReader):
+            if fileobj._encryption:
+                encryption_obj = fileobj._encryption
+            orig_tell = fileobj.stream.tell()
+            fileobj.stream.seek(0)
+            stream = BytesIO(fileobj.stream.read())
+
+            # reset the stream to its original location
+            fileobj.stream.seek(orig_tell)
+        elif hasattr(fileobj, "seek") and hasattr(fileobj, "read"):
+            fileobj.seek(0)
+            filecontent = fileobj.read()
+            stream = BytesIO(filecontent)
+        else:
+            raise NotImplementedError(
+                "PdfMerger.merge requires an object that PdfReader can parse. "
+                "Typically, that is a Path or a string representing a Path, "
+                "a file object, or an object implementing .seek and .read. "
+                "Passing a PdfReader directly works as well."
+            )
+        return stream, encryption_obj
+
+    def append(
+        self,
+        fileobj: Union[StrByteType, PdfReader, Path],
+        outline_item: Optional[str] = None,
+        pages: Union[None, PageRange, Tuple[int, int], Tuple[int, int, int]] = None,
+        import_outline: bool = True,
+        excluded_fields: Optional[Union[List[str], Tuple[str, ...]]] = None,
+    ) -> None:
+        """
+        Identical to the :meth:`merge()<merge>` method, but assumes you want to
+        concatenate all pages onto the end of the file instead of specifying a
+        position.
+
+        :param fileobj: A File Object or an object that supports the standard
+            read and seek methods similar to a File Object. Could also be a
+            string representing a path to a PDF file.
+
+        :param str outline_item: Optionally, you may specify an outline item
+            (previously referred to as a 'bookmark') to be applied at the
+            beginning of the included file by supplying the text of the outline item.
+
+        :param pages: can be a :class:`PageRange<PyPDF2.pagerange.PageRange>`
+            or a ``(start, stop[, step])`` tuple
+            to merge only the specified range of pages from the source
+            document into the output document.
+
+        :param bool import_outline: You may prevent the source document's
+            outline (collection of outline items, previously referred to as
+            'bookmarks') from being imported by specifying this as ``False``.
+        """
+        if excluded_fields is None:
+            excluded_fields = ["/B", "/Annots"]
+        self.merge(None, fileobj, outline_item, pages, import_outline, excluded_fields)
+
+    def merge(
+        self,
+        position: Optional[int],
+        fileobj: Union[Path, StrByteType, PdfReader],
+        outline_item: Optional[str] = None,
+        pages: Optional[PageRangeSpec] = None,
+        import_outline: bool = True,
+        excluded_fields: Optional[Union[List[str], Tuple[str, ...]]] = None,
+    ) -> None:
+        """
+        Merge the pages from the given file into the output file at the
+        specified page number.
+
+        :param int position: The *page number* to insert this file. File will
+            be inserted after the given number.
+
+        :param fileobj: A File Object or an object that supports the standard
+            read and seek methods similar to a File Object. Could also be a
+            string representing a path to a PDF file.
+
+        :param str outline_item: Optionally, you may specify an outline item
+            (previously referred to as a 'bookmark') to be applied at the
+            beginning of the included file by supplying the text of the outline item.
+
+        :param pages: can be a :class:`PageRange<PyPDF2.pagerange.PageRange>`
+            or a ``(start, stop[, step])`` tuple
+            to merge only the specified range of pages from the source
+            document into the output document.
+
+        :param bool import_outline: You may prevent the source document's
+            outline (collection of outline items, previously referred to as
+            'bookmarks') from being imported by specifying this as ``False``.
+        """
+        if isinstance(fileobj, PdfReader):
+            reader = fileobj
+        else:
+            stream, encryption_obj = self._create_stream(fileobj)
+            # Create a new PdfReader instance using the stream
+            # (either file or BytesIO or StringIO) created above
+            reader = PdfReader(stream, strict=False)  # type: ignore[arg-type]
+        ##        self.inputs.append((stream, reader))
+        ##        if encryption_obj is not None:
+        ##            reader._encryption = encryption_obj
+
+        # Find the range of pages to merge.
+        if pages is None:
+            pages = list(range(0, len(reader.pages)))
+        elif isinstance(pages, PageRange):
+            pages = list(range(*pages.indices(len(reader.pages))))
+        elif isinstance(pages, list):
+            pass  # keep unchanged
+        elif isinstance(pages, tuple) and len(pages) <= 3:
+            pages = list(range(*pages))
+        elif not isinstance(pages, tuple):
+            raise TypeError(
+                '"pages" must be a tuple of (start, stop[, step]) or a list'
+            )
+
+        srcpages = {}
+        for i in pages:
+            if position is None:
+                srcpages[reader.pages[i].indirect_ref.idnum] = self.add_page(
+                    reader.pages[i], excluded_fields
+                )
+            else:
+                srcpages[reader.pages[i].indirect_ref.idnum] = self.insert_page(
+                    reader.pages[i], position, excluded_fields
+                )
+                position += 1
+
+        reader._namedDests = (
+            reader.named_destinations
+        )  # need for the outline processing below
+        for dest in reader._namedDests.values():
+            arr = dest.dest_array
+            # try:
+            if isinstance(dest["/Page"], NullObject):
+                pass  # self.add_named_destination_array(dest["/Title"],arr)
+            elif dest["/Page"].indirect_ref.idnum in srcpages:
+                arr[NumberObject(0)] = srcpages[
+                    dest["/Page"].indirect_ref.idnum
+                ].indirect_ref
+                self.add_named_destination_array(dest["/Title"], arr)
+            # except Exception as e:
+            #    logger_warning(f"can not insert {dest} : {e.msg}",__name__)
+
+        if outline_item is not None:
+            outline_item_typ = self.add_outline_item(
+                TextStringObject(outline_item),
+                list(srcpages.values())[0].indirect_ref,
+                fit=NameObject(TypFitArguments.FIT),
+            )
+        else:
+            outline_item_typ = self.get_outline_root()
+
+        if import_outline:
+            outline = self._get_filtered_outline(
+                reader.trailer[TK.ROOT].get(CO.OUTLINES, None), srcpages, reader
+            )
+            outline = self._insert_filtered_outline(
+                outline, outline_item_typ, None
+            )  # TODO : use before parameter
+
+        for (i, p) in srcpages.items():
+            pass
+
+        return
+        trimmed_dests = self._trim_dests(reader, dests, pages)
+        self.named_dests += trimmed_dests
+
+        self._associate_dests_to_pages(srcpages)
+        self._associate_outline_items_to_pages(srcpages)
+
+    def _get_filtered_outline(
+        self,
+        node: Any,
+        pages: Dict[int, PageObject],
+        pdf: PdfReader,
+    ) -> List[Destination]:
+        """Extract outline item entries that are part of the specified page set."""
+        new_outline = []
+        node = node.get_object()
+        if node.get("/Type", "") == "/Outlines":
+            node = node.get("/First", None)
+            while node is not None:
+                node = node.get_object()
+                new_outline += self._get_filtered_outline(node, pages, pdf)
+                node = node.get("/Next", None)
+        else:
+            while node is not None:
+                node = node.get_object()
+                o = pdf._build_outline_item(node)
+                if "/Title" not in node:
+                    del o["/Title"]
+                if isinstance(o["/Page"], int):
+                    o[NameObject("/Page")] = pdf.pages[o["/Page"]].indirect_ref
+                if (
+                    "/Page" not in o
+                    or isinstance(o["/Page"], NullObject)
+                    or o["/Page"].indirect_ref.idnum not in pages
+                ):
+                    o[NameObject("/Page")] = NullObject()
+                else:
+                    o[NameObject("/Page")] = pages[
+                        o["/Page"].indirect_ref.idnum
+                    ].indirect_ref
+                if "/First" in node:
+                    o.childs = self._get_filtered_outline(node["/First"], pages, pdf)
+                else:
+                    o.childs = []
+                if not isinstance(o["/Page"], NullObject) or len(o.childs) > 0:
+                    new_outline.append(o)
+                node = node.get("/Next", None)
+        return new_outline
+
+    def _clone_outline(self, dest):
+        n_ol = TreeObject()
+        self._add_object(n_ol)
+        n_ol[NameObject("/Title")] = TextStringObject(dest["/Title"])
+        n_ol[NameObject("/F")] = NumberObject(dest.node.get("/F", 0))
+        n_ol[NameObject("/C")] = ArrayObject(
+            dest.node.get("/C", [FloatObject(0.0), FloatObject(0.0), FloatObject(0.0)])
+        )
+        if not isinstance(dest["/Page"], NullObject):
+            if "/A" in dest.node:
+                n_ol[NameObject("/A")] = dest.node["/A"].clone(self)
+            # elif "/D" in dest.node:
+            #    n_ol[NameObject("/Dest")] = dest.node["/D"].clone(self)
+            # elif "/Dest" in dest.node:
+            #    n_ol[NameObject("/Dest")] = dest.node["/Dest"].clone(self)
+            else:
+                n_ol[NameObject("/Dest")] = dest.dest_array
+        # TODO: /SE
+        # n_ol = ol.clone(self,True,["/Parent","/First","/Last","/Prev","/Next","/Count","/SE","/A"])
+        # destination will have be converted by cloning
+        return n_ol
+
+    def _insert_filtered_outline(
+        self,
+        outlines: List[Destination],
+        parent: Union[None, TreeObject, IndirectObject] = None,
+        before: Union[None, TreeObject, IndirectObject] = None,
+    ) -> None:
+        for dest in outlines:
+            # TODO  : can be improved to keep A and SE entries (ignored for the moment)
+            # np=self.add_outline_item_destination(dest,parent,before)
+            if dest.get("/Type", "") == "/Outlines" or "/Title" not in dest:
+                np = parent
+            else:
+                np = self._clone_outline(dest)
+                cast(TreeObject, parent.get_object()).insert_child(np, self, before)
+            self._insert_filtered_outline(dest.childs, np, None)
+
+
+## TO BE done
+##    @deprecate_bookmark(bookmark="outline_item")
+##    def find_outline_item(
+##        self,
+##        outline_item: Dict[str, Any],
+##        root: Optional[OutlineType] = None,
+##    ) -> Optional[List[int]]:
+##        if root is None:
+##            root = self.outline
+##
+##        for i, oi_enum in enumerate(root):
+##            if isinstance(oi_enum, list):
+##                # oi_enum is still an inner node
+##                # (OutlineType, if recursive types were supported by mypy)
+##                res = self.find_outline_item(outline_item, oi_enum)  # type: ignore
+##                if res:
+##                    return [i] + res
+##            elif (
+##                oi_enum == outline_item
+##                or cast(Dict[Any, Any], oi_enum["/Title"]) == outline_item
+##            ):
+##                # we found a leaf node
+##                return [i]
+##
+##        return None
+##
+##    @deprecate_bookmark(bookmark="outline_item")
+##    def find_bookmark(
+##        self,
+##        outline_item: Dict[str, Any],
+##        root: Optional[OutlineType] = None,
+##    ) -> Optional[List[int]]:  # pragma: no cover
+##        """
+##        .. deprecated:: 2.9.0
+##            Use :meth:`find_outline_item` instead.
+##        """
+##        return self.find_outline_item(outline_item, root)
+
 
 def _pdf_objectify(obj: Union[Dict[str, Any], str, int, List[Any]]) -> PdfObject:
     if isinstance(obj, PdfObject):
@@ -1955,16 +2289,17 @@ def _pdf_objectify(obj: Union[Dict[str, Any], str, int, List[Any]]) -> PdfObject
 
 
 def _create_outline_item(
-    action_ref: IndirectObject,
+    action_ref: Union[None, IndirectObject],
     title: str,
     color: Union[Tuple[float, float, float], str, None],
     italic: bool,
     bold: bool,
 ) -> TreeObject:
     outline_item = TreeObject()
+    if action_ref is not None:
+        outline_item[NameObject("/A")] = action_ref
     outline_item.update(
         {
-            NameObject("/A"): action_ref,
             NameObject("/Title"): create_string_object(title),
         }
     )
diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index c1cf68000..03092bf35 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -229,6 +229,10 @@ def clone(
             dup = self.get_object().clone(pdf_dest, force_duplicate, ignore_fields)
         return dup.indirect_ref
 
+    @property
+    def indirect_ref(self):
+        return self
+
     def get_object(self) -> Optional["PdfObject"]:
         obj = self.pdf.get_object(self)
         if obj is None:
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 52096f7a2..ddc2b8b01 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -62,6 +62,7 @@
     NullObject,
     NumberObject,
     PdfObject,
+    TextStringObject,
 )
 from ._utils import read_hex_string_from_stream, read_string_from_stream
 
@@ -496,32 +497,50 @@ def addChild(self, child: Any, pdf: Any) -> None:  # pragma: no cover
         self.add_child(child, pdf)
 
     def add_child(self, child: Any, pdf: Any) -> None:  # PdfWriter
+        self.insert_child(child, None, pdf)
+
+    def insert_child(self, child: Any, before: Any, pdf: Any) -> None:  # PdfWriter
         child_obj = child.get_object()
-        child = pdf.get_reference(child_obj)
-        assert isinstance(child, IndirectObject)
+        child = child.indirect_ref  # get_reference(child_obj)
+        # assert isinstance(child, IndirectObject)
 
         prev: Optional[DictionaryObject]
-        if "/First" not in self:
+        if "/First" not in self:  # no child yet
             self[NameObject("/First")] = child
-            self[NameObject("/Count")] = NumberObject(0)
-            prev = None
+            self[NameObject("/Count")] = NumberObject(1)
+            self[NameObject("/Last")] = child
+            child_obj[NameObject("/Parent")] = self.indirect_ref
+            if "/Next" in child_obj:
+                del child_obj["/Next"]
+            if "/Prev" in child_obj:
+                del child_obj["/Prev"]
+            return
         else:
-            prev = cast(
-                DictionaryObject, self["/Last"]
-            )  # TABLE 8.3 Entries in the outline dictionary
-
-        self[NameObject("/Last")] = child
-        self[NameObject("/Count")] = NumberObject(self[NameObject("/Count")] + 1)  # type: ignore
-
-        if prev:
-            prev_ref = pdf.get_reference(prev)
-            assert isinstance(prev_ref, IndirectObject)
-            child_obj[NameObject("/Prev")] = prev_ref
-            prev[NameObject("/Next")] = child
-
-        parent_ref = pdf.get_reference(self)
-        assert isinstance(parent_ref, IndirectObject)
+            prev = self["/Last"]
+
+        while prev.indirect_ref != before:
+            if "/Next" in prev:
+                prev = prev["/Next"]
+            else:  # append at the end
+                prev[NameObject("/Next")] = child
+                child_obj[NameObject("/Prev")] = prev.indirect_ref
+                child_obj[NameObject("/Parent")] = self.indirect_ref
+                if "/Next" in child_obj:
+                    del child_obj["/Next"]
+                self[NameObject("/Last")] = child
+                self[NameObject("/Count")] = NumberObject(
+                    self[NameObject("/Count")] + 1
+                )
+                return
+        try:  # insert as first or in the middle
+            prev["/Prev"][NameObject("/Next")] = child
+            child_obj[NameObject("/Prev")] = prev["/Prev"]
+        except Exception:  # it means we are inserting in first position
+            del child_obj["/Next"]
+        child_obj[NameObject("/Next")] = prev
+        prev[NameObject("/Prev")] = child
         child_obj[NameObject("/Parent")] = parent_ref
+        self[NameObject("/Count")] = NumberObject(self[NameObject("/Count")] + 1)  # type: ignore
 
     def removeChild(self, child: Any) -> None:  # pragma: no cover
         deprecate_with_replacement("removeChild", "remove_child")
@@ -564,6 +583,7 @@ def _remove_node_from_tree(
 
     def remove_child(self, child: Any) -> None:
         child_obj = child.get_object()
+        child = child_obj.indirect_ref
 
         if NameObject("/Parent") not in child_obj:
             raise ValueError("Removed child does not appear to be a tree item")
@@ -1205,7 +1225,7 @@ def __init__(
         *args: Any,  # ZoomArgType
     ) -> None:
         DictionaryObject.__init__(self)
-        self[NameObject("/Title")] = title
+        self[NameObject("/Title")] = TextStringObject(title)
         self[NameObject("/Page")] = page
         self[NameObject("/Type")] = typ
 
diff --git a/tests/test_generic.py b/tests/test_generic.py
index 191efeeee..5501fab6e 100644
--- a/tests/test_generic.py
+++ b/tests/test_generic.py
@@ -283,7 +283,7 @@ def test_outline_item_write_to_stream():
     )
     oi.write_to_stream(stream, None)
     stream.seek(0, 0)
-    assert stream.read() == b"<<\n/Title title\n/Dest [ null /FitV 0 ]\n>>"
+    assert stream.read() == b"<<\n/Title (title)\n/Dest [ null /FitV 0 ]\n>>"
 
 
 def test_encode_pdfdocencoding_keyerror():
@@ -472,23 +472,25 @@ def test_TextStringObject_autodetect_utf16():
 
 
 def test_remove_child_not_in_tree():
+    class ChildDummy(DictionaryObject):
+        @property
+        def indirect_ref(self):
+            return self
+
     tree = TreeObject()
     with pytest.raises(ValueError) as exc:
-        tree.remove_child(NameObject("foo"))
+        tree.remove_child(ChildDummy())
     assert exc.value.args[0] == "Removed child does not appear to be a tree item"
 
 
 def test_remove_child_not_in_that_tree():
-    class ChildDummy:
-        def __init__(self, parent):
-            self.parent = parent
-
-        def get_object(self):
-            tree = DictionaryObject()
-            tree[NameObject("/Parent")] = self.parent
-            return tree
+    class ChildDummy(DictionaryObject):
+        @property
+        def indirect_ref(self):
+            return self
 
     tree = TreeObject()
+    tree.indirect_ref = NullObject()
     child = ChildDummy(TreeObject())
     tree.add_child(child, ReaderDummy())
     with pytest.raises(ValueError) as exc:
@@ -497,20 +499,19 @@ def get_object(self):
 
 
 def test_remove_child_not_found_in_tree():
-    class ChildDummy:
-        def __init__(self, parent):
-            self.parent = parent
-
-        def get_object(self):
-            tree = DictionaryObject()
-            tree[NameObject("/Parent")] = self.parent
-            return tree
+    class ChildDummy(DictionaryObject):
+        @property
+        def indirect_ref(self):
+            return self
 
     tree = TreeObject()
-    child = ChildDummy(tree)
+    tree.indirect_ref = NullObject()
+    child = ChildDummy(TreeObject())
     tree.add_child(child, ReaderDummy())
+    child2 = ChildDummy(TreeObject())
+    child2[NameObject("/Parent")] = tree
     with pytest.raises(ValueError) as exc:
-        tree.remove_child(child)
+        tree.remove_child(child2)
     assert exc.value.args[0] == "Removal couldn't find item in tree"
 
 
@@ -540,7 +541,7 @@ def test_remove_child_found_in_tree():
     assert len([el for el in tree.children()]) == 2
 
     # Remove last child
-    tree.remove_child(child2)
+    tree.remove_child(child2_ref)
     assert tree[NameObject("/Count")] == 1
     assert len([el for el in tree.children()]) == 1
 
@@ -586,6 +587,7 @@ def test_remove_child_in_tree():
     tree = TreeObject()
     reader = PdfReader(pdf)
     writer = PdfWriter()
+    writer._add_object(tree)
     writer.add_page(reader.pages[0])
     writer.add_outline_item("foo", pagenum=0)
     obj = writer._objects[-1]
diff --git a/tests/test_reader.py b/tests/test_reader.py
index 630e67c60..67355a57c 100644
--- a/tests/test_reader.py
+++ b/tests/test_reader.py
@@ -1034,6 +1034,7 @@ def test_outline_count():
     ]
 
 
+@pytest.mark.xfail(reason="Non-Strict does not raise error now")
 def test_outline_missing_title():
     # Strict
     reader = PdfReader(RESOURCE_ROOT / "outline-without-title.pdf", strict=True)

From 54abc77288b394129fd3ffc373992c752381b10b Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 9 Oct 2022 10:35:12 +0200
Subject: [PATCH 005/101] cloning part3

---
 PyPDF2/_writer.py    | 101 ++++++++++-----
 tests/test_merger.py | 285 ++++++++++++++++++++++++++++++++++++++++++-
 2 files changed, 348 insertions(+), 38 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 6e41f9c88..1af0678fc 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1282,6 +1282,8 @@ def add_outline_item(
             :meth:`add_link()<add_link>` for details.
         """
         if isinstance(italic, str):  # it means that we are on the old params
+            if fit == "/Fit":
+                fit = None
             return self.add_outline_item(
                 title, pagenum, parent, None, before, color, bold, italic, fit, *args
             )
@@ -1777,6 +1779,32 @@ def _set_page_layout(self, layout: Union[NameObject, LayoutType]) -> None:
             layout = NameObject(layout)
         self._root_object.update({NameObject("/PageLayout"): layout})
 
+    def set_page_layout(self, layout: LayoutType) -> None:
+        """
+        Set the page layout.
+
+        :param str layout: The page layout to be used
+
+        .. list-table:: Valid ``layout`` arguments
+           :widths: 50 200
+
+           * - /NoLayout
+             - Layout explicitly not specified
+           * - /SinglePage
+             - Show one page at a time
+           * - /OneColumn
+             - Show one column at a time
+           * - /TwoColumnLeft
+             - Show pages in two columns, odd-numbered pages on the left
+           * - /TwoColumnRight
+             - Show pages in two columns, odd-numbered pages on the right
+           * - /TwoPageLeft
+             - Show two pages at a time, odd-numbered pages on the left
+           * - /TwoPageRight
+             - Show two pages at a time, odd-numbered pages on the right
+        """
+        self._set_page_layout(layout)
+
     def setPageLayout(self, layout: LayoutType) -> None:  # pragma: no cover
         """
         .. deprecated:: 1.28.0
@@ -1970,7 +1998,8 @@ def _create_stream(
         encryption_obj = None
         stream: IOBase
         if isinstance(fileobj, (str, Path)):
-            stream = FileIO(fileobj, "rb")
+            with FileIO(fileobj, "rb") as f:
+                stream = BytesIO(f.read())
         elif isinstance(fileobj, PdfReader):
             if fileobj._encryption:
                 encryption_obj = fileobj._encryption
@@ -2027,6 +2056,7 @@ def append(
             excluded_fields = ["/B", "/Annots"]
         self.merge(None, fileobj, outline_item, pages, import_outline, excluded_fields)
 
+    @deprecate_bookmark(bookmark="outline_item", import_bookmarks="import_outline")
     def merge(
         self,
         position: Optional[int],
@@ -2122,15 +2152,16 @@ def merge(
         else:
             outline_item_typ = self.get_outline_root()
 
-        if import_outline:
+        if import_outline and CO.OUTLINES in reader.trailer[TK.ROOT]:
             outline = self._get_filtered_outline(
                 reader.trailer[TK.ROOT].get(CO.OUTLINES, None), srcpages, reader
             )
-            outline = self._insert_filtered_outline(
+            self._insert_filtered_outline(
                 outline, outline_item_typ, None
             )  # TODO : use before parameter
 
         for (i, p) in srcpages.items():
+            # reserved for links
             pass
 
         return
@@ -2149,18 +2180,17 @@ def _get_filtered_outline(
         """Extract outline item entries that are part of the specified page set."""
         new_outline = []
         node = node.get_object()
-        if node.get("/Type", "") == "/Outlines":
+        if node.get("/Type", "") == "/Outlines" or "/Title" not in node:
             node = node.get("/First", None)
-            while node is not None:
+            if node is not None:
                 node = node.get_object()
                 new_outline += self._get_filtered_outline(node, pages, pdf)
-                node = node.get("/Next", None)
         else:
             while node is not None:
                 node = node.get_object()
                 o = pdf._build_outline_item(node)
-                if "/Title" not in node:
-                    del o["/Title"]
+                ##                if "/Title" not in node:
+                ##                    del(o["/Title"])
                 if isinstance(o["/Page"], int):
                     o[NameObject("/Page")] = pdf.pages[o["/Page"]].indirect_ref
                 if (
@@ -2220,32 +2250,37 @@ def _insert_filtered_outline(
                 cast(TreeObject, parent.get_object()).insert_child(np, self, before)
             self._insert_filtered_outline(dest.childs, np, None)
 
+    def close(self) -> None:
+        """To match the functions from Merger"""
+        return
+
+    # @deprecate_bookmark(bookmark="outline_item")
+    def find_outline_item(
+        self,
+        outline_item: Dict[str, Any],
+        root: Optional[OutlineType] = None,
+    ) -> Optional[List[int]]:
+        if root is None:
+            o = self.get_outline_root()
+        else:
+            o = root
+
+        i = 0
+        while o is not None:
+            if o.indirect_ref == outline_item or o.get("/Title", None) == outline_item:
+                return [i]
+            else:
+                if "/First" in o:
+                    res = self.find_outline_item(outline_item, o["/First"])
+                    if res:
+                        return ([i] if "/Title" in o else []) + res
+            if "/Next" in o:
+                i += 1
+                o = o["/Next"]
+            else:
+                return None
+
 
-## TO BE done
-##    @deprecate_bookmark(bookmark="outline_item")
-##    def find_outline_item(
-##        self,
-##        outline_item: Dict[str, Any],
-##        root: Optional[OutlineType] = None,
-##    ) -> Optional[List[int]]:
-##        if root is None:
-##            root = self.outline
-##
-##        for i, oi_enum in enumerate(root):
-##            if isinstance(oi_enum, list):
-##                # oi_enum is still an inner node
-##                # (OutlineType, if recursive types were supported by mypy)
-##                res = self.find_outline_item(outline_item, oi_enum)  # type: ignore
-##                if res:
-##                    return [i] + res
-##            elif (
-##                oi_enum == outline_item
-##                or cast(Dict[Any, Any], oi_enum["/Title"]) == outline_item
-##            ):
-##                # we found a leaf node
-##                return [i]
-##
-##        return None
 ##
 ##    @deprecate_bookmark(bookmark="outline_item")
 ##    def find_bookmark(
diff --git a/tests/test_merger.py b/tests/test_merger.py
index 5b8cd997e..6bf89ba46 100644
--- a/tests/test_merger.py
+++ b/tests/test_merger.py
@@ -6,7 +6,7 @@
 import pytest
 
 import PyPDF2
-from PyPDF2 import PdfMerger, PdfReader
+from PyPDF2 import PdfMerger, PdfReader, PdfWriter
 from PyPDF2.generic import Destination
 
 from . import get_pdf_from_url
@@ -51,6 +51,9 @@ def merger_operate(merger):
     with open(pdf_path, "rb") as fh:
         merger.append(fh)
 
+    merger.write(
+        BytesIO()
+    )  # to force to build outlines and ensur the add_outline_item is at end of the list
     outline_item = merger.add_outline_item("An outline item", 0)
     oi2 = merger.add_outline_item(
         "deeper", 0, parent=outline_item, italic=True, bold=True
@@ -96,8 +99,8 @@ def merger_operate(merger):
     found_oi = merger.find_outline_item("foo")
     assert found_oi == [9]
 
-    merger.add_metadata({"author": "Martin Thoma"})
-    merger.add_named_destination("title", 0)
+    merger.add_metadata({"/Author": "Martin Thoma"})
+    merger.add_named_destination("/Title", 0)
     merger.set_page_layout("/SinglePage")
     merger.set_page_mode("/UseThumbs")
 
@@ -106,7 +109,6 @@ def check_outline(tmp_path):
     # Check if outline is correct
     reader = PyPDF2.PdfReader(tmp_path)
     assert [el.title for el in reader.outline if isinstance(el, Destination)] == [
-        "An outline item",
         "Foo",
         "Bar",
         "Baz",
@@ -117,6 +119,7 @@ def check_outline(tmp_path):
         "Bar",
         "Baz",
         "foo",
+        "An outline item",  # this has been moved to end normal???
     ]
 
     # TODO: There seem to be no destinations for those links?
@@ -139,6 +142,19 @@ def test_merger_operations_by_traditional_usage(tmp_path):
     check_outline(path)
 
 
+def test_merger_operations_by_traditional_usage_with_writer(tmp_path):
+    # Arrange
+    merger = PdfWriter()
+    merger_operate(merger)
+    path = tmp_path / tmp_filename
+
+    # Act
+    merger.write(path)
+    merger.close()
+    # Assert
+    check_outline(path)
+
+
 def test_merger_operations_by_semi_traditional_usage(tmp_path):
     path = tmp_path / tmp_filename
 
@@ -151,10 +167,31 @@ def test_merger_operations_by_semi_traditional_usage(tmp_path):
     check_outline(path)
 
 
+def test_merger_operations_by_semi_traditional_usage_with_writer(tmp_path):
+    path = tmp_path / tmp_filename
+
+    with PdfWriter() as merger:
+        merger_operate(merger)
+        merger.write(path)  # Act
+
+    # Assert
+    assert os.path.isfile(path)
+    check_outline(path)
+
+
 def test_merger_operation_by_new_usage(tmp_path):
     path = tmp_path / tmp_filename
     with PdfMerger(fileobj=path) as merger:
         merger_operate(merger)
+    # Assert
+    assert os.path.isfile(path)
+    check_outline(path)
+
+
+def test_merger_operation_by_new_usage_with_writer(tmp_path):
+    path = tmp_path / tmp_filename
+    with PdfWriter(fileobj=path) as merger:
+        merger_operate(merger)
 
     # Assert
     assert os.path.isfile(path)
@@ -170,6 +207,18 @@ def test_merge_page_exception():
     merger.close()
 
 
+def test_merge_page_exception_with_writer():
+    merger = PyPDF2.PdfWriter()
+    pdf_path = RESOURCE_ROOT / "crazyones.pdf"
+    with pytest.raises(TypeError) as exc:
+        merger.merge(0, pdf_path, pages="a:b")
+    assert (
+        exc.value.args[0]
+        == '"pages" must be a tuple of (start, stop[, step]) or a list'
+    )
+    merger.close()
+
+
 def test_merge_page_tuple():
     merger = PyPDF2.PdfMerger()
     pdf_path = RESOURCE_ROOT / "crazyones.pdf"
@@ -177,6 +226,13 @@ def test_merge_page_tuple():
     merger.close()
 
 
+def test_merge_page_tuple_with_writer():
+    merger = PyPDF2.PdfWriter()
+    pdf_path = RESOURCE_ROOT / "crazyones.pdf"
+    merger.merge(0, pdf_path, pages=(0, 1))
+    merger.close()
+
+
 def test_merge_write_closed_fh():
     merger = PyPDF2.PdfMerger()
     pdf_path = RESOURCE_ROOT / "crazyones.pdf"
@@ -214,6 +270,43 @@ def test_merge_write_closed_fh():
     assert exc.value.args[0] == err_closed
 
 
+def test_merge_write_closed_fh_with_writer():
+    merger = PyPDF2.PdfWriter()
+    pdf_path = RESOURCE_ROOT / "crazyones.pdf"
+    merger.append(pdf_path)
+
+    err_closed = "close() was called and thus the writer cannot be used anymore"
+
+    merger.close()
+    # with pytest.raises(RuntimeError) as exc:
+    merger.write("stream.pdf")
+    # assert exc.value.args[0] == err_closed
+
+    # with pytest.raises(RuntimeError) as exc:
+    merger.add_metadata({"author": "Martin Thoma"})
+    # assert exc.value.args[0] == err_closed
+
+    # with pytest.raises(RuntimeError) as exc:
+    merger.set_page_layout("/SinglePage")
+    # assert exc.value.args[0] == err_closed
+
+    # with pytest.raises(RuntimeError) as exc:
+    merger.set_page_mode("/UseNone")
+    # assert exc.value.args[0] == err_closed
+
+    # with pytest.raises(RuntimeError) as exc:
+    #    merger._write_outline()
+    # assert exc.value.args[0] == err_closed
+
+    # with pytest.raises(RuntimeError) as exc:
+    merger.add_outline_item("An outline item", 0)
+    # assert exc.value.args[0] == err_closed
+
+    # with pytest.raises(RuntimeError) as exc:
+    #    merger._write_dests()
+    # assert exc.value.args[0] == err_closed
+
+
 def test_trim_outline_list():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/995/995175.pdf"
     name = "tika-995175.pdf"
@@ -227,6 +320,19 @@ def test_trim_outline_list():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+def test_trim_outline_list_with_writer():
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/995/995175.pdf"
+    name = "tika-995175.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    merger = PdfWriter()
+    merger.append(reader)
+    merger.write("tmp-merger-do-not-commit.pdf")
+    merger.close()
+
+    # cleanup
+    os.remove("tmp-merger-do-not-commit.pdf")
+
+
 def test_zoom():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/994/994759.pdf"
     name = "tika-994759.pdf"
@@ -240,6 +346,19 @@ def test_zoom():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+def test_zoom_with_writer():
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/994/994759.pdf"
+    name = "tika-994759.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    merger = PdfWriter()
+    merger.append(reader)
+    merger.write("tmp-merger-do-not-commit.pdf")
+    merger.close()
+
+    # cleanup
+    os.remove("tmp-merger-do-not-commit.pdf")
+
+
 def test_zoom_xyz_no_left():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/933/933322.pdf"
     name = "tika-933322.pdf"
@@ -253,6 +372,19 @@ def test_zoom_xyz_no_left():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+def test_zoom_xyz_no_left_with_writer():
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/933/933322.pdf"
+    name = "tika-933322.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    merger = PdfWriter()
+    merger.append(reader)
+    merger.write("tmp-merger-do-not-commit.pdf")
+    merger.close()
+
+    # cleanup
+    os.remove("tmp-merger-do-not-commit.pdf")
+
+
 def test_outline_item():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/997/997511.pdf"
     name = "tika-997511.pdf"
@@ -266,6 +398,19 @@ def test_outline_item():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+def test_outline_item_with_writer():
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/997/997511.pdf"
+    name = "tika-997511.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    merger = PdfWriter()
+    merger.append(reader)
+    merger.write("tmp-merger-do-not-commit.pdf")
+    merger.close()
+
+    # cleanup
+    os.remove("tmp-merger-do-not-commit.pdf")
+
+
 def test_trim_outline():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/982/982336.pdf"
     name = "tika-982336.pdf"
@@ -279,6 +424,19 @@ def test_trim_outline():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+def test_trim_outline_with_writer():
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/982/982336.pdf"
+    name = "tika-982336.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    merger = PdfWriter()
+    merger.append(reader)
+    merger.write("tmp-merger-do-not-commit.pdf")
+    merger.close()
+
+    # cleanup
+    os.remove("tmp-merger-do-not-commit.pdf")
+
+
 def test1():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/923/923621.pdf"
     name = "tika-923621.pdf"
@@ -292,6 +450,19 @@ def test1():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+def test1_with_writer():
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/923/923621.pdf"
+    name = "tika-923621.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    merger = PdfWriter()
+    merger.append(reader)
+    merger.write("tmp-merger-do-not-commit.pdf")
+    merger.close()
+
+    # cleanup
+    os.remove("tmp-merger-do-not-commit.pdf")
+
+
 def test_sweep_recursion1():
     # TODO: This test looks like an infinite loop.
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924546.pdf"
@@ -309,6 +480,23 @@ def test_sweep_recursion1():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+def test_sweep_recursion1_with_writer():
+    # TODO: This test looks like an infinite loop.
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924546.pdf"
+    name = "tika-924546.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    merger = PdfWriter()
+    merger.append(reader)
+    merger.write("tmp-merger-do-not-commit.pdf")
+    merger.close()
+
+    reader2 = PdfReader("tmp-merger-do-not-commit.pdf")
+    reader2.pages
+
+    # cleanup
+    os.remove("tmp-merger-do-not-commit.pdf")
+
+
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -337,7 +525,35 @@ def test_sweep_recursion2(url, name):
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
-def test_sweep_indirect_list_newobj_is_None(caplog):
+@pytest.mark.parametrize(
+    ("url", "name"),
+    [
+        (
+            # TODO: This test looks like an infinite loop.
+            "https://corpora.tika.apache.org/base/docs/govdocs1/924/924794.pdf",
+            "tika-924794.pdf",
+        ),
+        (
+            "https://corpora.tika.apache.org/base/docs/govdocs1/924/924546.pdf",
+            "tika-924546.pdf",
+        ),
+    ],
+)
+def test_sweep_recursion2_with_writer(url, name):
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    merger = PdfMerger()
+    merger.append(reader)
+    merger.write("tmp-merger-do-not-commit.pdf")
+    merger.close()
+
+    reader2 = PdfReader("tmp-merger-do-not-commit.pdf")
+    reader2.pages
+
+    # cleanup
+    os.remove("tmp-merger-do-not-commit.pdf")
+
+
+def test_sweep_indirect_list_newobj_is_none(caplog):
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/906/906769.pdf"
     name = "tika-906769.pdf"
     reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
@@ -354,6 +570,23 @@ def test_sweep_indirect_list_newobj_is_None(caplog):
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+def test_sweep_indirect_list_newobj_is_none_with_writer(caplog):
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/906/906769.pdf"
+    name = "tika-906769.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    merger = PdfWriter()
+    merger.append(reader)
+    merger.write("tmp-merger-do-not-commit.pdf")
+    merger.close()
+    # used to be: assert "Object 21 0 not defined." in caplog.text
+
+    reader2 = PdfReader("tmp-merger-do-not-commit.pdf")
+    reader2.pages
+
+    # cleanup
+    os.remove("tmp-merger-do-not-commit.pdf")
+
+
 def test_iss1145():
     # issue with FitH destination with null param
     url = "https://github.com/py-pdf/PyPDF2/files/9164743/file-0.pdf"
@@ -363,6 +596,15 @@ def test_iss1145():
     merger.close()
 
 
+def test_iss1145_with_writer():
+    # issue with FitH destination with null param
+    url = "https://github.com/py-pdf/PyPDF2/files/9164743/file-0.pdf"
+    name = "iss1145.pdf"
+    merger = PdfWriter()
+    merger.append(PdfReader(BytesIO(get_pdf_from_url(url, name=name))))
+    merger.close()
+
+
 def test_deprecate_bookmark_decorator_warning():
     reader = PdfReader(RESOURCE_ROOT / "outlines-with-invalid-destinations.pdf")
     merger = PdfMerger()
@@ -373,6 +615,16 @@ def test_deprecate_bookmark_decorator_warning():
         merger.merge(0, reader, import_bookmarks=True)
 
 
+def test_deprecate_bookmark_decorator_warning_with_writer():
+    reader = PdfReader(RESOURCE_ROOT / "outlines-with-invalid-destinations.pdf")
+    merger = PdfWriter()
+    with pytest.warns(
+        UserWarning,
+        match="import_bookmarks is deprecated as an argument. Use import_outline instead",
+    ):
+        merger.merge(0, reader, import_bookmarks=True)
+
+
 @pytest.mark.filterwarnings("ignore::UserWarning")
 def test_deprecate_bookmark_decorator_output():
     reader = PdfReader(RESOURCE_ROOT / "outlines-with-invalid-destinations.pdf")
@@ -382,6 +634,17 @@ def test_deprecate_bookmark_decorator_output():
     assert merger.outline[0].title == first_oi_title
 
 
+@pytest.mark.filterwarnings("ignore::UserWarning")
+def test_deprecate_bookmark_decorator_output_with_writer():
+    reader = PdfReader(RESOURCE_ROOT / "outlines-with-invalid-destinations.pdf")
+    merger = PdfWriter()
+    merger.merge(0, reader, import_bookmarks=True)
+    first_oi_title = 'Valid Destination: Action /GoTo Named Destination "section.1"'
+    # TODO? :  add outline property ???
+    # assert merger.outline[0].title == first_oi_title
+    assert merger.find_outline_item(first_oi_title) == [0]
+
+
 def test_iss1344(caplog):
     url = "https://github.com/py-pdf/PyPDF2/files/9549001/input.pdf"
     name = "iss1344.pdf"
@@ -392,3 +655,15 @@ def test_iss1344(caplog):
     p = PdfReader(b).pages[0]
     assert "/DIJMAC+Arial Black" in p._debug_for_extract()
     assert "adresse où le malade peut être visité" in p.extract_text()
+
+
+def test_iss1344_with_writer(caplog):
+    url = "https://github.com/py-pdf/PyPDF2/files/9549001/input.pdf"
+    name = "iss1344.pdf"
+    m = PdfWriter()
+    m.append(PdfReader(BytesIO(get_pdf_from_url(url, name=name))))
+    b = BytesIO()
+    m.write(b)
+    p = PdfReader(b).pages[0]
+    assert "/DIJMAC+Arial Black" in p._debug_for_extract()
+    assert "adresse où le malade peut être visité" in p.extract_text()

From 0506ae475f1dfe188a81472b11895310d2d68965 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 9 Oct 2022 14:01:51 +0200
Subject: [PATCH 006/101] Fix flake8+ "/Count"

---
 PyPDF2/_writer.py                  | 37 ++++++++++--------------------
 PyPDF2/generic/_data_structures.py | 23 +++++++++++++------
 2 files changed, 28 insertions(+), 32 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 1af0678fc..c351d5f77 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -82,7 +82,7 @@
 from .constants import StreamAttributes as SA
 from .constants import TrailerKeys as TK
 from .constants import TypFitArguments, UserAccessPermissions
-from .generic import (
+from .generic import (  # OutlineItem,
     AnnotationBuilder,
     ArrayObject,
     BooleanObject,
@@ -96,7 +96,6 @@
     NameObject,
     NullObject,
     NumberObject,
-    OutlineItem,
     PdfObject,
     RectangleObject,
     StreamObject,
@@ -2097,9 +2096,6 @@ def merge(
             # Create a new PdfReader instance using the stream
             # (either file or BytesIO or StringIO) created above
             reader = PdfReader(stream, strict=False)  # type: ignore[arg-type]
-        ##        self.inputs.append((stream, reader))
-        ##        if encryption_obj is not None:
-        ##            reader._encryption = encryption_obj
 
         # Find the range of pages to merge.
         if pages is None:
@@ -2165,11 +2161,6 @@ def merge(
             pass
 
         return
-        trimmed_dests = self._trim_dests(reader, dests, pages)
-        self.named_dests += trimmed_dests
-
-        self._associate_dests_to_pages(srcpages)
-        self._associate_outline_items_to_pages(srcpages)
 
     def _get_filtered_outline(
         self,
@@ -2189,8 +2180,6 @@ def _get_filtered_outline(
             while node is not None:
                 node = node.get_object()
                 o = pdf._build_outline_item(node)
-                ##                if "/Title" not in node:
-                ##                    del(o["/Title"])
                 if isinstance(o["/Page"], int):
                     o[NameObject("/Page")] = pdf.pages[o["/Page"]].indirect_ref
                 if (
@@ -2280,19 +2269,17 @@ def find_outline_item(
             else:
                 return None
 
-
-##
-##    @deprecate_bookmark(bookmark="outline_item")
-##    def find_bookmark(
-##        self,
-##        outline_item: Dict[str, Any],
-##        root: Optional[OutlineType] = None,
-##    ) -> Optional[List[int]]:  # pragma: no cover
-##        """
-##        .. deprecated:: 2.9.0
-##            Use :meth:`find_outline_item` instead.
-##        """
-##        return self.find_outline_item(outline_item, root)
+    @deprecate_bookmark(bookmark="outline_item")
+    def find_bookmark(
+        self,
+        outline_item: Dict[str, Any],
+        root: Optional[OutlineType] = None,
+    ) -> Optional[List[int]]:  # pragma: no cover
+        """
+        .. deprecated:: 2.9.0
+            Use :meth:`find_outline_item` instead.
+        """
+        return self.find_outline_item(outline_item, root)
 
 
 def _pdf_objectify(obj: Union[Dict[str, Any], str, int, List[Any]]) -> PdfObject:
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index ddc2b8b01..5dbe9fa54 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -31,7 +31,7 @@
 import logging
 import re
 from io import BytesIO
-from typing import Any, Dict, Iterable, List, Optional, Tuple, Union, cast
+from typing import Any, Dict, Iterable, List, Optional, Tuple, Union
 
 from .._utils import (
     WHITESPACES,
@@ -500,6 +500,16 @@ def add_child(self, child: Any, pdf: Any) -> None:  # PdfWriter
         self.insert_child(child, None, pdf)
 
     def insert_child(self, child: Any, before: Any, pdf: Any) -> None:  # PdfWriter
+        def inc_parent_counter(parent: Optional[TreeObject], n: int) -> None:
+            if parent is None:
+                return
+            parent = parent.get_object()
+            if "/Count" in parent:
+                parent[NameObject("/Count")] = NumberObject(
+                    parent[NameObject("/Count")] + n
+                )
+                inc_parent_counter(parent.get("/Parent", None), n)
+
         child_obj = child.get_object()
         child = child.indirect_ref  # get_reference(child_obj)
         # assert isinstance(child, IndirectObject)
@@ -507,9 +517,10 @@ def insert_child(self, child: Any, before: Any, pdf: Any) -> None:  # PdfWriter
         prev: Optional[DictionaryObject]
         if "/First" not in self:  # no child yet
             self[NameObject("/First")] = child
-            self[NameObject("/Count")] = NumberObject(1)
+            self[NameObject("/Count")] = NumberObject(0)
             self[NameObject("/Last")] = child
             child_obj[NameObject("/Parent")] = self.indirect_ref
+            inc_parent_counter(self, child_obj.get("/Count", 1))
             if "/Next" in child_obj:
                 del child_obj["/Next"]
             if "/Prev" in child_obj:
@@ -528,9 +539,7 @@ def insert_child(self, child: Any, before: Any, pdf: Any) -> None:  # PdfWriter
                 if "/Next" in child_obj:
                     del child_obj["/Next"]
                 self[NameObject("/Last")] = child
-                self[NameObject("/Count")] = NumberObject(
-                    self[NameObject("/Count")] + 1
-                )
+                inc_parent_counter(self, child_obj.get("/Count", 1))
                 return
         try:  # insert as first or in the middle
             prev["/Prev"][NameObject("/Next")] = child
@@ -539,8 +548,8 @@ def insert_child(self, child: Any, before: Any, pdf: Any) -> None:  # PdfWriter
             del child_obj["/Next"]
         child_obj[NameObject("/Next")] = prev
         prev[NameObject("/Prev")] = child
-        child_obj[NameObject("/Parent")] = parent_ref
-        self[NameObject("/Count")] = NumberObject(self[NameObject("/Count")] + 1)  # type: ignore
+        child_obj[NameObject("/Parent")] = self.indirect_ref
+        inc_parent_counter(self, child_obj.get("/Count", 1))
 
     def removeChild(self, child: Any) -> None:  # pragma: no cover
         deprecate_with_replacement("removeChild", "remove_child")

From bd0c85521af297310a24c92ab25afab192214595 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 9 Oct 2022 14:32:02 +0200
Subject: [PATCH 007/101] flake8

---
 PyPDF2/_writer.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index c351d5f77..e08c4e2ae 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -82,7 +82,7 @@
 from .constants import StreamAttributes as SA
 from .constants import TrailerKeys as TK
 from .constants import TypFitArguments, UserAccessPermissions
-from .generic import (  # OutlineItem,
+from .generic import (
     AnnotationBuilder,
     ArrayObject,
     BooleanObject,
@@ -2156,9 +2156,9 @@ def merge(
                 outline, outline_item_typ, None
             )  # TODO : use before parameter
 
-        for (i, p) in srcpages.items():
-            # reserved for links
-            pass
+        # for (i, p) in srcpages.items():
+        #    reserved for links
+        #    pass
 
         return
 

From ffc8e53d66846101149db3db9b7c40e04da85d53 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 9 Oct 2022 14:43:32 +0200
Subject: [PATCH 008/101] Flake 8

---
 tests/test_merger.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/test_merger.py b/tests/test_merger.py
index 6bf89ba46..d04f457b2 100644
--- a/tests/test_merger.py
+++ b/tests/test_merger.py
@@ -275,7 +275,7 @@ def test_merge_write_closed_fh_with_writer():
     pdf_path = RESOURCE_ROOT / "crazyones.pdf"
     merger.append(pdf_path)
 
-    err_closed = "close() was called and thus the writer cannot be used anymore"
+    # err_closed = "close() was called and thus the writer cannot be used anymore"
 
     merger.close()
     # with pytest.raises(RuntimeError) as exc:

From a66bcc2d8d667bfcbe3781997d48c3cdfb36bb30 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Tue, 11 Oct 2022 23:17:36 +0200
Subject: [PATCH 009/101] Sort DestNames + add page cleanup for annots

to be iaw PDF Spec

add page clean up for destination in NameObject that are not matching TextStringObject in Names/Dests
---
 PyPDF2/_writer.py | 39 +++++++++++++++++++++++++++++----------
 1 file changed, 29 insertions(+), 10 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index e08c4e2ae..c943f7c00 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1118,15 +1118,11 @@ def get_named_dest_root(self) -> ArrayObject:
             self._root_object[CA.NAMES], DictionaryObject
         ):
             names = cast(DictionaryObject, self._root_object[CA.NAMES])
-            idnum = self._objects.index(names) + 1
-            names_ref = IndirectObject(idnum, 0, self)
-            assert names_ref.get_object() == names
+            names_ref = names.indirect_ref
             if CA.DESTS in names and isinstance(names[CA.DESTS], DictionaryObject):
                 # 3.6.3 Name Dictionary (PDF spec 1.7)
                 dests = cast(DictionaryObject, names[CA.DESTS])
-                idnum = self._objects.index(dests) + 1
-                dests_ref = IndirectObject(idnum, 0, self)
-                assert dests_ref.get_object() == dests
+                dests_ref = dests.indirect_ref
                 if CA.NAMES in dests:
                     # TABLE 3.33 Entries in a name tree node dictionary
                     nd = cast(ArrayObject, dests[CA.NAMES])
@@ -1373,14 +1369,20 @@ def add_named_destination_array(
         self, title: TextStringObject, dest: ArrayObject
     ) -> None:
         nd = self.get_named_dest_root()
-        nd.extend([title, dest])  # type: ignore
+        i = 0
+        while i < len(nd):
+            if title < nd[i]:
+                nd.insert(i, dest)
+                nd.insert(i, TextStringObject(title))
+                return
+            else:
+                i += 2
+        nd.extend([TextStringObject(title), dest])
         return
 
     def add_named_destination_object(self, dest: PdfObject) -> IndirectObject:
         dest_ref = self._add_object(dest)
-
-        nd = self.get_named_dest_root()
-        nd.extend([dest["/Title"], dest_ref])  # type: ignore
+        add_named_destination(dest["/Title"], dest_ref)
         return dest_ref
 
     def addNamedDestinationObject(
@@ -1984,6 +1986,22 @@ def add_annotation(self, page_number: int, annotation: Dict[str, Any]) -> None:
 
         page.annotations.append(ind_obj)
 
+    def clean_page(self, page: Union[PageObject, IndirectObject]) -> PageObject:
+        page = page.get_object()
+        for a in page.get("/Annots", []):
+            a_obj = a.get_object()
+            d = a_obj.get("/Dest", None)
+            act = a_obj.get("/A", None)
+            if isinstance(d, NameObject):
+                a_obj[NameObject("/Dest")] = TextStringObject(d)
+            elif act is not None:
+                act = act.get_object()
+                d = act.get("/D", None)
+                if isinstance(d, NameObject):
+                    act[NameObject("/D")] = TextStringObject(d)
+
+        return page
+
     # from PdfMerger:
     def _create_stream(
         self, fileobj: Union[Path, StrByteType, PdfReader]
@@ -2122,6 +2140,7 @@ def merge(
                     reader.pages[i], position, excluded_fields
                 )
                 position += 1
+            self.clean_page(srcpages[reader.pages[i].indirect_ref.idnum])
 
         reader._namedDests = (
             reader.named_destinations

From 90c95b74774c1309d637119d7b4adaccee829a9e Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Tue, 11 Oct 2022 23:23:59 +0200
Subject: [PATCH 010/101] flake8

---
 PyPDF2/_writer.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index c943f7c00..f48bb05d8 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1381,8 +1381,8 @@ def add_named_destination_array(
         return
 
     def add_named_destination_object(self, dest: PdfObject) -> IndirectObject:
-        dest_ref = self._add_object(dest)
-        add_named_destination(dest["/Title"], dest_ref)
+        dest_ref = self._add_object(dest.dest_array)
+        self.add_named_destination_array(dest["/Title"], dest_ref)
         return dest_ref
 
     def addNamedDestinationObject(

From 52e8bcdfca4f7b24a3cd21574ad8cfe4fb4a8169 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Wed, 12 Oct 2022 23:48:35 +0200
Subject: [PATCH 011/101] mypy 1/n

---
 PyPDF2/_merger.py       |  2 +-
 PyPDF2/_writer.py       |  6 +++---
 PyPDF2/generic/_base.py | 40 ++++++++++++++++++++++------------------
 3 files changed, 26 insertions(+), 22 deletions(-)

diff --git a/PyPDF2/_merger.py b/PyPDF2/_merger.py
index 5a512ac68..351471084 100644
--- a/PyPDF2/_merger.py
+++ b/PyPDF2/_merger.py
@@ -649,7 +649,7 @@ def add_outline_item(
         if writer is None:
             raise RuntimeError(ERR_CLOSED_WRITER)
         return writer.add_outline_item(
-            title, pagenum, parent, color, bold, italic, fit, *args
+            title, pagenum, parent, None, color, bold, italic, fit, *args
         )
 
     def addBookmark(
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index f48bb05d8..776d19580 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -133,7 +133,7 @@ def __init__(self, fileobj: StrByteType = "") -> None:
         self._header = b"%PDF-1.3"
         self._objects: List[Optional[PdfObject]] = []  # array of indirect objects
         self._idnum_hash: Dict[bytes, IndirectObject] = {}
-        self._id_translated = {}
+        self._id_translated: Dict[int, Dict[int, int]] = {}
 
         # The root of our page tree node.
         pages = DictionaryObject()
@@ -200,8 +200,8 @@ def pdf_header(self, new_header: bytes) -> None:
         self._header = new_header
 
     def _add_object(self, obj: Optional[PdfObject]) -> IndirectObject:
-        if hasattr(obj, "indirect_ref") and obj.indirect_ref.pdf == self:
-            return obj
+        if hasattr(obj, "indirect_ref") and obj.indirect_ref.pdf == self:  # type: ignore
+            return obj.indirect_ref
         self._objects.append(obj)
         obj.new_id = len(self._objects)
         obj.indirect_ref = IndirectObject(len(self._objects), 0, self)
diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 03092bf35..0e716cd5c 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -30,7 +30,7 @@
 import hashlib
 import re
 from binascii import unhexlify
-from typing import Any, Callable, List, Optional, Tuple, Union
+from typing import Any, Callable, List, Optional, Tuple, TypeVar, Union, cast
 
 from .._codecs import _pdfdoc_encoding_rev
 from .._utils import (
@@ -53,6 +53,7 @@
 class PdfObject:
     # function for calculating a hash value
     hash_func: Callable[..., "hashlib._Hash"] = hashlib.sha1
+    indirect_ref: Optional["IndirectObject"]
 
     def hash_value_data(self) -> bytes:
         return ("%s" % self).encode()
@@ -68,14 +69,14 @@ def hash_value(self) -> bytes:
 
     def clone(
         self,
-        pdf_dest: Any,
+        pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str], List[str], None] = None,
     ) -> "PdfObject":
         """clone object into pdf_dest"""
         raise Exception("clone PdfObject")
 
-    def _reference_clone(self, clone: Any, pdf_dest: Any) -> "PdfObject":
+    def _reference_clone(self, clone: Any, pdf_dest: "PdfWriter") -> "PdfObject":  # type: ignore
         try:
             if clone.indirect_ref.pdf == pdf_dest:
                 return clone
@@ -113,14 +114,12 @@ def write_to_stream(
 class NullObject(PdfObject):
     def clone(
         self,
-        pdf_dest: Any,
+        pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str], List[str], None] = None,
     ) -> "NullObject":
         """clone object into pdf_dest"""
-        return self._reference_clone(NullObject(), pdf_dest)
-
-        return self._reference_clone(NullObject(), pdf_dest)
+        return cast("NullObject", self._reference_clone(NullObject(), pdf_dest))
 
     def write_to_stream(
         self, stream: StreamType, encryption_key: Union[None, str, bytes]
@@ -155,12 +154,14 @@ def __init__(self, value: Any) -> None:
 
     def clone(
         self,
-        pdf_dest: Any,
+        pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str], List[str], None] = None,
     ) -> "BooleanObject":
         """clone object into pdf_dest"""
-        return self._reference_clone(BooleanObject(self.value), pdf_dest)
+        return cast(
+            "BooleanObject", self._reference_clone(BooleanObject(self.value), pdf_dest)
+        )
 
     def __eq__(self, __o: object) -> bool:
         if isinstance(__o, BooleanObject):
@@ -212,7 +213,7 @@ def __init__(self, idnum: int, generation: int, pdf: Any) -> None:  # PdfReader
 
     def clone(
         self,
-        pdf_dest: Any,
+        pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str], List[str], None] = None,
     ) -> "IndirectObject":  # PPzz
@@ -226,7 +227,7 @@ def clone(
         if not force_duplicate and self.idnum in pdf_dest._id_translated[id(self.pdf)]:
             dup = pdf_dest.get_object(pdf_dest._id_translated[id(self.pdf)][self.idnum])
         else:
-            dup = self.get_object().clone(pdf_dest, force_duplicate, ignore_fields)
+            dup = self.get_object().clone(pdf_dest, force_duplicate, ignore_fields)  # type: ignore
         return dup.indirect_ref
 
     @property
@@ -319,7 +320,7 @@ def clone(
         ignore_fields: Union[Tuple[str], List[str], None] = None,
     ) -> "FloatObject":
         """clone object into pdf_dest"""
-        return self._reference_clone(FloatObject(self), pdf_dest)
+        return cast("FloatObject", self._reference_clone(FloatObject(self), pdf_dest))
 
     def __repr__(self) -> str:
         if self == self.to_integral():
@@ -360,9 +361,9 @@ def clone(
         pdf_dest: Any,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str], List[str], None] = None,
-    ) -> "FloatObject":
+    ) -> "NumberObject":
         """clone object into pdf_dest"""
-        return self._reference_clone(NumberObject(self), pdf_dest)
+        return cast("NumberObject", self._reference_clone(NumberObject(self), pdf_dest))
 
     def as_numeric(self) -> int:
         return int(repr(self).encode("utf8"))
@@ -408,7 +409,10 @@ def clone(
         ignore_fields: Union[Tuple[str], List[str], None] = None,
     ) -> "ByteStringObject":
         """clone object into pdf_dest"""
-        return self._reference_clone(ByteStringObject(bytes(self)), pdf_dest)
+        return cast(
+            "ByteStringObject",
+            self._reference_clone(ByteStringObject(bytes(self)), pdf_dest),
+        )
 
     @property
     def original_bytes(self) -> bytes:
@@ -447,12 +451,12 @@ def clone(
         pdf_dest: Any,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str], List[str], None] = None,
-    ) -> ByteStringObject:
+    ) -> "TextStringObject":
         """clone object into pdf_dest"""
         obj = TextStringObject(self)
         obj.autodetect_pdfdocencoding = self.autodetect_pdfdocencoding
         obj.autodetect_utf16 = self.autodetect_utf16
-        return self._reference_clone(obj, pdf_dest)
+        return cast("TextStringObject", self._reference_clone(obj, pdf_dest))
 
     autodetect_pdfdocencoding = False
     autodetect_utf16 = False
@@ -534,7 +538,7 @@ def clone(
         ignore_fields: Union[Tuple[str], List[str], None] = None,
     ) -> "NameObject":
         """clone object into pdf_dest"""
-        return self._reference_clone(NameObject(self), pdf_dest)
+        return cast("NameObject", self._reference_clone(NameObject(self), pdf_dest))
 
     def write_to_stream(
         self, stream: StreamType, encryption_key: Union[None, str, bytes]

From 1e553764cfa2dbfdc01d0560ec184f9feeea519c Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Wed, 12 Oct 2022 23:49:54 +0200
Subject: [PATCH 012/101] add test for iis #471

---
 tests/test_writer.py | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/tests/test_writer.py b/tests/test_writer.py
index 3250fb587..c1ac3800c 100644
--- a/tests/test_writer.py
+++ b/tests/test_writer.py
@@ -800,3 +800,15 @@ def test_write_empty_stream():
     with pytest.raises(ValueError) as exc:
         writer.write("")
     assert exc.value.args[0] == "Output(stream=) is empty."
+
+
+def test_iss471():
+    url = "https://github.com/py-pdf/PyPDF2/files/9139245/book.pdf"
+    name = "book_471.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+
+    writer = PdfWriter()
+    writer.append(reader, excluded_fields=[])
+    assert isinstance(
+        writer.pages[0]["/Annots"][0].get_object()["/Dest"], TextStringObject
+    )

From 506f35e1a6515943aee167f596646b0d4b0caab5 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Thu, 13 Oct 2022 21:29:09 +0200
Subject: [PATCH 013/101] flake8

---
 PyPDF2/generic/_base.py | 14 +++++++++++++-
 1 file changed, 13 insertions(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 0e716cd5c..ad9bc2ac9 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -30,7 +30,16 @@
 import hashlib
 import re
 from binascii import unhexlify
-from typing import Any, Callable, List, Optional, Tuple, TypeVar, Union, cast
+from typing import (
+    TYPE_CHECKING,
+    Any,
+    Callable,
+    List,
+    Optional,
+    Tuple,
+    Union,
+    cast,
+)
 
 from .._codecs import _pdfdoc_encoding_rev
 from .._utils import (
@@ -46,6 +55,9 @@
 )
 from ..errors import STREAM_TRUNCATED_PREMATURELY, PdfReadError, PdfStreamError
 
+if TYPE_CHECKING:
+    from .._writer import PdfWriter
+
 __author__ = "Mathieu Fenniak"
 __author_email__ = "biziqe@mathieu.fenniak.net"
 

From 2abe7e98feea30024ddfd15ad6376b53155d99e7 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Thu, 13 Oct 2022 23:34:16 +0200
Subject: [PATCH 014/101] mypy

---
 PyPDF2/generic/_base.py            | 20 +++----
 PyPDF2/generic/_data_structures.py | 96 ++++++++++++++++--------------
 2 files changed, 62 insertions(+), 54 deletions(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index ad9bc2ac9..ecc71c0c3 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -65,7 +65,7 @@
 class PdfObject:
     # function for calculating a hash value
     hash_func: Callable[..., "hashlib._Hash"] = hashlib.sha1
-    indirect_ref: Optional["IndirectObject"]
+    indirect_ref: "IndirectObject"
 
     def hash_value_data(self) -> bytes:
         return ("%s" % self).encode()
@@ -83,7 +83,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
     ) -> "PdfObject":
         """clone object into pdf_dest"""
         raise Exception("clone PdfObject")
@@ -128,7 +128,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
     ) -> "NullObject":
         """clone object into pdf_dest"""
         return cast("NullObject", self._reference_clone(NullObject(), pdf_dest))
@@ -168,7 +168,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
     ) -> "BooleanObject":
         """clone object into pdf_dest"""
         return cast(
@@ -227,7 +227,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
     ) -> "IndirectObject":  # PPzz
         """clone object into pdf_dest"""
         if self.pdf == pdf_dest and not force_duplicate:
@@ -329,7 +329,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
     ) -> "FloatObject":
         """clone object into pdf_dest"""
         return cast("FloatObject", self._reference_clone(FloatObject(self), pdf_dest))
@@ -372,7 +372,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
     ) -> "NumberObject":
         """clone object into pdf_dest"""
         return cast("NumberObject", self._reference_clone(NumberObject(self), pdf_dest))
@@ -418,7 +418,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
     ) -> "ByteStringObject":
         """clone object into pdf_dest"""
         return cast(
@@ -462,7 +462,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
     ) -> "TextStringObject":
         """clone object into pdf_dest"""
         obj = TextStringObject(self)
@@ -547,7 +547,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
     ) -> "NameObject":
         """clone object into pdf_dest"""
         return cast("NameObject", self._reference_clone(NameObject(self), pdf_dest))
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 5dbe9fa54..453dae5e1 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -31,7 +31,7 @@
 import logging
 import re
 from io import BytesIO
-from typing import Any, Dict, Iterable, List, Optional, Tuple, Union
+from typing import Any, Dict, Iterable, List, Optional, Tuple, Union, cast
 
 from .._utils import (
     WHITESPACES,
@@ -76,7 +76,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
     ) -> "ArrayObject":
         """clone object into pdf_dest"""
         try:
@@ -84,11 +84,11 @@ def clone(
                 return self
         except Exception:
             pass
-        arr = self._reference_clone(ArrayObject(), pdf_dest)
+        arr = cast("ArrayObject", self._reference_clone(ArrayObject(), pdf_dest))
         for data in self:
             if isinstance(data, StreamObject):
-                if not hasattr(data, "indirect_ref"):
-                    data.indirect_ref = None
+                # if not hasattr(data, "indirect_ref"):
+                #    data.indirect_ref = None
                 dup = data._reference_clone(
                     data.clone(pdf_dest, force_duplicate, ignore_fields), pdf_dest
                 )
@@ -97,7 +97,7 @@ def clone(
                 arr.append(data.clone(pdf_dest, force_duplicate, ignore_fields))
             else:
                 arr.append(data)
-        return arr
+        return cast("ArrayObject", arr)
 
     def items(self) -> Iterable[Any]:
         """
@@ -159,7 +159,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
     ) -> "DictionaryObject":
         """clone object into pdf_dest"""
         try:
@@ -168,7 +168,9 @@ def clone(
         except Exception:
             pass
 
-        d__ = self._reference_clone(self.__class__(), pdf_dest)
+        d__ = cast(
+            "DictionaryObject", self._reference_clone(self.__class__(), pdf_dest)
+        )
         if ignore_fields is None:
             ignore_fields = []
         if len(d__.keys()) == 0:
@@ -200,20 +202,23 @@ def _clone(
                         and k not in self
                         and isinstance(src.raw_get(k), IndirectObject)
                     ):
-                        cur_obj = src[k]
-                        prev_obj = self
+                        cur_obj: Optional["DictionaryObject"] = cast(
+                            "DictionaryObject", src[k]
+                        )
+                        prev_obj: Optional["DictionaryObject"] = self
                         while cur_obj is not None:
-                            clon = cur_obj._reference_clone(
-                                cur_obj.__class__(), pdf_dest
+                            clon = cast(
+                                "DictionaryObject",
+                                cur_obj._reference_clone(cur_obj.__class__(), pdf_dest),
                             )
                             objs.append((cur_obj, clon))
-                            prev_obj[NameObject(k)] = clon.indirect_ref
+                            prev_obj[NameObject(k)] = clon.indirect_ref  # type: ignore
                             prev_obj = clon
                             try:
                                 if cur_obj == src:
                                     cur_obj = None
                                 else:
-                                    cur_obj = cur_obj[k]
+                                    cur_obj = cast("DictionaryObject", cur_obj[k])
                             except Exception:
                                 cur_obj = None
                         for (s, c) in objs:
@@ -223,19 +228,16 @@ def _clone(
             if k not in ignore_fields:
                 if isinstance(v, StreamObject):
                     if not hasattr(v, "indirect_ref"):
-                        v.indirect_ref = None
+                        v.indirect_ref = None  # type: ignore
                     vv = v.clone(pdf_dest, force_duplicate, ignore_fields)
-                    self[k.clone(pdf_dest)] = vv.indirect_ref
+                    assert vv.indirect_ref is not None
+                    self[k.clone(pdf_dest)] = vv.indirect_ref  # type: ignore
                 else:
                     if k not in self:
-                        self.update(
-                            {
-                                (k.clone(pdf_dest) if hasattr(k, "clone") else k): (
-                                    v.clone(pdf_dest, force_duplicate, ignore_fields)
-                                    if hasattr(v, "clone")
-                                    else v
-                                )
-                            }
+                        self[NameObject(k)] = (
+                            v.clone(pdf_dest, force_duplicate, ignore_fields)
+                            if hasattr(v, "clone")
+                            else v
                         )
 
     def raw_get(self, key: Any) -> Any:
@@ -500,13 +502,15 @@ def add_child(self, child: Any, pdf: Any) -> None:  # PdfWriter
         self.insert_child(child, None, pdf)
 
     def insert_child(self, child: Any, before: Any, pdf: Any) -> None:  # PdfWriter
-        def inc_parent_counter(parent: Optional[TreeObject], n: int) -> None:
+        def inc_parent_counter(
+            parent: Union[None, IndirectObject, TreeObject], n: int
+        ) -> None:
             if parent is None:
                 return
-            parent = parent.get_object()
+            parent = cast("TreeObject", parent.get_object())
             if "/Count" in parent:
                 parent[NameObject("/Count")] = NumberObject(
-                    parent[NameObject("/Count")] + n
+                    cast(int, parent[NameObject("/Count")]) + n
                 )
                 inc_parent_counter(parent.get("/Parent", None), n)
 
@@ -527,13 +531,13 @@ def inc_parent_counter(parent: Optional[TreeObject], n: int) -> None:
                 del child_obj["/Prev"]
             return
         else:
-            prev = self["/Last"]
+            prev = cast("DictionaryObject", self["/Last"])
 
         while prev.indirect_ref != before:
             if "/Next" in prev:
-                prev = prev["/Next"]
+                prev = cast("TreeObject", prev["/Next"])
             else:  # append at the end
-                prev[NameObject("/Next")] = child
+                prev[NameObject("/Next")] = cast("TreeObject", child)
                 child_obj[NameObject("/Prev")] = prev.indirect_ref
                 child_obj[NameObject("/Parent")] = self.indirect_ref
                 if "/Next" in child_obj:
@@ -542,7 +546,7 @@ def inc_parent_counter(parent: Optional[TreeObject], n: int) -> None:
                 inc_parent_counter(self, child_obj.get("/Count", 1))
                 return
         try:  # insert as first or in the middle
-            prev["/Prev"][NameObject("/Next")] = child
+            prev["/Prev"][NameObject("/Next")] = child  # type: ignore
             child_obj[NameObject("/Prev")] = prev["/Prev"]
         except Exception:  # it means we are inserting in first position
             del child_obj["/Next"]
@@ -664,22 +668,22 @@ def __init__(self) -> None:
 
     def _clone(
         self,
-        src: DictionaryObject,
+        src: DictionaryObject,  # type: ignore
         pdf_dest: Any,
         force_duplicate: bool,
         ignore_fields: Union[Tuple[str], List[str]],
     ) -> None:
         """update the object from src"""
-        self._data = src._data
+        self._data = cast("StreamObject", src)._data
         try:
-            if src.decoded_self is None:
+            if cast("StreamObject", src).decoded_self is None:
                 self.decoded_self = None
             else:
-                self.decoded_self = src.decoded_self.clone(pdf_dest, True, ignore_fields)  # type: ignore
+                self.decoded_self = cast("StreamObject", src).decoded_self.clone(pdf_dest, True, ignore_fields)  # type: ignore
         except Exception:
             pass
         super()._clone(src, pdf_dest, force_duplicate, ignore_fields)
-        return self
+        return
 
     def hash_value_data(self) -> bytes:
         data = super().hash_value_data()
@@ -860,8 +864,8 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = None,
-    ) -> DictionaryObject:
+        ignore_fields: Union[Tuple[str], List[str], None] = [],
+    ) -> "ContentStream":
         """clone object into pdf_dest"""
         try:
             if self.indirect_ref.pdf == pdf_dest and not force_duplicate:
@@ -869,7 +873,11 @@ def clone(
         except Exception:
             pass
 
-        d__ = self._reference_clone(self.__class__(None, None), pdf_dest)
+        d__ = cast(
+            "ContentStream", self._reference_clone(self.__class__(None, None), pdf_dest)
+        )
+        if ignore_fields is None:
+            ignore_fields = []
         if len(d__.keys()) == 0:
             d__._clone(self, pdf_dest, force_duplicate, ignore_fields)
         return d__
@@ -879,16 +887,16 @@ def _clone(
         src: DictionaryObject,
         pdf_dest: Any,
         force_duplicate: bool,
-        ignore_fields: Union[Tuple[str], List[str], None],
+        ignore_fields: Union[Tuple[str], List[str]],
     ) -> None:
         """update the object from src"""
         self.pdf = pdf_dest
-        self.operations = list(src.operations)
-        self.forced_encoding = src.forced_encoding
+        self.operations = list(cast("ContentStream", src).operations)
+        self.forced_encoding = cast("ContentStream", src).forced_encoding
 
-        super()._clone(self, pdf_dest, force_duplicate, ignore_fields)
+        super()._clone(src, pdf_dest, force_duplicate, ignore_fields)
 
-        return self
+        return
 
     def __parse_content_stream(self, stream: StreamType) -> None:
         stream.seek(0, 0)

From 6ee68590bf38b568ac4b9a417298d5f89cf625a8 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Fri, 14 Oct 2022 22:06:41 +0200
Subject: [PATCH 015/101] mypy

---
 PyPDF2/_page.py                    |  2 +-
 PyPDF2/_reader.py                  | 12 +++++---
 PyPDF2/_writer.py                  | 49 ++++++++++++++++++------------
 PyPDF2/generic/_data_structures.py |  3 ++
 PyPDF2/pagerange.py                |  2 +-
 5 files changed, 41 insertions(+), 27 deletions(-)

diff --git a/PyPDF2/_page.py b/PyPDF2/_page.py
index 459dae05c..c571c79f9 100644
--- a/PyPDF2/_page.py
+++ b/PyPDF2/_page.py
@@ -296,7 +296,7 @@ def __init__(
 
         DictionaryObject.__init__(self)
         self.pdf: Optional[PdfReader] = pdf
-        self.indirect_ref = indirect_ref
+        self.indirect_ref = indirect_ref  # type:ignore
 
     def hash_value_data(self) -> bytes:
         data = super().hash_value_data()
diff --git a/PyPDF2/_reader.py b/PyPDF2/_reader.py
index 52f1c5664..b7d8e0f22 100644
--- a/PyPDF2/_reader.py
+++ b/PyPDF2/_reader.py
@@ -863,16 +863,18 @@ def getDestinationPageNumber(
     def _build_destination(
         self,
         title: str,
-        array: List[
-            Union[NumberObject, IndirectObject, None, NullObject, DictionaryObject]
+        array: Optional[
+            List[
+                Union[NumberObject, IndirectObject, None, NullObject, DictionaryObject]
+            ]
         ],
     ) -> Destination:
         page, typ = None, None
         # handle outline items with missing or invalid destination
         if (
-            isinstance(array, (type(None), NullObject))
+            isinstance(array, (NullObject, str))
             or (isinstance(array, ArrayObject) and len(array) == 0)
-            or (isinstance(array, str))
+            or array is None
         ):
 
             page = NullObject()
@@ -900,7 +902,7 @@ def _build_outline_item(self, node: DictionaryObject) -> Optional[Destination]:
         # title required for valid outline
         # PDF Reference 1.7: TABLE 8.4 Entries in an outline item dictionary
         try:
-            title = node["/Title"]
+            title = cast("str", node["/Title"])
         except KeyError:
             if self.strict:
                 raise PdfReadError(f"Outline Entry Missing /Title attribute: {node!r}")
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 776d19580..a924fb8d1 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -131,7 +131,7 @@ class (typically :class:`PdfReader<PyPDF2.PdfReader>`).
 
     def __init__(self, fileobj: StrByteType = "") -> None:
         self._header = b"%PDF-1.3"
-        self._objects: List[Optional[PdfObject]] = []  # array of indirect objects
+        self._objects: List[PdfObject] = []  # array of indirect objects
         self._idnum_hash: Dict[bytes, IndirectObject] = {}
         self._id_translated: Dict[int, Dict[int, int]] = {}
 
@@ -199,11 +199,10 @@ def pdf_header(self) -> bytes:
     def pdf_header(self, new_header: bytes) -> None:
         self._header = new_header
 
-    def _add_object(self, obj: Optional[PdfObject]) -> IndirectObject:
+    def _add_object(self, obj: PdfObject) -> IndirectObject:
         if hasattr(obj, "indirect_ref") and obj.indirect_ref.pdf == self:  # type: ignore
             return obj.indirect_ref
         self._objects.append(obj)
-        obj.new_id = len(self._objects)
         obj.indirect_ref = IndirectObject(len(self._objects), 0, self)
         return obj.indirect_ref
 
@@ -240,7 +239,7 @@ def _add_page(
         for k in [PA.PARENT, "/StructParents"]:
             if k not in excluded_keys:
                 excluded_keys.append(k)
-        page = page_org.clone(self, False, excluded_keys)
+        page = cast("PageObject", page_org.clone(self, False, excluded_keys))
         # page_ind = self._add_object(page)
         if page_org.pdf is not None:
             other = page_org.pdf.pdf_header
@@ -1276,6 +1275,7 @@ def add_outline_item(
         :param str fit: The fit of the destination page. See
             :meth:`add_link()<add_link>` for details.
         """
+        page_ref: Union[IndirectObject, NumberObject]
         if isinstance(italic, str):  # it means that we are on the old params
             if fit == "/Fit":
                 fit = None
@@ -1366,7 +1366,7 @@ def add_outline(self) -> None:
         )
 
     def add_named_destination_array(
-        self, title: TextStringObject, dest: ArrayObject
+        self, title: TextStringObject, dest: Union[IndirectObject, ArrayObject]
     ) -> None:
         nd = self.get_named_dest_root()
         i = 0
@@ -1380,13 +1380,15 @@ def add_named_destination_array(
         nd.extend([TextStringObject(title), dest])
         return
 
-    def add_named_destination_object(self, dest: PdfObject) -> IndirectObject:
+    def add_named_destination_object(self, dest: Destination) -> IndirectObject:
         dest_ref = self._add_object(dest.dest_array)
-        self.add_named_destination_array(dest["/Title"], dest_ref)
+        self.add_named_destination_array(
+            cast("TextStringObject", dest["/Title"]), dest_ref
+        )
         return dest_ref
 
     def addNamedDestinationObject(
-        self, dest: PdfObject
+        self, dest: Destination
     ) -> IndirectObject:  # pragma: no cover
         """
         .. deprecated:: 1.28.0
@@ -1987,7 +1989,7 @@ def add_annotation(self, page_number: int, annotation: Dict[str, Any]) -> None:
         page.annotations.append(ind_obj)
 
     def clean_page(self, page: Union[PageObject, IndirectObject]) -> PageObject:
-        page = page.get_object()
+        page = cast("PageObject", page.get_object())
         for a in page.get("/Annots", []):
             a_obj = a.get_object()
             d = a_obj.get("/Dest", None)
@@ -2158,18 +2160,23 @@ def merge(
             # except Exception as e:
             #    logger_warning(f"can not insert {dest} : {e.msg}",__name__)
 
+        outline_item_typ: TreeObject
         if outline_item is not None:
-            outline_item_typ = self.add_outline_item(
-                TextStringObject(outline_item),
-                list(srcpages.values())[0].indirect_ref,
-                fit=NameObject(TypFitArguments.FIT),
+            outline_item_typ = cast(
+                "TreeObject",
+                self.add_outline_item(
+                    TextStringObject(outline_item),
+                    list(srcpages.values())[0].indirect_ref,
+                    fit=cast("FitType", TypFitArguments.FIT),
+                ).get_object(),
             )
         else:
             outline_item_typ = self.get_outline_root()
 
-        if import_outline and CO.OUTLINES in reader.trailer[TK.ROOT]:
+        _ro = cast("DictionaryObject", reader.trailer[TK.ROOT])
+        if import_outline and CO.OUTLINES in _ro:
             outline = self._get_filtered_outline(
-                reader.trailer[TK.ROOT].get(CO.OUTLINES, None), srcpages, reader
+                _ro.get(CO.OUTLINES, None), srcpages, reader
             )
             self._insert_filtered_outline(
                 outline, outline_item_typ, None
@@ -2198,7 +2205,7 @@ def _get_filtered_outline(
         else:
             while node is not None:
                 node = node.get_object()
-                o = pdf._build_outline_item(node)
+                o = cast("Destination", pdf._build_outline_item(node))
                 if isinstance(o["/Page"], int):
                     o[NameObject("/Page")] = pdf.pages[o["/Page"]].indirect_ref
                 if (
@@ -2245,7 +2252,7 @@ def _clone_outline(self, dest):
     def _insert_filtered_outline(
         self,
         outlines: List[Destination],
-        parent: Union[None, TreeObject, IndirectObject] = None,
+        parent: Union[TreeObject, IndirectObject],
         before: Union[None, TreeObject, IndirectObject] = None,
     ) -> None:
         for dest in outlines:
@@ -2271,7 +2278,7 @@ def find_outline_item(
         if root is None:
             o = self.get_outline_root()
         else:
-            o = root
+            o = cast("TreeObject", root)
 
         i = 0
         while o is not None:
@@ -2279,12 +2286,14 @@ def find_outline_item(
                 return [i]
             else:
                 if "/First" in o:
-                    res = self.find_outline_item(outline_item, o["/First"])
+                    res = self.find_outline_item(
+                        outline_item, cast(OutlineType, o["/First"])
+                    )
                     if res:
                         return ([i] if "/Title" in o else []) + res
             if "/Next" in o:
                 i += 1
-                o = o["/Next"]
+                o = cast(TreeObject, o["/Next"])
             else:
                 return None
 
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 453dae5e1..d1b8ac1ec 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -1234,6 +1234,9 @@ class Destination(TreeObject):
          - [left]
     """
 
+    node: DictionaryObject  # node provide access to the originalObject ; created only when pertinent
+    childs: List[Any]  # used in PdfWriter
+
     def __init__(
         self,
         title: str,
diff --git a/PyPDF2/pagerange.py b/PyPDF2/pagerange.py
index b22541159..f009adc19 100644
--- a/PyPDF2/pagerange.py
+++ b/PyPDF2/pagerange.py
@@ -170,4 +170,4 @@ def parse_filename_page_ranges(
     return pairs
 
 
-PageRangeSpec = Union[str, PageRange, Tuple[int, int], Tuple[int, int, int]]
+PageRangeSpec = Union[str, PageRange, Tuple[int, int], Tuple[int, int, int], List[int]]

From 9bdde0f3ee4103c8d47e2657f6f8a7566e72e90e Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sat, 15 Oct 2022 09:55:13 +0200
Subject: [PATCH 016/101] B006 fix 1

---
 PyPDF2/generic/_data_structures.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index d1b8ac1ec..57eb81029 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -76,7 +76,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "ArrayObject":
         """clone object into pdf_dest"""
         try:
@@ -159,7 +159,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "DictionaryObject":
         """clone object into pdf_dest"""
         try:
@@ -864,7 +864,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "ContentStream":
         """clone object into pdf_dest"""
         try:
@@ -1234,8 +1234,8 @@ class Destination(TreeObject):
          - [left]
     """
 
-    node: DictionaryObject  # node provide access to the originalObject ; created only when pertinent
-    childs: List[Any]  # used in PdfWriter
+    node: DictionaryObject = None  # node provide access to the original Object
+    childs: List[Any] = []  # used in PdfWriter
 
     def __init__(
         self,

From 803becba1cf1d2e5c04368717a7831b3ab10d31b Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sat, 15 Oct 2022 10:05:26 +0200
Subject: [PATCH 017/101] B006 fix 2

---
 PyPDF2/generic/_base.py | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index ecc71c0c3..996b2ffb0 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -83,7 +83,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "PdfObject":
         """clone object into pdf_dest"""
         raise Exception("clone PdfObject")
@@ -128,7 +128,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "NullObject":
         """clone object into pdf_dest"""
         return cast("NullObject", self._reference_clone(NullObject(), pdf_dest))
@@ -168,7 +168,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "BooleanObject":
         """clone object into pdf_dest"""
         return cast(
@@ -227,7 +227,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "IndirectObject":  # PPzz
         """clone object into pdf_dest"""
         if self.pdf == pdf_dest and not force_duplicate:
@@ -329,7 +329,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "FloatObject":
         """clone object into pdf_dest"""
         return cast("FloatObject", self._reference_clone(FloatObject(self), pdf_dest))
@@ -372,7 +372,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "NumberObject":
         """clone object into pdf_dest"""
         return cast("NumberObject", self._reference_clone(NumberObject(self), pdf_dest))
@@ -418,7 +418,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "ByteStringObject":
         """clone object into pdf_dest"""
         return cast(
@@ -462,7 +462,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "TextStringObject":
         """clone object into pdf_dest"""
         obj = TextStringObject(self)
@@ -547,7 +547,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = [],
+        ignore_fields: Union[Tuple[str], List[str], None] = (),
     ) -> "NameObject":
         """clone object into pdf_dest"""
         return cast("NameObject", self._reference_clone(NameObject(self), pdf_dest))

From 1727985269834d7789feffcbd36bd2d55ded4122 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sat, 15 Oct 2022 10:20:19 +0200
Subject: [PATCH 018/101] mypy

---
 PyPDF2/generic/_base.py            | 18 +++++++++---------
 PyPDF2/generic/_data_structures.py | 16 +++++++++-------
 2 files changed, 18 insertions(+), 16 deletions(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 996b2ffb0..45d688be1 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -83,7 +83,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "PdfObject":
         """clone object into pdf_dest"""
         raise Exception("clone PdfObject")
@@ -128,7 +128,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "NullObject":
         """clone object into pdf_dest"""
         return cast("NullObject", self._reference_clone(NullObject(), pdf_dest))
@@ -168,7 +168,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "BooleanObject":
         """clone object into pdf_dest"""
         return cast(
@@ -227,7 +227,7 @@ def clone(
         self,
         pdf_dest: "PdfWriter",  # type: ignore
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "IndirectObject":  # PPzz
         """clone object into pdf_dest"""
         if self.pdf == pdf_dest and not force_duplicate:
@@ -329,7 +329,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "FloatObject":
         """clone object into pdf_dest"""
         return cast("FloatObject", self._reference_clone(FloatObject(self), pdf_dest))
@@ -372,7 +372,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "NumberObject":
         """clone object into pdf_dest"""
         return cast("NumberObject", self._reference_clone(NumberObject(self), pdf_dest))
@@ -418,7 +418,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "ByteStringObject":
         """clone object into pdf_dest"""
         return cast(
@@ -462,7 +462,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "TextStringObject":
         """clone object into pdf_dest"""
         obj = TextStringObject(self)
@@ -547,7 +547,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "NameObject":
         """clone object into pdf_dest"""
         return cast("NameObject", self._reference_clone(NameObject(self), pdf_dest))
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 57eb81029..4e65c8922 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -76,7 +76,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "ArrayObject":
         """clone object into pdf_dest"""
         try:
@@ -159,7 +159,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "DictionaryObject":
         """clone object into pdf_dest"""
         try:
@@ -182,7 +182,7 @@ def _clone(
         src: "DictionaryObject",
         pdf_dest: Any,
         force_duplicate: bool,
-        ignore_fields: Union[Tuple[str], List[str]],
+        ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:
         """update the object from src"""
         #  First check if this is a chain list, we need to loop to prevent recur
@@ -671,7 +671,7 @@ def _clone(
         src: DictionaryObject,  # type: ignore
         pdf_dest: Any,
         force_duplicate: bool,
-        ignore_fields: Union[Tuple[str], List[str]],
+        ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:
         """update the object from src"""
         self._data = cast("StreamObject", src)._data
@@ -864,7 +864,7 @@ def clone(
         self,
         pdf_dest: Any,
         force_duplicate: bool = False,
-        ignore_fields: Union[Tuple[str], List[str], None] = (),
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "ContentStream":
         """clone object into pdf_dest"""
         try:
@@ -887,7 +887,7 @@ def _clone(
         src: DictionaryObject,
         pdf_dest: Any,
         force_duplicate: bool,
-        ignore_fields: Union[Tuple[str], List[str]],
+        ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:
         """update the object from src"""
         self.pdf = pdf_dest
@@ -1234,7 +1234,9 @@ class Destination(TreeObject):
          - [left]
     """
 
-    node: DictionaryObject = None  # node provide access to the original Object
+    node: Optional[
+        DictionaryObject
+    ] = None  # node provide access to the original Object
     childs: List[Any] = []  # used in PdfWriter
 
     def __init__(

From f498373a435e5e491e04f92cce55b56e7f28baa6 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sat, 15 Oct 2022 10:42:03 +0200
Subject: [PATCH 019/101] mypy

---
 PyPDF2/_writer.py       | 17 +++++++++--------
 PyPDF2/generic/_base.py |  2 +-
 2 files changed, 10 insertions(+), 9 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index a924fb8d1..5e4362a75 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2227,16 +2227,12 @@ def _get_filtered_outline(
                 node = node.get("/Next", None)
         return new_outline
 
-    def _clone_outline(self, dest):
+    def _clone_outline(self, dest: Destination) -> TreeObject:
         n_ol = TreeObject()
         self._add_object(n_ol)
         n_ol[NameObject("/Title")] = TextStringObject(dest["/Title"])
-        n_ol[NameObject("/F")] = NumberObject(dest.node.get("/F", 0))
-        n_ol[NameObject("/C")] = ArrayObject(
-            dest.node.get("/C", [FloatObject(0.0), FloatObject(0.0), FloatObject(0.0)])
-        )
         if not isinstance(dest["/Page"], NullObject):
-            if "/A" in dest.node:
+            if dest.node is not None and "/A" in dest.node:
                 n_ol[NameObject("/A")] = dest.node["/A"].clone(self)
             # elif "/D" in dest.node:
             #    n_ol[NameObject("/Dest")] = dest.node["/D"].clone(self)
@@ -2245,8 +2241,13 @@ def _clone_outline(self, dest):
             else:
                 n_ol[NameObject("/Dest")] = dest.dest_array
         # TODO: /SE
-        # n_ol = ol.clone(self,True,["/Parent","/First","/Last","/Prev","/Next","/Count","/SE","/A"])
-        # destination will have be converted by cloning
+        if dest.node is not None:
+            n_ol[NameObject("/F")] = NumberObject(dest.node.get("/F", 0))
+            n_ol[NameObject("/C")] = ArrayObject(
+                dest.node.get(
+                    "/C", [FloatObject(0.0), FloatObject(0.0), FloatObject(0.0)]
+                )
+            )
         return n_ol
 
     def _insert_filtered_outline(
diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 45d688be1..7bfd37f91 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -243,7 +243,7 @@ def clone(
         return dup.indirect_ref
 
     @property
-    def indirect_ref(self):
+    def indirect_ref(self) -> "IndirectObject":  # type: ignore
         return self
 
     def get_object(self) -> Optional["PdfObject"]:

From 1c6078640ed305961b415b84d8d499d9db91b457 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 10:34:28 +0200
Subject: [PATCH 020/101] Martin's recommendation

Co-authored-by: Martin Thoma <info@martin-thoma.de>
---
 PyPDF2/_page.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_page.py b/PyPDF2/_page.py
index 0de978268..d5d5d76ac 100644
--- a/PyPDF2/_page.py
+++ b/PyPDF2/_page.py
@@ -296,7 +296,7 @@ def __init__(
 
         DictionaryObject.__init__(self)
         self.pdf: Optional[PdfReader] = pdf
-        self.indirect_ref = indirect_ref  # type:ignore
+        self.indirect_ref = indirect_ref  # type: ignore[assignment]
 
     def hash_value_data(self) -> bytes:
         data = super().hash_value_data()

From 198ada840d3abb8b1f5f6feb87c913bf40285071 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 10:37:06 +0200
Subject: [PATCH 021/101] Martin's recommendation

Co-authored-by: Martin Thoma <info@martin-thoma.de>
---
 PyPDF2/generic/_data_structures.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 4e65c8922..48ebbbd27 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -231,7 +231,7 @@ def _clone(
                         v.indirect_ref = None  # type: ignore
                     vv = v.clone(pdf_dest, force_duplicate, ignore_fields)
                     assert vv.indirect_ref is not None
-                    self[k.clone(pdf_dest)] = vv.indirect_ref  # type: ignore
+                    self[k.clone(pdf_dest)] = vv.indirect_ref  # type: ignore[attr-defined]
                 else:
                     if k not in self:
                         self[NameObject(k)] = (

From f0fdd4a99cadbed9898e66278b31c574ac7606cd Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 10:39:15 +0200
Subject: [PATCH 022/101] Update PyPDF2/generic/_data_structures.py

Co-authored-by: Martin Thoma <info@martin-thoma.de>
---
 PyPDF2/generic/_data_structures.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 48ebbbd27..0ce055217 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -1061,7 +1061,7 @@ def read_object(
     else:
         stream.read(-20)
         raise PdfReadError(
-            f"Invalid Elementary Object starting with {tok} @{stream.tell()}: {stream.read(80).__repr__()}"  # type: ignore
+            f"Invalid Elementary Object starting with {tok!r} @{stream.tell()}: {stream.read(80).__repr__()}"
         )
 
 
From e56555d26a60be0a05e1301a0f1fe844501017a4 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 11:11:46 +0200
Subject: [PATCH 023/101] Martin's suggestion

Co-authored-by: Martin Thoma <info@martin-thoma.de>
---
 PyPDF2/generic/_base.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 7bfd37f91..1f2bbd5df 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -81,7 +81,7 @@ def hash_value(self) -> bytes:
 
     def clone(
         self,
-        pdf_dest: "PdfWriter",  # type: ignore
+        pdf_dest: "PdfWriter",
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "PdfObject":

From b3f33f1bed8b7d71f0bec3266c5c2713ed327933 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 11:12:25 +0200
Subject: [PATCH 024/101] Martin's suggestion

Co-authored-by: Martin Thoma <info@martin-thoma.de>
---
 PyPDF2/generic/_base.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 1f2bbd5df..e6a0141b7 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -88,7 +88,7 @@ def clone(
         """clone object into pdf_dest"""
         raise Exception("clone PdfObject")
 
-    def _reference_clone(self, clone: Any, pdf_dest: "PdfWriter") -> "PdfObject":  # type: ignore
+    def _reference_clone(self, clone: Any, pdf_dest: "PdfWriter") -> "PdfObject":
         try:
             if clone.indirect_ref.pdf == pdf_dest:
                 return clone

From 6d6094c3f3c1a239036ed457a689c8d22ec40bb0 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 11:12:41 +0200
Subject: [PATCH 025/101] Martin's suggestion

Co-authored-by: Martin Thoma <info@martin-thoma.de>
---
 PyPDF2/generic/_base.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index e6a0141b7..a243b4a69 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -126,7 +126,7 @@ def write_to_stream(
 class NullObject(PdfObject):
     def clone(
         self,
-        pdf_dest: "PdfWriter",  # type: ignore
+        pdf_dest: "PdfWriter",
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "NullObject":

From 17932188ff2e81cc8da80521d36965ac2479c9c0 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 11:12:54 +0200
Subject: [PATCH 026/101] Martin's suggestion

Co-authored-by: Martin Thoma <info@martin-thoma.de>
---
 PyPDF2/generic/_base.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index a243b4a69..788df2eb2 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -166,7 +166,7 @@ def __init__(self, value: Any) -> None:
 
     def clone(
         self,
-        pdf_dest: "PdfWriter",  # type: ignore
+        pdf_dest: "PdfWriter",
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "BooleanObject":

From 83a3fea6101e7adffe376a1231cd1d24d48d13ba Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 11:13:14 +0200
Subject: [PATCH 027/101] Martin's suggestion

Co-authored-by: Martin Thoma <info@martin-thoma.de>
---
 PyPDF2/generic/_data_structures.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 0ce055217..0b9e9f358 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -546,7 +546,8 @@ def inc_parent_counter(
                 inc_parent_counter(self, child_obj.get("/Count", 1))
                 return
         try:  # insert as first or in the middle
-            prev["/Prev"][NameObject("/Next")] = child  # type: ignore
+            assert isinstance(prev["/Prev"], DictionaryObject)
+            prev["/Prev"][NameObject("/Next")] = child
             child_obj[NameObject("/Prev")] = prev["/Prev"]
         except Exception:  # it means we are inserting in first position
             del child_obj["/Next"]

From 4e3478ba0597c8424166afdc6cf886b419d52dd3 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 11:15:07 +0200
Subject: [PATCH 028/101] Martin's suggestion

Co-authored-by: Martin Thoma <info@martin-thoma.de>
---
 PyPDF2/generic/_data_structures.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 0b9e9f358..e33870a62 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -669,7 +669,7 @@ def __init__(self) -> None:
 
     def _clone(
         self,
-        src: DictionaryObject,  # type: ignore
+        src: DictionaryObject,
         pdf_dest: Any,
         force_duplicate: bool,
         ignore_fields: Union[Tuple[str, ...], List[str]],

From 9b756a9e8d1aca319dffd65212a2d15ae7095b55 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 11:15:40 +0200
Subject: [PATCH 029/101] Martin's suggestion

Co-authored-by: Martin Thoma <info@martin-thoma.de>
---
 PyPDF2/generic/_data_structures.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index e33870a62..9fba617dc 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -677,10 +677,11 @@ def _clone(
         """update the object from src"""
         self._data = cast("StreamObject", src)._data
         try:
-            if cast("StreamObject", src).decoded_self is None:
+            decoded_self = cast("StreamObject", src).decoded_self
+            if decoded_self is None:
                 self.decoded_self = None
             else:
-                self.decoded_self = cast("StreamObject", src).decoded_self.clone(pdf_dest, True, ignore_fields)  # type: ignore
+                self.decoded_self = decoded_self.clone(pdf_dest, True, ignore_fields)  # type: ignore[assignment]
         except Exception:
             pass
         super()._clone(src, pdf_dest, force_duplicate, ignore_fields)

From a9449a6d95f176a7b5ccaeb030f8dbd101071d52 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 22:57:52 +0200
Subject: [PATCH 030/101] fix xylopaint

https://github.com/py-pdf/PyPDF2/issues/1322?notification_referrer_id=NT_kwDOAD5PFrI0MzI4Mzc3OTgwOjQwODM0Nzg#issuecomment-1279985162
---
 PyPDF2/generic/_data_structures.py | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 9fba617dc..394e90638 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -880,8 +880,7 @@ def clone(
         )
         if ignore_fields is None:
             ignore_fields = []
-        if len(d__.keys()) == 0:
-            d__._clone(self, pdf_dest, force_duplicate, ignore_fields)
+        d__._clone(self, pdf_dest, force_duplicate, ignore_fields)
         return d__
 
     def _clone(
@@ -895,9 +894,8 @@ def _clone(
         self.pdf = pdf_dest
         self.operations = list(cast("ContentStream", src).operations)
         self.forced_encoding = cast("ContentStream", src).forced_encoding
-
-        super()._clone(src, pdf_dest, force_duplicate, ignore_fields)
-
+        # no need to call DictionaryObjection or any
+        # super(DictionaryObject,self)._clone(src, pdf_dest, force_duplicate, ignore_fields)
         return
 
     def __parse_content_stream(self, stream: StreamType) -> None:

From e32f3deddd33d15d75b13fb758c3cefdc323d257 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 16 Oct 2022 23:13:29 +0200
Subject: [PATCH 031/101] doc

---
 PyPDF2/generic/_base.py | 12 +++++++++++-
 1 file changed, 11 insertions(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 788df2eb2..bfca74498 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -85,10 +85,20 @@ def clone(
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "PdfObject":
-        """clone object into pdf_dest"""
+        """
+        clone object into pdf_dest (PdfWriterOnly)
+        force_duplicate: in standard if the object has been already cloned and reference,
+                         the copy is returned; when force_duplicate == True, a new copy is always performed
+        ignore_fields : list/tuple of Fields names (for dictionaries that will be ignored during cloning (apply also to childs duplication)
+        in standard, clone function call _reference_clone (see _reference)
+        """
         raise Exception("clone PdfObject")
 
     def _reference_clone(self, clone: Any, pdf_dest: "PdfWriter") -> "PdfObject":
+        """
+        reference the object within the _objects of pdf_dest only if indirect_ref attribute exists (which means the objects was already identified in xref/xobjstm)
+        if object has been already referenced do nothing
+        """
         try:
             if clone.indirect_ref.pdf == pdf_dest:
                 return clone

From 73fe215e4461763b191236cab6253e07a242b28a Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Mon, 17 Oct 2022 23:00:58 +0200
Subject: [PATCH 032/101] add Annotation cloning

---
 PyPDF2/_reader.py |   1 +
 PyPDF2/_writer.py | 145 ++++++++++++++++++++++++++++++++++++----------
 2 files changed, 116 insertions(+), 30 deletions(-)

diff --git a/PyPDF2/_reader.py b/PyPDF2/_reader.py
index b7d8e0f22..16532a88b 100644
--- a/PyPDF2/_reader.py
+++ b/PyPDF2/_reader.py
@@ -925,6 +925,7 @@ def _build_outline_item(self, node: DictionaryObject) -> Optional[Destination]:
             outline_item = self._build_destination(title, dest)
         elif isinstance(dest, str):
             # named destination, addresses NameObject Issue #193
+            # TODO : keep named destination instead of replacing it ?
             try:
                 outline_item = self._build_destination(
                     title, self._namedDests[dest].dest_array
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 5e4362a75..d745bc3cd 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -228,7 +228,7 @@ def _add_page(
         self,
         page: PageObject,
         action: Callable[[Any, IndirectObject], None],
-        excluded_keys: Union[Tuple[str, ...], List[str], None] = None,
+        excluded_keys: Union[Tuple[str, ...], List[str]] = (),
     ) -> PageObject:
         assert cast(str, page[PA.TYPE]) == CO.PAGE
         page_org = page
@@ -276,7 +276,7 @@ def set_need_appearances_writer(self) -> None:
     def add_page(
         self,
         page: PageObject,
-        excluded_keys: Union[Tuple[str, ...], List[str], None] = None,
+        excluded_keys: Union[Tuple[str, ...], List[str]] = (),
     ) -> PageObject:
         """
         Add a page to this PDF file.
@@ -292,7 +292,7 @@ def add_page(
     def addPage(
         self,
         page: PageObject,
-        excluded_keys: Union[Tuple[str, ...], List[str], None] = None,
+        excluded_keys: Union[Tuple[str, ...], List[str]] = (),
     ) -> PageObject:  # pragma: no cover
         """
         .. deprecated:: 1.28.0
@@ -306,7 +306,7 @@ def insert_page(
         self,
         page: PageObject,
         index: int = 0,
-        excluded_keys: Union[Tuple[str, ...], List[str], None] = None,
+        excluded_keys: Union[Tuple[str, ...], List[str]] = (),
     ) -> PageObject:
         """
         Insert a page in this PDF file. The page is usually acquired from a
@@ -321,7 +321,7 @@ def insertPage(
         self,
         page: PageObject,
         index: int = 0,
-        excluded_keys: Union[Tuple[str, ...], List[str], None] = None,
+        excluded_keys: Union[Tuple[str, ...], List[str]] = (),
     ) -> PageObject:  # pragma: no cover
         """
         .. deprecated:: 1.28.0
@@ -1989,6 +1989,10 @@ def add_annotation(self, page_number: int, annotation: Dict[str, Any]) -> None:
         page.annotations.append(ind_obj)
 
     def clean_page(self, page: Union[PageObject, IndirectObject]) -> PageObject:
+        """
+        Perform some clean up in the page.
+        Currently: convert NameObject nameddestination to TextStringObject (required for names/dests list)
+        """
         page = cast("PageObject", page.get_object())
         for a in page.get("/Annots", []):
             a_obj = a.get_object()
@@ -2001,7 +2005,6 @@ def clean_page(self, page: Union[PageObject, IndirectObject]) -> PageObject:
                 d = act.get("/D", None)
                 if isinstance(d, NameObject):
                     act[NameObject("/D")] = TextStringObject(d)
-
         return page
 
     # from PdfMerger:
@@ -2044,8 +2047,12 @@ def _create_stream(
     def append(
         self,
         fileobj: Union[StrByteType, PdfReader, Path],
-        outline_item: Optional[str] = None,
-        pages: Union[None, PageRange, Tuple[int, int], Tuple[int, int, int]] = None,
+        outline_item: Union[
+            str, None, PageRange, Tuple[int, int], Tuple[int, int, int], List[int]
+        ] = None,
+        pages: Union[
+            None, PageRange, Tuple[int, int], Tuple[int, int, int], List[int]
+        ] = None,
         import_outline: bool = True,
         excluded_fields: Optional[Union[List[str], Tuple[str, ...]]] = None,
     ) -> None:
@@ -2061,9 +2068,11 @@ def append(
         :param str outline_item: Optionally, you may specify an outline item
             (previously referred to as a 'bookmark') to be applied at the
             beginning of the included file by supplying the text of the outline item.
+            if it is a tuple, list, pagerange, will be transfered to pages
 
         :param pages: can be a :class:`PageRange<PyPDF2.pagerange.PageRange>`
             or a ``(start, stop[, step])`` tuple
+            or a list of pages to be processed
             to merge only the specified range of pages from the source
             document into the output document.
 
@@ -2073,7 +2082,17 @@ def append(
         """
         if excluded_fields is None:
             excluded_fields = ["/B", "/Annots"]
-        self.merge(None, fileobj, outline_item, pages, import_outline, excluded_fields)
+        if isinstance(outline_item, (tuple, list, PageRange)):
+            if isinstance(pages, bool):
+                if not instance(import_outline, bool):
+                    excluded_fields = import_outline
+                import_outline = pages
+            pages = outline_item
+            self.merge(None, fileobj, None, pages, import_outline, excluded_fields)
+        else:  # if isinstance(outline_item,str):
+            self.merge(
+                None, fileobj, outline_item, pages, import_outline, excluded_fields
+            )
 
     @deprecate_bookmark(bookmark="outline_item", import_bookmarks="import_outline")
     def merge(
@@ -2083,7 +2102,7 @@ def merge(
         outline_item: Optional[str] = None,
         pages: Optional[PageRangeSpec] = None,
         import_outline: bool = True,
-        excluded_fields: Optional[Union[List[str], Tuple[str, ...]]] = None,
+        excluded_fields: Optional[Union[List[str], Tuple[str, ...]]] = (),
     ) -> None:
         """
         Merge the pages from the given file into the output file at the
@@ -2133,16 +2152,17 @@ def merge(
 
         srcpages = {}
         for i in pages:
+            pg = reader.pages[i]
             if position is None:
-                srcpages[reader.pages[i].indirect_ref.idnum] = self.add_page(
-                    reader.pages[i], excluded_fields
+                srcpages[pg.indirect_ref.idnum] = self.add_page(
+                    pg, list(excluded_fields) + ["/Annots"]
                 )
             else:
-                srcpages[reader.pages[i].indirect_ref.idnum] = self.insert_page(
-                    reader.pages[i], position, excluded_fields
+                srcpages[pg.indirect_ref.idnum] = self.insert_page(
+                    pg, position, list(excluded_fields) + ["/Annots"]
                 )
                 position += 1
-            self.clean_page(srcpages[reader.pages[i].indirect_ref.idnum])
+            srcpages[pg.indirect_ref.idnum].original_page = pg
 
         reader._namedDests = (
             reader.named_destinations
@@ -2182,12 +2202,85 @@ def merge(
                 outline, outline_item_typ, None
             )  # TODO : use before parameter
 
-        # for (i, p) in srcpages.items():
-        #    reserved for links
-        #    pass
+        for (idn, pag) in srcpages.items():
+            lst = self._insert_filtered_annotations(
+                pag.original_page.get("/Annots", ()), pag, srcpages, reader
+            )
+            if len(lst) > 0:
+                pag[NameObject("/Annots")] = lst
+            self.clean_page(pag)
+
+        self.srcpages = srcpages
 
         return
 
+    def _get_cloned_page(
+        self,
+        page: Union[None, int, IndirectObject, PageObject, NullObject],
+        pages: Dict[int, PageObject],
+        pdf: PdfReader,
+    ) -> Optional[IndirectObject]:
+        if isinstance(page, NullObject):
+            return None
+        if isinstance(page, int):
+            _i = pdf.pages[page].indirect_ref
+        # elif isinstance(page, PageObject):
+        #    _i = page.indirect_ref
+        elif isinstance(page, DictionaryObject) and page.get("/Type", "") == "/Page":
+            _i = page.indirect_ref
+        elif isinstance(page, IndirectObject):
+            _i = page
+        try:
+            return pages[_i.idnum].indirect_ref
+        except Exception:
+            return None
+
+    def _insert_filtered_annotations(
+        self,
+        annots: Union[IndirectObject, List[DictionaryObject]],
+        page: PageObject,
+        pages: Dict[int, PageObject],
+        pdf: PdfReader,
+    ) -> List[Destination]:
+        outlist = ArrayObject()
+        if isinstance(annots, IndirectObject):
+            annots = annots.get_object()
+        for an in annots:
+            ano = an.get_object()
+            if (
+                ano["/Subtype"] != "/Link"
+                or "/A" not in ano
+                or ano["/A"]["/S"] != "/GoTo"
+                or "/Dest" in ano
+            ):
+                if "/Dest" not in ano:
+                    outlist.append(ano.clone(self).indirect_ref)
+                else:
+                    d = ano["/Dest"]
+                    if isinstance(d, str):
+                        # it is a named dest
+                        if str(d) in self.get_named_dest_root():
+                            outlist.append(ano.clone(self).indirect_ref)
+                    else:
+                        p = self._get_cloned_page(d[0], pages, pdf)
+                        if p is not None:
+                            anc = ano.clone(self, ignore_fields=("/Dest",))
+                            anc[NameObject("/Dest")] = ArrayObject([p] + d[1:])
+                            outlist.append(anc.indirect_ref)
+            else:
+                d = ano["/A"]["/D"]
+                if isinstance(d, str):
+                    # it is a named dest
+                    if str(d) in self.get_named_dest_root():
+                        outlist.append(ano.clone(self).indirect_ref)
+                else:
+                    p = self._get_cloned_page(d[0], pages, pdf)
+                    if p is not None:
+                        anc = ano.clone(self, ignore_fields=("/D",))
+                        anc["/A"][NameObject("/D")] = ArrayObject([p] + d[1:])
+                        outlist.append(anc.indirect_ref)
+        return outlist
+
     def _get_filtered_outline(
         self,
         node: Any,
@@ -2206,18 +2299,10 @@ def _get_filtered_outline(
             while node is not None:
                 node = node.get_object()
                 o = cast("Destination", pdf._build_outline_item(node))
-                if isinstance(o["/Page"], int):
-                    o[NameObject("/Page")] = pdf.pages[o["/Page"]].indirect_ref
-                if (
-                    "/Page" not in o
-                    or isinstance(o["/Page"], NullObject)
-                    or o["/Page"].indirect_ref.idnum not in pages
-                ):
-                    o[NameObject("/Page")] = NullObject()
-                else:
-                    o[NameObject("/Page")] = pages[
-                        o["/Page"].indirect_ref.idnum
-                    ].indirect_ref
+                v = self._get_cloned_page(o["/Page"], pages, pdf)
+                if v is None:
+                    v = NullObject()
+                o[NameObject("/Page")] = v
                 if "/First" in node:
                     o.childs = self._get_filtered_outline(node["/First"], pages, pdf)
                 else:

From ee1a333a3a78cf280b55385fb720d55b08be7125 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Mon, 17 Oct 2022 23:29:58 +0200
Subject: [PATCH 033/101] mypy

---
 PyPDF2/_page.py   |  2 ++
 PyPDF2/_writer.py | 35 +++++++++++++++++++++--------------
 2 files changed, 23 insertions(+), 14 deletions(-)

diff --git a/PyPDF2/_page.py b/PyPDF2/_page.py
index d5d5d76ac..bb0ea892b 100644
--- a/PyPDF2/_page.py
+++ b/PyPDF2/_page.py
@@ -287,6 +287,8 @@ class PageObject(DictionaryObject):
         this object in its source PDF
     """
 
+    original_page: "PageObject"  # very local use in writer when appending
+
     def __init__(
         self,
         pdf: Optional[Any] = None,  # PdfReader
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index d745bc3cd..6cde58b23 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -44,6 +44,7 @@
     Callable,
     Deque,
     Dict,
+    Iterable,
     List,
     Optional,
     Tuple,
@@ -228,7 +229,7 @@ def _add_page(
         self,
         page: PageObject,
         action: Callable[[Any, IndirectObject], None],
-        excluded_keys: Union[Tuple[str, ...], List[str]] = (),
+        excluded_keys: Iterable[str] = (),
     ) -> PageObject:
         assert cast(str, page[PA.TYPE]) == CO.PAGE
         page_org = page
@@ -276,7 +277,7 @@ def set_need_appearances_writer(self) -> None:
     def add_page(
         self,
         page: PageObject,
-        excluded_keys: Union[Tuple[str, ...], List[str]] = (),
+        excluded_keys: Iterable[str] = (),
     ) -> PageObject:
         """
         Add a page to this PDF file.
@@ -292,7 +293,7 @@ def add_page(
     def addPage(
         self,
         page: PageObject,
-        excluded_keys: Union[Tuple[str, ...], List[str]] = (),
+        excluded_keys: Iterable[str] = (),
     ) -> PageObject:  # pragma: no cover
         """
         .. deprecated:: 1.28.0
@@ -306,7 +307,7 @@ def insert_page(
         self,
         page: PageObject,
         index: int = 0,
-        excluded_keys: Union[Tuple[str, ...], List[str]] = (),
+        excluded_keys: Iterable[str] = (),
     ) -> PageObject:
         """
         Insert a page in this PDF file. The page is usually acquired from a
@@ -321,7 +322,7 @@ def insertPage(
         self,
         page: PageObject,
         index: int = 0,
-        excluded_keys: Union[Tuple[str, ...], List[str]] = (),
+        excluded_keys: Iterable[str] = (),
     ) -> PageObject:  # pragma: no cover
         """
         .. deprecated:: 1.28.0
@@ -2084,7 +2085,7 @@ def append(
             excluded_fields = ["/B", "/Annots"]
         if isinstance(outline_item, (tuple, list, PageRange)):
             if isinstance(pages, bool):
-                if not instance(import_outline, bool):
+                if not isinstance(import_outline, bool):
                     excluded_fields = import_outline
                 import_outline = pages
             pages = outline_item
@@ -2155,11 +2156,11 @@ def merge(
             pg = reader.pages[i]
             if position is None:
                 srcpages[pg.indirect_ref.idnum] = self.add_page(
-                    pg, list(excluded_fields) + ["/Annots"]
+                    pg, list(excluded_fields) + ["/Annots"]  # type: ignore
                 )
             else:
                 srcpages[pg.indirect_ref.idnum] = self.insert_page(
-                    pg, position, list(excluded_fields) + ["/Annots"]
+                    pg, position, list(excluded_fields) + ["/Annots"]  # type: ignore
                 )
                 position += 1
             srcpages[pg.indirect_ref.idnum].original_page = pg
@@ -2244,13 +2245,13 @@ def _insert_filtered_annotations(
     ) -> List[Destination]:
         outlist = ArrayObject()
         if isinstance(annots, IndirectObject):
-            annots = annots.get_object()
+            annots = cast("List", annots.get_object())
         for an in annots:
-            ano = an.get_object()
+            ano = cast("DictionaryObject", an.get_object())
             if (
                 ano["/Subtype"] != "/Link"
                 or "/A" not in ano
-                or ano["/A"]["/S"] != "/GoTo"
+                or cast("DictionaryObject", ano["/A"])["/S"] != "/GoTo"
                 or "/Dest" in ano
             ):
                 if "/Dest" not in ano:
@@ -2262,22 +2263,27 @@ def _insert_filtered_annotations(
                         if str(d) in self.get_named_dest_root():
                             outlist.append(ano.clone(self).indirect_ref)
                     else:
+                        d = cast("ArrayObject", d)
                         p = self._get_cloned_page(d[0], pages, pdf)
                         if p is not None:
                             anc = ano.clone(self, ignore_fields=("/Dest",))
                             anc[NameObject("/Dest")] = ArrayObject([p] + d[1:])
                             outlist.append(anc.indirect_ref)
             else:
-                d = ano["/A"]["/D"]
+                d = cast("DictionaryObject", ano["/A"])["/D"]
                 if isinstance(d, str):
                     # it is a named dest
                     if str(d) in self.get_named_dest_root():
                         outlist.append(ano.clone(self).indirect_ref)
                 else:
+                    d = cast("ArrayObject", d)
                     p = self._get_cloned_page(d[0], pages, pdf)
                     if p is not None:
                         anc = ano.clone(self, ignore_fields=("/D",))
-                        anc["/A"][NameObject("/D")] = ArrayObject([p] + d[1:])
+                        anc = cast("DictionaryObject", anc)
+                        cast("DictionaryObject", anc["/A"])[
+                            NameObject("/D")
+                        ] = ArrayObject([p] + d[1:])
                         outlist.append(anc.indirect_ref)
         return outlist
 
@@ -2296,10 +2302,11 @@ def _get_filtered_outline(
                 node = node.get_object()
                 new_outline += self._get_filtered_outline(node, pages, pdf)
         else:
+            v: Union[None, IndirectObject, NullObject]
             while node is not None:
                 node = node.get_object()
                 o = cast("Destination", pdf._build_outline_item(node))
-                v = self._get_cloned_page(o["/Page"], pages, pdf)
+                v = self._get_cloned_page(cast("PageObject", o["/Page"]), pages, pdf)
                 if v is None:
                     v = NullObject()
                 o[NameObject("/Page")] = v

From 10241771799e069ac6504ad12cb8ac7f6b453267 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Mon, 17 Oct 2022 23:34:03 +0200
Subject: [PATCH 034/101] flake8

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 6cde58b23..66e37c88d 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2203,7 +2203,7 @@ def merge(
                 outline, outline_item_typ, None
             )  # TODO : use before parameter
 
-        for (idn, pag) in srcpages.items():
+        for pag in srcpages.values():
             lst = self._insert_filtered_annotations(
                 pag.original_page.get("/Annots", ()), pag, srcpages, reader
             )

From 0994df016ff48c3ebbae0de86cd07ef5fe980efe Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Tue, 18 Oct 2022 22:40:58 +0200
Subject: [PATCH 035/101] add tests in test_reader

---
 tests/test_reader.py | 35 ++++++++++++++++++++++++++++++++++-
 1 file changed, 34 insertions(+), 1 deletion(-)

diff --git a/tests/test_reader.py b/tests/test_reader.py
index 88aa962eb..1b0cde93e 100644
--- a/tests/test_reader.py
+++ b/tests/test_reader.py
@@ -17,7 +17,13 @@
     PdfReadWarning,
     WrongPasswordError,
 )
-from PyPDF2.generic import Destination
+from PyPDF2.generic import (
+    Destination,
+    DictionaryObject,
+    NameObject,
+    NumberObject,
+    TextStringObject,
+)
 
 from . import get_pdf_from_url, normalize_warnings
 
@@ -1148,3 +1154,30 @@ def test_zeroing_xref():
     name = "UTA_OSHA.pdf"
     reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
     len(reader.pages)
+
+
+def test_build_outline_item(caplog):
+    url = "https://github.com/py-pdf/PyPDF2/files/9464742/shiv_resume.pdf"
+    name = "shiv_resume.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    outline = reader._build_outline_item(
+        DictionaryObject(
+            {
+                NameObject("/Title"): TextStringObject("Toto"),
+                NameObject("/Dest"): NumberObject(2),
+            }
+        )
+    )
+    assert "Removed unexpected destination 2 from destination" in caplog.text
+    assert outline["/Title"] == "Toto"
+    reader.strict = True
+    with pytest.raises(PdfReadError) as exc:
+        reader._build_outline_item(
+            DictionaryObject(
+                {
+                    NameObject("/Title"): TextStringObject("Toto"),
+                    NameObject("/Dest"): NumberObject(2),
+                }
+            )
+        )
+    assert "Unexpected destination 2" in exc.value.args[0]

From e6c4745ae71d0f81033bdf052e01775626107af8 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Tue, 18 Oct 2022 23:06:48 +0200
Subject: [PATCH 036/101] add tests in test_generic for _base

---
 tests/test_generic.py | 26 ++++++++++++++++++++++++++
 1 file changed, 26 insertions(+)

diff --git a/tests/test_generic.py b/tests/test_generic.py
index d3331048b..114186cbc 100644
--- a/tests/test_generic.py
+++ b/tests/test_generic.py
@@ -23,6 +23,7 @@
     NullObject,
     NumberObject,
     OutlineItem,
+    PdfObject,
     RectangleObject,
     TextStringObject,
     TreeObject,
@@ -947,3 +948,28 @@ def test_create_string_object_force():
 )
 def test_float_object_decimal_to_string(value, expected):
     assert repr(FloatObject(value)) == expected
+
+
+def test_cloning(caplog):
+    # pdf_path = RESOURCE_ROOT / "crazyones.pdf"
+    # reader = PdfReader(pdf_path)
+    # page = reader.pages[0]
+    writer = PdfWriter()
+    with pytest.raises(Exception) as exc:
+        PdfObject().clone(writer)
+    assert "clone PdfObject" in exc.value.args[0]
+
+    obj1 = DictionaryObject()
+    obj1.indirect_ref = None
+    n = len(writer._objects)
+    obj2 = obj1.clone(writer)
+    assert len(writer._objects) == n + 1
+    obj3 = obj2.clone(writer)
+    assert len(writer._objects) == n + 1
+    assert obj2.indirect_ref == obj3.indirect_ref
+    obj3 = obj2.indirect_ref.clone(writer)
+    assert len(writer._objects) == n + 1
+    assert obj2.indirect_ref == obj3.indirect_ref
+    obj3 = obj2.indirect_ref.clone(writer, True)
+    assert len(writer._objects) == n + 2
+    assert obj2.indirect_ref != obj3.indirect_ref

From da2fe09f405351a8c9332867d645fbc1706eb062 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Wed, 19 Oct 2022 19:05:38 +0200
Subject: [PATCH 037/101] add tests in test_generic for _data_structure

---
 tests/test_generic.py | 21 +++++++++++++++++++++
 1 file changed, 21 insertions(+)

diff --git a/tests/test_generic.py b/tests/test_generic.py
index 114186cbc..4fdc14461 100644
--- a/tests/test_generic.py
+++ b/tests/test_generic.py
@@ -25,6 +25,7 @@
     OutlineItem,
     PdfObject,
     RectangleObject,
+    StreamObject,
     TextStringObject,
     TreeObject,
     create_string_object,
@@ -970,6 +971,26 @@ def test_cloning(caplog):
     obj3 = obj2.indirect_ref.clone(writer)
     assert len(writer._objects) == n + 1
     assert obj2.indirect_ref == obj3.indirect_ref
+    assert obj2.indirect_ref == obj2._reference_clone(obj2, writer).indirect_ref
+    assert len(writer._objects) == n + 1
+    assert obj2.indirect_ref == obj3.indirect_ref
+
     obj3 = obj2.indirect_ref.clone(writer, True)
     assert len(writer._objects) == n + 2
     assert obj2.indirect_ref != obj3.indirect_ref
+
+    arr1 = ArrayObject([obj2])
+    arr2 = arr1.clone(writer)
+    arr3 = arr2.clone(writer)
+    assert arr2 == arr3
+    obj10 = StreamObject()
+    arr1 = ArrayObject([obj10])
+    obj11 = obj10.clone(writer)
+    assert arr1[0] == obj11
+
+    obj20 = DictionaryObject(
+        {NameObject("/Test"): NumberObject(1), NameObject("/Test2"): StreamObject()}
+    )
+    obj21 = obj20.clone(writer, ignore_fields=None)
+    assert "/Test" in obj21
+    assert isinstance(obj21.get("/Test2"), IndirectObject)

From 9c06495f7cdec9525ff35caa481cfc099a1428dd Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Fri, 21 Oct 2022 20:47:21 +0200
Subject: [PATCH 038/101] clone articles

---
 PyPDF2/_reader.py    |  14 +++++
 PyPDF2/_writer.py    | 125 ++++++++++++++++++++++++++++++++++++++-----
 PyPDF2/constants.py  |   1 +
 tests/test_merger.py |  12 +++++
 4 files changed, 140 insertions(+), 12 deletions(-)

diff --git a/PyPDF2/_reader.py b/PyPDF2/_reader.py
index 16532a88b..4dd4ed783 100644
--- a/PyPDF2/_reader.py
+++ b/PyPDF2/_reader.py
@@ -800,6 +800,20 @@ def getOutlines(
         deprecate_with_replacement("getOutlines", "outline")
         return self._get_outline(node, outline)
 
+    @property
+    def threads(self) -> Optional[ArrayObject]:
+        """
+        Read-only property for the list of threads see §8.3.2 from PDF 1.7 spec
+
+        :return: an Array of Dictionnaries with "/F" and "/I" properties
+                 or None if no articles.
+        """
+        catalog = cast(DictionaryObject, self.trailer[TK.ROOT])
+        if CO.THREADS in catalog:
+            return cast("ArrayObject", catalog[CO.THREADS])
+        else:
+            return None
+
     def _get_page_number_by_indirect(
         self, indirect_ref: Union[None, int, NullObject, IndirectObject]
     ) -> int:
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 66e37c88d..66a0aac5a 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -32,6 +32,7 @@
 import decimal
 import logging
 import random
+import re
 import struct
 import time
 import uuid
@@ -1104,6 +1105,29 @@ def get_outline_root(self) -> TreeObject:
 
         return outline
 
+    def get_threads_root(self) -> ArrayObject:
+        """
+        the list of threads see §8.3.2 from PDF 1.7 spec
+
+                :return: an Array (possibly empty) of Dictionnaries with "/F" and "/I" properties
+        """
+        if CO.THREADS in self._root_object:
+            # TABLE 3.25 Entries in the catalog dictionary
+            threads = cast(ArrayObject, self._root_object[CO.THREADS])
+        else:
+            threads = ArrayObject()
+            self._root_object[NameObject(CO.THREADS)] = threads
+        return threads
+
+    @property
+    def threads(self) -> ArrayObject:
+        """
+        Read-only property for the list of threads see §8.3.2 from PDF 1.7 spec
+
+        :return: an Array (possibly empty) of Dictionnaries with "/F" and "/I" properties
+        """
+        return self.get_threads_root()
+
     def getOutlineRoot(self) -> TreeObject:  # pragma: no cover
         """
         .. deprecated:: 1.28.0
@@ -2008,7 +2032,6 @@ def clean_page(self, page: Union[PageObject, IndirectObject]) -> PageObject:
                     act[NameObject("/D")] = TextStringObject(d)
         return page
 
-    # from PdfMerger:
     def _create_stream(
         self, fileobj: Union[Path, StrByteType, PdfReader]
     ) -> Tuple[IOBase, Optional[Encryption]]:
@@ -2211,20 +2234,98 @@ def merge(
                 pag[NameObject("/Annots")] = lst
             self.clean_page(pag)
 
-        self.srcpages = srcpages
+        self.add_filtered_articles("", srcpages, reader)
 
         return
 
+    def _add_articles_thread(
+        self,
+        thread: DictionaryObject,  # thread entry from the reader's array of threads
+        pages: Dict[int, PageObject],
+        reader: PdfReader,
+    ) -> IndirectObject:
+        """
+        clone the thread with only the applicable articles
+
+        """
+        nthread = thread.clone(
+            self, force_duplicate=True, ignore_fields=("/F",)
+        )  # use of clone to keep link between reader and writer
+        self.threads.append(nthread.indirect_ref)
+        first_article = cast("DictionaryObject", thread["/F"])
+        print(thread["/I"])
+        current_article: Optional[DictionaryObject] = first_article
+        new_article: Optional[DictionaryObject] = None
+        while current_article is not None:
+            pag = self._get_cloned_page(
+                cast("PageObject", current_article["/P"]), pages, reader
+            )
+            print(pag)
+            if pag is not None:
+                if new_article is None:
+                    new_article = cast(
+                        "DictionaryObject",
+                        self._add_object(DictionaryObject()).get_object(),
+                    )
+                    new_first = new_article
+                    nthread[NameObject("/F")] = new_article.indirect_ref
+                else:
+                    new_article2 = cast(
+                        "DictionaryObject",
+                        self._add_object(
+                            DictionaryObject(
+                                {NameObject("/V"): new_article.indirect_ref}
+                            )
+                        ).get_object(),
+                    )
+                    new_article[NameObject("/N")] = new_article2.indirect_ref
+                    new_article = new_article2
+                new_article[NameObject("/P")] = pag
+                new_article[NameObject("/T")] = nthread.indirect_ref
+                new_article[NameObject("/R")] = current_article["/R"]
+                pag_obj = cast("PageObject", pag.get_object())
+                if "/B" not in pag_obj:
+                    pag_obj[NameObject("/B")] = ArrayObject()
+                cast("ArrayObject", pag_obj["/B"]).append(new_article.indirect_ref)
+            current_article = cast("DictionaryObject", current_article["/N"])
+            if current_article == first_article:
+                new_article[NameObject("/N")] = new_first.indirect_ref  # type: ignore
+                new_first[NameObject("/V")] = new_article.indirect_ref  # type: ignore
+                current_article = None
+        return nthread.indirect_ref
+
+    def add_filtered_articles(
+        self,
+        fltr: Union[re.Pattern, str],  # thread entry from the reader's array of threads
+        pages: Dict[int, PageObject],
+        reader: PdfReader,
+    ) -> None:
+        """
+        Add articles matching the defined criteria
+        """
+        if isinstance(fltr, str):
+            fltr = re.compile(fltr)
+        elif not isinstance(fltr, re.Pattern):
+            fltr = re.compile("")
+        for p in pages.values():
+            pp = p.original_page
+            for a in pp.get("/B", ()):
+                thr = a.get_object()["/T"]
+                if thr.indirect_ref.idnum not in self._id_translated[
+                    id(reader)
+                ] and fltr.search(thr["/I"]["/Title"]):
+                    self._add_articles_thread(thr, pages, reader)
+
     def _get_cloned_page(
         self,
         page: Union[None, int, IndirectObject, PageObject, NullObject],
         pages: Dict[int, PageObject],
-        pdf: PdfReader,
+        reader: PdfReader,
     ) -> Optional[IndirectObject]:
         if isinstance(page, NullObject):
             return None
         if isinstance(page, int):
-            _i = pdf.pages[page].indirect_ref
+            _i = reader.pages[page].indirect_ref
         # elif isinstance(page, PageObject):
         #    _i = page.indirect_ref
         elif isinstance(page, DictionaryObject) and page.get("/Type", "") == "/Page":
@@ -2241,7 +2342,7 @@ def _insert_filtered_annotations(
         annots: Union[IndirectObject, List[DictionaryObject]],
         page: PageObject,
         pages: Dict[int, PageObject],
-        pdf: PdfReader,
+        reader: PdfReader,
     ) -> List[Destination]:
         outlist = ArrayObject()
         if isinstance(annots, IndirectObject):
@@ -2264,7 +2365,7 @@ def _insert_filtered_annotations(
                             outlist.append(ano.clone(self).indirect_ref)
                     else:
                         d = cast("ArrayObject", d)
-                        p = self._get_cloned_page(d[0], pages, pdf)
+                        p = self._get_cloned_page(d[0], pages, reader)
                         if p is not None:
                             anc = ano.clone(self, ignore_fields=("/Dest",))
                             anc[NameObject("/Dest")] = ArrayObject([p] + d[1:])
@@ -2277,7 +2378,7 @@ def _insert_filtered_annotations(
                         outlist.append(ano.clone(self).indirect_ref)
                 else:
                     d = cast("ArrayObject", d)
-                    p = self._get_cloned_page(d[0], pages, pdf)
+                    p = self._get_cloned_page(d[0], pages, reader)
                     if p is not None:
                         anc = ano.clone(self, ignore_fields=("/D",))
                         anc = cast("DictionaryObject", anc)
@@ -2291,7 +2392,7 @@ def _get_filtered_outline(
         self,
         node: Any,
         pages: Dict[int, PageObject],
-        pdf: PdfReader,
+        reader: PdfReader,
     ) -> List[Destination]:
         """Extract outline item entries that are part of the specified page set."""
         new_outline = []
@@ -2300,18 +2401,18 @@ def _get_filtered_outline(
             node = node.get("/First", None)
             if node is not None:
                 node = node.get_object()
-                new_outline += self._get_filtered_outline(node, pages, pdf)
+                new_outline += self._get_filtered_outline(node, pages, reader)
         else:
             v: Union[None, IndirectObject, NullObject]
             while node is not None:
                 node = node.get_object()
-                o = cast("Destination", pdf._build_outline_item(node))
-                v = self._get_cloned_page(cast("PageObject", o["/Page"]), pages, pdf)
+                o = cast("Destination", reader._build_outline_item(node))
+                v = self._get_cloned_page(cast("PageObject", o["/Page"]), pages, reader)
                 if v is None:
                     v = NullObject()
                 o[NameObject("/Page")] = v
                 if "/First" in node:
-                    o.childs = self._get_filtered_outline(node["/First"], pages, pdf)
+                    o.childs = self._get_filtered_outline(node["/First"], pages, reader)
                 else:
                     o.childs = []
                 if not isinstance(o["/Page"], NullObject) or len(o.childs) > 0:
diff --git a/PyPDF2/constants.py b/PyPDF2/constants.py
index f8d3faf8f..a2f8c49ed 100644
--- a/PyPDF2/constants.py
+++ b/PyPDF2/constants.py
@@ -16,6 +16,7 @@ class Core:
     """Keywords that don't quite belong anywhere else."""
 
     OUTLINES = "/Outlines"
+    THREADS = "/Threads"
     PAGE = "/Page"
     PAGES = "/Pages"
     CATALOG = "/Catalog"
diff --git a/tests/test_merger.py b/tests/test_merger.py
index d04f457b2..7663365c0 100644
--- a/tests/test_merger.py
+++ b/tests/test_merger.py
@@ -667,3 +667,15 @@ def test_iss1344_with_writer(caplog):
     p = PdfReader(b).pages[0]
     assert "/DIJMAC+Arial Black" in p._debug_for_extract()
     assert "adresse où le malade peut être visité" in p.extract_text()
+
+
+def test_articles_with_writer(caplog):
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924666.pdf"
+    name = "924666.pdf"
+    m = PdfWriter()
+    m.append(PdfReader(BytesIO(get_pdf_from_url(url, name=name))), (2, 10))
+    b = BytesIO()
+    m.write(b)
+    r = PdfReader(b)
+    assert len(r.threads) == 4
+    assert r.threads[0].get_object()["/F"]["/P"] == r.pages[0]

From dd56dc132390e9157d3fabc82b00e76fa9af009a Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Fri, 21 Oct 2022 21:40:24 +0200
Subject: [PATCH 039/101] flake8

---
 PyPDF2/_writer.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 66a0aac5a..cb3a7ee45 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2253,14 +2253,12 @@ def _add_articles_thread(
         )  # use of clone to keep link between reader and writer
         self.threads.append(nthread.indirect_ref)
         first_article = cast("DictionaryObject", thread["/F"])
-        print(thread["/I"])
         current_article: Optional[DictionaryObject] = first_article
         new_article: Optional[DictionaryObject] = None
         while current_article is not None:
             pag = self._get_cloned_page(
                 cast("PageObject", current_article["/P"]), pages, reader
             )
-            print(pag)
             if pag is not None:
                 if new_article is None:
                     new_article = cast(

From 1aa8d4837799509995c231a847f47bab0b5c32cd Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Fri, 21 Oct 2022 21:49:21 +0200
Subject: [PATCH 040/101] mypy

---
 PyPDF2/_writer.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index cb3a7ee45..79c48c560 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -48,6 +48,7 @@
     Iterable,
     List,
     Optional,
+    Pattern,
     Tuple,
     Type,
     Union,
@@ -2294,7 +2295,7 @@ def _add_articles_thread(
 
     def add_filtered_articles(
         self,
-        fltr: Union[re.Pattern, str],  # thread entry from the reader's array of threads
+        fltr: Union[Pattern, str],  # thread entry from the reader's array of threads
         pages: Dict[int, PageObject],
         reader: PdfReader,
     ) -> None:

From 9dde5c1330c093ee7902ab100ad885f98ab0df24 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Fri, 21 Oct 2022 21:57:18 +0200
Subject: [PATCH 041/101] mypy

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 79c48c560..76dd9e3b7 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2304,7 +2304,7 @@ def add_filtered_articles(
         """
         if isinstance(fltr, str):
             fltr = re.compile(fltr)
-        elif not isinstance(fltr, re.Pattern):
+        elif not isinstance(fltr, Pattern):
             fltr = re.compile("")
         for p in pages.values():
             pp = p.original_page

From 4edaa087584608b9a79d398c9a2b430f3c182616 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sat, 29 Oct 2022 11:12:35 +0200
Subject: [PATCH 042/101] clean up

---
 PyPDF2/_writer.py    | 6 +++---
 tests/test_merger.py | 4 +++-
 2 files changed, 6 insertions(+), 4 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 76dd9e3b7..fc738fd47 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2106,7 +2106,7 @@ def append(
             'bookmarks') from being imported by specifying this as ``False``.
         """
         if excluded_fields is None:
-            excluded_fields = ["/B", "/Annots"]
+            excluded_fields = ()
         if isinstance(outline_item, (tuple, list, PageRange)):
             if isinstance(pages, bool):
                 if not isinstance(import_outline, bool):
@@ -2180,11 +2180,11 @@ def merge(
             pg = reader.pages[i]
             if position is None:
                 srcpages[pg.indirect_ref.idnum] = self.add_page(
-                    pg, list(excluded_fields) + ["/Annots"]  # type: ignore
+                    pg, list(excluded_fields) + ["/B", "/Annots"]  # type: ignore
                 )
             else:
                 srcpages[pg.indirect_ref.idnum] = self.insert_page(
-                    pg, position, list(excluded_fields) + ["/Annots"]  # type: ignore
+                    pg, position, list(excluded_fields) + ["/B", "/Annots"]  # type: ignore
                 )
                 position += 1
             srcpages[pg.indirect_ref.idnum].original_page = pg
diff --git a/tests/test_merger.py b/tests/test_merger.py
index 7663365c0..3d7d4c970 100644
--- a/tests/test_merger.py
+++ b/tests/test_merger.py
@@ -652,9 +652,11 @@ def test_iss1344(caplog):
     m.append(PdfReader(BytesIO(get_pdf_from_url(url, name=name))))
     b = BytesIO()
     m.write(b)
-    p = PdfReader(b).pages[0]
+    r = PdfReader(b)
+    p = r.pages[0]
     assert "/DIJMAC+Arial Black" in p._debug_for_extract()
     assert "adresse où le malade peut être visité" in p.extract_text()
+    assert r.threads is None
 
 
 def test_iss1344_with_writer(caplog):

From d6efb162be9c22ce851ffc0c187163c594125080 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sat, 29 Oct 2022 14:33:27 +0200
Subject: [PATCH 043/101] create PdfWriterInterface to prevent recursive 
 import

includes also reactivation of test_extract_text_hello_world as #591 is closed
---
 PyPDF2/_reader.py                  | 20 +++++++++++-------
 PyPDF2/_writer.py                  |  9 ++++----
 PyPDF2/generic/__init__.py         |  1 +
 PyPDF2/generic/_base.py            | 34 +++++++++++++++++++++++-------
 PyPDF2/generic/_data_structures.py | 15 +++++++------
 tests/test_reader.py               |  7 +++++-
 6 files changed, 58 insertions(+), 28 deletions(-)

diff --git a/PyPDF2/_reader.py b/PyPDF2/_reader.py
index 4dd4ed783..87cdb1dd1 100644
--- a/PyPDF2/_reader.py
+++ b/PyPDF2/_reader.py
@@ -1178,7 +1178,18 @@ def _get_object_from_stream(
             raise PdfReadError("This is a fatal error in strict mode.")
         return NullObject()
 
-    def get_object(self, indirect_reference: IndirectObject) -> Optional[PdfObject]:
+    def _get_indirect_object(self, num: int, gen: int) -> Optional[PdfObject]:
+        """
+        used to ease development
+        equivalent to generic.IndirectObject(num,gen,self).get_object()
+        """
+        return IndirectObject(num, gen, self).get_object()
+
+    def get_object(
+        self, indirect_reference: Union[int, IndirectObject]
+    ) -> Optional[PdfObject]:
+        if isinstance(indirect_reference, int):
+            indirect_reference = IndirectObject(indirect_reference, 0, self)
         retval = self.cache_get_indirect_object(
             indirect_reference.generation, indirect_reference.idnum
         )
@@ -1954,13 +1965,6 @@ def xfa(self) -> Optional[Dict[str, Any]]:
                         retval[tag] = es
         return retval
 
-    def _get_indirect_object(self, num: int, gen: int) -> Optional[PdfObject]:
-        """
-        used to ease development
-        equivalent to generic.IndirectObject(num,gen,self).get_object()
-        """
-        return IndirectObject(num, gen, self).get_object()
-
 
 class PdfFileReader(PdfReader):  # pragma: no cover
     def __init__(self, *args: Any, **kwargs: Any) -> None:
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index fc738fd47..7334d2506 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -104,6 +104,7 @@
     StreamObject,
     TextStringObject,
     TreeObject,
+    _PdfWriterInterface,
     create_string_object,
     hex_to_rgb,
 )
@@ -126,7 +127,7 @@
 ALL_DOCUMENT_PERMISSIONS = UserAccessPermissions((2**31 - 1) - 3)
 
 
-class PdfWriter:
+class PdfWriter(_PdfWriterInterface):
     """
     This class supports writing PDF files out, given pages produced by another
     class (typically :class:`PdfReader<PyPDF2.PdfReader>`).
@@ -134,9 +135,9 @@ class (typically :class:`PdfReader<PyPDF2.PdfReader>`).
 
     def __init__(self, fileobj: StrByteType = "") -> None:
         self._header = b"%PDF-1.3"
-        self._objects: List[PdfObject] = []  # array of indirect objects
+        self._objects = []  # array of indirect objects
         self._idnum_hash: Dict[bytes, IndirectObject] = {}
-        self._id_translated: Dict[int, Dict[int, int]] = {}
+        self._id_translated = {}
 
         # The root of our page tree node.
         pages = DictionaryObject()
@@ -2455,7 +2456,7 @@ def _insert_filtered_outline(
                 np = parent
             else:
                 np = self._clone_outline(dest)
-                cast(TreeObject, parent.get_object()).insert_child(np, self, before)
+                cast(TreeObject, parent.get_object()).insert_child(np, before, self)
             self._insert_filtered_outline(dest.childs, np, None)
 
     def close(self) -> None:
diff --git a/PyPDF2/generic/__init__.py b/PyPDF2/generic/__init__.py
index b0c60da88..9dd14801e 100644
--- a/PyPDF2/generic/__init__.py
+++ b/PyPDF2/generic/__init__.py
@@ -44,6 +44,7 @@
     NumberObject,
     PdfObject,
     TextStringObject,
+    _PdfWriterInterface,
     encode_pdfdocencoding,
 )
 from ._data_structures import (
diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index bfca74498..b7c5e94ce 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -30,10 +30,13 @@
 import hashlib
 import re
 from binascii import unhexlify
+from io import BufferedReader, BufferedWriter, BytesIO, FileIO, IOBase
+from pathlib import Path
 from typing import (
     TYPE_CHECKING,
     Any,
     Callable,
+    Dict,
     List,
     Optional,
     Tuple,
@@ -43,6 +46,7 @@
 
 from .._codecs import _pdfdoc_encoding_rev
 from .._utils import (
+    StrByteType,
     StreamType,
     b_,
     deprecate_with_replacement,
@@ -55,13 +59,25 @@
 )
 from ..errors import STREAM_TRUNCATED_PREMATURELY, PdfReadError, PdfStreamError
 
-if TYPE_CHECKING:
-    from .._writer import PdfWriter
-
 __author__ = "Mathieu Fenniak"
 __author_email__ = "biziqe@mathieu.fenniak.net"
 
 
+class _PdfDocumentInterface:
+    def get_object(self, ido: Union[int, "IndirectObject"]) -> "PdfObject":
+        pass
+
+
+class _PdfWriterInterface(_PdfDocumentInterface):
+    _objects: List["PdfObject"]
+    _id_translated: Dict[int, Dict[int, int]]
+
+    def write(
+        self, stream: Union[Path, StrByteType]
+    ) -> Tuple[bool, Union[FileIO, BytesIO, BufferedReader, BufferedWriter]]:
+        pass
+
+
 class PdfObject:
     # function for calculating a hash value
     hash_func: Callable[..., "hashlib._Hash"] = hashlib.sha1
@@ -81,7 +97,7 @@ def hash_value(self) -> bytes:
 
     def clone(
         self,
-        pdf_dest: "PdfWriter",
+        pdf_dest: _PdfWriterInterface,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "PdfObject":
@@ -94,7 +110,9 @@ def clone(
         """
         raise Exception("clone PdfObject")
 
-    def _reference_clone(self, clone: Any, pdf_dest: "PdfWriter") -> "PdfObject":
+    def _reference_clone(
+        self, clone: Any, pdf_dest: _PdfWriterInterface
+    ) -> "PdfObject":
         """
         reference the object within the _objects of pdf_dest only if indirect_ref attribute exists (which means the objects was already identified in xref/xobjstm)
         if object has been already referenced do nothing
@@ -136,7 +154,7 @@ def write_to_stream(
 class NullObject(PdfObject):
     def clone(
         self,
-        pdf_dest: "PdfWriter",
+        pdf_dest: _PdfWriterInterface,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "NullObject":
@@ -176,7 +194,7 @@ def __init__(self, value: Any) -> None:
 
     def clone(
         self,
-        pdf_dest: "PdfWriter",
+        pdf_dest: _PdfWriterInterface,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "BooleanObject":
@@ -235,7 +253,7 @@ def __init__(self, idnum: int, generation: int, pdf: Any) -> None:  # PdfReader
 
     def clone(
         self,
-        pdf_dest: "PdfWriter",  # type: ignore
+        pdf_dest: _PdfWriterInterface,  # type: ignore
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "IndirectObject":  # PPzz
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 394e90638..1c6d2d15b 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -63,6 +63,7 @@
     NumberObject,
     PdfObject,
     TextStringObject,
+    _PdfWriterInterface,
 )
 from ._utils import read_hex_string_from_stream, read_string_from_stream
 
@@ -74,7 +75,7 @@
 class ArrayObject(list, PdfObject):
     def clone(
         self,
-        pdf_dest: Any,
+        pdf_dest: _PdfWriterInterface,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "ArrayObject":
@@ -157,7 +158,7 @@ def readFromStream(
 class DictionaryObject(dict, PdfObject):
     def clone(
         self,
-        pdf_dest: Any,
+        pdf_dest: _PdfWriterInterface,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "DictionaryObject":
@@ -180,7 +181,7 @@ def clone(
     def _clone(
         self,
         src: "DictionaryObject",
-        pdf_dest: Any,
+        pdf_dest: _PdfWriterInterface,
         force_duplicate: bool,
         ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:
@@ -498,10 +499,10 @@ def addChild(self, child: Any, pdf: Any) -> None:  # pragma: no cover
         deprecate_with_replacement("addChild", "add_child")
         self.add_child(child, pdf)
 
-    def add_child(self, child: Any, pdf: Any) -> None:  # PdfWriter
+    def add_child(self, child: Any, pdf: _PdfWriterInterface) -> None:
         self.insert_child(child, None, pdf)
 
-    def insert_child(self, child: Any, before: Any, pdf: Any) -> None:  # PdfWriter
+    def insert_child(self, child: Any, before: Any, pdf: _PdfWriterInterface) -> None:
         def inc_parent_counter(
             parent: Union[None, IndirectObject, TreeObject], n: int
         ) -> None:
@@ -670,7 +671,7 @@ def __init__(self) -> None:
     def _clone(
         self,
         src: DictionaryObject,
-        pdf_dest: Any,
+        pdf_dest: _PdfWriterInterface,
         force_duplicate: bool,
         ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:
@@ -886,7 +887,7 @@ def clone(
     def _clone(
         self,
         src: DictionaryObject,
-        pdf_dest: Any,
+        pdf_dest: _PdfWriterInterface,
         force_duplicate: bool,
         ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:
diff --git a/tests/test_reader.py b/tests/test_reader.py
index 1b0cde93e..fb6d6afe8 100644
--- a/tests/test_reader.py
+++ b/tests/test_reader.py
@@ -751,7 +751,12 @@ def test_iss925():
                 annot.get_object()
 
 
-@pytest.mark.xfail(reason="#591")
+def test_get_object():
+    reader = PdfReader(RESOURCE_ROOT / "hello-world.pdf")
+    assert reader.get_object(22)["/Type"] == "/Catalog"
+    assert reader._get_indirect_object(22, 0)["/Type"] == "/Catalog"
+
+
 def test_extract_text_hello_world():
     reader = PdfReader(RESOURCE_ROOT / "hello-world.pdf")
     text = reader.pages[0].extract_text().split("\n")

From e80d6027975eff50e92e177eb2a463cc37b8e18d Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sat, 29 Oct 2022 19:28:06 +0200
Subject: [PATCH 044/101] Merge remote-tracking branch 'py-pdf/main' into
 cloning

---
 docs/dev/intro.md       | 10 +---------
 docs/dev/testing.md     | 13 +++++++++++++
 pyproject.toml          |  4 +++-
 tests/test_cmap.py      | 11 +++++++++++
 tests/test_filters.py   |  4 ++++
 tests/test_generic.py   |  9 +++++++++
 tests/test_merger.py    | 32 ++++++++++++++++++++++++++++++++
 tests/test_page.py      | 31 +++++++++++++++++++++++++------
 tests/test_reader.py    | 37 ++++++++++++++++++++++++++++++++-----
 tests/test_utils.py     |  1 +
 tests/test_workflows.py | 23 +++++++++++++++++++++++
 tests/test_writer.py    | 12 +++++++++---
 tests/test_xmp.py       |  6 ++++++
 13 files changed, 169 insertions(+), 24 deletions(-)

diff --git a/docs/dev/intro.md b/docs/dev/intro.md
index 5aa3ca88f..54192405d 100644
--- a/docs/dev/intro.md
+++ b/docs/dev/intro.md
@@ -11,15 +11,7 @@ pip install -r requirements/dev.txt
 
 ## Running Tests
 
-```
-pytest .
-```
-
-We have the following pytest markers defined:
-
-* `external`: Tests which use files from [the `sample-files` git submodule](https://github.com/py-pdf/sample-files)
-
-You can locally choose not to run those via `pytest -m "not external"`.
+See [testing PyPDF2 with pytest](testing.html)
 
 ## The sample-files git submodule
 The reason for having the submodule `sample-files` is that we want to keep
diff --git a/docs/dev/testing.md b/docs/dev/testing.md
index e3b11f2bf..597a57b33 100644
--- a/docs/dev/testing.md
+++ b/docs/dev/testing.md
@@ -2,6 +2,19 @@
 
 PyPDF2 uses [`pytest`](https://docs.pytest.org/en/7.1.x/) for testing.
 
+## De-selecting groups of tests
+
+PyPDF2 makes use of the following pytest markers:
+
+* `slow`: Tests that require more than 5 seconds
+* `samples`: Tests that require the [the `sample-files` git submodule](https://github.com/py-pdf/sample-files) to be initialized. As of October 2022, this is about 25 MB.
+* `external`: Tests that download PDF documents. They are stored locally and thus only need to be downloaded once. As of October 2022, this is about 200 MB.
+
+You can disable them by `pytest -m "not external"` or `pytest -m "not samples"`.
+You can even disable all of them: `pytest -m "not external" -m "not samples" -m "not slow"`.
+
+Please note that this reduces test coverage. The CI will always test all files.
+
 ## Creating a Coverage Report
 
 If you want to get a coverage report that considers the Python version specific
diff --git a/pyproject.toml b/pyproject.toml
index 20dec44ff..f5ddfb770 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -57,7 +57,9 @@ exclude = [".github/*", "docs/*", "resources/*", "sample-files/*", "sample-files
 [tool.pytest.ini_options]
 filterwarnings = ["error"]
 markers = [
-    "external: Tests which use files from https://github.com/py-pdf/sample-files",
+    "slow: Test which require more than a second",
+    "samples: Tests which use files from https://github.com/py-pdf/sample-files",
+    "external: Tests which need to download files"
 ]
 testpaths = ["tests"]
 norecursedirs = ["tests/pdf_cache"]
diff --git a/tests/test_cmap.py b/tests/test_cmap.py
index aa139a859..fc41b35ae 100644
--- a/tests/test_cmap.py
+++ b/tests/test_cmap.py
@@ -8,6 +8,8 @@
 from . import get_pdf_from_url
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_compute_space_width():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/923/923406.pdf"
     name = "tika-923406.pdf"
@@ -17,6 +19,8 @@ def test_compute_space_width():
         page.extract_text()
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_parse_to_unicode_process_rg():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/959/959173.pdf"
     name = "tika-959173.pdf"
@@ -30,6 +34,7 @@ def test_parse_to_unicode_process_rg():
         page.extract_text()
 
 
+@pytest.mark.external
 def test_parse_encoding_advanced_encoding_not_implemented():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/957/957144.pdf"
     name = "tika-957144.pdf"
@@ -40,6 +45,7 @@ def test_parse_encoding_advanced_encoding_not_implemented():
             page.extract_text()
 
 
+@pytest.mark.external
 def test_get_font_width_from_default():  # L40
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/908/908104.pdf"
     name = "tika-908104.pdf"
@@ -48,6 +54,7 @@ def test_get_font_width_from_default():  # L40
         page.extract_text()
 
 
+@pytest.mark.external
 def test_multiline_bfrange():
     # non regression test for iss_1285
     url = "https://github.com/alexanderquispe/1REI05/raw/main/reports/report_1/The%20lean%20times%20in%20the%20Peruvian%20economy.pdf"
@@ -62,6 +69,7 @@ def test_multiline_bfrange():
         page.extract_text()
 
 
+@pytest.mark.external
 def test_bfchar_on_2_chars():
     # iss #1293
     url = "https://github.com/xyegithub/myBlog/raw/main/posts/c94b2364/paper_pdfs/ImageClassification/2007%2CASurveyofImageClassificationBasedTechniques.pdf"
@@ -71,6 +79,7 @@ def test_bfchar_on_2_chars():
         page.extract_text()
 
 
+@pytest.mark.external
 def test_ascii_charset():
     # iss #1312
     url = "https://github.com/py-pdf/PyPDF2/files/9472500/main.pdf"
@@ -79,6 +88,7 @@ def test_ascii_charset():
     assert "/a" not in reader.pages[0].extract_text()
 
 
+@pytest.mark.external
 def test_iss1370():
     url = "https://github.com/py-pdf/PyPDF2/files/9667138/cmap1370.pdf"
     name = "cmap1370.pdf"
@@ -86,6 +96,7 @@ def test_iss1370():
     reader.pages[0].extract_text()
 
 
+@pytest.mark.external
 def test_iss1379():
     url = "https://github.com/py-pdf/PyPDF2/files/9712729/02voc.pdf"
     name = "02voc.pdf"
diff --git a/tests/test_filters.py b/tests/test_filters.py
index edaacd8bc..cc745c230 100644
--- a/tests/test_filters.py
+++ b/tests/test_filters.py
@@ -200,6 +200,7 @@ def test_CCITTFaxDecode():
     )
 
 
+@pytest.mark.external
 @patch("PyPDF2._reader.logger_warning")
 def test_decompress_zlib_error(mock_logger_warning):
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/952/952445.pdf"
@@ -212,6 +213,7 @@ def test_decompress_zlib_error(mock_logger_warning):
     )
 
 
+@pytest.mark.external
 def test_lzw_decode_neg1():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/921/921632.pdf"
     name = "tika-921632.pdf"
@@ -222,6 +224,7 @@ def test_lzw_decode_neg1():
     assert exc.value.args[0] == "Missed the stop code in LZWDecode!"
 
 
+@pytest.mark.external
 def test_issue_399():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/976/976970.pdf"
     name = "tika-976970.pdf"
@@ -229,6 +232,7 @@ def test_issue_399():
     reader.pages[1].extract_text()
 
 
+@pytest.mark.external
 def test_image_without_imagemagic():
     with patch.dict(sys.modules):
         sys.modules["PIL"] = None
diff --git a/tests/test_generic.py b/tests/test_generic.py
index 4fdc14461..4170154e2 100644
--- a/tests/test_generic.py
+++ b/tests/test_generic.py
@@ -599,6 +599,7 @@ def test_remove_child_in_tree():
     tree.empty_tree()
 
 
+@pytest.mark.external
 def test_dict_read_from_stream(caplog):
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/984/984877.pdf"
     name = "tika-984877.pdf"
@@ -612,6 +613,7 @@ def test_dict_read_from_stream(caplog):
     )
 
 
+@pytest.mark.external
 def test_parse_content_stream_peek_percentage():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/985/985770.pdf"
     name = "tika-985770.pdf"
@@ -621,6 +623,7 @@ def test_parse_content_stream_peek_percentage():
         page.extract_text()
 
 
+@pytest.mark.external
 def test_read_inline_image_no_has_q():
     # pdf/df7e1add3156af17a372bc165e47a244.pdf
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/998/998719.pdf"
@@ -631,6 +634,7 @@ def test_read_inline_image_no_has_q():
         page.extract_text()
 
 
+@pytest.mark.external
 def test_read_inline_image_loc_neg_1():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/935/935066.pdf"
     name = "tika-935066.pdf"
@@ -640,6 +644,8 @@ def test_read_inline_image_loc_neg_1():
         page.extract_text()
 
 
+@pytest.mark.slow
+@pytest.mark.external
 def test_text_string_write_to_stream():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924562.pdf"
     name = "tika-924562.pdf"
@@ -649,6 +655,7 @@ def test_text_string_write_to_stream():
         page.compress_content_streams()
 
 
+@pytest.mark.external
 def test_name_object_read_from_stream_unicode_error():  # L588
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/974/974966.pdf"
     name = "tika-974966.pdf"
@@ -658,6 +665,7 @@ def test_name_object_read_from_stream_unicode_error():  # L588
         page.extract_text()
 
 
+@pytest.mark.external
 def test_bool_repr(tmp_path):
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/932/932449.pdf"
     name = "tika-932449.pdf"
@@ -677,6 +685,7 @@ def test_bool_repr(tmp_path):
     )
 
 
+@pytest.mark.external
 @patch("PyPDF2._reader.logger_warning")
 def test_issue_997(mock_logger_warning):
     url = "https://github.com/py-pdf/PyPDF2/files/8908874/Exhibit_A-2_930_Enterprise_Zone_Tax_Credits_final.pdf"
diff --git a/tests/test_merger.py b/tests/test_merger.py
index 3d7d4c970..bfc168eac 100644
--- a/tests/test_merger.py
+++ b/tests/test_merger.py
@@ -307,6 +307,7 @@ def test_merge_write_closed_fh_with_writer():
     # assert exc.value.args[0] == err_closed
 
 
+@pytest.mark.external
 def test_trim_outline_list():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/995/995175.pdf"
     name = "tika-995175.pdf"
@@ -320,6 +321,7 @@ def test_trim_outline_list():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
 def test_trim_outline_list_with_writer():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/995/995175.pdf"
     name = "tika-995175.pdf"
@@ -333,6 +335,7 @@ def test_trim_outline_list_with_writer():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
 def test_zoom():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/994/994759.pdf"
     name = "tika-994759.pdf"
@@ -346,6 +349,7 @@ def test_zoom():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
 def test_zoom_with_writer():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/994/994759.pdf"
     name = "tika-994759.pdf"
@@ -359,6 +363,7 @@ def test_zoom_with_writer():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
 def test_zoom_xyz_no_left():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/933/933322.pdf"
     name = "tika-933322.pdf"
@@ -372,6 +377,7 @@ def test_zoom_xyz_no_left():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
 def test_zoom_xyz_no_left_with_writer():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/933/933322.pdf"
     name = "tika-933322.pdf"
@@ -385,6 +391,7 @@ def test_zoom_xyz_no_left_with_writer():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
 def test_outline_item():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/997/997511.pdf"
     name = "tika-997511.pdf"
@@ -398,6 +405,8 @@ def test_outline_item():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_outline_item_with_writer():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/997/997511.pdf"
     name = "tika-997511.pdf"
@@ -411,6 +420,8 @@ def test_outline_item_with_writer():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_trim_outline():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/982/982336.pdf"
     name = "tika-982336.pdf"
@@ -424,6 +435,8 @@ def test_trim_outline():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_trim_outline_with_writer():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/982/982336.pdf"
     name = "tika-982336.pdf"
@@ -437,6 +450,8 @@ def test_trim_outline_with_writer():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test1():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/923/923621.pdf"
     name = "tika-923621.pdf"
@@ -450,6 +465,8 @@ def test1():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test1_with_writer():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/923/923621.pdf"
     name = "tika-923621.pdf"
@@ -463,6 +480,8 @@ def test1_with_writer():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_sweep_recursion1():
     # TODO: This test looks like an infinite loop.
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924546.pdf"
@@ -480,6 +499,8 @@ def test_sweep_recursion1():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_sweep_recursion1_with_writer():
     # TODO: This test looks like an infinite loop.
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924546.pdf"
@@ -497,6 +518,8 @@ def test_sweep_recursion1_with_writer():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
+@pytest.mark.slow
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -525,6 +548,8 @@ def test_sweep_recursion2(url, name):
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
+@pytest.mark.slow
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -553,6 +578,7 @@ def test_sweep_recursion2_with_writer(url, name):
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
 def test_sweep_indirect_list_newobj_is_none(caplog):
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/906/906769.pdf"
     name = "tika-906769.pdf"
@@ -570,6 +596,7 @@ def test_sweep_indirect_list_newobj_is_none(caplog):
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
 def test_sweep_indirect_list_newobj_is_none_with_writer(caplog):
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/906/906769.pdf"
     name = "tika-906769.pdf"
@@ -587,6 +614,7 @@ def test_sweep_indirect_list_newobj_is_none_with_writer(caplog):
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
 def test_iss1145():
     # issue with FitH destination with null param
     url = "https://github.com/py-pdf/PyPDF2/files/9164743/file-0.pdf"
@@ -596,6 +624,7 @@ def test_iss1145():
     merger.close()
 
 
+@pytest.mark.external
 def test_iss1145_with_writer():
     # issue with FitH destination with null param
     url = "https://github.com/py-pdf/PyPDF2/files/9164743/file-0.pdf"
@@ -645,6 +674,7 @@ def test_deprecate_bookmark_decorator_output_with_writer():
     assert merger.find_outline_item(first_oi_title) == [0]
 
 
+@pytest.mark.external
 def test_iss1344(caplog):
     url = "https://github.com/py-pdf/PyPDF2/files/9549001/input.pdf"
     name = "iss1344.pdf"
@@ -659,6 +689,7 @@ def test_iss1344(caplog):
     assert r.threads is None
 
 
+@pytest.mark.external
 def test_iss1344_with_writer(caplog):
     url = "https://github.com/py-pdf/PyPDF2/files/9549001/input.pdf"
     name = "iss1344.pdf"
@@ -671,6 +702,7 @@ def test_iss1344_with_writer(caplog):
     assert "adresse où le malade peut être visité" in p.extract_text()
 
 
+@pytest.mark.external
 def test_articles_with_writer(caplog):
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924666.pdf"
     name = "924666.pdf"
diff --git a/tests/test_page.py b/tests/test_page.py
index 8516b666c..5b76e1796 100644
--- a/tests/test_page.py
+++ b/tests/test_page.py
@@ -26,11 +26,14 @@
 TESTS_ROOT = Path(__file__).parent.resolve()
 PROJECT_ROOT = TESTS_ROOT.parent
 RESOURCE_ROOT = PROJECT_ROOT / "resources"
-EXTERNAL_ROOT = PROJECT_ROOT / "sample-files"
+SAMPLE_ROOT = PROJECT_ROOT / "sample-files"
 
 
 def get_all_sample_files():
-    with open(EXTERNAL_ROOT / "files.json") as fp:
+    meta_file = SAMPLE_ROOT / "files.json"
+    if not os.path.isfile(meta_file):
+        return {"data": []}
+    with open(meta_file) as fp:
         data = fp.read()
     meta = json.loads(data)
     return meta
@@ -39,7 +42,7 @@ def get_all_sample_files():
 all_files_meta = get_all_sample_files()
 
 
-@pytest.mark.external()
+@pytest.mark.samples
 @pytest.mark.parametrize(
     "meta",
     [m for m in all_files_meta["data"] if not m["encrypted"]],
@@ -47,7 +50,7 @@ def get_all_sample_files():
 )
 @pytest.mark.filterwarnings("ignore::PyPDF2.errors.PdfReadWarning")
 def test_read(meta):
-    pdf_path = EXTERNAL_ROOT / meta["path"]
+    pdf_path = SAMPLE_ROOT / meta["path"]
     reader = PdfReader(pdf_path)
     try:
         reader.pages[0]
@@ -56,6 +59,8 @@ def test_read(meta):
     assert len(reader.pages) == meta["pages"]
 
 
+@pytest.mark.samples
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("pdf_path", "password"),
     [
@@ -154,6 +159,7 @@ def compare_dict_objects(d1, d2):
             assert d1[k] == d2[k]
 
 
+@pytest.mark.slow
 def test_page_transformations():
     pdf_path = RESOURCE_ROOT / "crazyones.pdf"
     reader = PdfReader(pdf_path)
@@ -277,6 +283,7 @@ def test_multi_language():
     set_custom_rtl(-1, -1, [])  # to prevent further errors
 
 
+@pytest.mark.external
 def test_extract_text_single_quote_op():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/964/964029.pdf"
     reader = PdfReader(BytesIO(get_pdf_from_url(url, name="tika-964029.pdf")))
@@ -284,6 +291,7 @@ def test_extract_text_single_quote_op():
         page.extract_text()
 
 
+@pytest.mark.external
 def test_no_ressources_on_text_extract():
     url = "https://github.com/py-pdf/PyPDF2/files/9428434/TelemetryTX_EM.pdf"
     reader = PdfReader(BytesIO(get_pdf_from_url(url, name="tika-964029.pdf")))
@@ -291,6 +299,7 @@ def test_no_ressources_on_text_extract():
         page.extract_text()
 
 
+@pytest.mark.external
 def test_iss_1142():
     # check fix for problem of context save/restore (q/Q)
     url = "https://github.com/py-pdf/PyPDF2/files/9150656/ST.2019.PDF"
@@ -307,6 +316,8 @@ def test_iss_1142():
     assert txt.find("郑州分公司") > 0
 
 
+@pytest.mark.external
+@pytest.mark.slow
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -338,6 +349,8 @@ def test_extract_text_page_pdf(url, name):
         page.extract_text()
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_extract_text_page_pdf_impossible_decode_xform(caplog):
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/972/972962.pdf"
     name = "tika-972962.pdf"
@@ -348,6 +361,8 @@ def test_extract_text_page_pdf_impossible_decode_xform(caplog):
     assert warn_msgs == [""]  # text extraction recognise no text
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_extract_text_operator_t_star():  # L1266, L1267
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/967/967943.pdf"
     name = "tika-967943.pdf"
@@ -789,6 +804,7 @@ def test_annotation_setter():
     os.remove(target)  # remove for testing
 
 
+@pytest.mark.external
 @pytest.mark.xfail(reason="#1091")
 def test_text_extraction_issue_1091():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/966/966635.pdf"
@@ -800,6 +816,7 @@ def test_text_extraction_issue_1091():
         page.extract_text()
 
 
+@pytest.mark.external
 def test_empyt_password_1088():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/941/941536.pdf"
     name = "tika-941536.pdf"
@@ -810,12 +827,13 @@ def test_empyt_password_1088():
 
 @pytest.mark.xfail(reason="#1088 / #1126")
 def test_arab_text_extraction():
-    reader = PdfReader(EXTERNAL_ROOT / "015-arabic/habibi.pdf")
+    reader = PdfReader(SAMPLE_ROOT / "015-arabic/habibi.pdf")
     assert reader.pages[0].extract_text() == "habibi حَبيبي"
 
 
+@pytest.mark.samples
 def test_read_link_annotation():
-    reader = PdfReader(EXTERNAL_ROOT / "016-libre-office-link/libre-office-link.pdf")
+    reader = PdfReader(SAMPLE_ROOT / "016-libre-office-link/libre-office-link.pdf")
     assert len(reader.pages[0].annotations) == 1
     annot = dict(reader.pages[0].annotations[0].get_object())
     expected = {
@@ -843,6 +861,7 @@ def test_read_link_annotation():
     assert annot == expected
 
 
+@pytest.mark.external
 def test_no_resources():
     url = "https://github.com/py-pdf/PyPDF2/files/9572045/108.pdf"
     name = "108.pdf"
diff --git a/tests/test_reader.py b/tests/test_reader.py
index fb6d6afe8..e46fb3537 100644
--- a/tests/test_reader.py
+++ b/tests/test_reader.py
@@ -37,7 +37,7 @@
 TESTS_ROOT = Path(__file__).parent.resolve()
 PROJECT_ROOT = TESTS_ROOT.parent
 RESOURCE_ROOT = PROJECT_ROOT / "resources"
-EXTERNAL_ROOT = PROJECT_ROOT / "sample-files"
+SAMPLE_ROOT = PROJECT_ROOT / "sample-files"
 
 
 @pytest.mark.parametrize(
@@ -108,8 +108,9 @@ def test_read_metadata(pdf_path, expected):
             assert metadict["/Title"] == docinfo.title
 
 
+@pytest.mark.samples
 @pytest.mark.parametrize(
-    "pdf_path", [EXTERNAL_ROOT / "017-unreadable-meta-data/unreadablemetadata.pdf"]
+    "pdf_path", [SAMPLE_ROOT / "017-unreadable-meta-data/unreadablemetadata.pdf"]
 )
 def test_broken_meta_data(pdf_path):
     with open(pdf_path, "rb") as f:
@@ -616,6 +617,7 @@ def test_do_not_get_stuck_on_large_files_without_start_xref():
     assert parse_duration < 60
 
 
+@pytest.mark.external
 def test_decrypt_when_no_id():
     """
     Decrypt an encrypted file that's missing the 'ID' value in its
@@ -738,6 +740,7 @@ def test_convertToInt_deprecated():
         assert convertToInt(b"\x01", 8) == 1
 
 
+@pytest.mark.external
 def test_iss925():
     url = "https://github.com/py-pdf/PyPDF2/files/8796328/1.pdf"
     reader = PdfReader(BytesIO(get_pdf_from_url(url, name="iss925.pdf")))
@@ -790,6 +793,7 @@ def test_read_not_binary_mode(caplog):
     assert normalize_warnings(caplog.text) == [msg]
 
 
+@pytest.mark.external
 @pytest.mark.skipif(not HAS_PYCRYPTODOME, reason="No pycryptodome")
 def test_read_form_416():
     url = (
@@ -800,6 +804,7 @@ def test_read_form_416():
     assert len(fields) > 0
 
 
+@pytest.mark.external
 def test_extract_text_xref_issue_2(caplog):
     # pdf/0264cf510015b2a4b395a15cb23c001e.pdf
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/981/981961.pdf"
@@ -810,6 +815,8 @@ def test_extract_text_xref_issue_2(caplog):
     assert normalize_warnings(caplog.text) == [msg]
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_extract_text_xref_issue_3(caplog):
     # pdf/0264cf510015b2a4b395a15cb23c001e.pdf
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/977/977774.pdf"
@@ -820,6 +827,7 @@ def test_extract_text_xref_issue_3(caplog):
     assert normalize_warnings(caplog.text) == [msg]
 
 
+@pytest.mark.external
 def test_extract_text_pdf15():
     # pdf/0264cf510015b2a4b395a15cb23c001e.pdf
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/976/976030.pdf"
@@ -828,6 +836,7 @@ def test_extract_text_pdf15():
         page.extract_text()
 
 
+@pytest.mark.external
 def test_extract_text_xref_table_21_bytes_clrf():
     # pdf/0264cf510015b2a4b395a15cb23c001e.pdf
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/956/956939.pdf"
@@ -836,6 +845,7 @@ def test_extract_text_xref_table_21_bytes_clrf():
         page.extract_text()
 
 
+@pytest.mark.external
 def test_get_fields():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/972/972486.pdf"
     name = "tika-972486.pdf"
@@ -846,14 +856,16 @@ def test_get_fields():
     assert dict(fields["c1-1"]) == ({"/FT": "/Btn", "/T": "c1-1"})
 
 
-# covers also issue 1089
+@pytest.mark.external
 @pytest.mark.filterwarnings("ignore::PyPDF2.errors.PdfReadWarning")
 def test_get_fields_read_else_block():
+    # covers also issue 1089
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/934/934771.pdf"
     name = "tika-934771.pdf"
     PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
 
 
+@pytest.mark.external
 def test_get_fields_read_else_block2():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/914/914902.pdf"
     name = "tika-914902.pdf"
@@ -862,6 +874,7 @@ def test_get_fields_read_else_block2():
     assert fields is None
 
 
+@pytest.mark.external
 @pytest.mark.filterwarnings("ignore::PyPDF2.errors.PdfReadWarning")
 def test_get_fields_read_else_block3():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/957/957721.pdf"
@@ -869,6 +882,7 @@ def test_get_fields_read_else_block3():
     PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
 
 
+@pytest.mark.external
 def test_metadata_is_none():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/963/963692.pdf"
     name = "tika-963692.pdf"
@@ -876,6 +890,7 @@ def test_metadata_is_none():
     assert reader.metadata is None
 
 
+@pytest.mark.external
 def test_get_fields_read_write_report():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/909/909655.pdf"
     name = "tika-909655.pdf"
@@ -900,6 +915,7 @@ def test_xfa(src):
     assert reader.xfa is None
 
 
+@pytest.mark.external
 def test_xfa_non_empty():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/942/942050.pdf"
     name = "tika-942050.pdf"
@@ -927,6 +943,7 @@ def test_header(src, pdf_header):
     assert reader.pdf_header == pdf_header
 
 
+@pytest.mark.external
 def test_outline_color():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924546.pdf"
     name = "tika-924546.pdf"
@@ -934,6 +951,7 @@ def test_outline_color():
     assert reader.outline[0].color == [0, 0, 1]
 
 
+@pytest.mark.external
 def test_outline_font_format():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924546.pdf"
     name = "tika-924546.pdf"
@@ -954,8 +972,9 @@ def get_outline_property(outline, attribute_name: str):
     return results
 
 
+@pytest.mark.samples
 def test_outline_title_issue_1121():
-    reader = PdfReader(EXTERNAL_ROOT / "014-outlines/mistitled_outlines_example.pdf")
+    reader = PdfReader(SAMPLE_ROOT / "014-outlines/mistitled_outlines_example.pdf")
 
     assert get_outline_property(reader.outline, "title") == [
         "First",
@@ -1000,8 +1019,9 @@ def test_outline_title_issue_1121():
     ]
 
 
+@pytest.mark.samples
 def test_outline_count():
-    reader = PdfReader(EXTERNAL_ROOT / "014-outlines/mistitled_outlines_example.pdf")
+    reader = PdfReader(SAMPLE_ROOT / "014-outlines/mistitled_outlines_example.pdf")
 
     assert get_outline_property(reader.outline, "outline_count") == [
         5,
@@ -1061,6 +1081,7 @@ def test_outline_missing_title():
     assert exc.value.args[0] == "value must be PdfObject"
 
 
+@pytest.mark.external
 def test_named_destination():
     # 1st case : the named_dest are stored directly as a dictionnary, PDF1.1 style
     url = "https://github.com/py-pdf/PyPDF2/files/9197028/lorem_ipsum.pdf"
@@ -1076,6 +1097,7 @@ def test_named_destination():
     # TODO : case to be added
 
 
+@pytest.mark.external
 def test_outline_with_missing_named_destination():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/913/913678.pdf"
     name = "tika-913678.pdf"
@@ -1084,6 +1106,7 @@ def test_outline_with_missing_named_destination():
     assert reader.outline[1][0].title.startswith("Report for 2002AZ3B: Microbial")
 
 
+@pytest.mark.external
 def test_outline_with_empty_action():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924546.pdf"
     name = "tika-924546.pdf"
@@ -1099,6 +1122,7 @@ def test_outline_with_invalid_destinations():
     assert len(reader.outline) == 9
 
 
+@pytest.mark.external
 def test_PdfReaderMultipleDefinitions(caplog):
     # iss325
     url = "https://github.com/py-pdf/PyPDF2/files/9176644/multipledefs.pdf"
@@ -1124,6 +1148,7 @@ def test_get_page_number_by_indirect():
     reader._get_page_number_by_indirect(1)
 
 
+@pytest.mark.external
 def test_corrupted_xref_table():
     # issue #1292
     url = "https://github.com/py-pdf/PyPDF2/files/9444747/BreezeManual.orig.pdf"
@@ -1136,6 +1161,7 @@ def test_corrupted_xref_table():
     reader.pages[0].extract_text()
 
 
+@pytest.mark.external
 def test_reader(caplog):
     # iss #1273
     url = "https://github.com/py-pdf/PyPDF2/files/9464742/shiv_resume.pdf"
@@ -1153,6 +1179,7 @@ def test_reader(caplog):
     assert caplog.text == ""
 
 
+@pytest.mark.external
 def test_zeroing_xref():
     # iss #328
     url = "https://github.com/py-pdf/PyPDF2/files/9066120/UTA_OSHA_3115_Fall_Protection_Training_09162021_.pdf"
diff --git a/tests/test_utils.py b/tests/test_utils.py
index 21134014a..a5f5fa186 100644
--- a/tests/test_utils.py
+++ b/tests/test_utils.py
@@ -250,6 +250,7 @@ def foo(old_param=1, baz=2):
     assert exc.value.args[0] == expected_msg
 
 
+@pytest.mark.external
 def test_escapedcode_followed_by_int():
     # iss #1294
     url = "https://github.com/timedegree/playground_files/raw/main/%E8%AE%BA%E6%96%87/AN%20EXACT%20ANALYTICAL%20SOLUTION%20OF%20KEPLER'S%20EQUATION.pdf"
diff --git a/tests/test_workflows.py b/tests/test_workflows.py
index a11b9a25e..ae2fa1efd 100644
--- a/tests/test_workflows.py
+++ b/tests/test_workflows.py
@@ -175,6 +175,8 @@ def test_rotate_45():
         assert exc.value.args[0] == "Rotation angle must be a multiple of 90"
 
 
+@pytest.mark.external
+@pytest.mark.slow
 @pytest.mark.parametrize(
     ("enable", "url", "pages"),
     [
@@ -255,6 +257,7 @@ def test_extract_textbench(enable, url, pages, print_result=False):
         pass
 
 
+@pytest.mark.slow
 def test_orientations():
     p = PdfReader(RESOURCE_ROOT / "test Orient.pdf").pages[0]
     with pytest.warns(DeprecationWarning):
@@ -295,6 +298,8 @@ def test_orientations():
         ), f"extract_text({req}) => {rst}"
 
 
+@pytest.mark.samples
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("base_path", "overlay_path"),
     [
@@ -329,6 +334,8 @@ def test_overlay(base_path, overlay_path):
     os.remove("dont_commit_overlay.pdf")  # remove for manual inspection
 
 
+@pytest.mark.external
+@pytest.mark.slow
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -347,6 +354,7 @@ def test_merge_with_warning(tmp_path, url, name):
     merger.write(tmp_path / "tmp.merged.pdf")
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -364,6 +372,7 @@ def test_merge(tmp_path, url, name):
     merger.write(tmp_path / "tmp.merged.pdf")
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -379,6 +388,7 @@ def test_get_metadata(url, name):
     reader.metadata
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name", "strict", "exception"),
     [
@@ -464,6 +474,7 @@ def test_extract_text(url, name, strict, exception):
         assert ex_info.value.args[0] == exc_text
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -485,6 +496,8 @@ def test_compress_raised(url, name):
         page.compress_content_streams()
 
 
+@pytest.mark.external
+@pytest.mark.slow
 @pytest.mark.parametrize(
     ("url", "name", "strict"),
     [
@@ -514,6 +527,7 @@ def test_compress(url, name, strict):
         page.compress_content_streams()
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -534,6 +548,7 @@ def test_get_fields_warns(tmp_path, caplog, url, name):
     assert normalize_warnings(caplog.text) == ["Object 2 0 not defined."]
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -553,6 +568,7 @@ def test_get_fields_no_warning(tmp_path, url, name):
     assert len(retrieved_fields) == 10
 
 
+@pytest.mark.external
 def test_scale_rectangle_indirect_object():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/999/999944.pdf"
     name = "tika-999944.pdf"
@@ -593,6 +609,7 @@ def test_merge_output(caplog):
     merger.close()
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -663,6 +680,7 @@ def test_image_extraction(url, name):
                 os.remove(filepath)
 
 
+@pytest.mark.external
 def test_image_extraction_strict():
     # Emits log messages
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/914/914102.pdf"
@@ -690,6 +708,7 @@ def test_image_extraction_strict():
                 os.remove(filepath)
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -723,6 +742,7 @@ def test_image_extraction2(url, name):
                 os.remove(filepath)
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -742,6 +762,7 @@ def test_get_outline(url, name):
     reader.outline
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name"),
     [
@@ -761,6 +782,7 @@ def test_get_xfa(url, name):
     reader.xfa
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name", "strict"),
     [
@@ -793,6 +815,7 @@ def test_get_fonts(url, name, strict):
         page._get_fonts()
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name", "strict"),
     [
diff --git a/tests/test_writer.py b/tests/test_writer.py
index c1ac3800c..5817671ab 100644
--- a/tests/test_writer.py
+++ b/tests/test_writer.py
@@ -19,7 +19,7 @@
 TESTS_ROOT = Path(__file__).parent.resolve()
 PROJECT_ROOT = TESTS_ROOT.parent
 RESOURCE_ROOT = PROJECT_ROOT / "resources"
-EXTERNAL_ROOT = Path(PROJECT_ROOT) / "sample-files"
+SAMPLE_ROOT = Path(PROJECT_ROOT) / "sample-files"
 
 
 def test_writer_exception_non_binary(tmp_path, caplog):
@@ -642,6 +642,8 @@ def test_append_pages_from_reader_append():
         writer.write(o)
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_sweep_indirect_references_nullobject_exception():
     # TODO: Check this more closely... this looks weird
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924666.pdf"
@@ -655,6 +657,8 @@ def test_sweep_indirect_references_nullobject_exception():
     os.remove("tmp-merger-do-not-commit.pdf")
 
 
+@pytest.mark.external
+@pytest.mark.slow
 def test_write_outline_item_on_page_fitv():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/922/922840.pdf"
     name = "tika-922840.pdf"
@@ -770,8 +774,9 @@ def test_deprecate_bookmark_decorator():
         writer.add_outline_item_dict(bookmark=outline_item)
 
 
+@pytest.mark.samples
 def test_colors_in_outline_item():
-    reader = PdfReader(EXTERNAL_ROOT / "004-pdflatex-4-pages/pdflatex-4-pages.pdf")
+    reader = PdfReader(SAMPLE_ROOT / "004-pdflatex-4-pages/pdflatex-4-pages.pdf")
     writer = PdfWriter()
     writer.clone_document_from_reader(reader)
     purple_rgb = (0.50196, 0, 0.50196)
@@ -792,8 +797,9 @@ def test_colors_in_outline_item():
     os.remove(target)  # remove for testing
 
 
+@pytest.mark.samples
 def test_write_empty_stream():
-    reader = PdfReader(EXTERNAL_ROOT / "004-pdflatex-4-pages/pdflatex-4-pages.pdf")
+    reader = PdfReader(SAMPLE_ROOT / "004-pdflatex-4-pages/pdflatex-4-pages.pdf")
     writer = PdfWriter()
     writer.clone_document_from_reader(reader)
 
diff --git a/tests/test_xmp.py b/tests/test_xmp.py
index a53b27b0e..5b8202ca5 100644
--- a/tests/test_xmp.py
+++ b/tests/test_xmp.py
@@ -87,6 +87,7 @@ def test_identity(x):
     assert PyPDF2.xmp._identity(x) == x
 
 
+@pytest.mark.external
 @pytest.mark.parametrize(
     ("url", "name", "xmpmm_instance_id"),
     [
@@ -105,6 +106,7 @@ def test_xmpmm(url, name, xmpmm_instance_id):
     assert xmp_metadata.xmpmm_instance_id == xmpmm_instance_id
 
 
+@pytest.mark.external
 def test_dc_description():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/953/953770.pdf"
     name = "tika-953770.pdf"
@@ -119,6 +121,7 @@ def test_dc_description():
     }
 
 
+@pytest.mark.external
 def test_dc_creator():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/953/953770.pdf"
     name = "tika-953770.pdf"
@@ -129,6 +132,7 @@ def test_dc_creator():
     assert xmp_metadata.dc_creator == ["U.S. Fish and Wildlife Service"]
 
 
+@pytest.mark.external
 def test_custom_properties():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/986/986065.pdf"
     name = "tika-986065.pdf"
@@ -139,6 +143,7 @@ def test_custom_properties():
     assert xmp_metadata.custom_properties == {"Style": "Searchable Image (Exact)"}
 
 
+@pytest.mark.external
 def test_dc_subject():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/959/959519.pdf"
     name = "tika-959519.pdf"
@@ -169,6 +174,7 @@ def test_dc_subject():
     ]
 
 
+@pytest.mark.external
 def test_issue585():
     url = "https://github.com/mstamy2/PyPDF2/files/5536984/test.pdf"
     name = "mstamy2-5536984.pdf"

From 223eb9255ee6104ff5fbdc3d701d09f765640709 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 30 Oct 2022 12:37:29 +0100
Subject: [PATCH 045/101] indirect_ref annotation

---
 PyPDF2/_page.py                    |  2 +-
 PyPDF2/_writer.py                  | 15 ++++++++++++---
 PyPDF2/generic/_base.py            |  3 ++-
 PyPDF2/generic/_data_structures.py |  6 +++---
 4 files changed, 18 insertions(+), 8 deletions(-)

diff --git a/PyPDF2/_page.py b/PyPDF2/_page.py
index bb0ea892b..ffbe00e48 100644
--- a/PyPDF2/_page.py
+++ b/PyPDF2/_page.py
@@ -298,7 +298,7 @@ def __init__(
 
         DictionaryObject.__init__(self)
         self.pdf: Optional[PdfReader] = pdf
-        self.indirect_ref = indirect_ref  # type: ignore[assignment]
+        self.indirect_ref = indirect_ref
 
     def hash_value_data(self) -> bytes:
         data = super().hash_value_data()
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 7334d2506..dd8ea9b8f 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -205,7 +205,7 @@ def pdf_header(self, new_header: bytes) -> None:
 
     def _add_object(self, obj: PdfObject) -> IndirectObject:
         if hasattr(obj, "indirect_ref") and obj.indirect_ref.pdf == self:  # type: ignore
-            return obj.indirect_ref
+            return obj.indirect_ref  # type: ignore
         self._objects.append(obj)
         obj.indirect_ref = IndirectObject(len(self._objects), 0, self)
         return obj.indirect_ref
@@ -252,6 +252,7 @@ def _add_page(
             self.pdf_header = _get_max_pdf_version_header(self.pdf_header, other)  # type: ignore
         page[NameObject(PA.PARENT)] = self._pages
         pages = cast(DictionaryObject, self.get_object(self._pages))
+        assert page.indirect_ref is not None
         action(pages[PA.KIDS], page.indirect_ref)
         page_count = cast(int, pages[PA.COUNT])
         pages[NameObject(PA.COUNT)] = NumberObject(page_count + 1)
@@ -1302,7 +1303,7 @@ def add_outline_item(
         :param str fit: The fit of the destination page. See
             :meth:`add_link()<add_link>` for details.
         """
-        page_ref: Union[IndirectObject, NumberObject]
+        page_ref: Union[None, NullObject, IndirectObject, NumberObject]
         if isinstance(italic, str):  # it means that we are on the old params
             if fit == "/Fit":
                 fit = None
@@ -1324,6 +1325,12 @@ def add_outline_item(
             zoom_args: ZoomArgsType = [
                 NullObject() if a is None else NumberObject(a) for a in args
             ]
+            if page_ref is None:
+                logger_warning(
+                    f"can not find reference of page {pagenum}",
+                    __name__,
+                )
+                page_ref = NullObject()
             dest = Destination(
                 NameObject("/" + title + " outline item"),
                 page_ref,
@@ -2179,6 +2186,7 @@ def merge(
         srcpages = {}
         for i in pages:
             pg = reader.pages[i]
+            assert pg.indirect_ref is not None
             if position is None:
                 srcpages[pg.indirect_ref.idnum] = self.add_page(
                     pg, list(excluded_fields) + ["/B", "/Annots"]  # type: ignore
@@ -2292,6 +2300,7 @@ def _add_articles_thread(
                 new_article[NameObject("/N")] = new_first.indirect_ref  # type: ignore
                 new_first[NameObject("/V")] = new_article.indirect_ref  # type: ignore
                 current_article = None
+        assert nthread.indirect_ref is not None
         return nthread.indirect_ref
 
     def add_filtered_articles(
@@ -2333,7 +2342,7 @@ def _get_cloned_page(
         elif isinstance(page, IndirectObject):
             _i = page
         try:
-            return pages[_i.idnum].indirect_ref
+            return pages[_i.idnum].indirect_ref  # type: ignore
         except Exception:
             return None
 
diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index b7c5e94ce..ea38b7cb0 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -81,7 +81,7 @@ def write(
 class PdfObject:
     # function for calculating a hash value
     hash_func: Callable[..., "hashlib._Hash"] = hashlib.sha1
-    indirect_ref: "IndirectObject"
+    indirect_ref: Optional["IndirectObject"]
 
     def hash_value_data(self) -> bytes:
         return ("%s" % self).encode()
@@ -268,6 +268,7 @@ def clone(
             dup = pdf_dest.get_object(pdf_dest._id_translated[id(self.pdf)][self.idnum])
         else:
             dup = self.get_object().clone(pdf_dest, force_duplicate, ignore_fields)  # type: ignore
+        assert dup.indirect_ref is not None
         return dup.indirect_ref
 
     @property
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 1c6d2d15b..84c1c9aa7 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -81,7 +81,7 @@ def clone(
     ) -> "ArrayObject":
         """clone object into pdf_dest"""
         try:
-            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:
+            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:  # type: ignore
                 return self
         except Exception:
             pass
@@ -164,7 +164,7 @@ def clone(
     ) -> "DictionaryObject":
         """clone object into pdf_dest"""
         try:
-            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:
+            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:  # type: ignore
                 return self
         except Exception:
             pass
@@ -871,7 +871,7 @@ def clone(
     ) -> "ContentStream":
         """clone object into pdf_dest"""
         try:
-            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:
+            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:  # type: ignore
                 return self
         except Exception:
             pass

From 505b32aee5c23afe74221fd90ddd46130c10922d Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 30 Oct 2022 12:51:25 +0100
Subject: [PATCH 046/101] clarify annotation

---
 PyPDF2/generic/_base.py            | 17 ++++++++++-------
 PyPDF2/generic/_data_structures.py | 18 +++++++++---------
 2 files changed, 19 insertions(+), 16 deletions(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index ea38b7cb0..b7ebf7868 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -78,6 +78,11 @@ def write(
         pass
 
 
+PdfWriter = (
+    _PdfWriterInterface  # local alias to ease annotation reading and auto comments
+)
+
+
 class PdfObject:
     # function for calculating a hash value
     hash_func: Callable[..., "hashlib._Hash"] = hashlib.sha1
@@ -97,7 +102,7 @@ def hash_value(self) -> bytes:
 
     def clone(
         self,
-        pdf_dest: _PdfWriterInterface,
+        pdf_dest: PdfWriter,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "PdfObject":
@@ -110,9 +115,7 @@ def clone(
         """
         raise Exception("clone PdfObject")
 
-    def _reference_clone(
-        self, clone: Any, pdf_dest: _PdfWriterInterface
-    ) -> "PdfObject":
+    def _reference_clone(self, clone: Any, pdf_dest: PdfWriter) -> "PdfObject":
         """
         reference the object within the _objects of pdf_dest only if indirect_ref attribute exists (which means the objects was already identified in xref/xobjstm)
         if object has been already referenced do nothing
@@ -154,7 +157,7 @@ def write_to_stream(
 class NullObject(PdfObject):
     def clone(
         self,
-        pdf_dest: _PdfWriterInterface,
+        pdf_dest: PdfWriter,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "NullObject":
@@ -194,7 +197,7 @@ def __init__(self, value: Any) -> None:
 
     def clone(
         self,
-        pdf_dest: _PdfWriterInterface,
+        pdf_dest: PdfWriter,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "BooleanObject":
@@ -253,7 +256,7 @@ def __init__(self, idnum: int, generation: int, pdf: Any) -> None:  # PdfReader
 
     def clone(
         self,
-        pdf_dest: _PdfWriterInterface,  # type: ignore
+        pdf_dest: PdfWriter,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "IndirectObject":  # PPzz
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 84c1c9aa7..a06f0299f 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -63,8 +63,8 @@
     NumberObject,
     PdfObject,
     TextStringObject,
-    _PdfWriterInterface,
 )
+from ._base import _PdfWriterInterface as PdfWriter
 from ._utils import read_hex_string_from_stream, read_string_from_stream
 
 logger = logging.getLogger(__name__)
@@ -75,7 +75,7 @@
 class ArrayObject(list, PdfObject):
     def clone(
         self,
-        pdf_dest: _PdfWriterInterface,
+        pdf_dest: PdfWriter,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "ArrayObject":
@@ -158,7 +158,7 @@ def readFromStream(
 class DictionaryObject(dict, PdfObject):
     def clone(
         self,
-        pdf_dest: _PdfWriterInterface,
+        pdf_dest: PdfWriter,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "DictionaryObject":
@@ -181,7 +181,7 @@ def clone(
     def _clone(
         self,
         src: "DictionaryObject",
-        pdf_dest: _PdfWriterInterface,
+        pdf_dest: PdfWriter,
         force_duplicate: bool,
         ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:
@@ -229,7 +229,7 @@ def _clone(
             if k not in ignore_fields:
                 if isinstance(v, StreamObject):
                     if not hasattr(v, "indirect_ref"):
-                        v.indirect_ref = None  # type: ignore
+                        v.indirect_ref = None
                     vv = v.clone(pdf_dest, force_duplicate, ignore_fields)
                     assert vv.indirect_ref is not None
                     self[k.clone(pdf_dest)] = vv.indirect_ref  # type: ignore[attr-defined]
@@ -499,10 +499,10 @@ def addChild(self, child: Any, pdf: Any) -> None:  # pragma: no cover
         deprecate_with_replacement("addChild", "add_child")
         self.add_child(child, pdf)
 
-    def add_child(self, child: Any, pdf: _PdfWriterInterface) -> None:
+    def add_child(self, child: Any, pdf: PdfWriter) -> None:
         self.insert_child(child, None, pdf)
 
-    def insert_child(self, child: Any, before: Any, pdf: _PdfWriterInterface) -> None:
+    def insert_child(self, child: Any, before: Any, pdf: PdfWriter) -> None:
         def inc_parent_counter(
             parent: Union[None, IndirectObject, TreeObject], n: int
         ) -> None:
@@ -671,7 +671,7 @@ def __init__(self) -> None:
     def _clone(
         self,
         src: DictionaryObject,
-        pdf_dest: _PdfWriterInterface,
+        pdf_dest: PdfWriter,
         force_duplicate: bool,
         ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:
@@ -887,7 +887,7 @@ def clone(
     def _clone(
         self,
         src: DictionaryObject,
-        pdf_dest: _PdfWriterInterface,
+        pdf_dest: PdfWriter,
         force_duplicate: bool,
         ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:

From 592946f9bc8821b45b3d9fa1b911d1fcca5e09be Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 30 Oct 2022 14:41:12 +0100
Subject: [PATCH 047/101] fix test_outline_missing_title

for non strict, the test shall return no errors and return an empty title consistant with Acrobat Reader
---
 tests/test_reader.py | 9 +++------
 1 file changed, 3 insertions(+), 6 deletions(-)

diff --git a/tests/test_reader.py b/tests/test_reader.py
index e46fb3537..8ee290770 100644
--- a/tests/test_reader.py
+++ b/tests/test_reader.py
@@ -1066,7 +1066,6 @@ def test_outline_count():
     ]
 
 
-@pytest.mark.xfail(reason="Non-Strict does not raise error now")
 def test_outline_missing_title():
     # Strict
     reader = PdfReader(RESOURCE_ROOT / "outline-without-title.pdf", strict=True)
@@ -1074,11 +1073,9 @@ def test_outline_missing_title():
         reader.outline
     assert exc.value.args[0].startswith("Outline Entry Missing /Title attribute:")
 
-    # Non-strict
-    with pytest.raises(ValueError) as exc:
-        reader = PdfReader(RESOURCE_ROOT / "outline-without-title.pdf", strict=False)
-        reader.outline
-    assert exc.value.args[0] == "value must be PdfObject"
+    # Non-strict : no errors should be reported
+    reader = PdfReader(RESOURCE_ROOT / "outline-without-title.pdf", strict=False)
+    assert reader.outline[0]["/Title"] == ""
 
 
 @pytest.mark.external

From 5b858161fc102d9d146230cfbc8a9eb3084aa45e Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 30 Oct 2022 19:12:52 +0100
Subject: [PATCH 048/101] flake8

---
 PyPDF2/generic/__init__.py |  3 +++
 PyPDF2/generic/_base.py    | 14 ++------------
 2 files changed, 5 insertions(+), 12 deletions(-)

diff --git a/PyPDF2/generic/__init__.py b/PyPDF2/generic/__init__.py
index 9dd14801e..cfe823559 100644
--- a/PyPDF2/generic/__init__.py
+++ b/PyPDF2/generic/__init__.py
@@ -97,6 +97,9 @@ def createStringObject(
     return create_string_object(string, forced_encoding)
 
 
+_PdfWriterInterface  # to prevent error
+
+
 __all__ = [
     # Base types
     "BooleanObject",
diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index b7ebf7868..3572f66e7 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -30,19 +30,9 @@
 import hashlib
 import re
 from binascii import unhexlify
-from io import BufferedReader, BufferedWriter, BytesIO, FileIO, IOBase
+from io import BufferedReader, BufferedWriter, BytesIO, FileIO
 from pathlib import Path
-from typing import (
-    TYPE_CHECKING,
-    Any,
-    Callable,
-    Dict,
-    List,
-    Optional,
-    Tuple,
-    Union,
-    cast,
-)
+from typing import Any, Callable, Dict, List, Optional, Tuple, Union, cast
 
 from .._codecs import _pdfdoc_encoding_rev
 from .._utils import (

From 0aef276e2845631f6f617126b3556c89224a3ddd Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 6 Nov 2022 11:45:04 +0100
Subject: [PATCH 049/101] /Annots and /B exclusions +

includes also some comments
---
 PyPDF2/_writer.py | 36 +++++++++++++++++++++++-------------
 1 file changed, 23 insertions(+), 13 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index dd8ea9b8f..1133a2064 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2098,10 +2098,9 @@ def append(
             read and seek methods similar to a File Object. Could also be a
             string representing a path to a PDF file.
 
-        :param str outline_item: Optionally, you may specify an outline item
-            (previously referred to as a 'bookmark') to be applied at the
-            beginning of the included file by supplying the text of the outline item.
-            if it is a tuple, list, pagerange, will be transfered to pages
+        :param str outline_item: Optionally, you may specify a string to build an outline
+            (aka 'bookmark') to identify the
+            beginning of the included file.
 
         :param pages: can be a :class:`PageRange<PyPDF2.pagerange.PageRange>`
             or a ``(start, stop[, step])`` tuple
@@ -2112,6 +2111,10 @@ def append(
         :param bool import_outline: You may prevent the source document's
             outline (collection of outline items, previously referred to as
             'bookmarks') from being imported by specifying this as ``False``.
+
+        :param List excluded_fields: provide the list of fields/keys to be ignored
+            if "/Annots" is part of the list, the annotation will be ignored
+            if "/B" is part of the list, the articles will be ignored        
         """
         if excluded_fields is None:
             excluded_fields = ()
@@ -2148,18 +2151,23 @@ def merge(
             read and seek methods similar to a File Object. Could also be a
             string representing a path to a PDF file.
 
-        :param str outline_item: Optionally, you may specify an outline item
-            (previously referred to as a 'bookmark') to be applied at the
-            beginning of the included file by supplying the text of the outline item.
+        :param str outline_item: Optionally, you may specify a string to build an outline
+            (aka 'bookmark') to identify the
+            beginning of the included file.
 
         :param pages: can be a :class:`PageRange<PyPDF2.pagerange.PageRange>`
             or a ``(start, stop[, step])`` tuple
+            or a list of pages to be processed
             to merge only the specified range of pages from the source
             document into the output document.
 
         :param bool import_outline: You may prevent the source document's
             outline (collection of outline items, previously referred to as
             'bookmarks') from being imported by specifying this as ``False``.
+
+        :param List excluded_fields: provide the list of fields/keys to be ignored
+            if "/Annots" is part of the list, the annotation will be ignored
+            if "/B" is part of the list, the articles will be ignored        
         """
         if isinstance(fileobj, PdfReader):
             reader = fileobj
@@ -2236,15 +2244,17 @@ def merge(
                 outline, outline_item_typ, None
             )  # TODO : use before parameter
 
-        for pag in srcpages.values():
-            lst = self._insert_filtered_annotations(
-                pag.original_page.get("/Annots", ()), pag, srcpages, reader
+        if "/Annots" not in excluded_fields:
+            for pag in srcpages.values():
+                lst = self._insert_filtered_annotations(
+                    pag.original_page.get("/Annots", ()), pag, srcpages, reader
             )
             if len(lst) > 0:
-                pag[NameObject("/Annots")] = lst
-            self.clean_page(pag)
+                    pag[NameObject("/Annots")] = lst
+                self.clean_page(pag)
 
-        self.add_filtered_articles("", srcpages, reader)
+        if "/B" not in excluded_fields:
+            self.add_filtered_articles("", srcpages, reader)
 
         return
 

From 5260fa8454cb0f51f4e217f69787a2fa8183688c Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 6 Nov 2022 14:46:50 +0100
Subject: [PATCH 050/101] add  reset_translation

---
 PyPDF2/_writer.py | 34 ++++++++++++++++++++++++++++++----
 1 file changed, 30 insertions(+), 4 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 1133a2064..1eca9f483 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -285,6 +285,7 @@ def add_page(
     ) -> PageObject:
         """
         Add a page to this PDF file.
+        Recommended for advanced usage including the adequate excluded_keys
 
         The page is usually acquired from a :class:`PdfReader<PyPDF2.PdfReader>`
         instance.
@@ -2114,7 +2115,7 @@ def append(
 
         :param List excluded_fields: provide the list of fields/keys to be ignored
             if "/Annots" is part of the list, the annotation will be ignored
-            if "/B" is part of the list, the articles will be ignored        
+            if "/B" is part of the list, the articles will be ignored
         """
         if excluded_fields is None:
             excluded_fields = ()
@@ -2167,7 +2168,7 @@ def merge(
 
         :param List excluded_fields: provide the list of fields/keys to be ignored
             if "/Annots" is part of the list, the annotation will be ignored
-            if "/B" is part of the list, the articles will be ignored        
+            if "/B" is part of the list, the articles will be ignored
         """
         if isinstance(fileobj, PdfReader):
             reader = fileobj
@@ -2248,8 +2249,8 @@ def merge(
             for pag in srcpages.values():
                 lst = self._insert_filtered_annotations(
                     pag.original_page.get("/Annots", ()), pag, srcpages, reader
-            )
-            if len(lst) > 0:
+                )
+                if len(lst) > 0:
                     pag[NameObject("/Annots")] = lst
                 self.clean_page(pag)
 
@@ -2522,6 +2523,31 @@ def find_bookmark(
         """
         return self.find_outline_item(outline_item, root)
 
+    def reset_translation(
+        self, reader: Union[None, PdfReader, IndirectObject] = None
+    ) -> None:
+        """
+        reset the translation table between reader and the writer object.
+        late cloning will create new independent objects
+
+        :param reader: PdfReader or IndirectObject refering a PdfReader object.
+                       if set to None or omitted, all tables will be reset.
+        """
+        if reader == None:
+            self._id_translated = {}
+        elif isinstance(reader, PdfReader):
+            try:
+                del self._id_translated[id(reader)]
+            except Exception:
+                pass
+        elif isinstance(reader, IndirectObject):
+            try:
+                del self._id_translated[id(reader.pdf)]
+            except Exception:
+                pass
+        else:
+            raise Exception("invalid parameter {reader}")
+
 
 def _pdf_objectify(obj: Union[Dict[str, Any], str, int, List[Any]]) -> PdfObject:
     if isinstance(obj, PdfObject):

From 14f5d86aa6c8024f8be2a615df82accea8c88a0c Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 6 Nov 2022 14:48:06 +0100
Subject: [PATCH 051/101] doc

---
 docs/user/merging-pdfs.md | 75 ++++++++++++++++++++++++++++++++++++---
 1 file changed, 71 insertions(+), 4 deletions(-)

diff --git a/docs/user/merging-pdfs.md b/docs/user/merging-pdfs.md
index 9cbc1e94b..9cfad92b1 100644
--- a/docs/user/merging-pdfs.md
+++ b/docs/user/merging-pdfs.md
@@ -3,9 +3,9 @@
 ## Basic Example
 
 ```python
-from PyPDF2 import PdfMerger
+from PyPDF2 import PdfWriter
 
-merger = PdfMerger()
+merger = PdfWriter()
 
 for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
     merger.append(pdf)
@@ -21,9 +21,9 @@ by Paul Rooney.
 ## Showing more merging options
 
 ```python
-from PyPDF2 import PdfMerger
+from PyPDF2 import PdfWriter
 
-merger = PdfMerger()
+merger = PdfWriter()
 
 input1 = open("document1.pdf", "rb")
 input2 = open("document2.pdf", "rb")
@@ -46,3 +46,70 @@ merger.write(output)
 merger.close()
 output.close()
 ```
+
+## append
+`append` has been slighlty extended in `PdfWriter`.
+
+see [pdfWriter.append](../modules/PdfWriter.html#PyPDF2.PdfWriter.append) for more details
+
+**parameters:**
+
+*fileobj*: PdfReader or filename to merge
+*outline_item*: string of a outline/bookmark pointing to the beginning of the inserted file.
+                    if None, or omitted, no bookmark will be added.
+*pages*: pages to merge ; you can also provide a list of pages to merge
+             None(default) means  that the full document will be merged.
+*import_outline*: import/ignore the pertinent outlines from the source (default True)
+*excluded_fields*: list of keys to be ignored for the imported objects;
+            if "/Annots" is part of the list, the annotation will be ignored
+            if "/B" is part of the list, the articles will be ignored
+
+examples:
+
+`writer.append("source.pdf",(0,10))  # append the first 10 pages of source.pdf`
+
+`writer.append(reader,"page 1 and 10",[0,9]) #append first and 10th page from reader and create an outline)`
+
+during the merging, the relevant named destination will also imported.
+
+if you want to insert pages in the middle of the destination, use merge (which provides (insert) position)
+
+## add_page / insert_page
+It is recommended to use `append` or `merge` instead
+
+## reset_translation
+During the cloning, if an object has been already cloned, it will not be cloned again,
+    a pointer  this previously cloned object is returned. because of that, if you add/merge a page that has
+    been already added, the same object will be added the second time. If later you modify any of these two page,
+    both pages can be modified independantly.
+
+To reset, call  `writer.reset_translation(reader)`
+
+## Advanced cloning
+In order to prevent side effect between pages/objects objects and all objects linked are linked during merging.
+
+This process will be automatically applied if you use PdfWriter.append/merge/add_page/insert_page.
+If you want to clone an object before attaching it "manually", use clone function of any PdfObject:
+eg:
+
+`cloned_object = object.clone(writer)`
+
+if you try clone an object already belonging to writer, it will return the same object
+
+`cloned_object == object.clone(writer)  # -> returns True`
+
+the same, if you try to clone twice an object it will return the previously cloned object
+
+`object.clone(writer) == object.clone(writer)  # -> returns True`
+
+Also, note that if you clone an object, you will clone all the objects below
+including the objects pointed by IndirectObject. because of that if you clone
+a page that includes some articles ("/B"),
+not only the first article, but also all the chained articles, and the pages
+where those articles can be read will be copied.
+It means that you may copy lots of objects, that will be saved in the output pdf.
+
+In order to prevent, that you can provide the list of defined the fields in the dictionaries to be ignored:
+
+eg:
+`new_page  = writer.add_page(reader.pages[0],excluded_fields=["/B"])`

From 1eec0d64747c5559f6907c48ea4945b87ec2f65b Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 6 Nov 2022 19:54:00 +0100
Subject: [PATCH 052/101] flake8

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 1eca9f483..816dd9289 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2533,7 +2533,7 @@ def reset_translation(
         :param reader: PdfReader or IndirectObject refering a PdfReader object.
                        if set to None or omitted, all tables will be reset.
         """
-        if reader == None:
+        if reader is None:
             self._id_translated = {}
         elif isinstance(reader, PdfReader):
             try:

From 13b7a8a26b33aeb494de1b1c0d0bcff3abf33e29 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 6 Nov 2022 20:02:21 +0100
Subject: [PATCH 053/101] mypy

---
 PyPDF2/_writer.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 816dd9289..0ba3808b9 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2178,6 +2178,8 @@ def merge(
             # (either file or BytesIO or StringIO) created above
             reader = PdfReader(stream, strict=False)  # type: ignore[arg-type]
 
+        if excluded_fields is None:
+            excluded_fields = ()
         # Find the range of pages to merge.
         if pages is None:
             pages = list(range(0, len(reader.pages)))

From 0c70ab382fa40d0406dd492ef31dc64b1dada102 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 6 Nov 2022 20:48:26 +0100
Subject: [PATCH 054/101] add test for reset_translation and Annots and
 articles rejection

---
 tests/test_writer.py | 40 ++++++++++++++++++++++++++++++++++++++++
 1 file changed, 40 insertions(+)

diff --git a/tests/test_writer.py b/tests/test_writer.py
index 5817671ab..ba5c6eff3 100644
--- a/tests/test_writer.py
+++ b/tests/test_writer.py
@@ -818,3 +818,43 @@ def test_iss471():
     assert isinstance(
         writer.pages[0]["/Annots"][0].get_object()["/Dest"], TextStringObject
     )
+
+
+def test_reset_translation():
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924666.pdf"
+    name = "tika-924666.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    writer = PdfWriter()
+    writer.append(reader, (0, 10))
+    nb = len(writer._objects)
+    writer.append(reader, (0, 10))
+    assert len(writer._objects) == nb + 1  # +1 because of the added outline
+    nb += 1
+    writer.reset_translation(reader)
+    writer.append(reader, (0, 10))
+    assert len(writer._objects) >= nb + 200
+    nb = len(writer._objects)
+    writer.reset_translation(reader.pages[0].indirect_ref)
+    writer.append(reader, (0, 10))
+    assert len(writer._objects) >= nb + 200
+    nb = len(writer._objects)
+    writer.reset_translation()
+    writer.append(reader, (0, 10))
+    assert len(writer._objects) >= nb + 200
+    nb = len(writer._objects)
+
+
+def test_append_without_annots_and_articles():
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924666.pdf"
+    name = "tika-924666.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    writer = PdfWriter()
+    writer.append(reader, None, (0, 10), True, ["/B"])
+    assert writer.threads == []
+    writer = PdfWriter()
+    writer.append(reader, None, (0, 10), True, ["/Annots"])
+    assert "/Annots" not in writer.pages[5]
+    writer = PdfWriter()
+    writer.append(reader, None, (0, 10), True, [])
+    assert "/Annots" in writer.pages[5]
+    assert len(writer.threads) >= 1

From 064b46100791f281065038da94a6ed137f7eff87 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 6 Nov 2022 21:38:22 +0100
Subject: [PATCH 055/101] test improved

---
 PyPDF2/_writer.py    | 5 ++---
 tests/test_writer.py | 8 ++++++++
 2 files changed, 10 insertions(+), 3 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 0ba3808b9..c3db00963 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -240,9 +240,8 @@ def _add_page(
             excluded_keys = []
         else:
             excluded_keys = list(excluded_keys)
-        for k in [PA.PARENT, "/StructParents"]:
-            if k not in excluded_keys:
-                excluded_keys.append(k)
+        excluded_keys += [PA.PARENT, "/StructParents"]
+
         page = cast("PageObject", page_org.clone(self, False, excluded_keys))
         # page_ind = self._add_object(page)
         if page_org.pdf is not None:
diff --git a/tests/test_writer.py b/tests/test_writer.py
index ba5c6eff3..59462f335 100644
--- a/tests/test_writer.py
+++ b/tests/test_writer.py
@@ -342,6 +342,7 @@ def test_write_metadata():
     reader = PdfReader(pdf_path)
     writer = PdfWriter()
 
+    writer.add_page(reader.pages[0], None)
     for page in reader.pages:
         writer.add_page(page)
 
@@ -492,6 +493,13 @@ def test_add_named_destination():
     assert root[3].get_object()["/S"] == NameObject("/GoTo")
     assert root[3].get_object()["/D"][0] == writer.pages[2].indirect_ref
 
+    # test get_object
+
+    assert writer.get_object(root[1].idnum) == writer.get_object(root[1])
+    with pytest.raises(ValueError) as exc:
+        writer.get_object(reader.pages[0].indirect_ref)
+    assert exc.value.args[0] == "pdf must be self"
+
     # write "output" to PyPDF2-output.pdf
     tmp_filename = "dont_commit_named_destination.pdf"
     with open(tmp_filename, "wb") as output_stream:

From c5169dc4ff577fa6c458506e95e2211bf845a6a2 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Wed, 9 Nov 2022 23:52:29 +0100
Subject: [PATCH 056/101] allow multiple insertions of same source page

---
 PyPDF2/_writer.py         | 10 +++++++++-
 docs/user/merging-pdfs.md | 10 ++++++++--
 tests/test_writer.py      | 18 +++++++++++++++++-
 3 files changed, 34 insertions(+), 4 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index c3db00963..8a1093cac 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -241,7 +241,15 @@ def _add_page(
         else:
             excluded_keys = list(excluded_keys)
         excluded_keys += [PA.PARENT, "/StructParents"]
-
+        # acrobat does not accept to have two indirect ref pointing on the same page;
+        # therefore in order to add easily multiple copies of the same page, we need to create a new
+        # dictionnary for the page, however the objects below (including content) is not duplicated
+        try:  # delete an already existing page
+            del self._id_translated[id(page_org.indirect_ref.pdf)][
+                page_org.indirect_ref.idnum
+            ]
+        except:
+            pass
         page = cast("PageObject", page_org.clone(self, False, excluded_keys))
         # page_ind = self._add_object(page)
         if page_org.pdf is not None:
diff --git a/docs/user/merging-pdfs.md b/docs/user/merging-pdfs.md
index 9cfad92b1..ff5d20ff7 100644
--- a/docs/user/merging-pdfs.md
+++ b/docs/user/merging-pdfs.md
@@ -70,9 +70,15 @@ examples:
 
 `writer.append(reader,"page 1 and 10",[0,9]) #append first and 10th page from reader and create an outline)`
 
-during the merging, the relevant named destination will also imported.
+During the merging, the relevant named destination will also imported.
 
-if you want to insert pages in the middle of the destination, use merge (which provides (insert) position)
+If you want to insert pages in the middle of the destination, use merge (which provides (insert) position)
+
+You can now insert the same page multiple times. You can also insert the same page many time at once with a list:
+
+eg:
+`writer.append(reader,[0,1,0,2,0])`
+will insert the pages (1), (2), with page (0) before, in the middle and after
 
 ## add_page / insert_page
 It is recommended to use `append` or `merge` instead
diff --git a/tests/test_writer.py b/tests/test_writer.py
index 59462f335..b35892cbd 100644
--- a/tests/test_writer.py
+++ b/tests/test_writer.py
@@ -836,7 +836,9 @@ def test_reset_translation():
     writer.append(reader, (0, 10))
     nb = len(writer._objects)
     writer.append(reader, (0, 10))
-    assert len(writer._objects) == nb + 1  # +1 because of the added outline
+    assert (
+        len(writer._objects) == nb + 11
+    )  # +10 (pages) +1 because of the added outline
     nb += 1
     writer.reset_translation(reader)
     writer.append(reader, (0, 10))
@@ -866,3 +868,17 @@ def test_append_without_annots_and_articles():
     writer.append(reader, None, (0, 10), True, [])
     assert "/Annots" in writer.pages[5]
     assert len(writer.threads) >= 1
+
+
+def test_append_multiple():
+    url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924666.pdf"
+    name = "tika-924666.pdf"
+    reader = PdfReader(BytesIO(get_pdf_from_url(url, name=name)))
+    writer = PdfWriter()
+    writer.append(
+        reader, [0, 0, 0]
+    )  # to demonstre multiple insertion of same page at once
+    writer.append(reader, [0, 0, 0])  # second pack
+    pages = writer._root_object["/Pages"]["/Kids"]
+    assert pages[0] not in pages[1:]  # page not repeated
+    assert pages[-1] not in pages[0:-1]  # page not repeated

From aad410bfd6ee817b2a11804d17525df7430df1f0 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Thu, 10 Nov 2022 00:15:22 +0100
Subject: [PATCH 057/101] flake8

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 8a1093cac..087fe5a54 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -248,7 +248,7 @@ def _add_page(
             del self._id_translated[id(page_org.indirect_ref.pdf)][
                 page_org.indirect_ref.idnum
             ]
-        except:
+        except Exception:
             pass
         page = cast("PageObject", page_org.clone(self, False, excluded_keys))
         # page_ind = self._add_object(page)

From 5eca56fa41ef8a4a43e2de5bd8d74527d0ca42d5 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Thu, 10 Nov 2022 06:58:34 +0100
Subject: [PATCH 058/101] mypy

---
 PyPDF2/_writer.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 087fe5a54..65353d74f 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -245,6 +245,7 @@ def _add_page(
         # therefore in order to add easily multiple copies of the same page, we need to create a new
         # dictionnary for the page, however the objects below (including content) is not duplicated
         try:  # delete an already existing page
+            assert page_org.indirect_ref is not None
             del self._id_translated[id(page_org.indirect_ref.pdf)][
                 page_org.indirect_ref.idnum
             ]

From deb4ec9ba9d4c2820a7f3c9c2089adcdf6a9f385 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Thu, 10 Nov 2022 07:13:57 +0100
Subject: [PATCH 059/101] mypy 2

---
 PyPDF2/_writer.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 65353d74f..b98a17616 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -245,9 +245,8 @@ def _add_page(
         # therefore in order to add easily multiple copies of the same page, we need to create a new
         # dictionnary for the page, however the objects below (including content) is not duplicated
         try:  # delete an already existing page
-            assert page_org.indirect_ref is not None
-            del self._id_translated[id(page_org.indirect_ref.pdf)][
-                page_org.indirect_ref.idnum
+            del self._id_translated[id(page_org.indirect_ref.pdf)][  # type: ignore
+                page_org.indirect_ref.idnum  # type: ignore
             ]
         except Exception:
             pass

From e1c3ed3c8d73d178b9f9b66f40fba880eb5051e3 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sat, 12 Nov 2022 14:03:43 +0100
Subject: [PATCH 060/101] Rewriting using Protocols

includes also reintroduction of #1303 wrongly cancelled in #1309
---
 PyPDF2/_page.py                    |  5 ++-
 PyPDF2/_protocols.py               | 71 ++++++++++++++++++++++++++++++
 PyPDF2/_writer.py                  |  8 ++--
 PyPDF2/generic/__init__.py         |  4 --
 PyPDF2/generic/_base.py            | 42 ++++++------------
 PyPDF2/generic/_data_structures.py | 16 +++----
 PyPDF2/types.py                    | 21 ---------
 7 files changed, 100 insertions(+), 67 deletions(-)
 create mode 100644 PyPDF2/_protocols.py

diff --git a/PyPDF2/_page.py b/PyPDF2/_page.py
index 5c3893726..d34429d33 100644
--- a/PyPDF2/_page.py
+++ b/PyPDF2/_page.py
@@ -46,6 +46,7 @@
 )
 
 from ._cmap import build_char_map, unknown_char_map
+from ._protocols import PdfReaderProtocol
 from ._utils import (
     CompressedTransformationMatrix,
     File,
@@ -291,13 +292,13 @@ class PageObject(DictionaryObject):
 
     def __init__(
         self,
-        pdf: Optional[Any] = None,  # PdfReader
+        pdf: Optional[PdfReaderProtocol] = None,
         indirect_ref: Optional[IndirectObject] = None,
     ) -> None:
         from ._reader import PdfReader
 
         DictionaryObject.__init__(self)
-        self.pdf: Optional[PdfReader] = pdf
+        self.pdf: Optional[PdfReaderProtocol] = pdf
         self.indirect_ref = indirect_ref
 
     def hash_value_data(self) -> bytes:
diff --git a/PyPDF2/_protocols.py b/PyPDF2/_protocols.py
new file mode 100644
index 000000000..c82d05c1d
--- /dev/null
+++ b/PyPDF2/_protocols.py
@@ -0,0 +1,71 @@
+"""Helpers for working with PDF types."""
+
+from io import BufferedReader, BufferedWriter, BytesIO, FileIO
+from pathlib import Path
+from typing import Any, Dict, List, Optional, Tuple, Union
+
+try:
+    # Python 3.8+: https://peps.python.org/pep-0586
+    from typing import Literal, Protocol  # type: ignore[attr-defined]
+except ImportError:
+    from typing_extensions import Literal, Protocol  # type: ignore[misc]
+
+try:
+    # Python 3.10+: https://www.python.org/dev/peps/pep-0484/
+    from typing import TypeAlias  # type: ignore[attr-defined]
+except ImportError:
+    from typing_extensions import TypeAlias
+
+from ._utils import StrByteType
+
+
+class PdfObjectProtocol(Protocol):
+    indirect_ref: Any
+
+    def clone(
+        self,
+        pdf_dest: Any,
+        force_duplicate: bool = False,
+        ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
+    ) -> Any:
+        ...
+
+    def _reference_clone(self, clone: Any, pdf_dest: Any) -> Any:
+        ...
+
+    def get_object(self) -> Optional["PdfObjectProtocol"]:
+        ...
+
+
+class PdfReaderProtocol(Protocol):  # pragma: no cover
+    @property
+    def pdf_header(self) -> str:
+        ...
+
+    @property
+    def strict(self) -> bool:
+        ...
+
+    @property
+    def xref(self) -> Dict[int, Dict[int, Any]]:
+        ...
+
+    @property
+    def pages(self) -> List[Any]:
+        ...
+
+    def get_object(self, indirect_reference: Any) -> Optional[PdfObjectProtocol]:
+        ...
+
+
+class PdfWriterProtocol(Protocol):  # pragma: no cover
+    _objects: List[Any]
+    _id_translated: Dict[int, Dict[int, int]]
+
+    def get_object(self, indirect_reference: Any) -> Optional[PdfObjectProtocol]:
+        ...
+
+    def write(
+        self, stream: Union[Path, StrByteType]
+    ) -> Tuple[bool, Union[FileIO, BytesIO, BufferedReader, BufferedWriter]]:
+        ...
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index b98a17616..84f90cfa0 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -57,6 +57,7 @@
 
 from ._encryption import Encryption
 from ._page import PageObject, _VirtualList
+from ._protocols import PdfWriterProtocol
 from ._reader import PdfReader
 from ._security import _alg33, _alg34, _alg35
 from ._utils import (
@@ -104,7 +105,6 @@
     StreamObject,
     TextStringObject,
     TreeObject,
-    _PdfWriterInterface,
     create_string_object,
     hex_to_rgb,
 )
@@ -127,7 +127,7 @@
 ALL_DOCUMENT_PERMISSIONS = UserAccessPermissions((2**31 - 1) - 3)
 
 
-class PdfWriter(_PdfWriterInterface):
+class PdfWriter:
     """
     This class supports writing PDF files out, given pages produced by another
     class (typically :class:`PdfReader<PyPDF2.PdfReader>`).
@@ -135,9 +135,9 @@ class (typically :class:`PdfReader<PyPDF2.PdfReader>`).
 
     def __init__(self, fileobj: StrByteType = "") -> None:
         self._header = b"%PDF-1.3"
-        self._objects = []  # array of indirect objects
+        self._objects: List[PdfObject] = []  # array of indirect objects
         self._idnum_hash: Dict[bytes, IndirectObject] = {}
-        self._id_translated = {}
+        self._id_translated: Dict[int, Dict[int, int]] = {}
 
         # The root of our page tree node.
         pages = DictionaryObject()
diff --git a/PyPDF2/generic/__init__.py b/PyPDF2/generic/__init__.py
index cfe823559..b0c60da88 100644
--- a/PyPDF2/generic/__init__.py
+++ b/PyPDF2/generic/__init__.py
@@ -44,7 +44,6 @@
     NumberObject,
     PdfObject,
     TextStringObject,
-    _PdfWriterInterface,
     encode_pdfdocencoding,
 )
 from ._data_structures import (
@@ -97,9 +96,6 @@ def createStringObject(
     return create_string_object(string, forced_encoding)
 
 
-_PdfWriterInterface  # to prevent error
-
-
 __all__ = [
     # Base types
     "BooleanObject",
diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 3572f66e7..de237fc20 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -35,6 +35,7 @@
 from typing import Any, Callable, Dict, List, Optional, Tuple, Union, cast
 
 from .._codecs import _pdfdoc_encoding_rev
+from .._protocols import PdfObjectProtocol, PdfWriterProtocol
 from .._utils import (
     StrByteType,
     StreamType,
@@ -53,27 +54,7 @@
 __author_email__ = "biziqe@mathieu.fenniak.net"
 
 
-class _PdfDocumentInterface:
-    def get_object(self, ido: Union[int, "IndirectObject"]) -> "PdfObject":
-        pass
-
-
-class _PdfWriterInterface(_PdfDocumentInterface):
-    _objects: List["PdfObject"]
-    _id_translated: Dict[int, Dict[int, int]]
-
-    def write(
-        self, stream: Union[Path, StrByteType]
-    ) -> Tuple[bool, Union[FileIO, BytesIO, BufferedReader, BufferedWriter]]:
-        pass
-
-
-PdfWriter = (
-    _PdfWriterInterface  # local alias to ease annotation reading and auto comments
-)
-
-
-class PdfObject:
+class PdfObject(PdfObjectProtocol):
     # function for calculating a hash value
     hash_func: Callable[..., "hashlib._Hash"] = hashlib.sha1
     indirect_ref: Optional["IndirectObject"]
@@ -92,12 +73,12 @@ def hash_value(self) -> bytes:
 
     def clone(
         self,
-        pdf_dest: PdfWriter,
+        pdf_dest: PdfWriterProtocol,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "PdfObject":
         """
-        clone object into pdf_dest (PdfWriterOnly)
+        clone object into pdf_dest (PdfWriterProtocol which is an interface for PdfWriter)
         force_duplicate: in standard if the object has been already cloned and reference,
                          the copy is returned; when force_duplicate == True, a new copy is always performed
         ignore_fields : list/tuple of Fields names (for dictionaries that will be ignored during cloning (apply also to childs duplication)
@@ -105,7 +86,9 @@ def clone(
         """
         raise Exception("clone PdfObject")
 
-    def _reference_clone(self, clone: Any, pdf_dest: PdfWriter) -> "PdfObject":
+    def _reference_clone(
+        self, clone: Any, pdf_dest: PdfWriterProtocol
+    ) -> PdfObjectProtocol:
         """
         reference the object within the _objects of pdf_dest only if indirect_ref attribute exists (which means the objects was already identified in xref/xobjstm)
         if object has been already referenced do nothing
@@ -122,9 +105,11 @@ def _reference_clone(self, clone: Any, pdf_dest: PdfWriter) -> "PdfObject":
                 if id(ind.pdf) not in pdf_dest._id_translated:
                     pdf_dest._id_translated[id(ind.pdf)] = {}
                 if ind.idnum in pdf_dest._id_translated[id(ind.pdf)]:
-                    return pdf_dest.get_object(
+                    obj = pdf_dest.get_object(
                         pdf_dest._id_translated[id(ind.pdf)][ind.idnum]
                     )
+                    assert obj is not None
+                    return obj
                 pdf_dest._id_translated[id(ind.pdf)][ind.idnum] = i
             pdf_dest._objects.append(clone)
             clone.indirect_ref = IndirectObject(i, 0, pdf_dest)
@@ -147,7 +132,7 @@ def write_to_stream(
 class NullObject(PdfObject):
     def clone(
         self,
-        pdf_dest: PdfWriter,
+        pdf_dest: PdfWriterProtocol,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "NullObject":
@@ -187,7 +172,7 @@ def __init__(self, value: Any) -> None:
 
     def clone(
         self,
-        pdf_dest: PdfWriter,
+        pdf_dest: PdfWriterProtocol,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "BooleanObject":
@@ -246,7 +231,7 @@ def __init__(self, idnum: int, generation: int, pdf: Any) -> None:  # PdfReader
 
     def clone(
         self,
-        pdf_dest: PdfWriter,
+        pdf_dest: PdfWriterProtocol,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "IndirectObject":  # PPzz
@@ -261,6 +246,7 @@ def clone(
             dup = pdf_dest.get_object(pdf_dest._id_translated[id(self.pdf)][self.idnum])
         else:
             dup = self.get_object().clone(pdf_dest, force_duplicate, ignore_fields)  # type: ignore
+        assert dup is not None
         assert dup.indirect_ref is not None
         return dup.indirect_ref
 
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index a06f0299f..7f689440b 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -33,6 +33,7 @@
 from io import BytesIO
 from typing import Any, Dict, Iterable, List, Optional, Tuple, Union, cast
 
+from .._protocols import PdfObjectProtocol, PdfWriterProtocol
 from .._utils import (
     WHITESPACES,
     StreamType,
@@ -64,7 +65,6 @@
     PdfObject,
     TextStringObject,
 )
-from ._base import _PdfWriterInterface as PdfWriter
 from ._utils import read_hex_string_from_stream, read_string_from_stream
 
 logger = logging.getLogger(__name__)
@@ -75,7 +75,7 @@
 class ArrayObject(list, PdfObject):
     def clone(
         self,
-        pdf_dest: PdfWriter,
+        pdf_dest: PdfWriterProtocol,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "ArrayObject":
@@ -158,7 +158,7 @@ def readFromStream(
 class DictionaryObject(dict, PdfObject):
     def clone(
         self,
-        pdf_dest: PdfWriter,
+        pdf_dest: PdfWriterProtocol,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
     ) -> "DictionaryObject":
@@ -181,7 +181,7 @@ def clone(
     def _clone(
         self,
         src: "DictionaryObject",
-        pdf_dest: PdfWriter,
+        pdf_dest: PdfWriterProtocol,
         force_duplicate: bool,
         ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:
@@ -499,10 +499,10 @@ def addChild(self, child: Any, pdf: Any) -> None:  # pragma: no cover
         deprecate_with_replacement("addChild", "add_child")
         self.add_child(child, pdf)
 
-    def add_child(self, child: Any, pdf: PdfWriter) -> None:
+    def add_child(self, child: Any, pdf: PdfWriterProtocol) -> None:
         self.insert_child(child, None, pdf)
 
-    def insert_child(self, child: Any, before: Any, pdf: PdfWriter) -> None:
+    def insert_child(self, child: Any, before: Any, pdf: PdfWriterProtocol) -> None:
         def inc_parent_counter(
             parent: Union[None, IndirectObject, TreeObject], n: int
         ) -> None:
@@ -671,7 +671,7 @@ def __init__(self) -> None:
     def _clone(
         self,
         src: DictionaryObject,
-        pdf_dest: PdfWriter,
+        pdf_dest: PdfWriterProtocol,
         force_duplicate: bool,
         ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:
@@ -887,7 +887,7 @@ def clone(
     def _clone(
         self,
         src: DictionaryObject,
-        pdf_dest: PdfWriter,
+        pdf_dest: PdfWriterProtocol,
         force_duplicate: bool,
         ignore_fields: Union[Tuple[str, ...], List[str]],
     ) -> None:
diff --git a/PyPDF2/types.py b/PyPDF2/types.py
index 8b96e7e7e..bc4f82906 100644
--- a/PyPDF2/types.py
+++ b/PyPDF2/types.py
@@ -54,24 +54,3 @@
     "/UseOC",
     "/UseAttachments",
 ]
-
-
-class PdfReaderProtocol(Protocol):  # pragma: no cover
-    @property
-    def pdf_header(self) -> str:
-        ...
-
-    @property
-    def strict(self) -> bool:
-        ...
-
-    @property
-    def xref(self) -> Dict[int, Dict[int, Any]]:
-        ...
-
-    @property
-    def pages(self) -> List[Any]:
-        ...
-
-    def get_object(self, indirect_reference: Any) -> Optional[Any]:
-        ...

From 863d140349c4707781b7ca19b07e700ef0ba96d8 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sat, 12 Nov 2022 15:02:20 +0100
Subject: [PATCH 061/101] flake8

---
 PyPDF2/_page.py                    |  1 -
 PyPDF2/_protocols.py               | 10 ++--------
 PyPDF2/_writer.py                  |  1 -
 PyPDF2/generic/_base.py            |  5 +----
 PyPDF2/generic/_data_structures.py |  2 +-
 PyPDF2/types.py                    |  6 +++---
 6 files changed, 7 insertions(+), 18 deletions(-)

diff --git a/PyPDF2/_page.py b/PyPDF2/_page.py
index d34429d33..9cf89d3d4 100644
--- a/PyPDF2/_page.py
+++ b/PyPDF2/_page.py
@@ -295,7 +295,6 @@ def __init__(
         pdf: Optional[PdfReaderProtocol] = None,
         indirect_ref: Optional[IndirectObject] = None,
     ) -> None:
-        from ._reader import PdfReader
 
         DictionaryObject.__init__(self)
         self.pdf: Optional[PdfReaderProtocol] = pdf
diff --git a/PyPDF2/_protocols.py b/PyPDF2/_protocols.py
index c82d05c1d..9a20122ab 100644
--- a/PyPDF2/_protocols.py
+++ b/PyPDF2/_protocols.py
@@ -6,15 +6,9 @@
 
 try:
     # Python 3.8+: https://peps.python.org/pep-0586
-    from typing import Literal, Protocol  # type: ignore[attr-defined]
+    from typing import Protocol  # type: ignore[attr-defined]
 except ImportError:
-    from typing_extensions import Literal, Protocol  # type: ignore[misc]
-
-try:
-    # Python 3.10+: https://www.python.org/dev/peps/pep-0484/
-    from typing import TypeAlias  # type: ignore[attr-defined]
-except ImportError:
-    from typing_extensions import TypeAlias
+    from typing_extensions import Protocol  # type: ignore[misc]
 
 from ._utils import StrByteType
 
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 84f90cfa0..cdfb72ebf 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -57,7 +57,6 @@
 
 from ._encryption import Encryption
 from ._page import PageObject, _VirtualList
-from ._protocols import PdfWriterProtocol
 from ._reader import PdfReader
 from ._security import _alg33, _alg34, _alg35
 from ._utils import (
diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index de237fc20..30f919e11 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -30,14 +30,11 @@
 import hashlib
 import re
 from binascii import unhexlify
-from io import BufferedReader, BufferedWriter, BytesIO, FileIO
-from pathlib import Path
-from typing import Any, Callable, Dict, List, Optional, Tuple, Union, cast
+from typing import Any, Callable, List, Optional, Tuple, Union, cast
 
 from .._codecs import _pdfdoc_encoding_rev
 from .._protocols import PdfObjectProtocol, PdfWriterProtocol
 from .._utils import (
-    StrByteType,
     StreamType,
     b_,
     deprecate_with_replacement,
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 7f689440b..4c3d7b295 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -33,7 +33,7 @@
 from io import BytesIO
 from typing import Any, Dict, Iterable, List, Optional, Tuple, Union, cast
 
-from .._protocols import PdfObjectProtocol, PdfWriterProtocol
+from .._protocols import PdfWriterProtocol
 from .._utils import (
     WHITESPACES,
     StreamType,
diff --git a/PyPDF2/types.py b/PyPDF2/types.py
index bc4f82906..9683c1edd 100644
--- a/PyPDF2/types.py
+++ b/PyPDF2/types.py
@@ -1,12 +1,12 @@
 """Helpers for working with PDF types."""
 
-from typing import Any, Dict, List, Optional, Union
+from typing import List, Union
 
 try:
     # Python 3.8+: https://peps.python.org/pep-0586
-    from typing import Literal, Protocol  # type: ignore[attr-defined]
+    from typing import Literal  # type: ignore[attr-defined]
 except ImportError:
-    from typing_extensions import Literal, Protocol  # type: ignore[misc]
+    from typing_extensions import Literal  # type: ignore[misc]
 
 try:
     # Python 3.10+: https://www.python.org/dev/peps/pep-0484/

From 87ff49b787467962ab58207c30b6611074cc659b Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Sun, 27 Nov 2022 11:01:00 +0100
Subject: [PATCH 062/101] update iaw comments

---
 PyPDF2/_writer.py                  | 11 ++++-------
 PyPDF2/generic/_base.py            |  8 +++++---
 PyPDF2/generic/_data_structures.py |  3 ++-
 tests/test_writer.py               |  2 +-
 4 files changed, 12 insertions(+), 12 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index cdfb72ebf..288dce3d3 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -235,14 +235,11 @@ def _add_page(
     ) -> PageObject:
         assert cast(str, page[PA.TYPE]) == CO.PAGE
         page_org = page
-        if excluded_keys is None:
-            excluded_keys = []
-        else:
-            excluded_keys = list(excluded_keys)
+        excluded_keys = list(excluded_keys)
         excluded_keys += [PA.PARENT, "/StructParents"]
         # acrobat does not accept to have two indirect ref pointing on the same page;
         # therefore in order to add easily multiple copies of the same page, we need to create a new
-        # dictionnary for the page, however the objects below (including content) is not duplicated
+        # dictionary for the page, however the objects below (including content) is not duplicated
         try:  # delete an already existing page
             del self._id_translated[id(page_org.indirect_ref.pdf)][  # type: ignore
                 page_org.indirect_ref.idnum  # type: ignore
@@ -1119,7 +1116,7 @@ def get_threads_root(self) -> ArrayObject:
         """
         the list of threads see §8.3.2 from PDF 1.7 spec
 
-                :return: an Array (possibly empty) of Dictionnaries with "/F" and "/I" properties
+                :return: an Array (possibly empty) of Dictionaries with "/F" and "/I" properties
         """
         if CO.THREADS in self._root_object:
             # TABLE 3.25 Entries in the catalog dictionary
@@ -1134,7 +1131,7 @@ def threads(self) -> ArrayObject:
         """
         Read-only property for the list of threads see §8.3.2 from PDF 1.7 spec
 
-        :return: an Array (possibly empty) of Dictionnaries with "/F" and "/I" properties
+        :return: an Array (possibly empty) of Dictionaries with "/F" and "/I" properties
         """
         return self.get_threads_root()
 
diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 30f919e11..bd9666590 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -231,7 +231,7 @@ def clone(
         pdf_dest: PdfWriterProtocol,
         force_duplicate: bool = False,
         ignore_fields: Union[Tuple[str, ...], List[str], None] = (),
-    ) -> "IndirectObject":  # PPzz
+    ) -> "IndirectObject":
         """clone object into pdf_dest"""
         if self.pdf == pdf_dest and not force_duplicate:
             # Already duplicated and no extra duplication required
@@ -242,13 +242,15 @@ def clone(
         if not force_duplicate and self.idnum in pdf_dest._id_translated[id(self.pdf)]:
             dup = pdf_dest.get_object(pdf_dest._id_translated[id(self.pdf)][self.idnum])
         else:
-            dup = self.get_object().clone(pdf_dest, force_duplicate, ignore_fields)  # type: ignore
+            obj = self.get_object()
+            assert obj is not None
+            dup = obj.clone(pdf_dest, force_duplicate, ignore_fields)
         assert dup is not None
         assert dup.indirect_ref is not None
         return dup.indirect_ref
 
     @property
-    def indirect_ref(self) -> "IndirectObject":  # type: ignore
+    def indirect_ref(self) -> "IndirectObject":  # type: ignore[override]
         return self
 
     def get_object(self) -> Optional["PdfObject"]:
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 4c3d7b295..6868fb8a0 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -213,7 +213,8 @@ def _clone(
                                 cur_obj._reference_clone(cur_obj.__class__(), pdf_dest),
                             )
                             objs.append((cur_obj, clon))
-                            prev_obj[NameObject(k)] = clon.indirect_ref  # type: ignore
+                            assert prev_obj is not None
+                            prev_obj[NameObject(k)] = clon.indirect_ref
                             prev_obj = clon
                             try:
                                 if cur_obj == src:
diff --git a/tests/test_writer.py b/tests/test_writer.py
index b35892cbd..d273acb71 100644
--- a/tests/test_writer.py
+++ b/tests/test_writer.py
@@ -342,7 +342,7 @@ def test_write_metadata():
     reader = PdfReader(pdf_path)
     writer = PdfWriter()
 
-    writer.add_page(reader.pages[0], None)
+    writer.add_page(reader.pages[0])
     for page in reader.pages:
         writer.add_page(page)
 

From a05b7ed86950d684ca01715c246772290eb0edea Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Mon, 28 Nov 2022 19:22:32 +0100
Subject: [PATCH 063/101] report test added

---
 tests/test_writer.py | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/tests/test_writer.py b/tests/test_writer.py
index 5423e804a..c47639506 100644
--- a/tests/test_writer.py
+++ b/tests/test_writer.py
@@ -896,6 +896,15 @@ def test_reset_translation():
     nb = len(writer._objects)
 
 
+def test_threads_empty():
+    writer = PdfWriter()
+    thr = writer.threads
+    assert isinstance(thr, ArrayObject)
+    assert len(thr) == 0
+    thr2 = writer.threads
+    assert thr == thr2
+
+
 def test_append_without_annots_and_articles():
     url = "https://corpora.tika.apache.org/base/docs/govdocs1/924/924666.pdf"
     name = "tika-924666.pdf"

From 2a267722e22683e2afc5cb6790af3706fd476b9b Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Mon, 28 Nov 2022 19:25:57 +0100
Subject: [PATCH 064/101] flake8

---
 tests/test_writer.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/tests/test_writer.py b/tests/test_writer.py
index c47639506..41a3db397 100644
--- a/tests/test_writer.py
+++ b/tests/test_writer.py
@@ -7,6 +7,7 @@
 from PyPDF2 import PageObject, PdfMerger, PdfReader, PdfWriter
 from PyPDF2.errors import PageSizeNotDefinedError
 from PyPDF2.generic import (
+    ArrayObject,
     IndirectObject,
     NameObject,
     NumberObject,

From 3f21862271b4e4b1dd613460cc20c380301c3cc1 Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Mon, 28 Nov 2022 21:15:33 +0100
Subject: [PATCH 065/101] fix test

---
 tests/test_generic.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/test_generic.py b/tests/test_generic.py
index 411a99a8d..569dacb4a 100644
--- a/tests/test_generic.py
+++ b/tests/test_generic.py
@@ -477,8 +477,8 @@ def test_remove_child_not_in_that_tree():
 
     tree = TreeObject()
     tree.indirect_ref = NullObject()
-    # child = ChildDummy(TreeObject())
     child = TreeObject()
+    child.indirect_ref = NullObject()
     with pytest.raises(ValueError) as exc:
         child.remove_from_tree()
     assert exc.value.args[0] == "Removed child does not appear to be a tree item"

From e8b4929e72dbe29630e9a14d1aba225520ce0aad Mon Sep 17 00:00:00 2001
From: pubpub-zz <4083478+pubpub-zz@users.noreply.github.com>
Date: Mon, 28 Nov 2022 23:05:11 +0100
Subject: [PATCH 066/101] line reintroduced

---
 PyPDF2/generic/_data_structures.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 5e0a1b671..2230a673e 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -25,6 +25,7 @@
 # ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
 # POSSIBILITY OF SUCH DAMAGE.
 
+
 __author__ = "Mathieu Fenniak"
 __author_email__ = "biziqe@mathieu.fenniak.net"
 

From bacaef0d2b173736bdfdaec64d8fd27c3f5abab5 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 19:52:05 +0100
Subject: [PATCH 067/101] Apply suggestions from code review

---
 PyPDF2/_protocols.py | 2 +-
 PyPDF2/_reader.py    | 2 +-
 PyPDF2/_writer.py    | 8 ++++----
 3 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/PyPDF2/_protocols.py b/PyPDF2/_protocols.py
index 9a20122ab..b83db961b 100644
--- a/PyPDF2/_protocols.py
+++ b/PyPDF2/_protocols.py
@@ -14,7 +14,7 @@
 
 
 class PdfObjectProtocol(Protocol):
-    indirect_ref: Any
+    indirect_reference: Any
 
     def clone(
         self,
diff --git a/PyPDF2/_reader.py b/PyPDF2/_reader.py
index 7b2a544fc..ded0873d3 100644
--- a/PyPDF2/_reader.py
+++ b/PyPDF2/_reader.py
@@ -1393,7 +1393,7 @@ def cache_indirect_object(
             logger_warning(msg, __name__)
         self.resolved_objects[(generation, idnum)] = obj
         if obj is not None:
-            obj.indirect_ref = IndirectObject(idnum, generation, self)
+            obj.indirect_reference = IndirectObject(idnum, generation, self)
         return obj
 
     def cacheIndirectObject(
diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index d89fc7fa5..ae25ba476 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -204,11 +204,11 @@ def pdf_header(self, new_header: bytes) -> None:
         self._header = new_header
 
     def _add_object(self, obj: PdfObject) -> IndirectObject:
-        if hasattr(obj, "indirect_ref") and obj.indirect_ref.pdf == self:  # type: ignore
-            return obj.indirect_ref  # type: ignore
+        if hasattr(obj, "indirect_reference") and obj.indirect_reference.pdf == self:  # type: ignore
+            return obj.indirect_reference  # type: ignore
         self._objects.append(obj)
-        obj.indirect_ref = IndirectObject(len(self._objects), 0, self)
-        return obj.indirect_ref
+        obj.indirect_reference = IndirectObject(len(self._objects), 0, self)
+        return obj.indirect_reference
 
     def get_object(
         self,

From e0cda7b87279c594da2ac0d3c8b9dc40d292bc3e Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 19:52:34 +0100
Subject: [PATCH 068/101] Update PyPDF2/generic/_base.py

---
 PyPDF2/generic/_base.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index bd9666590..6bf53d323 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -54,7 +54,7 @@
 class PdfObject(PdfObjectProtocol):
     # function for calculating a hash value
     hash_func: Callable[..., "hashlib._Hash"] = hashlib.sha1
-    indirect_ref: Optional["IndirectObject"]
+    indirect_reference: Optional["IndirectObject"]
 
     def hash_value_data(self) -> bytes:
         return ("%s" % self).encode()

From 172ac7b4164e68ad29e04efe42d6a237e7eb1f01 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 19:54:07 +0100
Subject: [PATCH 069/101] Apply suggestions from code review

---
 PyPDF2/generic/_base.py | 12 +++++++-----
 1 file changed, 7 insertions(+), 5 deletions(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 6bf53d323..15cb12c54 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -87,16 +87,18 @@ def _reference_clone(
         self, clone: Any, pdf_dest: PdfWriterProtocol
     ) -> PdfObjectProtocol:
         """
-        reference the object within the _objects of pdf_dest only if indirect_ref attribute exists (which means the objects was already identified in xref/xobjstm)
+        reference the object within the _objects of pdf_dest only if
+        indirect_reference attribute exists (which means the objects
+        was already identified in xref/xobjstm)
         if object has been already referenced do nothing
         """
         try:
-            if clone.indirect_ref.pdf == pdf_dest:
+            if clone.indirect_reference.pdf == pdf_dest:
                 return clone
         except Exception:
             pass
-        if hasattr(self, "indirect_ref"):
-            ind = self.indirect_ref
+        if hasattr(self, "indirect_reference"):
+            ind = self.indirect_reference
             i = len(pdf_dest._objects) + 1
             if ind is not None:
                 if id(ind.pdf) not in pdf_dest._id_translated:
@@ -109,7 +111,7 @@ def _reference_clone(
                     return obj
                 pdf_dest._id_translated[id(ind.pdf)][ind.idnum] = i
             pdf_dest._objects.append(clone)
-            clone.indirect_ref = IndirectObject(i, 0, pdf_dest)
+            clone.indirect_reference = IndirectObject(i, 0, pdf_dest)
         return clone
 
     def get_object(self) -> Optional["PdfObject"]:

From c34daa23f19dc4b64406cd16c0768bebbd7b364d Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 20:00:29 +0100
Subject: [PATCH 070/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index ae25ba476..49a9bbf38 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -688,7 +688,7 @@ def append_pages_from_reader(
         reader_num_pages = len(reader.pages)
         # Copy pages from reader to writer
         for reader_page_number in range(reader_num_pages):
-            reader_page = reader.pages[rpagenum]
+            reader_page = reader.pages[reader_page_number]
             writer_page = self.add_page(reader_page)
             # Trigger callback, pass writer page as parameter
             if callable(after_page_append):
@@ -1520,7 +1520,6 @@ def add_outline(self) -> None:
             "This method is not yet implemented. Use :meth:`add_outline_item` instead."
         )
 
-
     def add_named_destination_array(
         self, title: TextStringObject, destination: Union[IndirectObject, ArrayObject]
     ) -> None:
@@ -1536,7 +1535,6 @@ def add_named_destination_array(
         nd.extend([TextStringObject(title), destination])
         return
 
-
     def add_named_destination_object(
         self,
         page_destination: Optional[PdfObject] = None,
@@ -1567,7 +1565,7 @@ def add_named_destination_object(
     def add_named_destination_object(self, page_destination: Destination) -> IndirectObject:
         page_destination_ref = self._add_object(page_destination.dest_array)
         self.add_named_destination_array(
-            cast("TextStringObject", dest["/Title"]), page_destination_ref
+            cast("TextStringObject", page_destination["/Title"]), page_destination_ref
         )
         return page_destination_ref
 

From 42fe44ff8cbc3b19c6e517e62deda5d95c646395 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 21:02:32 +0100
Subject: [PATCH 071/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 39e803bf8..2078443ed 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1414,7 +1414,7 @@ def add_outline_item(
             outline items.
         :param parent: A reference to a parent outline item to create nested
             outline items.
-        :param tuple colo r: Color of the outline item's font as a red, green, blue tuple
+        :param tuple color: Color of the outline item's font as a red, green, blue tuple
             from 0.0 to 1.0 or as a Hex String (#RRGGBB)
         :param bool bold: Outline item font is bold
         :param bool italic: Outline item font is italic
@@ -1488,7 +1488,6 @@ def add_bookmark(
             title,
             pagenum,
             parent,
-            None, c
             color,
             bold,
             italic,

From e107b370538781f4b9448c9001cd62e95261861d Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 21:07:13 +0100
Subject: [PATCH 072/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 8 +-------
 1 file changed, 1 insertion(+), 7 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 2078443ed..fcba13e38 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1542,7 +1542,7 @@ def add_named_destination_array(
         nd.extend([TextStringObject(title), destination])
         return
 
-    def add_named_destination_array(
+    def add_named_destination_object(
         self,
         page_destination: Optional[PdfObject] = None,
         dest: Optional[PdfObject] = None,
@@ -1567,13 +1567,7 @@ def add_named_destination_array(
         self.add_named_destination_array(
             cast("TextStringObject", dest["/Title"]), page_destination_ref
         )
-        return page_destination_ref
 
-    def add_named_destination_object(self, page_destination: Destination) -> IndirectObject:
-        page_destination_ref = self._add_object(page_destination.dest_array)
-        self.add_named_destination_array(
-            cast("TextStringObject", page_destination["/Title"]), page_destination_ref
-        )
         return page_destination_ref
 
     def addNamedDestinationObject(

From 1f3ce701608a12e72807a24b5d84b91acdf0169c Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 21:16:50 +0100
Subject: [PATCH 073/101] Apply suggestions from code review

---
 PyPDF2/generic/_data_structures.py | 8 ++++----
 tests/test_generic.py              | 2 +-
 tests/test_writer.py               | 8 ++++----
 3 files changed, 9 insertions(+), 9 deletions(-)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index d56a38cee..f0d7b48db 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -83,7 +83,7 @@ def clone(
     ) -> "ArrayObject":
         """clone object into pdf_dest"""
         try:
-            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:  # type: ignore
+            if self.indirect_reference.pdf == pdf_dest and not force_duplicate:  # type: ignore
                 return self
         except Exception:
             pass
@@ -95,7 +95,7 @@ def clone(
                 dup = data._reference_clone(
                     data.clone(pdf_dest, force_duplicate, ignore_fields), pdf_dest
                 )
-                arr.append(dup.indirect_ref)
+                arr.append(dup.indirect_reference)
             elif hasattr(data, "clone"):
                 arr.append(data.clone(pdf_dest, force_duplicate, ignore_fields))
             else:
@@ -166,7 +166,7 @@ def clone(
     ) -> "DictionaryObject":
         """clone object into pdf_dest"""
         try:
-            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:  # type: ignore
+            if self.indirect_reference.pdf == pdf_dest and not force_duplicate:  # type: ignore
                 return self
         except Exception:
             pass
@@ -883,7 +883,7 @@ def clone(
     ) -> "ContentStream":
         """clone object into pdf_dest"""
         try:
-            if self.indirect_ref.pdf == pdf_dest and not force_duplicate:  # type: ignore
+            if self.indirect_reference.pdf == pdf_dest and not force_duplicate:  # type: ignore
                 return self
         except Exception:
             pass
diff --git a/tests/test_generic.py b/tests/test_generic.py
index 70d993023..29d03d60e 100644
--- a/tests/test_generic.py
+++ b/tests/test_generic.py
@@ -964,7 +964,7 @@ def test_cloning(caplog):
     obj3 = obj2.clone(writer)
     assert len(writer._objects) == n + 1
     assert obj2.indirect_ref == obj3.indirect_ref
-    obj3 = obj2.indirect_ref.clone(writer)
+    obj3 = obj2.indirect_reference.clone(writer)
     assert len(writer._objects) == n + 1
     assert obj2.indirect_ref == obj3.indirect_ref
     assert obj2.indirect_ref == obj2._reference_clone(obj2, writer).indirect_ref
diff --git a/tests/test_writer.py b/tests/test_writer.py
index a599eebbf..f179a1443 100644
--- a/tests/test_writer.py
+++ b/tests/test_writer.py
@@ -512,17 +512,17 @@ def test_add_named_destination():
     assert root[0] == "A named dest"
     assert root[1].pdf == writer
     assert root[1].get_object()["/S"] == NameObject("/GoTo")
-    assert root[1].get_object()["/D"][0] == writer.pages[2].indirect_ref
+    assert root[1].get_object()["/D"][0] == writer.pages[2].indirect_reference
     assert root[2] == "A named dest2"
     assert root[3].pdf == writer
     assert root[3].get_object()["/S"] == NameObject("/GoTo")
-    assert root[3].get_object()["/D"][0] == writer.pages[2].indirect_ref
+    assert root[3].get_object()["/D"][0] == writer.pages[2].indirect_reference
 
     # test get_object
 
     assert writer.get_object(root[1].idnum) == writer.get_object(root[1])
     with pytest.raises(ValueError) as exc:
-        writer.get_object(reader.pages[0].indirect_ref)
+        writer.get_object(reader.pages[0].indirect_reference)
     assert exc.value.args[0] == "pdf must be self"
 
     # write "output" to PyPDF2-output.pdf
@@ -910,7 +910,7 @@ def test_reset_translation():
     writer.append(reader, (0, 10))
     assert len(writer._objects) >= nb + 200
     nb = len(writer._objects)
-    writer.reset_translation(reader.pages[0].indirect_ref)
+    writer.reset_translation(reader.pages[0].indirect_reference)
     writer.append(reader, (0, 10))
     assert len(writer._objects) >= nb + 200
     nb = len(writer._objects)

From d667d184ead453f62073d2e677faaf2f02e61c29 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 21:17:20 +0100
Subject: [PATCH 074/101] Apply suggestions from code review

---
 tests/test_generic.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/test_generic.py b/tests/test_generic.py
index 29d03d60e..4cc40b17c 100644
--- a/tests/test_generic.py
+++ b/tests/test_generic.py
@@ -971,7 +971,7 @@ def test_cloning(caplog):
     assert len(writer._objects) == n + 1
     assert obj2.indirect_ref == obj3.indirect_ref
 
-    obj3 = obj2.indirect_ref.clone(writer, True)
+    obj3 = obj2.indirect_reference.clone(writer, True)
     assert len(writer._objects) == n + 2
     assert obj2.indirect_ref != obj3.indirect_ref
 

From 6952ae207ffbdf5c810361fbb21fd40c68ed1034 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 21:20:10 +0100
Subject: [PATCH 075/101] Apply suggestions from code review

---
 PyPDF2/generic/_base.py            |  4 ++--
 PyPDF2/generic/_data_structures.py | 14 +++++++-------
 tests/test_generic.py              | 14 +++++++-------
 3 files changed, 16 insertions(+), 16 deletions(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 15cb12c54..865b7b986 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -248,8 +248,8 @@ def clone(
             assert obj is not None
             dup = obj.clone(pdf_dest, force_duplicate, ignore_fields)
         assert dup is not None
-        assert dup.indirect_ref is not None
-        return dup.indirect_ref
+        assert dup.indirect_reference is not None
+        return dup.indirect_reference
 
     @property
     def indirect_ref(self) -> "IndirectObject":  # type: ignore[override]
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index f0d7b48db..e1b6db6b9 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -90,8 +90,8 @@ def clone(
         arr = cast("ArrayObject", self._reference_clone(ArrayObject(), pdf_dest))
         for data in self:
             if isinstance(data, StreamObject):
-                # if not hasattr(data, "indirect_ref"):
-                #    data.indirect_ref = None
+                # if not hasattr(data, "indirect_reference"):
+                #    data.indirect_reference = None
                 dup = data._reference_clone(
                     data.clone(pdf_dest, force_duplicate, ignore_fields), pdf_dest
                 )
@@ -232,10 +232,10 @@ def _clone(
             if k not in ignore_fields:
                 if isinstance(v, StreamObject):
                     if not hasattr(v, "indirect_ref"):
-                        v.indirect_ref = None
+                        v.indirect_reference = None
                     vv = v.clone(pdf_dest, force_duplicate, ignore_fields)
-                    assert vv.indirect_ref is not None
-                    self[k.clone(pdf_dest)] = vv.indirect_ref  # type: ignore[attr-defined]
+                    assert vv.indirect_reference is not None
+                    self[k.clone(pdf_dest)] = vv.indirect_reference  # type: ignore[attr-defined]
                 else:
                     if k not in self:
                         self[NameObject(k)] = (
@@ -519,7 +519,7 @@ def inc_parent_counter(
                 inc_parent_counter(parent.get("/Parent", None), n)
 
         child_obj = child.get_object()
-        child = child.indirect_ref  # get_reference(child_obj)
+        child = child.indirect_reference  # get_reference(child_obj)
         # assert isinstance(child, IndirectObject)
 
         prev: Optional[DictionaryObject]
@@ -537,7 +537,7 @@ def inc_parent_counter(
         else:
             prev = cast("DictionaryObject", self["/Last"])
 
-        while prev.indirect_ref != before:
+        while prev.indirect_reference != before:
             if "/Next" in prev:
                 prev = cast("TreeObject", prev["/Next"])
             else:  # append at the end
diff --git a/tests/test_generic.py b/tests/test_generic.py
index 4cc40b17c..a80ddb64b 100644
--- a/tests/test_generic.py
+++ b/tests/test_generic.py
@@ -476,7 +476,7 @@ def test_remove_child_not_in_that_tree():
     tree = TreeObject()
     tree.indirect_reference = NullObject()
     child = TreeObject()
-    child.indirect_ref = NullObject()
+    child.indirect_reference = NullObject()
     with pytest.raises(ValueError) as exc:
         child.remove_from_tree()
     assert exc.value.args[0] == "Removed child does not appear to be a tree item"
@@ -957,23 +957,23 @@ def test_cloning(caplog):
     assert "clone PdfObject" in exc.value.args[0]
 
     obj1 = DictionaryObject()
-    obj1.indirect_ref = None
+    obj1.indirect_reference = None
     n = len(writer._objects)
     obj2 = obj1.clone(writer)
     assert len(writer._objects) == n + 1
     obj3 = obj2.clone(writer)
     assert len(writer._objects) == n + 1
-    assert obj2.indirect_ref == obj3.indirect_ref
+    assert obj2.indirect_reference == obj3.indirect_ref
     obj3 = obj2.indirect_reference.clone(writer)
     assert len(writer._objects) == n + 1
-    assert obj2.indirect_ref == obj3.indirect_ref
-    assert obj2.indirect_ref == obj2._reference_clone(obj2, writer).indirect_ref
+    assert obj2.indirect_reference == obj3.indirect_ref
+    assert obj2.indirect_reference == obj2._reference_clone(obj2, writer).indirect_reference
     assert len(writer._objects) == n + 1
-    assert obj2.indirect_ref == obj3.indirect_ref
+    assert obj2.indirect_reference == obj3.indirect_reference
 
     obj3 = obj2.indirect_reference.clone(writer, True)
     assert len(writer._objects) == n + 2
-    assert obj2.indirect_ref != obj3.indirect_ref
+    assert obj2.indirect_reference != obj3.indirect_reference
 
     arr1 = ArrayObject([obj2])
     arr2 = arr1.clone(writer)

From 5be40fefcebb929c74f036144a8b9e4776050577 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 21:21:31 +0100
Subject: [PATCH 076/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index fcba13e38..232b83ce9 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -276,7 +276,7 @@ def _add_page(
         page[NameObject(PA.PARENT)] = self._pages
         pages = cast(DictionaryObject, self.get_object(self._pages))
         assert page.indirect_ref is not None
-        action(pages[PA.KIDS], page.indirect_ref)
+        action(pages[PA.KIDS], page.indirect_reference)
         page_count = cast(int, pages[PA.COUNT])
         pages[NameObject(PA.COUNT)] = NumberObject(page_count + 1)
         return page
@@ -2371,7 +2371,7 @@ def merge(
         srcpages = {}
         for i in pages:
             pg = reader.pages[i]
-            assert pg.indirect_ref is not None
+            assert pg.indirect_reference is not None
             if position is None:
                 srcpages[pg.indirect_ref.idnum] = self.add_page(
                     pg, list(excluded_fields) + ["/B", "/Annots"]  # type: ignore
@@ -2672,7 +2672,7 @@ def find_outline_item(
 
         i = 0
         while o is not None:
-            if o.indirect_ref == outline_item or o.get("/Title", None) == outline_item:
+            if o.indirect_reference == outline_item or o.get("/Title", None) == outline_item:
                 return [i]
             else:
                 if "/First" in o:

From 4367c35b897dbe6c6d6991d81ffdf4f382810668 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 21:22:18 +0100
Subject: [PATCH 077/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 232b83ce9..873c9fccc 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2448,7 +2448,7 @@ def _add_articles_thread(
         nthread = thread.clone(
             self, force_duplicate=True, ignore_fields=("/F",)
         )  # use of clone to keep link between reader and writer
-        self.threads.append(nthread.indirect_ref)
+        self.threads.append(nthread.indirect_reference)
         first_article = cast("DictionaryObject", thread["/F"])
         current_article: Optional[DictionaryObject] = first_article
         new_article: Optional[DictionaryObject] = None
@@ -2481,13 +2481,13 @@ def _add_articles_thread(
                 pag_obj = cast("PageObject", pag.get_object())
                 if "/B" not in pag_obj:
                     pag_obj[NameObject("/B")] = ArrayObject()
-                cast("ArrayObject", pag_obj["/B"]).append(new_article.indirect_ref)
+                cast("ArrayObject", pag_obj["/B"]).append(new_article.indirect_reference)
             current_article = cast("DictionaryObject", current_article["/N"])
             if current_article == first_article:
-                new_article[NameObject("/N")] = new_first.indirect_ref  # type: ignore
-                new_first[NameObject("/V")] = new_article.indirect_ref  # type: ignore
+                new_article[NameObject("/N")] = new_first.indirect_reference  # type: ignore
+                new_first[NameObject("/V")] = new_article.indirect_reference  # type: ignore
                 current_article = None
-        assert nthread.indirect_ref is not None
+        assert nthread.indirect_reference is not None
         return nthread.indirect_ref
 
     def add_filtered_articles(
@@ -2529,7 +2529,7 @@ def _get_cloned_page(
         elif isinstance(page, IndirectObject):
             _i = page
         try:
-            return pages[_i.idnum].indirect_ref  # type: ignore
+            return pages[_i.idnum].indirect_reference  # type: ignore
         except Exception:
             return None
 

From dad3a33b1f77021045ccf0e5fd692f780b8dcafa Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 21:23:17 +0100
Subject: [PATCH 078/101] Apply suggestions from code review

---
 PyPDF2/_writer.py                  | 2 +-
 PyPDF2/generic/_data_structures.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 873c9fccc..cc61409f0 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -275,7 +275,7 @@ def _add_page(
             self.pdf_header = _get_max_pdf_version_header(self.pdf_header, other)  # type: ignore
         page[NameObject(PA.PARENT)] = self._pages
         pages = cast(DictionaryObject, self.get_object(self._pages))
-        assert page.indirect_ref is not None
+        assert page.indirect_reference is not None
         action(pages[PA.KIDS], page.indirect_reference)
         page_count = cast(int, pages[PA.COUNT])
         pages[NameObject(PA.COUNT)] = NumberObject(page_count + 1)
diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index e1b6db6b9..9c56f732b 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -231,7 +231,7 @@ def _clone(
         for k, v in src.items():
             if k not in ignore_fields:
                 if isinstance(v, StreamObject):
-                    if not hasattr(v, "indirect_ref"):
+                    if not hasattr(v, "indirect_reference"):
                         v.indirect_reference = None
                     vv = v.clone(pdf_dest, force_duplicate, ignore_fields)
                     assert vv.indirect_reference is not None

From 8a907947eba9d7832e7c8ca90c21ee391910af10 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 21:32:24 +0100
Subject: [PATCH 079/101] Update PyPDF2/generic/_base.py

---
 PyPDF2/generic/_base.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_base.py b/PyPDF2/generic/_base.py
index 865b7b986..872c529ad 100644
--- a/PyPDF2/generic/_base.py
+++ b/PyPDF2/generic/_base.py
@@ -252,7 +252,7 @@ def clone(
         return dup.indirect_reference
 
     @property
-    def indirect_ref(self) -> "IndirectObject":  # type: ignore[override]
+    def indirect_reference(self) -> "IndirectObject":  # type: ignore[override]
         return self
 
     def get_object(self) -> Optional["PdfObject"]:

From bfb19ff2e7b0c0abe533e52fcc3663f4a46ebc24 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 22:19:51 +0100
Subject: [PATCH 080/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index cc61409f0..ac1a0500d 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -230,8 +230,8 @@ def get_object(
         assert (
             indirect_reference is not None
         )  # the None value is only there to keep the deprecated name
-        if isinstance(ido, int):
-            return self._objects[ido - 1]
+        if isinstance(indirect_reference, int):
+            return self._objects[indirect_reference - 1]
         if indirect_reference.pdf != self:
             raise ValueError("pdf must be self")
         return self._objects[indirect_reference.idnum - 1]  # type: ignore

From f6a12088a62a7d91f454cf59d854fa2b3e7c554b Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:07:14 +0100
Subject: [PATCH 081/101] Apply suggestions from code review

---
 PyPDF2/generic/_data_structures.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 9c56f732b..43cfd4634 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -527,7 +527,7 @@ def inc_parent_counter(
             self[NameObject("/First")] = child
             self[NameObject("/Count")] = NumberObject(0)
             self[NameObject("/Last")] = child
-            child_obj[NameObject("/Parent")] = self.indirect_ref
+            child_obj[NameObject("/Parent")] = self.indirect_reference
             inc_parent_counter(self, child_obj.get("/Count", 1))
             if "/Next" in child_obj:
                 del child_obj["/Next"]
@@ -601,7 +601,7 @@ def _remove_node_from_tree(
 
     def remove_child(self, child: Any) -> None:
         child_obj = child.get_object()
-        child = child_obj.indirect_ref
+        child = child_obj.indirect_reference
 
         if NameObject("/Parent") not in child_obj:
             raise ValueError("Removed child does not appear to be a tree item")

From e7970c5417ba1a280c1f67e5f220a0a899928298 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:46:31 +0100
Subject: [PATCH 082/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index ac1a0500d..4d3260e56 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -261,8 +261,8 @@ def _add_page(
         # therefore in order to add easily multiple copies of the same page, we need to create a new
         # dictionary for the page, however the objects below (including content) is not duplicated
         try:  # delete an already existing page
-            del self._id_translated[id(page_org.indirect_ref.pdf)][  # type: ignore
-                page_org.indirect_ref.idnum  # type: ignore
+            del self._id_translated[id(page_org.indirect_reference.pdf)][  # type: ignore
+                page_org.indirect_reference.idnum  # type: ignore
             ]
         except Exception:
             pass
@@ -2373,15 +2373,15 @@ def merge(
             pg = reader.pages[i]
             assert pg.indirect_reference is not None
             if position is None:
-                srcpages[pg.indirect_ref.idnum] = self.add_page(
+                srcpages[pg.indirect_reference.idnum] = self.add_page(
                     pg, list(excluded_fields) + ["/B", "/Annots"]  # type: ignore
                 )
             else:
-                srcpages[pg.indirect_ref.idnum] = self.insert_page(
+                srcpages[pg.indirect_reference.idnum] = self.insert_page(
                     pg, position, list(excluded_fields) + ["/B", "/Annots"]  # type: ignore
                 )
                 position += 1
-            srcpages[pg.indirect_ref.idnum].original_page = pg
+            srcpages[pg.indirect_reference.idnum].original_page = pg
 
         reader._namedDests = (
             reader.named_destinations
@@ -2391,9 +2391,9 @@ def merge(
             # try:
             if isinstance(dest["/Page"], NullObject):
                 pass  # self.add_named_destination_array(dest["/Title"],arr)
-            elif dest["/Page"].indirect_ref.idnum in srcpages:
+            elif dest["/Page"].indirect_reference.idnum in srcpages:
                 arr[NumberObject(0)] = srcpages[
-                    dest["/Page"].indirect_ref.idnum
+                    dest["/Page"].indirect_reference.idnum
                 ].indirect_ref
                 self.add_named_destination_array(dest["/Title"], arr)
             # except Exception as e:
@@ -2507,7 +2507,7 @@ def add_filtered_articles(
             pp = p.original_page
             for a in pp.get("/B", ()):
                 thr = a.get_object()["/T"]
-                if thr.indirect_ref.idnum not in self._id_translated[
+                if thr.indirect_reference.idnum not in self._id_translated[
                     id(reader)
                 ] and fltr.search(thr["/I"]["/Title"]):
                     self._add_articles_thread(thr, pages, reader)

From 499c217feec75d1e22ba1f0e971acdbf1ab4c44b Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:49:29 +0100
Subject: [PATCH 083/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 4d3260e56..9290413af 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1245,11 +1245,11 @@ def get_named_dest_root(self) -> ArrayObject:
             self._root_object[CA.NAMES], DictionaryObject
         ):
             names = cast(DictionaryObject, self._root_object[CA.NAMES])
-            names_ref = names.indirect_ref
+            names_ref = names.indirect_reference
             if CA.DESTS in names and isinstance(names[CA.DESTS], DictionaryObject):
                 # 3.6.3 Name Dictionary (PDF spec 1.7)
                 dests = cast(DictionaryObject, names[CA.DESTS])
-                dests_ref = dests.indirect_ref
+                dests_ref = dests.indirect_reference
                 if CA.NAMES in dests:
                     # TABLE 3.33 Entries in a name tree node dictionary
                     nd = cast(ArrayObject, dests[CA.NAMES])
@@ -2473,10 +2473,10 @@ def _add_articles_thread(
                             )
                         ).get_object(),
                     )
-                    new_article[NameObject("/N")] = new_article2.indirect_ref
+                    new_article[NameObject("/N")] = new_article2.indirect_reference
                     new_article = new_article2
                 new_article[NameObject("/P")] = pag
-                new_article[NameObject("/T")] = nthread.indirect_ref
+                new_article[NameObject("/T")] = nthread.indirect_reference
                 new_article[NameObject("/R")] = current_article["/R"]
                 pag_obj = cast("PageObject", pag.get_object())
                 if "/B" not in pag_obj:
@@ -2488,7 +2488,7 @@ def _add_articles_thread(
                 new_first[NameObject("/V")] = new_article.indirect_reference  # type: ignore
                 current_article = None
         assert nthread.indirect_reference is not None
-        return nthread.indirect_ref
+        return nthread.indirect_reference
 
     def add_filtered_articles(
         self,

From f66df1295cafdd39b15662e935821a1c578c928b Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:51:04 +0100
Subject: [PATCH 084/101] Apply suggestions from code review

---
 PyPDF2/generic/_data_structures.py | 6 +++---
 tests/test_generic.py              | 4 ++--
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 43cfd4634..0ec6acfd3 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -542,8 +542,8 @@ def inc_parent_counter(
                 prev = cast("TreeObject", prev["/Next"])
             else:  # append at the end
                 prev[NameObject("/Next")] = cast("TreeObject", child)
-                child_obj[NameObject("/Prev")] = prev.indirect_ref
-                child_obj[NameObject("/Parent")] = self.indirect_ref
+                child_obj[NameObject("/Prev")] = prev.indirect_reference
+                child_obj[NameObject("/Parent")] = self.indirect_reference
                 if "/Next" in child_obj:
                     del child_obj["/Next"]
                 self[NameObject("/Last")] = child
@@ -557,7 +557,7 @@ def inc_parent_counter(
             del child_obj["/Next"]
         child_obj[NameObject("/Next")] = prev
         prev[NameObject("/Prev")] = child
-        child_obj[NameObject("/Parent")] = self.indirect_ref
+        child_obj[NameObject("/Parent")] = self.indirect_reference
         inc_parent_counter(self, child_obj.get("/Count", 1))
 
     def removeChild(self, child: Any) -> None:  # pragma: no cover
diff --git a/tests/test_generic.py b/tests/test_generic.py
index a80ddb64b..cffacc964 100644
--- a/tests/test_generic.py
+++ b/tests/test_generic.py
@@ -963,10 +963,10 @@ def test_cloning(caplog):
     assert len(writer._objects) == n + 1
     obj3 = obj2.clone(writer)
     assert len(writer._objects) == n + 1
-    assert obj2.indirect_reference == obj3.indirect_ref
+    assert obj2.indirect_reference == obj3.indirect_reference
     obj3 = obj2.indirect_reference.clone(writer)
     assert len(writer._objects) == n + 1
-    assert obj2.indirect_reference == obj3.indirect_ref
+    assert obj2.indirect_reference == obj3.indirect_reference
     assert obj2.indirect_reference == obj2._reference_clone(obj2, writer).indirect_reference
     assert len(writer._objects) == n + 1
     assert obj2.indirect_reference == obj3.indirect_reference

From 239ce02081de5882c3263fa32321770d2e5fecc5 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:52:05 +0100
Subject: [PATCH 085/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 9290413af..5adb1a00f 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2394,7 +2394,7 @@ def merge(
             elif dest["/Page"].indirect_reference.idnum in srcpages:
                 arr[NumberObject(0)] = srcpages[
                     dest["/Page"].indirect_reference.idnum
-                ].indirect_ref
+                ].indirect_reference
                 self.add_named_destination_array(dest["/Title"], arr)
             # except Exception as e:
             #    logger_warning(f"can not insert {dest} : {e.msg}",__name__)

From 7dd34e142b8fee18c14dc5951fe575bb38145ddf Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:53:06 +0100
Subject: [PATCH 086/101] Apply suggestions from code review

---
 PyPDF2/generic/_data_structures.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/generic/_data_structures.py b/PyPDF2/generic/_data_structures.py
index 0ec6acfd3..a60133532 100644
--- a/PyPDF2/generic/_data_structures.py
+++ b/PyPDF2/generic/_data_structures.py
@@ -216,7 +216,7 @@ def _clone(
                             )
                             objs.append((cur_obj, clon))
                             assert prev_obj is not None
-                            prev_obj[NameObject(k)] = clon.indirect_ref
+                            prev_obj[NameObject(k)] = clon.indirect_reference
                             prev_obj = clon
                             try:
                                 if cur_obj == src:

From 71dd89dec185098f0f2e6e8ee36cf8f09a550940 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:53:41 +0100
Subject: [PATCH 087/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 5adb1a00f..86ce1fc7b 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2405,7 +2405,7 @@ def merge(
                 "TreeObject",
                 self.add_outline_item(
                     TextStringObject(outline_item),
-                    list(srcpages.values())[0].indirect_ref,
+                    list(srcpages.values())[0].indirect_reference,
                     fit=cast("FitType", TypFitArguments.FIT),
                 ).get_object(),
             )

From 2dcfe27d438d7ddc7eb8a647ea259a0ee39a29ee Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:54:22 +0100
Subject: [PATCH 088/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 86ce1fc7b..6cd427b88 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2463,7 +2463,7 @@ def _add_articles_thread(
                         self._add_object(DictionaryObject()).get_object(),
                     )
                     new_first = new_article
-                    nthread[NameObject("/F")] = new_article.indirect_ref
+                    nthread[NameObject("/F")] = new_article.indirect_reference
                 else:
                     new_article2 = cast(
                         "DictionaryObject",

From f4b8d001e2334e9f5c355c73503a41a3f2837cc6 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:54:42 +0100
Subject: [PATCH 089/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 6cd427b88..261b83487 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2469,7 +2469,7 @@ def _add_articles_thread(
                         "DictionaryObject",
                         self._add_object(
                             DictionaryObject(
-                                {NameObject("/V"): new_article.indirect_ref}
+                                {NameObject("/V"): new_article.indirect_reference}
                             )
                         ).get_object(),
                     )

From 396ba116188839fac1a550cdd7a8670b37dfece4 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:55:45 +0100
Subject: [PATCH 090/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 261b83487..a92b0c08a 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2521,11 +2521,11 @@ def _get_cloned_page(
         if isinstance(page, NullObject):
             return None
         if isinstance(page, int):
-            _i = reader.pages[page].indirect_ref
+            _i = reader.pages[page].indirect_reference
         # elif isinstance(page, PageObject):
-        #    _i = page.indirect_ref
+        #    _i = page.indirect_reference
         elif isinstance(page, DictionaryObject) and page.get("/Type", "") == "/Page":
-            _i = page.indirect_ref
+            _i = page.indirect_reference
         elif isinstance(page, IndirectObject):
             _i = page
         try:

From 78c173126ad4d4e57169c853fc728e382ac0e8cd Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:57:23 +0100
Subject: [PATCH 091/101] Update PyPDF2/_writer.py

---
 PyPDF2/_writer.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index a92b0c08a..378e0f599 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2552,26 +2552,26 @@ def _insert_filtered_annotations(
                 or "/Dest" in ano
             ):
                 if "/Dest" not in ano:
-                    outlist.append(ano.clone(self).indirect_ref)
+                    outlist.append(ano.clone(self).indirect_reference)
                 else:
                     d = ano["/Dest"]
                     if isinstance(d, str):
                         # it is a named dest
                         if str(d) in self.get_named_dest_root():
-                            outlist.append(ano.clone(self).indirect_ref)
+                            outlist.append(ano.clone(self).indirect_reference)
                     else:
                         d = cast("ArrayObject", d)
                         p = self._get_cloned_page(d[0], pages, reader)
                         if p is not None:
                             anc = ano.clone(self, ignore_fields=("/Dest",))
                             anc[NameObject("/Dest")] = ArrayObject([p] + d[1:])
-                            outlist.append(anc.indirect_ref)
+                            outlist.append(anc.indirect_reference)
             else:
                 d = cast("DictionaryObject", ano["/A"])["/D"]
                 if isinstance(d, str):
                     # it is a named dest
                     if str(d) in self.get_named_dest_root():
-                        outlist.append(ano.clone(self).indirect_ref)
+                        outlist.append(ano.clone(self).indirect_reference)
                 else:
                     d = cast("ArrayObject", d)
                     p = self._get_cloned_page(d[0], pages, reader)

From 2896a4c5b97c1aae3446342f6a176858046f5a46 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sat, 10 Dec 2022 23:58:31 +0100
Subject: [PATCH 092/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 378e0f599..74822712d 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -2581,7 +2581,7 @@ def _insert_filtered_annotations(
                         cast("DictionaryObject", anc["/A"])[
                             NameObject("/D")
                         ] = ArrayObject([p] + d[1:])
-                        outlist.append(anc.indirect_ref)
+                        outlist.append(anc.indirect_reference)
         return outlist
 
     def _get_filtered_outline(

From 82c6f56b3d681b1ecf46a00e9cc4dafb5b0d3c4b Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sun, 11 Dec 2022 00:09:42 +0100
Subject: [PATCH 093/101] Update PyPDF2/_writer.py

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 74822712d..deae19b9e 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1565,7 +1565,7 @@ def add_named_destination_object(
 
         page_destination_ref = self._add_object(page_destination.dest_array)
         self.add_named_destination_array(
-            cast("TextStringObject", dest["/Title"]), page_destination_ref
+            cast("TextStringObject", page_destination["/Title"]), page_destination_ref
         )
 
         return page_destination_ref

From c5794034bf974650bccd88206dc88d1f29139f13 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sun, 11 Dec 2022 00:36:59 +0100
Subject: [PATCH 094/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index deae19b9e..70becc1f0 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1423,7 +1423,7 @@ def add_outline_item(
         page_ref: Union[None, NullObject, IndirectObject, NumberObject]
         if isinstance(italic, str):  # it means that we are on the old params
             return self.add_outline_item(
-                title, pagenum, parent, before, color, bold, italic, fit,
+                title, pagenum, parent, None, before, color, bold, italic, fit,
             )
         if page_number is not None and pagenum is not None:
             raise ValueError(

From 89761aa9154b04f636add89772279eb8670e4920 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sun, 11 Dec 2022 00:46:57 +0100
Subject: [PATCH 095/101] Update PyPDF2/_writer.py

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 70becc1f0..e12c69c2b 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1421,7 +1421,7 @@ def add_outline_item(
         :param Fit fit: The fit of the destination page.
         """
         page_ref: Union[None, NullObject, IndirectObject, NumberObject]
-        if isinstance(italic, str):  # it means that we are on the old params
+        if isinstance(italic, Fit):  # it means that we are on the old params
             return self.add_outline_item(
                 title, pagenum, parent, None, before, color, bold, italic, fit,
             )

From 25d6a7e426e4d80e1302cd7a7f76ade1233cd2d6 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sun, 11 Dec 2022 01:01:46 +0100
Subject: [PATCH 096/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 20 ++++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index e12c69c2b..df1833d72 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1423,27 +1423,27 @@ def add_outline_item(
         page_ref: Union[None, NullObject, IndirectObject, NumberObject]
         if isinstance(italic, Fit):  # it means that we are on the old params
             return self.add_outline_item(
-                title, pagenum, parent, None, before, color, bold, italic, fit,
+                title, page_number, parent, None, before, color, bold, italic, fit, pagenum
             )
         if page_number is not None and pagenum is not None:
             raise ValueError(
                 "The argument pagenum of add_outline_item is deprecated. Use page_number only."
             )
-        if pagenum is None:
+        if page_number is None:
             action_ref = None
         else:
-            if isinstance(pagenum, IndirectObject):
-                page_ref = pagenum
-            elif isinstance(pagenum, PageObject):
-                page_ref = pagenum.indirect_reference
-            elif isinstance(pagenum, int):
+            if isinstance(page_number, IndirectObject):
+                page_ref = page_number
+            elif isinstance(page_number, PageObject):
+                page_ref = page_number.indirect_reference
+            elif isinstance(page_number, int):
                 try:
-                    page_ref = self.pages[pagenum].indirect_reference
+                    page_ref = self.pages[page_number].indirect_reference
                 except IndexError:
-                    page_ref = NumberObject(pagenum)
+                    page_ref = NumberObject(page_number)
             if page_ref is None:
                 logger_warning(
-                    f"can not find reference of page {pagenum}",
+                    f"can not find reference of page {page_number}",
                     __name__,
                 )
                 page_ref = NullObject()

From bb5022a05518a5a67e6e72baf19e468739912ef3 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sun, 11 Dec 2022 01:03:59 +0100
Subject: [PATCH 097/101] Update PyPDF2/_writer.py

---
 PyPDF2/_writer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index df1833d72..f2fd6cf48 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1423,7 +1423,7 @@ def add_outline_item(
         page_ref: Union[None, NullObject, IndirectObject, NumberObject]
         if isinstance(italic, Fit):  # it means that we are on the old params
             return self.add_outline_item(
-                title, page_number, parent, None, before, color, bold, italic, fit, pagenum
+                title, page_number, parent, None, before, color, bold, italic, fit
             )
         if page_number is not None and pagenum is not None:
             raise ValueError(

From dfcef5be59cd3f8a5c55ce6b65290ef3463b465c Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sun, 11 Dec 2022 01:12:11 +0100
Subject: [PATCH 098/101] Update PyPDF2/_writer.py

---
 PyPDF2/_writer.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index f2fd6cf48..cc5f12cfa 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1422,8 +1422,10 @@ def add_outline_item(
         """
         page_ref: Union[None, NullObject, IndirectObject, NumberObject]
         if isinstance(italic, Fit):  # it means that we are on the old params
+            if fit is not None and page_number is None:
+                page_number = fit
             return self.add_outline_item(
-                title, page_number, parent, None, before, color, bold, italic, fit
+                title, page_number, parent, None, before, color, bold, italic
             )
         if page_number is not None and pagenum is not None:
             raise ValueError(

From a1dd2a966667b69b8e7ab21b8d0b28e230928ffc Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sun, 11 Dec 2022 07:48:32 +0100
Subject: [PATCH 099/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index cc5f12cfa..760392d37 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -57,6 +57,7 @@
 )
 
 from ._encryption import Encryption
+from .generic import PAGE_FIT
 from ._page import PageObject, _VirtualList
 from ._reader import PdfReader
 from ._security import _alg33, _alg34, _alg35
@@ -2408,7 +2409,7 @@ def merge(
                 self.add_outline_item(
                     TextStringObject(outline_item),
                     list(srcpages.values())[0].indirect_reference,
-                    fit=cast("FitType", TypFitArguments.FIT),
+                    fit=PAGE_FIT,
                 ).get_object(),
             )
         else:

From 222ef91441f8a51149fbb43324acf1f14a37de96 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sun, 11 Dec 2022 07:50:49 +0100
Subject: [PATCH 100/101] Update PyPDF2/_writer.py

---
 PyPDF2/_writer.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 760392d37..afabb5655 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -57,7 +57,6 @@
 )
 
 from ._encryption import Encryption
-from .generic import PAGE_FIT
 from ._page import PageObject, _VirtualList
 from ._reader import PdfReader
 from ._security import _alg33, _alg34, _alg35

From 5513fa1ffc2b16b0d01b73bd7aa6836d8b1678e6 Mon Sep 17 00:00:00 2001
From: Martin Thoma <info@martin-thoma.de>
Date: Sun, 11 Dec 2022 08:18:39 +0100
Subject: [PATCH 101/101] Apply suggestions from code review

---
 PyPDF2/_writer.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/PyPDF2/_writer.py b/PyPDF2/_writer.py
index 5642945f8..92b1d872e 100644
--- a/PyPDF2/_writer.py
+++ b/PyPDF2/_writer.py
@@ -1423,9 +1423,9 @@ def add_outline_item(
         page_ref: Union[None, NullObject, IndirectObject, NumberObject]
         if isinstance(italic, Fit):  # it means that we are on the old params
             if fit is not None and page_number is None:
-                page_number = fit
+                page_number = fit  # type: ignore
             return self.add_outline_item(
-                title, page_number, parent, None, before, color, bold, italic
+                title, page_number, parent, None, before, color, bold, italic  # type: ignore
             )
         if page_number is not None and pagenum is not None:
             raise ValueError(
@@ -1565,9 +1565,9 @@ def add_named_destination_object(
         if page_destination is None:  # deprecated
             raise ValueError("page_destination may not be None")
 
-        page_destination_ref = self._add_object(page_destination.dest_array)
+        page_destination_ref = self._add_object(page_destination.dest_array)  # type: ignore
         self.add_named_destination_array(
-            cast("TextStringObject", page_destination["/Title"]), page_destination_ref
+            cast("TextStringObject", page_destination["/Title"]), page_destination_ref  # type: ignore
         )
 
         return page_destination_ref