dask · rjzamora · Nov 16, 2022 · Nov 16, 2022 · Nov 17, 2022 · jrbourbeau
diff --git a/dask/dataframe/io/parquet/arrow.py b/dask/dataframe/io/parquet/arrow.py
@@ -335,9 +335,13 @@ def read_metadata(
         ignore_metadata_file=False,
         metadata_task_size=0,
         parquet_file_extension=None,
+        storage_options=None,
         **kwargs,
     ):
 
+        # Optimize open_file_func for remote filesystems
+        cls._update_open_file_func(fs, storage_options, kwargs)
+
         # Stage 1: Collect general dataset information
         dataset_info = cls._collect_dataset_info(
             paths,
@@ -762,6 +766,28 @@ def write_metadata(cls, parts, meta, fs, path, append=False, **kwargs):
     # Private Class Methods
     #
 
+    @classmethod
+    def _update_open_file_func(cls, fs, storage_options, kwargs):
+        """Update kwargs if we can use a native pyarrow filesystem
+
+        Currently supports ``s3fs`` -> ``pyarrow.fs.S3FileSystem``.
+        """
+        is_s3fs = type(fs).__module__.split(".")[0] == "s3fs"
+        if is_s3fs and not kwargs.get("open_file_options", {}):
+            pa_option_map = {"anon": "anonymous"}
+            try:
+                from pyarrow import fs as pa_fs
+
+                pa_options = {
+                    pa_option_map.get(k): v for k, v in storage_options.items()
+                }
+                _fs = pa_fs.S3FileSystem(**pa_options)
+                kwargs["open_file_options"] = {"open_file_func": _fs.open_input_file}
+            except KeyError:
+                # Could not map one or more ``storage_options``
+                # keys to ``S3FileSystem`` options
+                pass
+
     @classmethod
     def _collect_dataset_info(
         cls,

diff --git a/dask/dataframe/io/parquet/core.py b/dask/dataframe/io/parquet/core.py
@@ -483,6 +483,7 @@ def read_parquet(
         ignore_metadata_file=ignore_metadata_file,
         metadata_task_size=metadata_task_size,
         parquet_file_extension=parquet_file_extension,
+        storage_options=storage_options,
         **kwargs,
     )
 

diff --git a/dask/dataframe/io/parquet/fastparquet.py b/dask/dataframe/io/parquet/fastparquet.py
@@ -828,6 +828,7 @@ def read_metadata(
         ignore_metadata_file=False,
         metadata_task_size=None,
         parquet_file_extension=None,
+        storage_options=None,
         **kwargs,
     ):