🐛 Fix fallback match being created when lazystr failed decoding #154

Ousret · 2021-12-23T07:14:04Z

Close #153
Thanks to the detailed report in #153 I am able to fix a rare edge case.

codecov-commenter · 2021-12-23T07:14:13Z

Codecov Report

Merging #154 (4334a8a) into master (12a10a6) will decrease coverage by 0.06%.
The diff coverage is 90.00%.

@@            Coverage Diff             @@
##           master     #154      +/-   ##
==========================================
- Coverage   89.51%   89.44%   -0.07%     
==========================================
  Files          11       11              
  Lines        1192     1194       +2     
==========================================
+ Hits         1067     1068       +1     
- Misses        125      126       +1

Impacted Files	Coverage Δ
charset_normalizer/api.py	`87.15% <90.00%> (-0.35%)`	⬇️

Continue to review full report at Codecov.

Legend - Click here to learn more
Δ = absolute <relative> (impact), ø = not affected, ? = missing data
Powered by Codecov. Last update 12a10a6...4334a8a. Read the comment docs.

…llback if chunks passes MD)

JensTimmerman · 2021-12-28T19:32:42Z

any Idea when this fix will be released? I think I am also hitting this issue.

Traceback (most recent call last):
  File "normalize.py", line 72, in <module>
    normalizefiles(filelist)
  File "normalize.py", line 46, in normalizefiles
    origlines = set(str(from_path(orig).best()).split('\n'))
  File "/usr/local/lib/python3.6/site-packages/charset_normalizer/api.py", line 518, in from_path
    explain,
  File "/usr/local/lib/python3.6/site-packages/charset_normalizer/api.py", line 491, in from_fp
    explain,
  File "/usr/local/lib/python3.6/site-packages/charset_normalizer/api.py", line 452, in from_bytes
    and fallback_u8.fingerprint != fallback_ascii.fingerprint
  File "/usr/local/lib/python3.6/site-packages/charset_normalizer/models.py", line 274, in fingerprint
    return sha256(self.output()).hexdigest()
  File "/usr/local/lib/python3.6/site-packages/charset_normalizer/models.py", line 265, in output
    self._output_payload = str(self).encode(encoding, "replace")
  File "/usr/local/lib/python3.6/site-packages/charset_normalizer/models.py", line 114, in __str__
    self._string = str(self._payload, self._encoding, "strict")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1 in position 6185428: ordinal not in range(128)

🐛 Fix fallback match being created when lazystr failed decoding

07cbbd6

Ousret added bug Something isn't working detection Related to the charset detection mechanism, chaos/mess/coherence labels Dec 23, 2021

Ousret added 4 commits December 23, 2021 08:14

🎨 reformat api.py

0311033

📝 Add CHANGELOG entry

258da8b

🐛 Checking with worst case scenario on large input (prevent create fa…

c988bfd

…llback if chunks passes MD)

🎨 reformat api.py

4334a8a

Ousret merged commit 0fe3d54 into master Dec 23, 2021

Ousret deleted the bugfix-fallback-unchecked branch December 23, 2021 07:34

Ousret mentioned this pull request Jan 4, 2022

🔖 bump version 2.0.10 #159

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

🐛 Fix fallback match being created when lazystr failed decoding #154

🐛 Fix fallback match being created when lazystr failed decoding #154

Ousret commented Dec 23, 2021 •

edited

codecov-commenter commented Dec 23, 2021 •

edited

JensTimmerman commented Dec 28, 2021

🐛 Fix fallback match being created when lazystr failed decoding #154

🐛 Fix fallback match being created when lazystr failed decoding #154

Conversation

Ousret commented Dec 23, 2021 • edited

codecov-commenter commented Dec 23, 2021 • edited

Codecov Report

JensTimmerman commented Dec 28, 2021

Ousret commented Dec 23, 2021 •

edited

codecov-commenter commented Dec 23, 2021 •

edited