Как перенести данные из отсканированного файла в Excel: от PDF до редактируемых таблиц

Почему обычное копирование из PDF в Excel не работает?

Вы отсканировали документ с таблицей, сохранили его в формате PDF или JPG, но при попытке вставить данные в Microsoft Excel получаете бессмысленный набор символов? Проблема в том, что отсканированные файлы — это просто картинки для компьютера, даже если визуально вы видите текст. Чтобы преобразовать их в редактируемые данные, требуется технология оптического распознавания символов (OCR).

Без OCR Excel воспринимает ваш скан как изображение и либо вставляет его как графический объект, либо игнорирует вовсе. Современные версии Excel (начиная с 2019 и Microsoft 365) имеют встроенные инструменты для распознавания, но они работают не идеально — особенно с многостраничными PDF или низкокачественными сканами. В этой статье разберём все актуальные способы конвертации, от бесплатных онлайн-сервисов до профессиональных программ.

Способ 1: Встроенные инструменты Excel (для PDF)

Если ваш отсканированный документ сохранён в формате PDF, а не в виде изображения (JPG/PNG), можно обойтись без сторонних программ. В Excel 2019/2021/365 есть функция импорта PDF с автоматическим распознаванием таблиц. Вот как ей пользоваться:

  1. Откройте Excel и создайте новую книгу.
  2. Перейдите на вкладку ДанныеПолучить данныеИз файлаИз PDF.
  3. Выберите ваш файл и дождитесь предварительного просмотра. Excel покажет все найденные таблицы.
  4. Отметьте галочками нужные таблицы и нажмите Загрузить.

⚠️ Внимание: Этот метод работает только с текстовыми PDF (где текст выделяется при открытии в Adobe Acrobat). Если ваш PDF создан из скана без OCR, Excel не сможет извлечь данные — потребуется предварительная обработка (см. Способ 3).

Проверьте, выделяется ли текст в PDF при открытии в Adobe Reader

Убедитесь, что файл не защищён паролем

Разбейте многостраничный PDF на отдельные файлы, если Excel не видит таблицы

Поверните страницы правильно (альбомная/книжная ориентация)-->

Способ 2: Онлайн-сервисы с OCR (для JPG/PNG/PDF)

Если у вас скриншот таблицы, фотография документа или "картинка вместо текста" в PDF, понадобятся сервисы с поддержкой OCR. Лучшие бесплатные варианты:

  • 🔹 OnlineOCR.net — поддерживает 46 языков, включая русский, и сохраняет форматирование таблиц. Ограничение: до 15 файлов в час.
  • 🔹 New OCR — распознаёт даже рукописный текст, но качество зависит от почерка. Подходит для заполненных бланков.
  • 🔹 Smallpdf — специализируется на конвертации PDF в Excel, но OCR доступен только в платной версии.

Как пользоваться OnlineOCR.net:

  1. Загрузите файл (JPG, PNG, PDF, TIFF) или сделайте фото с веб-камеры.
  2. Выберите язык документа (например, Русский + Английский).
  3. Укажите формат вывода — Excel (.xlsx).
  4. Введите капчу и нажмите Convert.

JPG/PNG (фото скана)

PDF (отсканированный документ)

Другой формат-->

⚠️ Внимание: Онлайн-сервисы отправляют ваши данные на удаленные серверы. Не загружайте документы с конфиденциальной информацией (паспортные данные, медицинские справки, финансовые отчёты) — используйте офлайн-программы (см. Способ 4).

Способ 3: Предварительная обработка PDF в Adobe Acrobat

Если ваш PDF создан из скана без распознавания текста, его нужно сначала преобразовать в редактируемый формат. Для этого подойдёт Adobe Acrobat Pro (платная программа) или бесплатная альтернатива PDF-XChange Editor.

Инструкция для Adobe Acrobat Pro:

  1. Откройте PDF в Adobe Acrobat (не путайте с Adobe Reader!).
  2. В правой панели выберите Распознать текстВ этом файле.
  3. Укажите язык документа (например, Русский) и нажмите OK.
  4. После обработки сохраните файл как PDF с текстовым слоем.
  5. Теперь его можно импортировать в Excel (см. Способ 1).
Чем отличается Adobe Acrobat от Adobe Reader?

Adobe Reader (бесплатный) позволяет только просматривать и печатать PDF, тогда как Adobe Acrobat Pro (платный) умеет редактировать текст, распознавать сканы (OCR), добавлять электронные подписи и экспортировать данные в другие форматы, включая Excel.

💡 Полезный совет: Если у вас нет Adobe Acrobat, используйте бесплатный PDF-XChange Editor. В нём функция OCR называется OCR → Распознать текст на странице. После распознавания экспортируйте таблицу в CSV и откройте в Excel.

Способ 4: Офлайн-программы для распознавания (OCR)

Для работы с конфиденциальными документами или при отсутствии интернета используйте офлайн-программы. Лучшие варианты:

Программа Поддержка русского Экспорт в Excel Цена
ABBYY FineReader ✅ (лучшее качество) ✅ (сохраняет форматирование таблиц) От 5 000 ₽
Readiris ✅ (но иногда разбивает таблицы) От 3 000 ₽
Tesseract OCR ✅ (требует ручной настройки) ❌ (экспортирует в TXT/CSV) Бесплатно

Как пользоваться ABBYY FineReader:

  1. Откройте программу и загрузите скан (JPG, PDF, TIFF).
  2. Выберите режим Таблица в панели инструментов.
  3. Обведите таблицу рамкой (если программа не распознала её автоматически).
  4. Нажмите Распознать и дождитесь обработки.
  5. Сохраните результат как Excel (.xlsx).

⚠️ Внимание: Tesseract OCR — мощный инструмент с открытым кодом, но требует навыков работы с командной строкой. Для простых задач проще использовать FineReader или Readiris, где всё делается в графическом интерфейсе.

Способ 5: Google Таблицы + Расширения

Если вы пользуетесь Google Диском, можно распознать скан прямо в браузере:

  1. Загрузите отсканированный файл (JPG/PNG/PDF) в Google Диск.
  2. Щёлкните по файлу правой кнопкой → Открыть с помощьюGoogle Таблицы.
  3. Google автоматически распознает текст и предложит импортировать данные.
  4. Скопируйте таблицу и вставьте в Excel или экспортируйте как .xlsx.

Для улучшения результатов установите расширение OCR for Google Drive:

  • 🔹 Перейдите в Google Workspace Marketplace.
  • 🔹 Найдите расширение OCR for Google Drive и установите его.
  • 🔹 Теперь при открытии скана в Google Диске появится кнопка Распознать текст.

Типичные ошибки и как их избежать

Даже с OCR результат может быть далёк от идеала. Вот самые частые проблемы и их решения:

  • 📛 Слипшиеся символы: Например, "12345" распознаётся как "123 45". Решение: Используйте функцию НАЙТИ И ЗАМЕНИТЬ (Ctrl+H) в Excel для очистки данных.
  • 📛 Неверное форматирование чисел: Даты или суммы становятся текстом. Решение: Примените формат ячеек Числовой или Дата после импорта.
  • 📛 Разбитые таблицы: Столбцы смещаются из-за неровного скана. Решение: Вручную выровняйте границы таблицы в программе OCR перед экспортом.

💡 Полезный лайфхак: Если таблица большая и OCR допустил много ошибок, экспортируйте данные в CSV, а затем используйте Power Query в Excel для очистки. Инструмент находится на вкладке ДанныеПолучить данныеИз файлаИз текстового/CSV.

— Страница лежит ровно (без перекосов)

— Освещение равномерное (нет теней)

— Разрешение скана не менее 300 dpi

Это сократит количество ошибок OCR на 70%!-->

FAQ: Частые вопросы по конвертации сканов в Excel

Можно ли распознать рукописный текст в Excel?

Да, но качество зависит от почерка. Лучше всего с этой задачей справляются ABBYY FineReader (режим "Рукописный ввод") и онлайн-сервис New OCR. Для медицинских рецептов или бланков рекомендуется предварительно распечатать текст печатными буквами.

Почему Excel не видит таблицу в PDF?

Вероятные причины:

  1. PDF создан как изображение (без текстового слоя). Решение: используйте OCR (см. Способ 3).
  2. Таблица слишком сложная (объединённые ячейки, вложенные строки). Решение: разбивайте её на части вручную.
  3. Версия Excel устарела (до 2019 года). Решение: обновите программу или используйте Google Таблицы.
Как конвертировать скан в Excel на телефоне?

Установите приложения:

  • 📱 Adobe Scan (Android/iOS) — сканирует и распознаёт текст с фото.
  • 📱 Microsoft Lens — сохраняет таблицы в Excel прямо с камеры.
  • 📱 CamScanner — экспортирует в CSV/XLSX после распознавания.

Для iPhone также подойдёт встроенная функция Текст на живых фотографиях (iOS 15+): сфотографируйте таблицу, нажмите на текст и скопируйте его в Excel для iPad/iPhone.

Скан распознал, но в Excel вместо чисел знаки "#". Что делать?

Это означает, что ширина столбца в Excel слишком мала. Решения:

  1. Дважды щёлкните по правой границе заголовка столбца — ширина подстроится автоматически.
  2. Если не помогло, выделите столбец → ГлавнаяФорматАвтоподбор ширины столбца.
  3. Для больших чисел примените формат Текстовый перед вставкой.
Можно ли автоматизировать конвертацию сотен сканов в Excel?

Да, для пакетной обработки используйте:

  • 🖥️ ABBYY FineReader (режим "Пакетное распознавание").
  • 🖥️ Python + библиотека pytesseract (для программистов). Пример скрипта:
import pytesseract

from PIL import Image

import pandas as pd

Распознаём текст с изображения

text = pytesseract.image_to_string(Image.open('scan.jpg'), lang='rus')

Сохраняем в CSV (далее откройте в Excel)

pd.DataFrame([x.split() for x in text.split('\n')]).to_csv('output.csv')

Для новичков проще воспользоваться FineReader — он поддерживает обработку целых папок с файлами.