تبدیل نوشتار در یک نگاه

متن فایل‌های خود را قابل ویرایش، جستجو و به اشتراک‌گذاری کنید!

توسکا به شما کمک می‌کند تا مجبور نباشید در حالات گفته شده فایل مدنظرتان را مجدد تایپ کنید. کافی است تصویری با کیفیت مناسب را به محصول توسکا دهید. در بخش ارسال فایل ‌می‌توانید تست کنید.

ویژگی‌ها

  • تبدیل تصویر نوشتاری به متن
  • واسط کاربری تحت وب
  • کیفیت متوسط ۹۵٪ روی کتاب‌های فارسی
  • تشخیص مناسب بیش از صد قلم فارسی
  • تشخیص ارقام، علامات نگارشی، تنوین و حرکات
  • سادگی و کاربر پسند بودن
  • امکان اصلاح چرخش‌های موجود در صفحه
  • اصلاح برخی نویزهای صفحه
  • REST API جهت ارتباط با سامانه‌های دیگر شامل اتوماسیون و مدیریت اسناد
  • قبول فایل ورودی تصویر در قالب‌های JPG, PNG, TIFF, PDF, BMP
  • تبدیل به فایل خروجی متنی در قالب‌های TXT و DOCX
  • امکان افزودن کلمات جدید به بانک لغات

عدم وجود محدودیت سیستمی

تحت وب بودن سامانه توسکا باعث می‌شود برای کار با آن با هیچ‌گونه محدودیت سیستمی مانند نوع سیستم‌عامل، سرعت پردازنده و ... مواجه نباشید!

هوش یادگیرنده

هسته‌ی مرکزی توسکا با پردازش حجم انبوهی از نمونه‌های تصویری نحوه‌ی تشخیص حروف را یاد می‌گیرد. علاوه بر حجم داده بالای یادگرفته شده تاکنون، با یادگرفتن نمونه‌های سخت‌تر نوشته‌های فارسی دقت توسکا افزایش می‌یابد.

دقت خروجی

دقت هیچ محصول OCRی ۱۰۰٪ نیست! اما محصولات OCR حرفه‌ای دقت بالایی دارند. در صورت دادن فایل ورودی استاندارد به محصول OCR فارسی توسکا، فایل تبدیل به نوشتار شده، دقت بسیار بالایی خواهد داشت که از بسیاری محصولات OCR فارسی دیگر برتر است.

نمونه کارها

برخی نمونه کارهای ایجاد شده توسط سیستم ما



چالش‌های OCR زبان فارسی در مقابل زبان‌های لاتین

بازشناسی متن در زبان فارسی به علت پیچیدگی‌های نگارشی آن با مشکلات بیشتری نسبت به زبان‌های لاتین مواجه‌ است که همین امر باعث شده محصولات OCR فارسی نتوانند کیفیت مناسب را برآورده کنند. به عنوان نمونه، در زبان فارسی بین کاراکترها فاصله‌ای وجود ندارد و اکثر آنها از دوطرف به کاراکترهای دیگر متصل می‌شوند. همین امر باعث می شود هر کاراکتر چندین شکل نمایش داشته باشد. بدین معنی که کاراکتر عین در یک فونت خاص به چهار فرم «عـ»، «ـع»، «ـعـ» و «ع» در متن ظاهر می‌شود و همین تعداد در فونت‌های مختلف تعداد بیشتری خواهد داشت.

همچنین ترکیب بعضی حروف با هم کاراکتر جدیدی در برخی فونت‌ها به خود اختصاص می‌دهد، مانند «لا»، «کا». علاوه بر این مشکلات، اکثر کاراکتر‌ها فرق بسیار کمی با کاراکترهای دیگر دارند و تنها اختلافشان در تعداد نقطه یا سرکش است. برای نمونه: «ـپـ» «ـبـ» «ـیـ» «ـنـ» «ـتـ» «ـثـ». چنین تشابهاتی کار OCR روی زبان فارسی را پیچیده‌تر می‌کند.

تماس با ما

شما میتوانید از طریق فرم زیر با ما در ارتباط باشید

*
* * *
دایرکتوری