История появления сервиса «Антиплагиат» берет свое начало в 2005 году, когда со слов представителей компании (рассказ идет от одного из представителей) к ним обратился ректор одного из крупных московских вузов с просьбой решить серьезную проблему - в учебном заведении был выявлен факт тотального списанных дипломов и курсовых работ. При проверке несколько сотен работ путем поиска в сети простыми запросами больше половины «отличников» оказались жуликами, которые скачали готовую работу из интернета и заменяли только титульную страницу. Эффективнее всего было искать работу по запросу фразой, содержащей орфографические ошибки. Стоит сказать, что зарубежные вузы к тому времени уже пользовались решениями по поиску заимствований, но работы на русском языке почему-то не проверял никто.
Иностранные компании не изъявили желания заходить на российский рынок и адаптировать свои решения под русский язык. В результате в марте 2005 года была запущена разработка первой отечественной системы поиска заимствований. Слово «Антиплагиат» было придумано чуть позже, а домен antiplagiat.ru был зарегистрирован в апреле 2005 года. Сайт стал обрабатывать документы 4 сентября 2005 года.
Первая версия системы поиска предполагала поиск не по 2-3 словам, а по целому тексту, который состоял из нескольких предложений. Поэтому было целесообразно использовать «Антиплагиат», если текст состоял из более 1000 знаков (примерно полстраницы).
Во время разработки сервиса был сделан прототип на php (web-часть) и Microsoft SQL Server (поисковый движок). Однако стало понятно, что это будет медленно работать уже на нескольких миллионах документов. В связи с чем, было принято решение сделать свой поисковый движок. В настоящее время функциональная часть системы написана на языках C# и python и использует базы данных PostgreSQL и MongoDB.
Слово «Антиплагиат», которое придумали разработчики сайта, в настоящее время является нарицательным. Часто в поисковике можно встретить такие выражения как «проверить на антиплагиат», «повысить антиплагиат». Все, кто так или иначе связан с областью поиска заимствований в России и ближнем зарубежье, пытаются использовать слово «антиплагиат» для поднятия в поисковой выдаче. «Антиплагиат» — один, это торговая марка и название компании.
В самом начале реализации сервиса поиска заимствований было принято решение, что работа с текстом будет осуществляться с последовательностью символов. Сразу были отвергнуты различные семантические построения из текстов, поиск смыслов, разбор предложений и т.д. Выбранное решение со слов разработчиков дает два преимущества — высокую скорость поиска и относительно небольшой объем поисковых индексов.
К настоящему моменту есть три продукта в линейке компании «Антиплагиат». Они отличаются функциональностью, но содержат в своей основе один и тот же принцип работы поиска заимствований. Схема поиска заимствований следующая: поступает документ от пользователя, затем извлекается текст, далее происходит поиск заимствований в тексте и получаются «ревизии» (отчет по одному модулю поиска). Последний этап – сбор ревизий в одном большом отчете, который и показывается пользователю.