- Дипломы
- Курсовые
- Рефераты
- Отчеты по практике
- Диссертации
Машинное обучение без учителя.
Внимание: Акция! Курсовая работа, Реферат или Отчет по практике за 10 рублей!
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.
Код работы: | K016037 |
Тема: | Машинное обучение без учителя. |
Содержание
МИНИСТЕРСТВО ОБРАЗОВАНИЯ МОСКОВСКОЙ ОБЛАСТИ Государственное образовательное учреждение высшего образования Московской области МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ОБЛАСТНОЙ УНИВЕРСИТЕТ (МГОУ) Факультет лингвистический Кафедра теоретической и прикладной лингвистики Курсовая работа по дисциплине «Информационные технологии» на тему: «Машинное обучение без учителя» Работу выполнил(а) студент(ка) … курса лингвистического факультета группы №……. Баландина Нина Вячеславовна Научный руководитель: ………………………….. Москва 2018 Содержание Введение 3 Глава 1. Машинное обучение как область знаний искусственного интеллекта 5 1.1 Машинное обучение и его виды 5 1.2 Задачи машинного обучения без учителя и их типология 9 Выводы по главе 11 Глава 2. Практическая часть 12 2.1 Использование машинного обучения без учителя 12 2.2 Сравнение лингвистических проектов, где применяется машинное обучение без учителя 14 Выводы по главе 20 Заключение 21 Список использованной литературы 23 Введение Актуальность.РостпроизводительностисовременныхПКипортативныхустройств,такихкаксмартфоны,даетвозможностьиспользоватьметодымашинногообучениядлярешенияпрактическилюбойзадачисцельюулучшениякачестваполучаемыхрезультатов(например,точность,скоростьиперсонализация). Машинноеобучениескаждымднемзанимаетвсёбольшееместовнашейжизниввидуогромногоспектраегоприменений.Начинаяотанализапробокизаканчиваясамоуправляемымиавтомобилями,всёбольшезадачперекладываетсянасамообучаемыемашины. Насегодняшнийденьсуществует3типаалгоритмовмашинногообучения: -Обучениесучителем(supervisedlearning); -Обучениебезучителя(unsupervisedlearning); -Обучениесподкреплением(reinforcementlearning). Машинноеобучениепредставляетизсебякомпьютерныепрограммы,которыеоптимизируютсебя,спомощьюобразцовданныхилипрошлогоопыта.Унасестьмодели,имеющиенекоторыепараметры,иобучениепредставляетизсебявыполнениепрограммыдляоптимизациипараметровмоделисиспользованиемучебныхданныхилипрошлогоопыта.Модельможетбытьпредсказательной,тоестьделающейпрогнозынабудущее,илиописательной,тоестьизвлекающейзнанияизданных,аможетвключатьитоидругое. Машинноеобучениеиспользуетстатистикудляпостроенияматематическихмоделей,потомучтоосновнойзадачейявляетсяполучениевыводанаосновенекоторогообразца. Цельработы–изучитьпроцессмашинногообучениябезучителя. Задачи: -рассмотретьмашинноеобучениеиеговиды; -изучитьзадачимашинногообучениябезучителяиихтипологию; -проанализироватьвозможностииспользованиямашинногообучениябезучителя; -привестисравнениелингвистическихпроектов,гдеприменяетсямашинноеобучениебезучителя. Объектработы–машинноеобучениебезучителя. Теоретические основы данного исследования представлены трудами Вьюгина В. В., Маркина С. Д., Попова А. А, ФлахаП, Эриксона Г и др. Методыисследования:изучениеианализнаучнойлитературы,статистическийисравнительныйметоды. Предмет–особенности,возможностиипреимуществамашинногообучениябезучителя. Поструктуреработасостоитизвведения,основнойчасти,заключения,спискаиспользованнойлитературы. Глава1.Машинноеобучениекакобластьзнанийискусственногоинтеллекта 1.1Машинноеобучениеиеговиды Ещёбуквальнонескольколетназадниктобыинеподумал,чтомашинноеобучениестанетнастольконеотъемлемойчастьюнашейжизни,чтомыдажеперестанемосознаватьфактыегоиспользования.Нидлякогонесекрет,чтоэтотпродуктпрогрессаспособензаменить(непомочьвработе,аименнозаменить)сотнитысячидажемиллионыработниковсамыхразнообразныхотраслейповсемумиру. Можновыделитьнесколькоотраслей,вкоторыеданнаятехнологиявближайшембудущемпривнесётнаибольшиеизменения: 1.Здравоохранение.Значительнаячастьврачебнойдеятельностизаключаетсявраспознаванииобразов,например:распознаваниеструктурымазковкрови(кровьимеетопределённыйсоставизадачасостоитввыявленииотклоненийотнормы),рентгенов(обнаружениепереломов,трещин,смещений,опухолейипр.),анализультразвуковыхисследований,фрагментированиеМРТит.д.Крометого,внедалёкомбудущемприсбореопределённогородаинформацииопациентах,станетдоступнонекотороепрогнозирование1. 2.Транспорт.Сфералогистикитакжестремительноразвиваетсяиготовакинновациям,аименнокбеспилотнымтранспортнымсредствам(вЯпониикомпаниямиIsuzuMotorsиHinoMotorsужепроведенытестированиябеспилотныхгрузовыхавтомобилей).Самообучениетакихтранспортныхсредствсведёткминимумувероятностьвозникновенияаварийныхситуаций2. 3.Банки.Применениеалгоритмовмашинногообучениясиспользованиемоблачныхтехнологийдляцентрализованногохраненияинформацииоклиентахпозволяетбезпривлеченияаналитиковинакачественноновомуровнерешатьследующиезадачи:сегментацияклиентов,обнаружениемошенничества,кредитныйскоринг(оценкакредитоспособностиклиента),индивидуальныепредложениядляклиентов,прогнозированиеуходаклиентовипривлечениеновыхклиентов3.Теперь,выделивосновныесферыприменениятехнологиймашинногообучениянатекущемэтапеихразвития,стоит,всё-таки,разъяснитьобщиепонятияипривестинекоторуюклассификациюсистеммашинногообучения. Машинноеобучениевобщемсмысле–этокомплексстатистическихметодовдлявыявлениянекоторыхзакономерностейвданныхисозданиянаихосновенужныхпрогнозов4. Классифицироватьсистемымашинногообученияможнопоследующимпризнакам: 1) Поцелевойнаправленности: 1.классификация–задачасистемызаключаетсявраспределениипараметровпонекоторымкатегориям; 2.регрессия–конечнойцельюработысистемыявляетсяполучениенекоторогопрогнозногозначения; 3.выявлениеаномалий–задачасистемызаключаетсявидентификацииточекданных,выделяющихсячем-либоизмножествадругих. 2)Поспособуобучения: 1.контролируемое–осуществлениепрогнозированиянаосновенаборапримеров(иначеговоря,системеданывопросыиправильныенанихответы); 2.неконтролируемоеобучение–присущесистемам,цельалгоритмакоторыхзаключаетсявупорядочиванииданныхилиописанииихструктуры(системепредоставленыданные,исходяизкоторых,выделяютсянекоторыепризнакиизакономерности); 3.обучениесподкреплением–цельсистемы–ставитьэксперименты,получатьрезультатыинаихоснованииобучаться. Алгоритмвпроцессесвоегообученияменяетстратегиюдлядостижениялучшегорезультата.Такойалгоритмявляетсянаиболееавтономнымидостигаетлучшихрезультатовввыполнениипоставленнойзадачи.Однако,такимсистемамсвойственнапроблемапереобучения(обэтомдалее)5. 3)Поархитектуре:нейронныесети,автоэнкодеры,свёрточныенейронныесети,развёртывающиенейронныесети,рекуррентныенейронныесетиимногиедругие.Приведенныеархитектурысистеммашинногообученияимеютразличнуюсложность,различноечислоихарактервходныхпараметров,требуютразличныхвычислительныхмощностей.Длякаждойконкретнойзадачинеобходимовыбратьподходящуюархитектуру. Миллиардылюдейповсемумируежедневноиспользуютпоисковыесистемыдляполученияответовнасвоивопросы.Однакомалоктознаетотом,чтовсоставекаждойпоисковойсистемыприсутствуетсистемамашинногообучения. Каждыйраз,когдапользовательвводитпоисковыйзапросвбраузере,сервисамисоответствующейпоисковойсистемыосуществляетсявыборкаобъектов,удовлетворяющихусловиямпоиска.Количествоотобранныхтакимобразомобъектовисчисляетсямиллионами.Следующийэтапотборазаключаетсявотсеиванииобъектов,которыеменеевсегоотвечаютусловиюпоиска.Дляэтогонеобходимооценитьстепеньсоответствияобъектовусловиюпоиска.Этастепеньсоответствиявычисляетсяспомощьюподсчётавесовкаждогопараметрапоиска,присущегокаждомуобъекту.Позавершениюэтогопроцесса,оставшиесяобъектысортируютсяпоубываниюстепенисоответствияэтихобъектовпараметрампоисковогозапроса.Такимобразом,пользователюпредоставляетсяответнапоисковыйзапрос. Нокакимобразомпроисходитоценкастепенисоответствияобъектовпараметрампоисковогозапроса?Неужеликаждомуобъектунеобходимовручнуюсопоставитьвсевозможныекомбинациииформулировкипараметровпоисковыхзапросов?Даннаязадачаявляетсянепосильной,еслиеёнеавтоматизировать,асделатьэтоможно,подключивнейроннуюсетьилисистемуглубокогообучения.Так,вначалевручнуюнеобходимоопределитьотносительнонебольшуюдолюсоответствийобъектовипараметровихклассифицирующих,атакжевесовэтихсоответствий,азатемдополнятьэтиданные,выделяянекоторыекритерииизповеденияпользователей,осуществляющихпоиск.Еслипользовательнашёлискомыйобъектпервым(иливчислепервых)всписке,предоставленномсистемой,тоцельпоисковойсистемыдостигнутаипроисходитсоответствующаяпереоценкавесовсоответствия.Впротивномслучае,основываясьнаповедениипользователя,системаустанавливаетновыесоответствия(иназначаетимвеса)либоменяетвесасуществующихсоответствий6. Такимобразом,помереобработкипоисковыхзапросовпользователей,система«обучается»иначинаетвыдаватьвсёболееблизкиектребуемымпользователямрезультаты.Занимательныйфактвработетакихпоисковыхсистемсостоитвтом,чтодажесоздавшиеихпрограммистынемогутоднозначносказать,какойответвыдастпоисковаясистемананекоторыйзапроспользователя. Насегодняшнийденьисследованиемиразвитиемсферымашинногообучениязанимаютсятакиекрупныекомпании,как:Microsoft,Google,IBM,Intel,Facebook,Cisco,Amazon,Apple,Samsung. 1.2Задачимашинногообучениябезучителяиихтипология Итак,задачисмашиннымобучениемделятсянадватина-обучениесучителемибезучителя.Вслучаеобучениясучителемдоступнацелеваяпеременнаявобучающейвыборке,втовремякакобучениебезучителяпроводитсябезидентифицированнойцелевойпеременной. Приобучениибезучителядоступнытольковходныепризнаки,асвязаннаяснимицелеваяпеременнаяотсутствует.Какойанализможновыполнитьвподобномслучае?Существуют дна основных подхода к обучениюбезучителя: -Кластеризация(clustering).Входныепризнакииспользуютсядляобнаружениявданныхсходныхчертипоследующегоразделенияэтихданныхнагруппы.Сюдаотносятсяметодk-средних,моделигауссовыхсмесейииерархическаякластеризация. -Сокращениеразмерности(dimensionalityreduction).Входныепризнакипреобразуютсявнебольшоеколичествокоординатссохранениемсуществующейинформацииобобъектах.Вэтугруппупопадают:методглавныхкомпонент,многомерноешкалирование,моделированиемногообразий. Каккластеризация,такисокращениеразмерностикрайнепопулярны(особеннометодk-среднихиметодглавныхкомпонент),поэтомузачастуюимизлоупотребляютииспользуютдажевслучаях,когдацелесообразнеевоспользоватьсяобучениемсучителем. Впрочем,методыобучениябезучителяиграютзначительнуюроль,частоприменяяськаквспомогательныеприобучениисучителемдлякомпиляцииобучающейвыборкиилидляизвлеченияновыхпризнаков7. Экспериментальнаясхемаобучениябезучителячастоиспользуетсявтеориираспознаванияобразов,машинномобучении.Приэтомвзависимостиотподходаформализуетсявтуилиинуюматематическуюконцепцию.Итольковтеорииискусственныхнейронныхсетейзадачарешаетсяэкспериментально,применяятотилиинойвиднейросетей.Приэтом,какправило,полученнаямодельможетнеиметьинтерпретации,чтоиногдаотносяткминусамнейросетей.Нотемнеменее,результатыполучаютсяничемнехуже,иприжеланиимогутбытьинтерпретированыприпримененииспециальныхметодов. Экспериментобучениябезучителяприрешениизадачираспознаванияобразовможносформулироватькакзадачукластерногоанализа.Выборкаобъектовразбиваетсянанепересекающиесяподмножества,называемыекластерами,так,чтобыкаждыйкластерсостоялизсхожихобъектов,аобъектыразныхкластеровсущественноотличались.Исходнаяинформацияпредставляетсяввидематрицырасстояний. Кластеризацияможетигратьвспомогательнуюрольприрешениизадачклассификацииирегрессии.Дляэтогонужносначаларазбитьвыборкунакластеры,затемккаждомукластеруприменитькакой-нибудьсовсемпростойметод,например,приблизитьцелевуюзависимостьконстантой. Такжекакивслучаеэкспериментовпоразличению,чтоматематическиможетбытьсформулированнокаккластеризация,приобобщениипонятийможноисследоватьспонтанноеобобщение,прикоторомкритерииподобияневводятсяизвнеилиненавязываютсяэкспериментатором.Приэтомвэкспериментепо«чистомуобобщению»отмоделимозгаилиперцептронатребуетсяперейтиотизбирательнойреакциинаодинстимул(допустим,квадрат,находящийсявлевойчастисетчатки)кподобномуемустимулу,которыйнеактивизируетниодногоизтехжесенсорныхокончаний(квадратвправойчастисетчатки).Кобобщениюболееслабоговидаотносится,например,требование,чтобыреакциисистемыраспространялисьнаэлементыклассаподобныхстимулов,которыенеобязательноотделеныотужепоказанногоранее(илиуслышанного,иливоспринятогонаощупь)стимула. Примерызадачмашинногообучениябезучителя8: 1)Определениетемвнаборепостов.Еслиимеетсяколлекциятекстовыхданных,томожноагрегироватьихинайтираспространенныетемы.Нетпредварительнойинформацииотом,какиетемытамзатрагиваютсяисколькоих.Такимобразом,нетникакихизвестныхответов. 2)Сегментированиеклиентовнагруппыспохожимипредпочтениями. Имеянаборзаписейоклиентах,можноопределитьгруппыклиентовсосхожимипредпочтениями.Дляторговогосайтатакимигруппамимогутбыть«родители»,«книгочеи»или«геймеры».Посколькузаранеенеизвестноосуществованииэтихгруппиихколичестве,ответыотсутствуют 3)Обнаружениепаттернованомальногоповедениянавеб-сайте.Чтобывыявитьзлоупотребленияилиошибки,частобываетполезнонайтипаттерныповедения,которыеотличаютсяотнормы.Паттерныаномальногоповедениямогутбытьразными.Посколькувданномпримеренаблюдаетсялишьтрафик,неизвестно,чтопредставляетсобойнормальноеиненормальноеповедение,речьидетозадачеобучениябезучителя. Выводыпоглаве Методымашинногообученияделятсянаобучениесучителемибезучителя.Дляобучениясучителемтребуетсяобучающаявыборкасизвестнойцелевойпеременной,втовремякакметодыобучениябезучителяобходятсябезнее. Экспериментальнаясхемаобучениябезучителячастоиспользуетсявтеориираспознаванияобразов,машинномобучении.Приэтомвзависимостиотподходаформализуетсявтуилиинуюматематическуюконцепцию. Насегодняшнийденьисследованиемиразвитиемсферымашинногообучениязанимаютсятакиекрупныекомпании,как:Microsoft,Google,IBM,Intel,Facebook,Cisco,Amazon,Apple,Samsung. Глава2.Практическаячасть 2.1Использованиемашинногообучениябезучителя Вслучаеиспользованиямашинногообучениябезучителя,уалгоритмавпроцессеобучениянетзаранееустановленныхответов.Егоцель—найтисмысловыесвязимеждуотдельнымиданными,выявитьшаблоныизакономерности.Например,кластеризация—этоиспользованиенеконтролируемогообученияврекомендательныхсистемах(например,люди,которымпонравиласьэтабутылкавина,такжеположительнооцениливотэту). Описательноеприменениеотноситсякзаписиианализустатистическихданныхдлярасширениявозможностейбизнес-аналитики.Руководителиполучаютописаниеимаксимальноинформативныйанализрезультатовипоследствийпрошлыхдействийирешений.Этотпроцессвнастоящеевремяобычендлябольшинствакрупныхкомпанийповсемумиру—например,анализпродажирекламныхпроектовдляопределенияихрезультатовирентабельности. Второеприменениемашинногообучения—прогнозирование.Сборданныхиихиспользованиедляпрогнозированияконкретногорезультатапозволяетповыситьскоростьреакцииибыстрееприниматьверныерешения.Например,прогнозированиеоттокаклиентовможетпомочьегопредотвратить.Сегодняэтотпроцессприменяетсявбольшинствекрупныхкомпаний. Третьеинаиболеепродвинутоеприменениемашинногообучениявнедряетсяужесуществующимикомпаниямиисовершенствуетсяусилияминедавносозданных.Простогопрогнозированиярезультатовилиповеденияуженедостаточнодляэффективноговедениябизнеса.Пониманиепричин,мотивовиокружающейситуации—вотнеобходимоеусловиедляпринятияоптимальногорешения.Этотметоднаиболееэффективен,есличеловекимашинаобъединяютусилия.Машинноеобучениеиспользуетсядляпоисказначимыхзависимостейипрогнозированиярезультатов,аспециалистыподанныминтерпретируютрезультат,чтобыпонять,почемутакаясвязьсуществует.Врезультатестановитсявозможнымприниматьболееточныеиверныерешения9. Вотнесколькопримеровзадач,которыерешаетмашинноеобучение. 1)Логистикаипроизводство * ВRethinkRoboticsиспользуютмашинноеобучениедляобученияманипуляторовиувеличенияскоростипроизводства; * ВJaybridgeRoboticsавтоматизируютпромышленныетранспортныесредствапромышленногоклассадляболееэффективнойработы; * ВNanotronicsавтоматизируютоптическиемикроскопыдляулучшениярезультатовосмотра; * NetflixиAmazonоптимизируютраспределениересурсоввсоответствииспотребностямипользователей; * Другиепримеры:прогнозированиепотребностейERP/ERM;прогнозированиесбоевиулучшениетехобслуживания,улучшениеконтролякачестваиувеличениемощностипроизводственнойлинии. 2)Продажиимаркетинг * 6senseпрогнозирует,какойлидивкакоевремянаиболеесклоненкпокупке; * SalesforceEinsteinпомогаетпредвидетьвозможностидляпродажиавтоматизироватьзадачи; * FusemachinesавтоматизируетпланыпродажспомощьюAI; * AirPRпредлагаетпутиповышенияэффективностиPR; * RetentionScienceпредлагаеткросс-канальноевовлечение; * Другиепримеры:прогнозированиестоимостижизненногоциклаклиента,повышениеточностисегментацииклиентов,выявлениеклиентскихмоделейпокупок,иоптимизацияопытапользователявприложениях. 3)Кадры * Enteloпомогаетрекрутерамнаходитьиотбиратькандидатов; * HiQпомогаетменеджерамвуправленииталантами. 4)Финансы * CerebellumCapitalandSentientиспользуютмашинноеобучениедляулучшенияпроцессапринятияинвестиционныхрешений; * Dataminrможетпомочьстекущимифинансовымирешениями,заранееоповещаяосоциальныхтенденцияхипоследнихновостях; * Другиепримеры:выявлениеслучаевмошенничестваипрогнозированиеценнаакции. 5)Здравоохранение * Atomwiseиспользуетпрогнозныемоделидляуменьшениявременипроизводствалекарств; * Deep6Analyticsопределяетподходящихпациентовдляклиническихиспытаний; * Другиепримеры:болееточнаядиагностиказаболеваний,улучшениеперсонализированногоуходаиоценкарисковдляздоровья. 2.2Сравнениелингвистическихпроектов,гдеприменяетсямашинноеобучениебезучителя Вначале90-хгодовсталиразвиватьсяметодымашинногообученияиодновременнобылсделанрядработпостатистическойлингвистике.Вмашинномобученииотличносебяпоказалиалгоритмыклассификациидляразличныхзадач,связанныхсобработкойтекстов:детекцияспама,сортировкадокументовпотематикам,выделениеименованныхсущностей.Появиласьобластьтематическогомоделирования,вкоторойдокументысчитаютсяпорождениемнекоеговероятностногопроцессаисостоятизсмеситем.Вкомпьютернойлингвистикеопределениечастейречисталовысокоточнымблагодарятакимстатистическимметодам,какскрытыецепиМарковаимоделимаксимальнойэнтропии.Появились на основе вероятностных грамматик, а в корпорации IBM масштабный проект по машинному . Наконец, были основы глубокого (deeplearning), только дало первые , обусловленные прогрессом в высокопроизводительных систем и больших данных, используемых для . Глубокое обучение — многоуровневых («глубоких») сетей на объемах данных, исключить работу по признаков для машинного , предоставляя одновременного обучения признаков и обучения самой задаче. В году предложена модель вероятностной грамматики, позволила повысить грамматического до 93%, что, конечно, далеко от . Точность разбора — это правильно построенных связей, и того, что длинное будет разобрано , обычно очень . Одновременно, новым алгоритмам и , включая глубокое , увеличилась скорость разбора.того, практически все алгоритмы и модели доступны широким исследователей, и, , самой известной в области глубокого для NLP (NaturalLanguage) стал Томаса Миколова10. для создания интеллектуальных у исследователей, работающих с языком, много инструментов (см. ), которые можно разбить на три класса: работы с словами, методы с предложениями и методы для произвольных текстов из предложений. Рис. 2.1 для NLP и глубокого обучения слова предложения как элементы множества из словаря, но при возникали серьезные : если учитывать разговорные формы, технический , то объем слов, в английском языке, огромным и составление семантического для широкой области — задачей весьма . Большую известность алгоритм , входящий во многие пакеты машинного и обучаемый качественным слов на неразмеченных корпусах ( разнообразных текстов по темам, написанных в жанрах и ).В отличие от традиционных слов, здесь нейровероятностная модель (отсюда и с глубоким обучением) — слово представляется из вещественных чисел в (относительно полного словаря) , например размерностью в 300 . Изначально векторам случайные . Далее в процессе для слова подбирается , максимально похожий (в данного по мере скалярного ) на векторы других , которые встречаются в контекстах. В контекста берется окно предшествующих и слов, например в слов.достаточно простой дает интересные . Во-первых, близкие по скалярного или косинуса слова часто семантически . Во-вторых, оказывается, что интересные для естественного языка закодированы в векторы. пример: если от слова «» отнять вектор «Франция» и прибавить «Италия», то получится , очень к вектору «Рим» — «столица» оказалось в векторы слов. с тем в задачах текстов глубокие используются редко — , в word2vec не используется нейросеть, этот алгоритм в парадигму глубокого : он сам находит признаки в обучения без , тем самым напоминая обучения в мозге . Например, изучая язык, мы раз встречаем неизвестное и сначала не знаем его , но затем начинаем о смысле из его применения. При этом мы не дать строгого слова, а оперируем понятиями и похожести. Дополнительные (признаки), которым word2vec, могут полезными для обработки текстов, но, к , непонятно, какие действительно содержатся в после и насколько надежно они — выполняются ли они для всех отношений. Правда, методы, позволяют дополнять представления слов , гарантирующими, что отношения надежно в векторы. Например, в 11 исследователи предложили обучения векторов, в любые и таксономии надежно в векторные представления. алгоритм word2vec не решить , связанные с омонимией., в английском языке в 40% случаев употребляются слова, разные смыслы при написании («машина»: , компьютер, механическое ). Это очень задача при обработке языка, и для ее решения модификация алгоритма с целью определения омонимов и отдельных векторов для смыслов, а также определения смысла омонима заданного контекста. В 12, выполненной российскими , описан обучения векторов для , которые могут омонимичными. В отличие от методов, алгоритм обучается смыслов разных слов. Как известно, методов естественного языка используют только слов, игнорируя и семантику, можно вывести из структуры предложений.модель представления называется «bag of » — простой набор без учета их порядка. , в случае векторных можно в кластеры векторы корпуса, на которых модель, и использовать кластеры для простой классификации. Но задача состоит в более качественных представлений, то инструменты обработки , работающие с синтаксической предложений или хотя бы не порядок в предложении.Например, требуется анализировать в социальных медиа о , оставленные их , то можно встретить предложение: «Отель , но бар — прокуренный». Без анализа предложения, мы не понять, к какому относится каждое . Следует упомянуть еще о подходах к слов и предложений — нейросетях и нейросетях, с символьными представлениями или смешанными . Обычно в сверточных на вход сети сразу все предложение в матрицы представлений отдельных . Сверточная сеть произвольно длинную подсетями размера, которые на последовательности окон входных данных.образом операция свертки, сеть обучается фильтру, используемому в . Сверточные также показывают результаты на уровне сетей. Интересные показали , работающие сверху представления слов, а смешанные модели., в задаче частей речи нейросети превзошли методы, при этом не кропотливого различных признаков для . Эти сети успешно для дополнения векторных слов, решать проблему данных. Например, в множестве не встретилось «сбегать», но «бегать» встречалось , и было получено его представление. Тогда со смешанными сможет получить и слова «сбегать», приставку «с». То есть с символьными обучаются использованию слов, а не только с определенными словами как неделимымисущностями13. Спомощьюрекуррентныхирекурсивныхнейросетейможноэффективнорешатьпростыезадачи,связанныесавтоматическойобработкойтекстов:классификации,определениетональности,выделениеименованныхсущностейипростыхфактовит.д. Втрадиционныхспособахполучениясемантикиизпредложенияследуетотметитьпрогрессвсозданиисемантическихсловарейсширокимохватом,такихкакConceptNetиFrameNet,атакжевметодахмашинногообучения,осуществляющихпривязкусловизтекстовксловарям.Правда,вслучаеFrameNet,которыйсодержитвсеберазличныесемантическиероли,качествоавтоматическойпривязкиещедостаточнонизкое—точностьнепревышает60%. Выводыпоглаве Благодаряновымметодамглубокогообучения,сегодняможнополучитькачественныесемантическиепредставлениядляслов,фразипредложений,причемдажебезобучающейвыборки.Всеменьшеусилийсейчастребуетсядлясозданиясобственныхсемантическихсловарейибаззнаний,поэтомуразрабатыватьсистемыавтоматическойобработкитекстовсталопроще.Однакомывсеещеоченьдалекиотадекватногорешениязадачипониманиявзаимосвязанныхсобытий,представленныхввидепоследовательностипредложенийилиобразов,атакжедиалогов.Всеизвестныесегодняметодыуспешноработаютлибоприрешениизадач«поверхностного»пониманияязыка,либоприсущественномограничениипредметнойобласти.Например,вкомпанииToprater.comспомощьюразличныхинструментовдляавтоматическойобработкитекстоврешаетсязадачаповыявлениюоценочныхсужденийвотзывахобобъектахэлектроннойкоммерцииотносительноширокогонаборасвойствобъекта. Заключение Машинноеобучениеявляетсячастьюнаучнойобласти,называемойDataMining,тоестьинтеллектуальныманализомданных.Впереводесанглийскогоminingозначаетизвлечениеполезныхископаемых.Поэтому,DataMining,посути,обработкабольшогоколичестваданныхсцельюизвлеченияценнойинформации.Какправило,обрабатываетсябольшоечислоданных,чтобыпостроитьпростуюмодель,имеющуюценностьдлянас,например,модель,котораябыобладалавысокойточностьюпредсказания.ОбластипримененияDataMiningразнообразны:этоирозничнаяторговля,окоторойяужеупомянул,ибанковскийсектор,гдеанализируютсяпрошлыеданныедляпостроениямодели,котораяиспользуетсяприрассмотрениизаявокнаполучениекредита,сцельюобнаружениямошенничества(такназываемый,скоринг)ифондовыйрынок.Вобрабатывающейпромышленности,обучающиесямоделииспользуютсядляоптимизации,контроляипоисканеисправностей.Вмедицине,обучающиесяпрограммыиспользуютсядлядиагностикиразличныхзаболеваний.Вобластителекоммуникаций,моделизапросованализируютсядляоптимизациисетииулучшениякачестваобслуживания.Большиеобъемыданныхвфизике,астрономииибиологиимогутбытьпроанализированыдостаточнобыстроспомощьюкомпьютеров.ПоисксоответствующейинформациивИнтернетенеможетбытьсделанвручнуюиздесьметодыDataMining,ивчастности,машинногообученияиграюточеньважнуюроль.Вспортеэтиалгоритмыиспользуютдлявыработкилучшейстратегиидостиженияпобеды. Машинноеобучение—этонетолькозадачиобработкибазданных,этотакжезадачиискусственногоинтеллекта(ИИ,английскийвариант—ArtificialIntelligence,илиAI).Чтобыстатьумной,система,котораянаходитсявусловияхизменяющейсяокружающейсредыдолжнаиметьспособностькобучению.Еслинашасистемаможетучитьсяиадаптироватьсяктакимизменениям,тонамнетнеобходимостипредвидетьипредлагатьрешениядлявсехвозможныхситуаций. Машинноеобучениепомогаетнамрешатьзадачивобработкевизуальнойинформации,распознаванииречииробототехнике. Списокиспользованнойлитературы 1. Бринк Х., Ричардс Дж., Феверолф М. Машинное обучение. СПб.: Питер, 2017. — 336 с. 2. Волков К., Забродина Е. В Японии изобрели «беспилотный» грузовик // Российская газета. – 24.11.2016. – №267. [электронный ресурс] – Режим доступа. – URL: https://rg.ru/2016/11/24/v-iaponii-vypustili-pervyj-v-mirebespilotnyj-samosval.html 3. Вьюгин В.В. Математические основы теории машинного обучения и прогнозирования. М.: МЦНМО, 2013. — 390 с. 4. Домингос Педро. Верховный алгоритм. Как машинное обучение изменит наш мир. М.: Манн, Иванов и Фербер, 2016. — 336 с. 5. Зачем нужно машинное обучение https://hackerx.ru/machine-learning-python/ 6. Маркин С. Д. Машинное обучение: шаг навстречу будущему и сдерживающие факторы https://elibrary.ru/download/elibrary_29045758_51747720.pdf 7. Машинное обучение для понимания естественного языка https://www.osp.ru/os/2016/01/13048649/ 8. Нафиков М. Обзор задач компьютерного зрения в медицине // ресурс для IT-специалистов. – 04.09.2016. – [электронный ресурс] – Режим доступа. – URL: https://habrahabr.ru/post/309152/ 9. Петухов Д. MachineLearning в коммерческих банках // сетевое издание. 25.07.2015. – [электронный ресурс] – Режим доступа. – URL: http://www.codeinstinct.pro/2015/07/big-data-in-banking.html 10. Попов А.А.. Основы теории машинного обучения. Методические указания к лабораторным работам для студентов ФПМИ, обучающихся по направлению 02.04.03 Математическое обеспечение и администрирование информационных систем. — Новосибирск: Новосибирский государственный технический университет, 2017. — 43 с. 11. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. М.: ДМК Пресс, 2015. — 400 с. 12. Эриксон Г. Выбор алгоритмов машинного обучения MicrosoftAzure // Документация MicrosoftAzure. – 14.03.2017. – [электронный ресурс] – Режим доступа. – URL: https://docs.microsoft.com/ru-ru/azure/machinelearning/machine-learning-algorithm-choice 13. Chang Xuet. al. RC-NET: A General Framework for Incorporating Knowledge into Word Representations // Proceedings of the 23rd ACM International Conference on Information and Knowledge Management. P. 1219–1228. URL: http://research.microsoft.com/pubs/226869/%5BCIKM2014%5D%20RC-NET.pdf 14. Marr Bernard. Cheat Sheet: 5 Things Everyone Should Know About Machine Learning // Forbes. 22.09.2016. – [электронный ресурс] – Режим доступа. – URL: https://www.forbes.com/sites/bernardmarr/2016/09/22/cheat-sheet-5-thingseveryone-should-know-about-machine-learning/#7d481bb32dcf 15. Sergey Bartunovet. al. Breaking Sticks and Ambiguities with Adaptive Skip-gram. // International Conference on Artificial Intelligence and Statistics (AISTATS), 2016, arxiv.org. URL: http://arxiv.org/abs/1502.07257 16. Tomas Mikolovet. al. Efficient Estimation of Word Representations in Vector Space, arxiv.org. URL: http://arxiv.org/pdf/1301.3781.pdf 1 Нафиков М. Обзор задач компьютерного зрения в медицине // ресурс для IT-специалистов. – 04.09.2016. – [электронный ресурс] – Режим доступа. – URL: https://habrahabr.ru/post/309152/ 2 Волков К., Забродина Е. В Японии изобрели «беспилотный» грузовик // Российская газета. – 24.11.2016. – №267. [электронный ресурс] – Режим доступа. – URL: https://rg.ru/2016/11/24/v-iaponii-vypustili-pervyj-v-mirebespilotnyj-samosval.html 3 Петухов Д. MachineLearning в коммерческих банках // сетевое издание. 25.07.2015. – [электронный ресурс] – Режим доступа. – URL: http://www.codeinstinct.pro/2015/07/big-data-in-banking.html 4 Marr Bernard. Cheat Sheet: 5 Things Everyone Should Know About Machine Learning // Forbes. 22.09.2016. – [электронный ресурс] – Режим доступа. – URL: https://www.forbes.com/sites/bernardmarr/2016/09/22/cheat-sheet-5-thingseveryone-should-know-about-machine-learning/#7d481bb32dcf 5 Эриксон Г. Выбор алгоритмов машинного обучения MicrosoftAzure // Документация MicrosoftAzure. – 14.03.2017. – [электронный ресурс] – Режим доступа. – URL: https://docs.microsoft.com/ru-ru/azure/machinelearning/machine-learning-algorithm-choice 6 Маркин С. Д. Машинное обучение: шаг навстречу будущему и сдерживающие факторы https://elibrary.ru/download/elibrary_29045758_51747720.pdf 7Бринк Х., Ричардс Дж., Феверолф М. Машинное обучение. СПб.: Питер, 2017. — 336 с. 8 Зачем нужно машинное обучение https://hackerx.ru/machine-learning-python/ 9Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. М.: ДМКПресс, 2015. — 400 с. 10Tomas Mikolovet. al. Efficient Estimation of Word Representations in Vector Space, arxiv.org. URL: http://arxiv.org/pdf/1301.3781.pdf 11Chang Xuet. al. RC-NET: A General Framework for Incorporating Knowledge into Word Representations // Proceedings of the 23rd ACM International Conference on Information and Knowledge Management. P. 1219–1228. URL: http://research.microsoft.com/pubs/226869/%5BCIKM2014%5D%20RC-NET.pdf 12Sergey Bartunovet. al. Breaking Sticks and Ambiguities with Adaptive Skip-gram. // International Conference on Artificial Intelligence and Statistics (AISTATS), 2016, arxiv.org. URL: http://arxiv.org/abs/1502.07257 13 Машинное обучение для понимания естественного языка https://www.osp.ru/os/2016/01/13048649/ --------------- ------------------------------------------------------------ --------------- ------------------------------------------------------------ 25 ....................... |
Для получения полной версии работы нажмите на кнопку "Узнать цену"
Узнать цену | Каталог работ |
Похожие работы: