(Окончание, предыдущую часть см. http://rusrim.blogspot.ru/2014/10/2_30.html )
3. Упорядочение и описание / обработка
Задача 3.1. Отсеивание из архивных материалов секретной, конфиденциальной, персональной и защищаемой правами собственности информации, такой, как номера социального страхования, номера кредитных карт, секретные сведения, медицинские документы и т.д.
Представление о «чувствительности» персональных данных и знание инструментов, позволяющих локализовать такие данные (например, AccessData FTK, Identity Finder). Знание правовых ограничений на доступ к данным, таких, как DMCA (Digital Millennium Copyright Act, http://www.copyright.gov/reports/studies/dmca/dmca_executive.html — Закон нового тысячелетия о защите авторских прав на электронный контент — Н.Х.), FERPA (Family Educational Rights and Privacy Act, http://www2.ed.gov/policy/gen/guid/fpco/ferpa/index.html — закон США, защищающий персональные данные в документах, касающихся школьников — Н.Х.) и др.
Задача 3.2. Классификация, где это требуется, элементов текста в изначально-электронных материалах по предопределенным категориям, таким, как «имена людей», «названия организаций» и «местоположения».
Знание программного обеспечения и инструментов, позволяющих извлекать нужные элементы текста (например, OpenCalais ( http://www.opencalais.com/ ), Stanford Named Entity Recognizer, Apache Open NLP).
Задача 3.3. Отображение сети взаимосвязей между людьми на основе материалов коллекции, где это уместно.
Знание сетевых графов и таких инструментов, как Gephi, NodeXL ( http://nodexl.codeplex.com/ — шаблон для Excel, упрощающий создание и анализ сетевых графов — Н.Х.).
См. подробнее: http://rusrim.blogspot.ru/2014/10/3.html