[Day48] 보이저 엑스와 텍스트 데이터 다루기
오늘은 영배스 시간 (영배스를 모르신다면 이 포스트를 확인해 보세요)에 보이저엑스라는 회사에 대해 배웠습니다. 참고로 남세동 대표님과는 후에 화상으로 회사소개 시간도 있었습니다. 개인적으로 흥미로운 회사라고 생각하니, 관심있으신 분들은 아래 글도 참고해 보시기 바랍니다.
0. 보이저 엑스 채용
www.notion.so/Career-at-VoyagerX-833e2878660a4a7590b6946c0da8b151
Career at VoyagerX
보이저엑스는 더욱 즐겁고 편리한 삶을 돕는 인공지능 소프트웨어를 개발하는 스타트업 입니다.
www.notion.so
오늘 배운 내용은 파이썬으로 텍스트 데이터를 다루는 방법에 관한 것이었습니다.
1. 자연 언어 와 프로그래밍 언어
www.aistudy.co.kr/linguistics/natural/language_kim.htm
자연언어 와 프로그래밍언어 : 김영택
자연언어와 달리 컴퓨터 프로그래밍을 위하여 특별히 개발된 FORTRAN, PASCAL, C 등의 언어를 인공언어 (artificial language) 혹은 프로그래밍 언어 (programming language) 라 부른다. 프로그래밍 언어는 애당초
www.aistudy.co.kr
2. Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open Source
ai.googleblog.com/2016/05/announcing-syntaxnet-worlds-most.html
Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open Source
Posted by Slav Petrov, Senior Staff Research Scientist At Google, we spend a lot of time thinking about how computer systems can read and ...
ai.googleblog.com
3. 카톡 데이터는 어떻게 정제할 수 있을까? - Dialog-BERT 만들기 1편
blog.pingpong.us/dialog-bert-normalizer/
카톡 데이터는 어떻게 정제할 수 있을까? - Dialog-BERT 만들기 1편
Preparation for Korean Dialog Data (How to build Dialog-BERT: Part #1)
blog.pingpong.us
4. 정규표현식 (Regex) 정리
정규표현식 (Regex) 정리
정규표현식은 아주 가끔 쓰기때문에 항상 다시 볼때마다 헥깔리곤 하는데.. 주요 사용예를 정리하여 보았다. 나중에 찾아보기 편하라고~ 정규 표현식의 용어들 정규 표현식에서 사용되는 기호
hamait.tistory.com
5. 코사인 유사도(Cosine Similarity)
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
6. KoNLPy: 파이썬 한국어 NLP
konlpy-ko.readthedocs.io/ko/v0.4.3/
KoNLPy: 파이썬 한국어 NLP — KoNLPy 0.4.3 documentation
KoNLPy: 파이썬 한국어 NLP KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가
konlpy-ko.readthedocs.io
7. khaiii
kakao/khaiii
Kakao Hangul Analyzer III. Contribute to kakao/khaiii development by creating an account on GitHub.
github.com
8. 형태소 분석기 비교
한국어 형태소 분석기 성능 비교
korean-tokenizer-experiments 형태소 분석기 비교실험 환경하드웨어 (MacBook Pro Mid 2015)소프트웨어데이터실험 내용실행 시간 비교로딩 시간형태소 분석 시간문장 분석 품질 비교띄어쓰기가 없는 문장자
iostream.tistory.com
9. Neural Machine Translation of Rare Words with Subword Units (paper)
10. Japanese and Korean Voice Search (paper)
static.googleusercontent.com/media/research.google.com/ko//pubs/archive/37842.pdf
11. SentencePiece
github.com/google/sentencepiece
google/sentencepiece
Unsupervised text tokenizer for Neural Network-based text generation. - google/sentencepiece
github.com
12. 워드투벡터(Word2Vec)
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
13. 한국어를 위한 어휘 임베딩의 개발
brunch.co.kr/@learning/7#comment
한국어를 위한 어휘 임베딩의 개발 -1-
한국어 자모의 FastText의 결합 | 이 글은 Subword-level Word Vector Representations for Korean (ACL 2018)을 다룹니다. 두 편에 걸친 포스팅에서는 이 프로젝트를 시작하게 된 계기, 배경, 개발 과정의 디테일을 다
brunch.co.kr