AIFFEL Life

[Day48] 보이저 엑스와 텍스트 데이터 다루기

nevermet 2020. 12. 16. 16:57

오늘은 영배스 시간 (영배스를 모르신다면 이 포스트를 확인해 보세요)에 보이저엑스라는 회사에 대해 배웠습니다. 참고로 남세동 대표님과는 후에 화상으로 회사소개 시간도 있었습니다. 개인적으로 흥미로운 회사라고 생각하니, 관심있으신 분들은 아래 글도 참고해 보시기 바랍니다.

0. 보이저 엑스 채용

www.notion.so/Career-at-VoyagerX-833e2878660a4a7590b6946c0da8b151

 

Career at VoyagerX

보이저엑스는 더욱 즐겁고 편리한 삶을 돕는 인공지능 소프트웨어를 개발하는 스타트업 입니다.

www.notion.so

오늘 배운 내용은 파이썬으로 텍스트 데이터를 다루는 방법에 관한 것이었습니다.

1. 자연 언어 와 프로그래밍 언어

www.aistudy.co.kr/linguistics/natural/language_kim.htm

 

자연언어 와 프로그래밍언어 : 김영택

자연언어와 달리 컴퓨터 프로그래밍을 위하여 특별히 개발된 FORTRAN, PASCAL, C 등의 언어를 인공언어 (artificial language) 혹은 프로그래밍 언어 (programming language) 라 부른다. 프로그래밍 언어는 애당초

www.aistudy.co.kr

2. Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open Source

ai.googleblog.com/2016/05/announcing-syntaxnet-worlds-most.html

 

Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open Source

Posted by Slav Petrov, Senior Staff Research Scientist At Google, we spend a lot of time thinking about how computer systems can read and ...

ai.googleblog.com

3. 카톡 데이터는 어떻게 정제할 수 있을까? - Dialog-BERT 만들기 1편

blog.pingpong.us/dialog-bert-normalizer/

 

카톡 데이터는 어떻게 정제할 수 있을까? - Dialog-BERT 만들기 1편

Preparation for Korean Dialog Data (How to build Dialog-BERT: Part #1)

blog.pingpong.us

4. 정규표현식 (Regex) 정리

hamait.tistory.com/342

 

정규표현식 (Regex) 정리

정규표현식은 아주 가끔 쓰기때문에 항상 다시 볼때마다 헥깔리곤 하는데.. 주요 사용예를 정리하여 보았다. 나중에 찾아보기 편하라고~ 정규 표현식의 용어들 정규 표현식에서 사용되는 기호

hamait.tistory.com

5. 코사인 유사도(Cosine Similarity)

wikidocs.net/24603

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

6. KoNLPy: 파이썬 한국어 NLP

konlpy-ko.readthedocs.io/ko/v0.4.3/

 

KoNLPy: 파이썬 한국어 NLP — KoNLPy 0.4.3 documentation

KoNLPy: 파이썬 한국어 NLP KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가

konlpy-ko.readthedocs.io

7. khaiii

github.com/kakao/khaiii

 

kakao/khaiii

Kakao Hangul Analyzer III. Contribute to kakao/khaiii development by creating an account on GitHub.

github.com

8. 형태소 분석기 비교

iostream.tistory.com/144

 

한국어 형태소 분석기 성능 비교

korean-tokenizer-experiments 형태소 분석기 비교실험 환경하드웨어 (MacBook Pro Mid 2015)소프트웨어데이터실험 내용실행 시간 비교로딩 시간형태소 분석 시간문장 분석 품질 비교띄어쓰기가 없는 문장자

iostream.tistory.com

9. Neural Machine Translation of Rare Words with Subword Units (paper)

arxiv.org/pdf/1508.07909.pdf

10. Japanese and Korean Voice Search (paper)

static.googleusercontent.com/media/research.google.com/ko//pubs/archive/37842.pdf

11. SentencePiece

github.com/google/sentencepiece

 

google/sentencepiece

Unsupervised text tokenizer for Neural Network-based text generation. - google/sentencepiece

github.com

12. 워드투벡터(Word2Vec)

wikidocs.net/22660

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

13. 한국어를 위한 어휘 임베딩의 개발

brunch.co.kr/@learning/7#comment

 

한국어를 위한 어휘 임베딩의 개발 -1-

한국어 자모의 FastText의 결합 | 이 글은 Subword-level Word Vector Representations for Korean (ACL 2018)을 다룹니다. 두 편에 걸친 포스팅에서는 이 프로젝트를 시작하게 된 계기, 배경, 개발 과정의 디테일을 다

brunch.co.kr