/*
-- Title : 데이터과학자가 되기 위한 스킬과 업데이트된 기술
-- Reference : https://www.kdnuggets.com/2018/05/simplilearn-9-must-have-skills-data-scientist.html
-- Tag : data scientist 데이터 과학자
*/
1. 교육
데이터 과학자는 고도로 교육 받았으며 88 %는 석사 학위 이상, 46 %는 박사 학위를 보유하고 있으며 주목할만한 예외가 있지만 데이터 과학자가되기 위해 필요한 지식의 깊이를 키우기 위해서는 매우 강력한 교육 배경이 필요합니다. 데이터 과학자가 되려면 컴퓨터 과학, 사회 과학, 물리 과학 및 통계학 학사 학위를 취득 할 수 있습니다. 가장 일반적으로 공부하는 분야는 수학과 통계 (32 %), 컴퓨터 과학 (19 %), 엔지니어링 (16 %) 순입니다. 이 과정의 학위는 빅 데이터를 처리하고 분석하는 데 필요한 기술을 제공합니다.
학위 프로그램을 마친 후에는 아직 끝나지 않았습니다. 사실 대부분의 데이터 과학자는 석사 학위 또는 박사 학위를 소지하고 있으며 Hadoop 또는 빅 데이터 쿼리 사용 방법과 같은 특수 기술을 배우기 위해 온라인 교육을 수행합니다. 따라서 데이터 과학, 수학, 천체 물리학 또는 기타 관련 분야의 석사 학위 프로그램에 등록 할 수 있습니다. 학위 과정에서 배운 기술을 통해 데이터 과학으로 쉽게 전환 할 수 있습니다.
강의실 학습과는 별도로 앱을 제작하거나 블로그를 시작하거나 데이터 분석을 탐색하여 학습 한 내용을 교실에서 연습 할 수 있습니다.
2. R 프로그래밍
이러한 분석 도구 중 적어도 하나에 대한 심층적 인 지식이 데이터 과학 R에 일반적으로 선호됩니다. R은 데이터 과학적 필요를 위해 특별히 설계되었습니다. R을 사용하여 데이터 과학에서 겪게되는 문제를 해결할 수 있습니다. 실제로 데이터 과학자 중 43 %가 통계적 문제를 해결하기 위해 R을 사용하고 있습니다. 그러나 R은 가파른 학습 곡선을 가지고 있습니다.
특히 이미 프로그래밍 언어를 습득했다면 배우기가 어렵습니다. 그럼에도 불구하고 R 프로그래밍 언어 로 Simplilearn의 데이터 과학 교육과 같은 R에서 시작하려면 인터넷에 상당한 리소스가 있습니다. 그것은 주목받는 데이터 과학자들을위한 훌륭한 자료입니다.
3. 파이썬 코딩
Python은 Java, Perl 또는 C / C ++와 함께 일반적으로 데이터 과학 역할에 필요한 가장 일반적인 코딩 언어입니다. 파이썬은 데이터 과학자들에게 훌륭한 프로그래밍 언어입니다. 그렇기 때문에 O'Reilly가 조사한 응답자 중 40 %가 Python을 주요 프로그래밍 언어로 사용했습니다.
다목적 성으로 인해 데이터 과학 프로세스와 관련된 거의 모든 단계에서 Python을 사용할 수 있습니다. 다양한 형식의 데이터를 사용할 수 있으며 SQL 테이블을 코드로 쉽게 임포트 할 수 있습니다. 데이터 세트를 만들 수 있으며 문자 그대로 Google에서 필요한 모든 유형의 데이터 세트를 찾을 수 있습니다.
4. 하둡 플랫폼
이것이 항상 요구 사항은 아니지만, 많은 경우에 많이 선호됩니다. 하이브 (Hive) 또는 돼지 (Pig)에 대한 경험은 또한 강력한 판매 포인트입니다. Amazon S3와 같은 클라우드 도구에 익숙하면 도움이됩니다. 3490 LinkedIn 데이터 과학 작업에서 CrowdFlower가 수행 한 연구에 따르면 Apache Hadoop 은 49 %의 평가를받은 데이터 과학자 중 두 번째로 중요한 기술로 평가되었습니다.
데이터 과학자로서 보유하고있는 데이터의 양이 시스템의 메모리를 초과하거나 다른 서버로 데이터를 보내야하는 상황이 발생할 수 있습니다. 여기는 Hadoop이 들어오는 곳입니다. Hadoop을 사용하여 데이터를 다양한 시스템상의 포인트. 그게 전부는 아니야. 데이터 탐색, 데이터 필터링, 데이터 샘플링 및 요약을 위해 Hadoop을 사용할 수 있습니다.
5. SQL 데이터베이스 / 코딩
NoSQL과 Hadoop이 데이터 과학의 큰 구성 요소가되었지만 여전히 후보가 SQL로 복잡한 쿼리를 작성하고 실행할 수 있어야합니다. SQL (structured query language)은 데이터베이스에서 데이터를 추가, 삭제 및 추출하는 것과 같은 작업을 수행하는 데 도움이되는 프로그래밍 언어입니다. 또한 분석 기능을 수행하고 데이터베이스 구조를 변환하는 데 도움이 될 수 있습니다.
당신은 데이터 과학자로서 SQL에 능통해야합니다. 이는 SQL이 데이터 액세스, 통신 및 작업을 돕기 위해 특별히 설계 되었기 때문입니다. 데이터베이스를 쿼리 할 때 통찰력을 제공합니다. 간결한 명령을 사용하여 시간을 절약하고 어려운 쿼리를 수행하는 데 필요한 프로그래밍의 양을 줄일 수 있습니다. SQL 학습은 관계형 데이터베이스를보다 잘 이해하고 데이터 과학자로서의 프로파일을 향상시키는 데 도움이됩니다.
6. 아파치 스파크
Apache Spark은 전 세계적으로 가장 유명한 빅 데이터 기술이되었습니다. Hadoop과 마찬가지로 큰 데이터 계산 프레임 워크입니다. 유일한 차이점은 Spark가 Hadoop보다 빠릅니다. 이것은 Hadoop이 디스크를 읽고 쓰므로 속도가 느려지지만 Spark은 계산을 메모리에 캐시하기 때문입니다.
Apache Spark는 복잡한 알고리즘을 더 빠르게 실행하는 데 도움이되는 데이터 과학 용으로 특수 설계되었습니다. 큰 데이터 바다를 처리 할 때 데이터 처리를 보급하는 데 도움이되므로 시간을 절약 할 수 있습니다. 또한 데이터 과학자가 복잡한 비 체계적인 데이터 세트를 처리하는 데 도움이됩니다. 하나의 기계 또는 기계 클러스터에서 사용할 수 있습니다.
Apache spark는 데이터 과학자들이 데이터 과학에서 데이터 손실을 막을 수있게합니다. Apache Spark의 강점은 데이터 과학 프로젝트를 쉽게 수행 할 수있는 속도와 플랫폼에 있습니다. Apache spark를 사용하면 데이터 수집에서 배포 컴퓨팅에 이르는 분석을 수행 할 수 있습니다.
7. 기계 학습 및 인공 지능
많은 수의 데이터 과학자들이 기계 학습 영역 및 기법에 능숙하지 않습니다. 여기에는 신경 네트워크, 강화 학습, 적대 학습 등이 포함됩니다. 다른 데이터 과학자들과 차별화하려면 감독 된 기계 학습, 의사 결정 트리, 로지스틱 회귀 등과 같은 기계 학습 기술을 알아야합니다. 주요 조직 결과의 예측을 기반으로하는 다양한 데이터 과학 문제를 해결할 수 있습니다.
데이터 과학은 기계 학습의 여러 영역에서 기술을 적용해야합니다. Kaggle은 설문 조사에서 소수의 데이터 전문가가 감독 된 기계 학습, 감독되지 않은 기계 학습, 시계열, 자연 언어 처리, 이상치 검출, 컴퓨터 비전, 추천 엔진, 생존과 같은 고급 기계 학습 기술에 유능 하다는 사실을 밝혔습니다 . 분석, 강화 학습, 적의 학습.
데이터 과학은 많은 양의 데이터 세트로 작업하는 것을 포함합니다. 기계 학습에 익숙해지고 싶을 수도 있습니다.
8. 데이터 시각화
비즈니스 세계는 방대한 양의 데이터를 자주 생성합니다. 이 데이터는 쉽게 이해할 수있는 형식으로 변환해야합니다. 사람들은 자연스러운 데이터보다 차트 및 그래프의 형태로 그림을 자연스럽게 이해합니다. 관용구는 "그림은 천 단어의 가치가있다"고 말합니다.
데이터 과학자로서 ggplot, d3.js 및 Matplottlib, Tableau와 같은 데이터 시각화 도구를 사용하여 데이터를 시각화 할 수 있어야합니다. 이러한 도구는 프로젝트의 복잡한 결과를 쉽게 이해할 수있는 형식으로 변환하는 데 도움이됩니다. 것은 많은 사람들이 일련의 상관 관계 나 p 값을 이해하지 못한다는 것입니다. 당신은 시각적으로 그 용어가 당신의 결과에서 나타내는 것을 보여줄 필요가 있습니다.
데이터 시각화를 통해 조직은 데이터로 직접 작업 할 수 있습니다. 그들은 새로운 비즈니스 기회에 대해 행동하고 경쟁에서 앞서 나가는 데 도움이되는 통찰력을 신속하게 파악할 수 있습니다.
9. 비정형 데이터
데이터 과학자가 비정형 데이터로 작업 할 수 있어야합니다. 비 구조적 데이터는 데이터베이스 테이블에 맞지 않는 정의되지 않은 콘텐츠입니다. 예를 들면 비디오, 블로그 게시물, 고객 리뷰, 소셜 미디어 게시물, 비디오 피드, 오디오 등이 있습니다. 이들은 묵직한 텍스트입니다. 이러한 유형의 데이터 정렬은 간소화되지 않으므로 어렵습니다.
대부분의 사람들은 복잡성 때문에 비정형 데이터를 '어두운 분석'이라고 부 렸습니다. 구조화되지 않은 데이터를 사용하면 의사 결정에 유용한 통찰력을 밝힐 수 있습니다. 데이터 과학자는 비정형 데이터를 이해하고 조작 할 수 있어야합니다. 다른 플랫폼.
10. 지적 호기심
"나는 특별한 재능이 없다. 나는 열정적 인 호기심 만 갖는다."
- 알버트 아인슈타인.
특히 데이터 과학자와 관련하여 요즘 어디에서나이 문구를 보았을 것입니다. 프랭크로 (Frank Lo)는 그것이 의미하는 바를 설명 하고 몇 달 전에 게스트 블로그 에서 필요한 "소프트 스킬"에 대해 이야기 합니다.
호기심은 더 많은 지식을 얻고 자하는 욕망으로 정의 될 수 있습니다. 데이터 과학자 인 경우 데이터 과학자가 데이터를 발견하고 준비하는 데 소요되는 시간이 약 80 % 정도이므로 데이터에 대한 질문을 할 수 있어야합니다 . 이것은 데이터 과학 분야가 매우 빠르게 진화하는 분야이기 때문에 속도를 따라 잡는 데 더 많은 것을 배워야하기 때문입니다.
온라인으로 내용을 읽고 데이터 과학의 경향에 대한 관련 서적을 읽음으로써 정기적으로 지식을 업데이트해야합니다. 인터넷을 통해 날아 다니는 엄청난 양의 데이터에 압도 당하지 마십시오. 모든 것을 이해하는 방법을 알 수 있어야합니다. 호기심은 데이터 과학자로서 성공하기 위해 필요한 기술 중 하나입니다. 예를 들어 처음에는 수집 한 데이터에 대한 많은 통찰력을 볼 수 없습니다. 호기심을 통해 데이터를 살펴보고 더 많은 통찰력을 얻을 수 있습니다.
11. 비즈니스 통찰력
데이터 과학자가되기 위해서는 작업하는 산업에 대한 확실한 이해와 회사가 해결하고자하는 비즈니스 문제를 파악해야합니다. 데이터 과학의 관점에서 볼 때 비즈니스에서 해결해야 할 중요한 문제를 식별 할 수 있어야하며 비즈니스가 데이터를 활용해야하는 새로운 방법을 식별해야합니다.
이를 해결하려면 문제를 어떻게 해결하여 비즈니스에 영향을 미칠 수 있는지 이해해야합니다. 그렇기 때문에 비즈니스가 어떻게 운영되는지 알 필요가 있으므로 올바른 방향으로 노력을 기울일 수 있습니다.
12. 의사 소통 기술
강력한 데이터 과학자를 찾고있는 회사는 기술 결과를 마케팅 부서 또는 영업 부서와 같이 기술 팀이 아닌 사람에게 명확하고 유창하게 번역 할 수있는 사람을 찾고 있습니다. 데이터 과학자는 비즈니스가 데이터를 적절하게 변경하기 위해 기술이 아닌 동료의 요구 사항을 이해하는 것 외에도 정량화 된 통찰력을 바탕으로 의사 결정을 내림으로써 의사 결정을 내릴 수 있어야합니다. 양적인 전문가를위한 의사 소통 기술에 대한 자세한 정보는 최신 플래시 설문 조사 를 확인하십시오 .
회사에서 이해하는 것과 동일한 언어를 말할 수있을뿐만 아니라 데이터 스토리 텔링을 사용하여 통신해야합니다. 데이터 과학자로서 누구나 쉽게 이해할 수 있도록 데이터 주위에 스토리를 만드는 방법을 알아야합니다. 예를 들어, 데이터 표를 제시하는 것은 스토리 텔링 형식의 데이터에서 통찰력을 공유하는 것만 큼 효과적이지 않습니다. 스토리 텔링을 사용하면 조사 결과를 고용주에게 알리는 데 도움이됩니다.
의사 소통 할 때 분석 한 데이터에 포함 된 결과와 값에주의를 기울이십시오. 대부분의 사업자는 분석 한 내용을 알고 싶지 않으며, 비즈니스에 긍정적 인 영향을 미칠 수있는 방법에 관심이 있습니다. 커뮤니케이션을 통해 가치를 제공하고 지속적인 관계를 구축하는 데 집중하는 방법을 배우십시오.
13. 팀웍
데이터 과학자는 혼자서 일할 수 없습니다. 전략을 수립하고, 제품 관리자와 디자이너를 통해 제품을 개선하고, 마케팅 담당자와 협력하여보다 나은 전환 캠페인을 시작하고, 클라이언트 및 서버 소프트웨어 개발자와 협력하여 데이터 파이프 라인을 만들고 워크 플로를 개선해야합니다. 말 그대로 고객을 포함하여 조직의 모든 사람들과 협력해야합니다.
기본적으로 팀 구성원과 협력하여 문제를 해결하는 데 필요한 비즈니스 목표 및 데이터를 파악하기 위해 유스 케이스를 개발합니다. 유스 케이스에 대한 올바른 접근 방법, 문제를 해결하는 데 필요한 데이터 및 변환 된 결과를 관련자 모두가 쉽게 이해할 수있는 내용으로 제시하는 방법에 대해 알아야합니다.
자원
- 고급 학위 - 더 많은 데이터 과학 프로그램 은 현재 수요를 충족시키기 위해 나타나고 있지만 수학, 통계 및 컴퓨터 과학 프로그램 도 많이 있습니다 .
- MOOCs - Coursera , Udacity 및 codeacademy 는 좋은 출발점입니다.
- 인증 - KDnuggets는 광범위한 목록을 작성했습니다 .
- Bootcamps -이 접근법을 학위 프로그램이나 MOOC와 비교하는 방법에 대한 자세한 내용은 Datascope Analytics의 데이터 과학자로부터 게스트 블로그 를 확인하십시오 .
- Kaggle - Kaggle 은 지저분하고 실제 데이터로 실력을 연마하고 실제 비즈니스 문제를 해결할 수있는 데이터 과학 경시 대회를 개최합니다. 고용주는 Kaggle 순위를 심각하게 받아들입니다. 관련성 높은 실무 프로젝트 작업으로 간주 될 수 있습니다.
- LinkedIn Groups - 관련 그룹에 가입하여 데이터 과학 커뮤니티의 다른 구성원과 상호 작용할 수 있습니다.
- Data Science Central 및 KDnuggets - Data Science Central 및 KDnuggets 는 데이터 과학 분야의 업계 동향에서 선두 자리를 지킬 수 있는 좋은 리소스입니다.
- Burtch Works Study : 데이터 과학자의 급여 - 현재 데이터 과학자의 급여 및 인구 통계에 대한 자세한 정보를 원하시면 데이터 과학자 급여 연구 를 다운로드 하십시오 .
내가 놓친 항목이있을 것이라고 확신합니다. 따라서 어떤 데이터 과학 희망자에게 도움이 될 수있는 중요한 기술이나 리소스가 있다면 아래 의견에 자유롭게 공유하십시오!